Training in progress, step 2000, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/ar_diffusion_info.bin +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +91 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:45253cd6a22264fcd7ca6604e87717a83e19ed0d2d4435aba88387d4537d6529
 size 36730224

 version https://git-lfs.github.com/spec/v1
+oid sha256:37e7ac0622b34136a1adc5dda670dd8f06fe9699327bbef64e2b847e41d62d45
 size 36730224

last-checkpoint/ar_diffusion_info.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0b17ffeb44d19aff3ac9c819aa738ee5ab85c93083a940599d75b2a7ffda4f79
 size 1736

 version https://git-lfs.github.com/spec/v1
+oid sha256:8d5aaec88b2f521c4d19280ee5a843dca115995f362a0926fa7ff5637694cc6d
 size 1736

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6ad00466a0acdb40237dae4c0b4283060a706960c994c5977eb55d8a845c8d60
 size 73588346

 version https://git-lfs.github.com/spec/v1
+oid sha256:bc0f99b2f4c37e6bd3da61564f89d37dedf31c888089686d20000b137615abc8
 size 73588346

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:97a66f532d27e837c455454684371b16caffae096e4b153335efaed54e929716
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:4da9c3920b2d28ca98d344913f643342e405b080bfc26edfe880e644c5be7370
 size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8167a7a628c5d6d5061531d993a99d8970329d2f198daf9e2bd5698793632aed
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:43c2f44953ece167e5bd34ec80ca4bdfcda9e945ce63675d98939409afdb1cb3
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8648ee281a6907a159c6d2a012bfd17e90caa435b3ae05a6accbf2bacc5a6ed9
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:951a13f6b06bce52a2ba9f7d2d8f60254ac5cc4c021e67355429cc5c41426dfb
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 1500,
-  "best_metric": 1.6279098987579346,
-  "best_model_checkpoint": "./ar-diffusion-checkpoints-progressive-attention/checkpoint-1500",
-  "epoch": 0.1153757403276671,
   "eval_steps": 250,
-  "global_step": 1500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -266,6 +266,92 @@
       "eval_samples_per_second": 58.859,
       "eval_steps_per_second": 14.715,
       "step": 1500
     }
   ],
   "logging_steps": 50,

 {
+  "best_global_step": 2000,
+  "best_metric": 1.60262131690979,
+  "best_model_checkpoint": "./ar-diffusion-checkpoints-progressive-attention/checkpoint-2000",
+  "epoch": 0.15383432043688947,
   "eval_steps": 250,
+  "global_step": 2000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 58.859,
       "eval_steps_per_second": 14.715,
       "step": 1500
+    },
+    {
+      "epoch": 0.11922159833858934,
+      "grad_norm": 1.4586989879608154,
+      "learning_rate": 0.00019457185154403555,
+      "loss": 1.6701,
+      "step": 1550
+    },
+    {
+      "epoch": 0.12306745634951158,
+      "grad_norm": 2.564028024673462,
+      "learning_rate": 0.00019431213152221907,
+      "loss": 1.6413,
+      "step": 1600
+    },
+    {
+      "epoch": 0.12691331436043382,
+      "grad_norm": 1.8470406532287598,
+      "learning_rate": 0.00019405241150040255,
+      "loss": 1.6075,
+      "step": 1650
+    },
+    {
+      "epoch": 0.13075917237135604,
+      "grad_norm": 2.475013017654419,
+      "learning_rate": 0.0001937926914785861,
+      "loss": 1.6882,
+      "step": 1700
+    },
+    {
+      "epoch": 0.13460503038227828,
+      "grad_norm": 1.0003979206085205,
+      "learning_rate": 0.0001935329714567696,
+      "loss": 1.6552,
+      "step": 1750
+    },
+    {
+      "epoch": 0.13460503038227828,
+      "eval_loss": 1.610037088394165,
+      "eval_runtime": 16.9155,
+      "eval_samples_per_second": 59.117,
+      "eval_steps_per_second": 14.779,
+      "step": 1750
+    },
+    {
+      "epoch": 0.13845088839320052,
+      "grad_norm": 0.8518445491790771,
+      "learning_rate": 0.00019327325143495314,
+      "loss": 1.6631,
+      "step": 1800
+    },
+    {
+      "epoch": 0.14229674640412276,
+      "grad_norm": 1.305446743965149,
+      "learning_rate": 0.00019301353141313666,
+      "loss": 1.5437,
+      "step": 1850
+    },
+    {
+      "epoch": 0.146142604415045,
+      "grad_norm": 1.6358033418655396,
+      "learning_rate": 0.00019275381139132017,
+      "loss": 1.6463,
+      "step": 1900
+    },
+    {
+      "epoch": 0.14998846242596722,
+      "grad_norm": 1.0969074964523315,
+      "learning_rate": 0.00019249409136950368,
+      "loss": 1.5903,
+      "step": 1950
+    },
+    {
+      "epoch": 0.15383432043688947,
+      "grad_norm": 1.289174199104309,
+      "learning_rate": 0.0001922343713476872,
+      "loss": 1.6313,
+      "step": 2000
+    },
+    {
+      "epoch": 0.15383432043688947,
+      "eval_loss": 1.60262131690979,
+      "eval_runtime": 16.8495,
+      "eval_samples_per_second": 59.349,
+      "eval_steps_per_second": 14.837,
+      "step": 2000
     }
   ],
   "logging_steps": 50,