Training in progress, step 24500, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/ar_diffusion_info.bin +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +91 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:06b80a3e5e81ea8262619b59b411d50915cb7d91c532f396674e608aa19a7a5b
 size 36730224

 version https://git-lfs.github.com/spec/v1
+oid sha256:fe77af0b92d78af8f090fa50857d0c38d1b1c8c9a61171e03ceab5a8bf778802
 size 36730224

last-checkpoint/ar_diffusion_info.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a812b933b5aac13b81e3ac023d4a0348fc701c5936c2577872dc75732f6799cc
 size 1544

 version https://git-lfs.github.com/spec/v1
+oid sha256:9b6fd07dac8559828de7e766ee09820ece8ba98e8864c99beb26f34eb1163183
 size 1544

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:641d51a5462cae27befb5debf367c14d6a2059451b08b406d1b63c2c76383d3a
 size 73588346

 version https://git-lfs.github.com/spec/v1
+oid sha256:2af1c783f76f5348e49f62ee7a890b8e943c0ef68fa2435323d3eee421b050d6
 size 73588346

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5a529729fbc0762ea5dabee8322aee007fe27ff660b1781623be0f3c2d691e1e
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:e6abd220bb5c699b08784d9e5bd7e4f3c387ae6cf3a2fc509bcb49366bfaee15
 size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dc0f357a937dd3e56f37c213e3e98cc6fe77ca9c6c9815a27d739cddf90093de
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:53322b8d938de07c14e159878b580255485dcd3bd83b66c76e6228ae02ba69d0
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7aecc1d321ec8fbf0f368c1b01443b517c9ca803ca3b79c3588dd96e5e6ade76
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:6c34139dcaf2b70cc0d5b8ce63586446a3e5ce8fa9ab1d39d72513aeacbe3543
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 23750,
-  "best_metric": 1.4570631980895996,
-  "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-21000",
-  "epoch": 1.8460118452426735,
   "eval_steps": 250,
-  "global_step": 24000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4136,6 +4136,92 @@
       "eval_samples_per_second": 55.605,
       "eval_steps_per_second": 13.901,
       "step": 24000
     }
   ],
   "logging_steps": 50,

 {
+  "best_global_step": 24500,
+  "best_metric": 1.445096731185913,
+  "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-24500",
+  "epoch": 1.884470425351896,
   "eval_steps": 250,
+  "global_step": 24500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 55.605,
       "eval_steps_per_second": 13.901,
       "step": 24000
+    },
+    {
+      "epoch": 1.8498577032535959,
+      "grad_norm": 1.5047483444213867,
+      "learning_rate": 7.773420252967302e-05,
+      "loss": 1.4546,
+      "step": 24050
+    },
+    {
+      "epoch": 1.853703561264518,
+      "grad_norm": 1.0463405847549438,
+      "learning_rate": 7.747448250785654e-05,
+      "loss": 1.5014,
+      "step": 24100
+    },
+    {
+      "epoch": 1.8575494192754403,
+      "grad_norm": 1.8368524312973022,
+      "learning_rate": 7.721476248604004e-05,
+      "loss": 1.4616,
+      "step": 24150
+    },
+    {
+      "epoch": 1.8613952772863627,
+      "grad_norm": 1.4084677696228027,
+      "learning_rate": 7.695504246422357e-05,
+      "loss": 1.4255,
+      "step": 24200
+    },
+    {
+      "epoch": 1.8652411352972849,
+      "grad_norm": 1.2279951572418213,
+      "learning_rate": 7.66953224424071e-05,
+      "loss": 1.4254,
+      "step": 24250
+    },
+    {
+      "epoch": 1.8652411352972849,
+      "eval_loss": 1.460336685180664,
+      "eval_runtime": 17.7185,
+      "eval_samples_per_second": 56.438,
+      "eval_steps_per_second": 14.11,
+      "step": 24250
+    },
+    {
+      "epoch": 1.869086993308207,
+      "grad_norm": 1.9729641675949097,
+      "learning_rate": 7.643560242059061e-05,
+      "loss": 1.4656,
+      "step": 24300
+    },
+    {
+      "epoch": 1.8729328513191295,
+      "grad_norm": 0.9121168255805969,
+      "learning_rate": 7.617588239877412e-05,
+      "loss": 1.3949,
+      "step": 24350
+    },
+    {
+      "epoch": 1.8767787093300514,
+      "grad_norm": 1.8953206539154053,
+      "learning_rate": 7.591616237695765e-05,
+      "loss": 1.4006,
+      "step": 24400
+    },
+    {
+      "epoch": 1.8806245673409738,
+      "grad_norm": 1.5828944444656372,
+      "learning_rate": 7.565644235514116e-05,
+      "loss": 1.5085,
+      "step": 24450
+    },
+    {
+      "epoch": 1.884470425351896,
+      "grad_norm": 2.027841329574585,
+      "learning_rate": 7.539672233332467e-05,
+      "loss": 1.3978,
+      "step": 24500
+    },
+    {
+      "epoch": 1.884470425351896,
+      "eval_loss": 1.445096731185913,
+      "eval_runtime": 18.4795,
+      "eval_samples_per_second": 54.114,
+      "eval_steps_per_second": 13.528,
+      "step": 24500
     }
   ],
   "logging_steps": 50,