Training in progress, step 36000, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/ar_diffusion_info.bin +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +88 -2

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:35715f1aa2271e87b483270f3b3bf4acec416bc16521b25186ddcfa036282e8f
 size 132187888

 version https://git-lfs.github.com/spec/v1
+oid sha256:dcfacbeb4f4eddb175b2e0f9ee4f9f5fcd3804eb9c67bebaf63f8ba868cd0c6f
 size 132187888

last-checkpoint/ar_diffusion_info.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:41c837343d73bad200a78a094c21b501d042cc328dee9bccdf46252d74d82c8d
 size 1800

 version https://git-lfs.github.com/spec/v1
+oid sha256:fb54fb35a407195fa0393ccddae444ffa53bbd93544621c32110b554f176ae82
 size 1800

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b20050c8eb7820958cdc16204e7da66222acc741e45329368f303c97eed368ba
 size 264665786

 version https://git-lfs.github.com/spec/v1
+oid sha256:d19f177598244598d1f9fc2b6f1af6c8f2b072a1487abb8927d38b4c9181ebf2
 size 264665786

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b1a3edbe9f42342c59e5f99a49f988583a26ed52948ad4b0c79ce2d97b84cca9
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:7f04bd3a9c50ae82a14c7b2fa792411be370b9b5b60aeb5bfd024183874a6a1d
 size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d35d8e281c92e1f0101731daab1c934f47c2c1536ab7afb4ba965aa8e108d2b2
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:23a098e227a7f13ed947fa28dc0329c514f46192f6bb6910a1d5556540e69df6
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f72dabb66926d5f103787feb6d06e607565f49ca5105e75822f116bfd973c31b
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:906c43e30b9edc8f130b3f77317e01f206c6e5f1267c22ca4899b9c5968ba8ca
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": 31000,
   "best_metric": 0.6043956279754639,
   "best_model_checkpoint": "./qwen3-4b-ar-diffusion-checkpoints/checkpoint-31000",
-  "epoch": 2.730559187754788,
   "eval_steps": 250,
-  "global_step": 35500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -6114,6 +6114,92 @@
       "eval_samples_per_second": 22.538,
       "eval_steps_per_second": 5.635,
       "step": 35500
     }
   ],
   "logging_steps": 50,

   "best_global_step": 31000,
   "best_metric": 0.6043956279754639,
   "best_model_checkpoint": "./qwen3-4b-ar-diffusion-checkpoints/checkpoint-31000",
+  "epoch": 2.7690177678640104,
   "eval_steps": 250,
+  "global_step": 36000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 22.538,
       "eval_steps_per_second": 5.635,
       "step": 35500
+    },
+    {
+      "epoch": 2.73440504576571,
+      "grad_norm": 0.6087201237678528,
+      "learning_rate": 1.801937511362751e-05,
+      "loss": 0.5581,
+      "step": 35550
+    },
+    {
+      "epoch": 2.7382509037766325,
+      "grad_norm": 1.1166139841079712,
+      "learning_rate": 1.775965509181103e-05,
+      "loss": 0.581,
+      "step": 35600
+    },
+    {
+      "epoch": 2.742096761787555,
+      "grad_norm": 0.6570024490356445,
+      "learning_rate": 1.7499935069994548e-05,
+      "loss": 0.6358,
+      "step": 35650
+    },
+    {
+      "epoch": 2.745942619798477,
+      "grad_norm": 0.4993269443511963,
+      "learning_rate": 1.7240215048178064e-05,
+      "loss": 0.6199,
+      "step": 35700
+    },
+    {
+      "epoch": 2.7497884778093993,
+      "grad_norm": 1.052513599395752,
+      "learning_rate": 1.6980495026361584e-05,
+      "loss": 0.6046,
+      "step": 35750
+    },
+    {
+      "epoch": 2.7497884778093993,
+      "eval_loss": 0.6056188344955444,
+      "eval_runtime": 21.3371,
+      "eval_samples_per_second": 23.433,
+      "eval_steps_per_second": 5.858,
+      "step": 35750
+    },
+    {
+      "epoch": 2.7536343358203217,
+      "grad_norm": 0.6118621826171875,
+      "learning_rate": 1.67207750045451e-05,
+      "loss": 0.6034,
+      "step": 35800
+    },
+    {
+      "epoch": 2.7574801938312437,
+      "grad_norm": 1.1678482294082642,
+      "learning_rate": 1.646105498272862e-05,
+      "loss": 0.5899,
+      "step": 35850
+    },
+    {
+      "epoch": 2.761326051842166,
+      "grad_norm": 1.0577653646469116,
+      "learning_rate": 1.6201334960912136e-05,
+      "loss": 0.6237,
+      "step": 35900
+    },
+    {
+      "epoch": 2.7651719098530885,
+      "grad_norm": 0.7498691082000732,
+      "learning_rate": 1.5941614939095655e-05,
+      "loss": 0.6013,
+      "step": 35950
+    },
+    {
+      "epoch": 2.7690177678640104,
+      "grad_norm": 1.02476966381073,
+      "learning_rate": 1.5681894917279175e-05,
+      "loss": 0.6265,
+      "step": 36000
+    },
+    {
+      "epoch": 2.7690177678640104,
+      "eval_loss": 0.6054879426956177,
+      "eval_runtime": 22.0853,
+      "eval_samples_per_second": 22.639,
+      "eval_steps_per_second": 5.66,
+      "step": 36000
     }
   ],
   "logging_steps": 50,