Training in progress, step 29000, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/ar_diffusion_info.bin +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +2 -2
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +91 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0bfc389ecdd34314f2f612c53571c8e1b47d7411169c05b6e5e9ef64751f9336
 size 132187888

 version https://git-lfs.github.com/spec/v1
+oid sha256:3f63d64404a064684fdbda3be6790c82213e5012889870b2d9e4cf77a54d9d94
 size 132187888

last-checkpoint/ar_diffusion_info.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e03d21f59c7390814d3683840e8e05a5e87623d8d2c21d59a6e20c5b10100a19
 size 1800

 version https://git-lfs.github.com/spec/v1
+oid sha256:e4ef189210e24227c270ab8ae1c43df29bb9a4de77cf6f53f77a67953cd009cb
 size 1800

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8c90e918c468147f036c1471580e464a3a1b2bd0dab65ebc2790466b8b13eec4
 size 264665786

 version https://git-lfs.github.com/spec/v1
+oid sha256:9b8b0ae065786b82411fe6cf483993355053626c4697eb99e68382a645ddf49d
 size 264665786

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4e97ab479ccef726fdca432f369bd24340a85bd69660c81814e1117757ffe24e
-size 14308

 version https://git-lfs.github.com/spec/v1
+oid sha256:993642485acda165f546ca7e2c94b3614d2a294dacdb0f3665a7c4444f2d0fae
+size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4d31641ba54273e3788b2cfec72f598fb159706e78b7db0851c1ea541532286b
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:4c0f1b8b8c05dac4caf0e0e8f3e8fa0d1dd356db027075fed7b90fc2d0a97d25
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:50474d23052aaa3aaeaaa97d7b77d240e068c7314f12dd1aceb1c97f3be499a2
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:f34d6605c96e2830680aa8a7a9e3362d332648b178b366947137c49386617a03
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 28500,
-  "best_metric": 0.6302415132522583,
-  "best_model_checkpoint": "./qwen3-4b-ar-diffusion-checkpoints/checkpoint-28500",
-  "epoch": 2.192139066225675,
   "eval_steps": 250,
-  "global_step": 28500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4910,6 +4910,92 @@
       "eval_samples_per_second": 22.493,
       "eval_steps_per_second": 5.623,
       "step": 28500
     }
   ],
   "logging_steps": 50,

 {
+  "best_global_step": 29000,
+  "best_metric": 0.6262807250022888,
+  "best_model_checkpoint": "./qwen3-4b-ar-diffusion-checkpoints/checkpoint-29000",
+  "epoch": 2.230597646334897,
   "eval_steps": 250,
+  "global_step": 29000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 22.493,
       "eval_steps_per_second": 5.623,
       "step": 28500
+    },
+    {
+      "epoch": 2.195984924236597,
+      "grad_norm": 0.8482813835144043,
+      "learning_rate": 5.4364594966625985e-05,
+      "loss": 0.6012,
+      "step": 28550
+    },
+    {
+      "epoch": 2.1998307822475196,
+      "grad_norm": 0.7037524580955505,
+      "learning_rate": 5.4104874944809504e-05,
+      "loss": 0.6288,
+      "step": 28600
+    },
+    {
+      "epoch": 2.2036766402584416,
+      "grad_norm": 1.0364506244659424,
+      "learning_rate": 5.384515492299301e-05,
+      "loss": 0.6607,
+      "step": 28650
+    },
+    {
+      "epoch": 2.207522498269364,
+      "grad_norm": 1.1424225568771362,
+      "learning_rate": 5.358543490117654e-05,
+      "loss": 0.625,
+      "step": 28700
+    },
+    {
+      "epoch": 2.211368356280286,
+      "grad_norm": 0.5791661143302917,
+      "learning_rate": 5.3325714879360056e-05,
+      "loss": 0.645,
+      "step": 28750
+    },
+    {
+      "epoch": 2.211368356280286,
+      "eval_loss": 0.6294763088226318,
+      "eval_runtime": 21.4089,
+      "eval_samples_per_second": 23.355,
+      "eval_steps_per_second": 5.839,
+      "step": 28750
+    },
+    {
+      "epoch": 2.2152142142912084,
+      "grad_norm": 0.843608021736145,
+      "learning_rate": 5.306599485754357e-05,
+      "loss": 0.6421,
+      "step": 28800
+    },
+    {
+      "epoch": 2.2190600723021308,
+      "grad_norm": 0.5737313628196716,
+      "learning_rate": 5.280627483572709e-05,
+      "loss": 0.6488,
+      "step": 28850
+    },
+    {
+      "epoch": 2.2229059303130527,
+      "grad_norm": 1.0083036422729492,
+      "learning_rate": 5.254655481391061e-05,
+      "loss": 0.6355,
+      "step": 28900
+    },
+    {
+      "epoch": 2.226751788323975,
+      "grad_norm": 0.8519378900527954,
+      "learning_rate": 5.228683479209413e-05,
+      "loss": 0.6291,
+      "step": 28950
+    },
+    {
+      "epoch": 2.230597646334897,
+      "grad_norm": 0.8886232972145081,
+      "learning_rate": 5.202711477027764e-05,
+      "loss": 0.6481,
+      "step": 29000
+    },
+    {
+      "epoch": 2.230597646334897,
+      "eval_loss": 0.6262807250022888,
+      "eval_runtime": 22.2422,
+      "eval_samples_per_second": 22.48,
+      "eval_steps_per_second": 5.62,
+      "step": 29000
     }
   ],
   "logging_steps": 50,