Training in progress, step 28000, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/ar_diffusion_info.bin +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +2 -2
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +91 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4ca3d706ea7b8413378d7dd789d26590bb9d27693eb5684dfe2541f57da00801
 size 132187888

 version https://git-lfs.github.com/spec/v1
+oid sha256:9780097950800686c9322dd13a3faf02ad28fadad548e324be714511b2714201
 size 132187888

last-checkpoint/ar_diffusion_info.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0984e1e86fb953cdc040e6e6b6d5c2eb1553ed1cba39d443fc3501a2accc58e1
 size 1800

 version https://git-lfs.github.com/spec/v1
+oid sha256:f0eeadcb7061b328806de65f859dc63fe68b92f70ad10c9992993064e4e91786
 size 1800

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c8ef2f7d956f7fd94db383c3d26daacd3b217c630b4544468381600be1281e1a
 size 264665786

 version https://git-lfs.github.com/spec/v1
+oid sha256:897b5043f12ab5b080ec026763f5e58f9947bfeb9d3b5e68e21c2b6493f9e676
 size 264665786

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5d5328130e1b637ad1c107a76d8bd3082a1841600df89695dbda06f8f0cf0c78
-size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:91254c943660a3203eec1d026396102f3e0b80f3a8c66cc2f6add4b242607689
+size 14180

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c348e94d192afc431e4d473787707f16140089a0b8e3f1a363efbb0ad68be7b9
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:f013f71783c0dc60fa63541cd9fac53da38b82998b3731a80d7c115cba7f0bf1
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:00e4057ddb93d4201ababcbc4c1556bd476cd599690ef79c5880a1b8a05ecfad
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:ff477fcb74f9478dd012f656769bb7c4aa62a4bc43e62fb29e6d1b12821b2b70
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 27500,
-  "best_metric": 0.6441511511802673,
-  "best_model_checkpoint": "./qwen3-4b-ar-diffusion-checkpoints/checkpoint-27500",
-  "epoch": 2.11522190600723,
   "eval_steps": 250,
-  "global_step": 27500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4738,6 +4738,92 @@
       "eval_samples_per_second": 22.397,
       "eval_steps_per_second": 5.599,
       "step": 27500
     }
   ],
   "logging_steps": 50,

 {
+  "best_global_step": 28000,
+  "best_metric": 0.6302720904350281,
+  "best_model_checkpoint": "./qwen3-4b-ar-diffusion-checkpoints/checkpoint-28000",
+  "epoch": 2.1536804861164525,
   "eval_steps": 250,
+  "global_step": 28000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 22.397,
       "eval_steps_per_second": 5.599,
       "step": 27500
+    },
+    {
+      "epoch": 2.1190677640181526,
+      "grad_norm": 0.9390980005264282,
+      "learning_rate": 5.955899540295562e-05,
+      "loss": 0.627,
+      "step": 27550
+    },
+    {
+      "epoch": 2.1229136220290745,
+      "grad_norm": 1.0318114757537842,
+      "learning_rate": 5.929927538113913e-05,
+      "loss": 0.6328,
+      "step": 27600
+    },
+    {
+      "epoch": 2.126759480039997,
+      "grad_norm": 0.8785481452941895,
+      "learning_rate": 5.903955535932265e-05,
+      "loss": 0.6715,
+      "step": 27650
+    },
+    {
+      "epoch": 2.1306053380509193,
+      "grad_norm": 1.0937212705612183,
+      "learning_rate": 5.877983533750617e-05,
+      "loss": 0.6479,
+      "step": 27700
+    },
+    {
+      "epoch": 2.1344511960618413,
+      "grad_norm": 0.7675368189811707,
+      "learning_rate": 5.852011531568969e-05,
+      "loss": 0.6473,
+      "step": 27750
+    },
+    {
+      "epoch": 2.1344511960618413,
+      "eval_loss": 0.635150134563446,
+      "eval_runtime": 21.3801,
+      "eval_samples_per_second": 23.386,
+      "eval_steps_per_second": 5.847,
+      "step": 27750
+    },
+    {
+      "epoch": 2.1382970540727637,
+      "grad_norm": 1.0143834352493286,
+      "learning_rate": 5.8260395293873204e-05,
+      "loss": 0.6729,
+      "step": 27800
+    },
+    {
+      "epoch": 2.1421429120836857,
+      "grad_norm": 0.970697283744812,
+      "learning_rate": 5.8000675272056724e-05,
+      "loss": 0.63,
+      "step": 27850
+    },
+    {
+      "epoch": 2.145988770094608,
+      "grad_norm": 0.9831034541130066,
+      "learning_rate": 5.774095525024025e-05,
+      "loss": 0.6594,
+      "step": 27900
+    },
+    {
+      "epoch": 2.1498346281055305,
+      "grad_norm": 0.9592450261116028,
+      "learning_rate": 5.7481235228423756e-05,
+      "loss": 0.657,
+      "step": 27950
+    },
+    {
+      "epoch": 2.1536804861164525,
+      "grad_norm": 0.9553030133247375,
+      "learning_rate": 5.722151520660728e-05,
+      "loss": 0.6441,
+      "step": 28000
+    },
+    {
+      "epoch": 2.1536804861164525,
+      "eval_loss": 0.6302720904350281,
+      "eval_runtime": 22.2098,
+      "eval_samples_per_second": 22.513,
+      "eval_steps_per_second": 5.628,
+      "step": 28000
     }
   ],
   "logging_steps": 50,