Training in progress, step 33500, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/ar_diffusion_info.bin +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +2 -2
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +88 -2

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c0017e49ae1179cf7a55f9321475e16cc1d09f3892ce98421f7979982523ebb9
 size 132187888

 version https://git-lfs.github.com/spec/v1
+oid sha256:cba8cb77ffe78e2d20b2d0ccc4c9669535c480fcc7dc13618e40879b6569a4ef
 size 132187888

last-checkpoint/ar_diffusion_info.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bbd1ae1aad603802c82ed073dbd51ff3ad9656e5ab94f3bf3f7d0f8825c93935
 size 1800

 version https://git-lfs.github.com/spec/v1
+oid sha256:8c065148843d8271c381f3d8b1e806505a52caa006aaab9e14474604a503f994
 size 1800

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:30ff43ec8181901deebb427ddf6e8551d899dcdbad73bc946f675627d7969b43
 size 264665786

 version https://git-lfs.github.com/spec/v1
+oid sha256:9d9ffa1c5d4bb6cb13fd3129b2255256a3ec74888dd1726ff04d1a2ff740b6b3
 size 264665786

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e489367499db5673a7d65f2da50fa2212ff1d663a956b395bb78fec25dc26db1
-size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:eff35bb1a8c46c5468e2039629e000a02a24eb92defc378676def9fc2ee080f9
+size 14308

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:79aee1eff14611f1a5c55aaad748b38158c5fb7de7271250f2ef9599cd3ffe75
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:a6d920d97680fbe7b80b71b492e592480f373318cca68f37e407be6a777bba52
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:99a95e7d3fa1b2f1e9c1ee3dba6fdbbd55025c6a74911523945c9d063de75830
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:ff9711516719328bf9804dafd0879b843ab233063e11999f87b9c16f7278b99d
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": 31000,
   "best_metric": 0.6043956279754639,
   "best_model_checkpoint": "./qwen3-4b-ar-diffusion-checkpoints/checkpoint-31000",
-  "epoch": 2.5382662872086765,
   "eval_steps": 250,
-  "global_step": 33000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -5684,6 +5684,92 @@
       "eval_samples_per_second": 22.504,
       "eval_steps_per_second": 5.626,
       "step": 33000
     }
   ],
   "logging_steps": 50,

   "best_global_step": 31000,
   "best_metric": 0.6043956279754639,
   "best_model_checkpoint": "./qwen3-4b-ar-diffusion-checkpoints/checkpoint-31000",
+  "epoch": 2.576724867317899,
   "eval_steps": 250,
+  "global_step": 33500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 22.504,
       "eval_steps_per_second": 5.626,
       "step": 33000
+    },
+    {
+      "epoch": 2.5421121452195985,
+      "grad_norm": 0.7773544192314148,
+      "learning_rate": 3.0994987403578946e-05,
+      "loss": 0.6361,
+      "step": 33050
+    },
+    {
+      "epoch": 2.5459580032305205,
+      "grad_norm": 0.8739262819290161,
+      "learning_rate": 3.073526738176246e-05,
+      "loss": 0.6022,
+      "step": 33100
+    },
+    {
+      "epoch": 2.549803861241443,
+      "grad_norm": 0.9114782214164734,
+      "learning_rate": 3.047554735994598e-05,
+      "loss": 0.6414,
+      "step": 33150
+    },
+    {
+      "epoch": 2.5536497192523653,
+      "grad_norm": 0.878693163394928,
+      "learning_rate": 3.0215827338129498e-05,
+      "loss": 0.6194,
+      "step": 33200
+    },
+    {
+      "epoch": 2.5574955772632872,
+      "grad_norm": 0.9344619512557983,
+      "learning_rate": 2.9956107316313014e-05,
+      "loss": 0.6077,
+      "step": 33250
+    },
+    {
+      "epoch": 2.5574955772632872,
+      "eval_loss": 0.6252104640007019,
+      "eval_runtime": 21.3869,
+      "eval_samples_per_second": 23.379,
+      "eval_steps_per_second": 5.845,
+      "step": 33250
+    },
+    {
+      "epoch": 2.5613414352742097,
+      "grad_norm": 1.3236424922943115,
+      "learning_rate": 2.9696387294496537e-05,
+      "loss": 0.6356,
+      "step": 33300
+    },
+    {
+      "epoch": 2.565187293285132,
+      "grad_norm": 1.0532996654510498,
+      "learning_rate": 2.9436667272680054e-05,
+      "loss": 0.6193,
+      "step": 33350
+    },
+    {
+      "epoch": 2.569033151296054,
+      "grad_norm": 0.8525074124336243,
+      "learning_rate": 2.9176947250863566e-05,
+      "loss": 0.58,
+      "step": 33400
+    },
+    {
+      "epoch": 2.5728790093069764,
+      "grad_norm": 1.3966562747955322,
+      "learning_rate": 2.891722722904709e-05,
+      "loss": 0.6519,
+      "step": 33450
+    },
+    {
+      "epoch": 2.576724867317899,
+      "grad_norm": 0.8174068927764893,
+      "learning_rate": 2.8657507207230606e-05,
+      "loss": 0.5824,
+      "step": 33500
+    },
+    {
+      "epoch": 2.576724867317899,
+      "eval_loss": 0.6210461258888245,
+      "eval_runtime": 22.1944,
+      "eval_samples_per_second": 22.528,
+      "eval_steps_per_second": 5.632,
+      "step": 33500
     }
   ],
   "logging_steps": 50,