Training in progress, step 31000, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/ar_diffusion_info.bin +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +91 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8f72bd5a3c71ee7c0378f6c13844dc64c89949a7e7e1e07f8933751b8df932c7
 size 132187888

 version https://git-lfs.github.com/spec/v1
+oid sha256:c822cadf122b8d81bed076d5b6b6c87adeac04badf1f9b9b9d715859da5b1843
 size 132187888

last-checkpoint/ar_diffusion_info.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e85124ad974e9aa6591318b973e27a8c6a21355c73a2b688604b07888ca77bfd
 size 1800

 version https://git-lfs.github.com/spec/v1
+oid sha256:c581a475019fa3a8f30579300dafcbee366ee095e196a5f5274ed005879d33e4
 size 1800

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1bfbd83026836fb7e11711c7d54e9b00d7e03835d945121611d08eb2713a80bd
 size 264665786

 version https://git-lfs.github.com/spec/v1
+oid sha256:de5fca106ac94431cf0d18f7ca11bd0da4ea78e43121004b46ea9f6bfa639a81
 size 264665786

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7e898de494648db9b26425188387425acd19b2117f233464d12d3be9a3ed8c13
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:97ab3280ba738c96067535954dc214f9f14277e63441d3d85f0ccbd573a6d6e3
 size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:851ff73959206b5bf637351b456e6acc61cd20020d42c449aed8671d33f868f2
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:3037fa29c14116fb7f57a7d8f13370ce35ad863cc8cab599d44882849d5d0780
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:52513f6a22920e0a6a384b951f3cbc4c30d39da66d57f762b33f885b2ce6ee0e
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:ed58c2b335b3b36d75acfd3c9f3a4f61a466c2c389eddcb7dec50bfb380a2d25
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 30500,
-  "best_metric": 0.6086920499801636,
-  "best_model_checkpoint": "./qwen3-4b-ar-diffusion-checkpoints/checkpoint-30500",
-  "epoch": 2.3459733866625645,
   "eval_steps": 250,
-  "global_step": 30500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -5254,6 +5254,92 @@
       "eval_samples_per_second": 22.369,
       "eval_steps_per_second": 5.592,
       "step": 30500
     }
   ],
   "logging_steps": 50,

 {
+  "best_global_step": 31000,
+  "best_metric": 0.6043956279754639,
+  "best_model_checkpoint": "./qwen3-4b-ar-diffusion-checkpoints/checkpoint-31000",
+  "epoch": 2.384431966771787,
   "eval_steps": 250,
+  "global_step": 31000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 22.369,
       "eval_steps_per_second": 5.592,
       "step": 30500
+    },
+    {
+      "epoch": 2.3498192446734865,
+      "grad_norm": 1.1905983686447144,
+      "learning_rate": 4.39757940939667e-05,
+      "loss": 0.6307,
+      "step": 30550
+    },
+    {
+      "epoch": 2.353665102684409,
+      "grad_norm": 0.7451447248458862,
+      "learning_rate": 4.371607407215023e-05,
+      "loss": 0.6096,
+      "step": 30600
+    },
+    {
+      "epoch": 2.3575109606953313,
+      "grad_norm": 0.852059006690979,
+      "learning_rate": 4.345635405033374e-05,
+      "loss": 0.6403,
+      "step": 30650
+    },
+    {
+      "epoch": 2.3613568187062532,
+      "grad_norm": 0.8270148634910583,
+      "learning_rate": 4.319663402851726e-05,
+      "loss": 0.6366,
+      "step": 30700
+    },
+    {
+      "epoch": 2.3652026767171757,
+      "grad_norm": 0.7992098331451416,
+      "learning_rate": 4.293691400670078e-05,
+      "loss": 0.6164,
+      "step": 30750
+    },
+    {
+      "epoch": 2.3652026767171757,
+      "eval_loss": 0.6099753975868225,
+      "eval_runtime": 21.604,
+      "eval_samples_per_second": 23.144,
+      "eval_steps_per_second": 5.786,
+      "step": 30750
+    },
+    {
+      "epoch": 2.3690485347280976,
+      "grad_norm": 1.0327460765838623,
+      "learning_rate": 4.267719398488429e-05,
+      "loss": 0.6275,
+      "step": 30800
+    },
+    {
+      "epoch": 2.37289439273902,
+      "grad_norm": 1.0831198692321777,
+      "learning_rate": 4.241747396306782e-05,
+      "loss": 0.6225,
+      "step": 30850
+    },
+    {
+      "epoch": 2.3767402507499424,
+      "grad_norm": 0.7838327288627625,
+      "learning_rate": 4.215775394125133e-05,
+      "loss": 0.5987,
+      "step": 30900
+    },
+    {
+      "epoch": 2.3805861087608644,
+      "grad_norm": 0.8668245673179626,
+      "learning_rate": 4.189803391943485e-05,
+      "loss": 0.6321,
+      "step": 30950
+    },
+    {
+      "epoch": 2.384431966771787,
+      "grad_norm": 0.9330748319625854,
+      "learning_rate": 4.163831389761837e-05,
+      "loss": 0.6308,
+      "step": 31000
+    },
+    {
+      "epoch": 2.384431966771787,
+      "eval_loss": 0.6043956279754639,
+      "eval_runtime": 22.3345,
+      "eval_samples_per_second": 22.387,
+      "eval_steps_per_second": 5.597,
+      "step": 31000
     }
   ],
   "logging_steps": 50,