Training in progress, step 37500, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/ar_diffusion_info.bin +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +91 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9c9908eb2bd5f9beaa06015a751a042f84d87660bd9118a9d8c6df3afc04ac10
 size 132187888

 version https://git-lfs.github.com/spec/v1
+oid sha256:d960d4cf1314782ff9fa34b4fa4ff52147a6a3edb83af4b92d07e2bfe2de068c
 size 132187888

last-checkpoint/ar_diffusion_info.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a8df926c54955b4f050345ff87bc95e0eaf9e14e0c202091aed069141a6d8050
 size 1800

 version https://git-lfs.github.com/spec/v1
+oid sha256:a3c47f9755f99713864a7b4e3ec92efc30fda75d652ffd65ed16182316bd0cf3
 size 1800

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4baf25384281505a1f4c020627ece1722b2a1cb0bdf59122f0338fb59149157c
 size 264665786

 version https://git-lfs.github.com/spec/v1
+oid sha256:ae4ce6863400bf14083af33a7f6b1eb29b1d7a79f7ec21fe556f80564974288f
 size 264665786

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8956824c98764344b0f23bb58a4085e09bf86c1c62227126501658f2249b0da6
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:52e415f584d39fd895ae020039e8e625bf0351da63110c6500e3a11320d6621f
 size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8dbf48616e0aa20785358bd8c57fa652f00571ca576de0c652d60cefc5452b44
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:689e59e066b48be0feeeeb12da6d1787ebe3b841285102ea7503ee5943525726
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0bc995789ac7ace85eec5527f15f9a82c9f1388944ba2d5baa678f54ce3d8943
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:23ce717bb1ff7d19ce8b39673c5e006d14b3fec124190d834c88a63ab05da6d0
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 37000,
-  "best_metric": 0.5988173484802246,
-  "best_model_checkpoint": "./qwen3-4b-ar-diffusion-checkpoints/checkpoint-37000",
-  "epoch": 2.845934928082455,
   "eval_steps": 250,
-  "global_step": 37000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -6372,6 +6372,92 @@
       "eval_samples_per_second": 22.67,
       "eval_steps_per_second": 5.667,
       "step": 37000
     }
   ],
   "logging_steps": 50,

 {
+  "best_global_step": 37500,
+  "best_metric": 0.595755934715271,
+  "best_model_checkpoint": "./qwen3-4b-ar-diffusion-checkpoints/checkpoint-37500",
+  "epoch": 2.8843935081916774,
   "eval_steps": 250,
+  "global_step": 37500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 22.67,
       "eval_steps_per_second": 5.667,
       "step": 37000
+    },
+    {
+      "epoch": 2.8497807860933775,
+      "grad_norm": 1.1380438804626465,
+      "learning_rate": 1.0227774459133055e-05,
+      "loss": 0.6012,
+      "step": 37050
+    },
+    {
+      "epoch": 2.8536266441043,
+      "grad_norm": 1.128145456314087,
+      "learning_rate": 9.968054437316573e-06,
+      "loss": 0.6357,
+      "step": 37100
+    },
+    {
+      "epoch": 2.857472502115222,
+      "grad_norm": 0.8118870854377747,
+      "learning_rate": 9.70833441550009e-06,
+      "loss": 0.6067,
+      "step": 37150
+    },
+    {
+      "epoch": 2.8613183601261443,
+      "grad_norm": 0.7695690989494324,
+      "learning_rate": 9.448614393683609e-06,
+      "loss": 0.6244,
+      "step": 37200
+    },
+    {
+      "epoch": 2.8651642181370662,
+      "grad_norm": 0.7649264931678772,
+      "learning_rate": 9.188894371867128e-06,
+      "loss": 0.5699,
+      "step": 37250
+    },
+    {
+      "epoch": 2.8651642181370662,
+      "eval_loss": 0.5982791781425476,
+      "eval_runtime": 21.6121,
+      "eval_samples_per_second": 23.135,
+      "eval_steps_per_second": 5.784,
+      "step": 37250
+    },
+    {
+      "epoch": 2.8690100761479886,
+      "grad_norm": 1.078489899635315,
+      "learning_rate": 8.929174350050646e-06,
+      "loss": 0.5912,
+      "step": 37300
+    },
+    {
+      "epoch": 2.8728559341589106,
+      "grad_norm": 0.9969648122787476,
+      "learning_rate": 8.669454328234164e-06,
+      "loss": 0.6355,
+      "step": 37350
+    },
+    {
+      "epoch": 2.876701792169833,
+      "grad_norm": 0.41206106543540955,
+      "learning_rate": 8.409734306417682e-06,
+      "loss": 0.6049,
+      "step": 37400
+    },
+    {
+      "epoch": 2.8805476501807554,
+      "grad_norm": 0.9303924441337585,
+      "learning_rate": 8.1500142846012e-06,
+      "loss": 0.5802,
+      "step": 37450
+    },
+    {
+      "epoch": 2.8843935081916774,
+      "grad_norm": 0.9477717876434326,
+      "learning_rate": 7.890294262784718e-06,
+      "loss": 0.627,
+      "step": 37500
+    },
+    {
+      "epoch": 2.8843935081916774,
+      "eval_loss": 0.595755934715271,
+      "eval_runtime": 22.0699,
+      "eval_samples_per_second": 22.655,
+      "eval_steps_per_second": 5.664,
+      "step": 37500
     }
   ],
   "logging_steps": 50,