Training in progress, step 29500, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/ar_diffusion_info.bin +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +91 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3f63d64404a064684fdbda3be6790c82213e5012889870b2d9e4cf77a54d9d94
 size 132187888

 version https://git-lfs.github.com/spec/v1
+oid sha256:c3d2b56b1909f10ec091b339e19d3deed68b4ef6036485c876749907ab70feae
 size 132187888

last-checkpoint/ar_diffusion_info.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e4ef189210e24227c270ab8ae1c43df29bb9a4de77cf6f53f77a67953cd009cb
 size 1800

 version https://git-lfs.github.com/spec/v1
+oid sha256:c7f39b7fecf41dc806808cbc1fcb7ebfc548308cac03fe5ff57a6ed111230c19
 size 1800

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9b8b0ae065786b82411fe6cf483993355053626c4697eb99e68382a645ddf49d
 size 264665786

 version https://git-lfs.github.com/spec/v1
+oid sha256:d18bda7cc478b78a2baff9b2ff268d792c1bfcb109692f6f43cd01c1334af6e4
 size 264665786

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:993642485acda165f546ca7e2c94b3614d2a294dacdb0f3665a7c4444f2d0fae
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:0b564041a05d5dec52405f82824f25abbc3402c3fee815ee33c0e6e880970bde
 size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4c0f1b8b8c05dac4caf0e0e8f3e8fa0d1dd356db027075fed7b90fc2d0a97d25
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:d10fe23746f9663211426e22e1f688a86e95134ebca1ba9cc0e90e060038ab25
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f34d6605c96e2830680aa8a7a9e3362d332648b178b366947137c49386617a03
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:424a6fa8dcc89ac1a4c9d7aceae072f365d903e39787d3dc1c38f7e0a9e82f96
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 29000,
-  "best_metric": 0.6262807250022888,
-  "best_model_checkpoint": "./qwen3-4b-ar-diffusion-checkpoints/checkpoint-29000",
-  "epoch": 2.230597646334897,
   "eval_steps": 250,
-  "global_step": 29000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4996,6 +4996,92 @@
       "eval_samples_per_second": 22.48,
       "eval_steps_per_second": 5.62,
       "step": 29000
     }
   ],
   "logging_steps": 50,

 {
+  "best_global_step": 29500,
+  "best_metric": 0.6208207607269287,
+  "best_model_checkpoint": "./qwen3-4b-ar-diffusion-checkpoints/checkpoint-29500",
+  "epoch": 2.26905622644412,
   "eval_steps": 250,
+  "global_step": 29500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 22.48,
       "eval_steps_per_second": 5.62,
       "step": 29000
+    },
+    {
+      "epoch": 2.2344435043458195,
+      "grad_norm": 0.5085247755050659,
+      "learning_rate": 5.176739474846116e-05,
+      "loss": 0.6245,
+      "step": 29050
+    },
+    {
+      "epoch": 2.238289362356742,
+      "grad_norm": 0.43597960472106934,
+      "learning_rate": 5.150767472664469e-05,
+      "loss": 0.6155,
+      "step": 29100
+    },
+    {
+      "epoch": 2.242135220367664,
+      "grad_norm": 0.8605113625526428,
+      "learning_rate": 5.124795470482819e-05,
+      "loss": 0.6298,
+      "step": 29150
+    },
+    {
+      "epoch": 2.2459810783785863,
+      "grad_norm": 0.5974554419517517,
+      "learning_rate": 5.098823468301171e-05,
+      "loss": 0.5789,
+      "step": 29200
+    },
+    {
+      "epoch": 2.2498269363895087,
+      "grad_norm": 0.9765536785125732,
+      "learning_rate": 5.072851466119524e-05,
+      "loss": 0.6074,
+      "step": 29250
+    },
+    {
+      "epoch": 2.2498269363895087,
+      "eval_loss": 0.6241350769996643,
+      "eval_runtime": 21.3208,
+      "eval_samples_per_second": 23.451,
+      "eval_steps_per_second": 5.863,
+      "step": 29250
+    },
+    {
+      "epoch": 2.2536727944004307,
+      "grad_norm": 0.8351141214370728,
+      "learning_rate": 5.0468794639378745e-05,
+      "loss": 0.6125,
+      "step": 29300
+    },
+    {
+      "epoch": 2.257518652411353,
+      "grad_norm": 0.8782539367675781,
+      "learning_rate": 5.020907461756227e-05,
+      "loss": 0.6395,
+      "step": 29350
+    },
+    {
+      "epoch": 2.261364510422275,
+      "grad_norm": 0.5191802978515625,
+      "learning_rate": 4.994935459574579e-05,
+      "loss": 0.6223,
+      "step": 29400
+    },
+    {
+      "epoch": 2.2652103684331975,
+      "grad_norm": 1.0012739896774292,
+      "learning_rate": 4.9689634573929304e-05,
+      "loss": 0.5918,
+      "step": 29450
+    },
+    {
+      "epoch": 2.26905622644412,
+      "grad_norm": 0.9906120300292969,
+      "learning_rate": 4.942991455211283e-05,
+      "loss": 0.6604,
+      "step": 29500
+    },
+    {
+      "epoch": 2.26905622644412,
+      "eval_loss": 0.6208207607269287,
+      "eval_runtime": 22.3662,
+      "eval_samples_per_second": 22.355,
+      "eval_steps_per_second": 5.589,
+      "step": 29500
     }
   ],
   "logging_steps": 50,