Training in progress, step 35500, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/ar_diffusion_info.bin +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +2 -2
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +88 -2

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:187b0895f6db7770ad3826278e4168eb73d6e6ed9c71ec20c7a7e8579ed764be
 size 132187888

 version https://git-lfs.github.com/spec/v1
+oid sha256:35715f1aa2271e87b483270f3b3bf4acec416bc16521b25186ddcfa036282e8f
 size 132187888

last-checkpoint/ar_diffusion_info.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:11add07e0fdec640b0675ab2d16165508e317746c1a605059e3fcf527ae10315
 size 1800

 version https://git-lfs.github.com/spec/v1
+oid sha256:41c837343d73bad200a78a094c21b501d042cc328dee9bccdf46252d74d82c8d
 size 1800

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:77932285a3df82a40bad75f9043807d3f0399a9e710f3ce34c7c5543f06a1d00
 size 264665786

 version https://git-lfs.github.com/spec/v1
+oid sha256:b20050c8eb7820958cdc16204e7da66222acc741e45329368f303c97eed368ba
 size 264665786

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7dd827a2711c80977afcf1e29041cd37bfb2c6103a14b6effcc63506ecf6d4c7
-size 14180

 version https://git-lfs.github.com/spec/v1
+oid sha256:b1a3edbe9f42342c59e5f99a49f988583a26ed52948ad4b0c79ce2d97b84cca9
+size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:88c8e4d90bec7e1ab80725ca72e32f87387270f70019247cb1ad002169d3fdc6
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:d35d8e281c92e1f0101731daab1c934f47c2c1536ab7afb4ba965aa8e108d2b2
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cc40176b44fff927c20f1bac9b67d6ff31ea020f24aee448725b6d82a306f911
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:f72dabb66926d5f103787feb6d06e607565f49ca5105e75822f116bfd973c31b
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": 31000,
   "best_metric": 0.6043956279754639,
   "best_model_checkpoint": "./qwen3-4b-ar-diffusion-checkpoints/checkpoint-31000",
-  "epoch": 2.692100607645566,
   "eval_steps": 250,
-  "global_step": 35000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -6028,6 +6028,92 @@
       "eval_samples_per_second": 22.473,
       "eval_steps_per_second": 5.618,
       "step": 35000
     }
   ],
   "logging_steps": 50,

   "best_global_step": 31000,
   "best_metric": 0.6043956279754639,
   "best_model_checkpoint": "./qwen3-4b-ar-diffusion-checkpoints/checkpoint-31000",
+  "epoch": 2.730559187754788,
   "eval_steps": 250,
+  "global_step": 35500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 22.473,
       "eval_steps_per_second": 5.618,
       "step": 35000
+    },
+    {
+      "epoch": 2.6959464656564878,
+      "grad_norm": 1.1968413591384888,
+      "learning_rate": 2.061657533179233e-05,
+      "loss": 0.6253,
+      "step": 35050
+    },
+    {
+      "epoch": 2.69979232366741,
+      "grad_norm": 1.4288520812988281,
+      "learning_rate": 2.0356855309975846e-05,
+      "loss": 0.614,
+      "step": 35100
+    },
+    {
+      "epoch": 2.7036381816783326,
+      "grad_norm": 1.08846116065979,
+      "learning_rate": 2.0097135288159365e-05,
+      "loss": 0.6238,
+      "step": 35150
+    },
+    {
+      "epoch": 2.7074840396892546,
+      "grad_norm": 1.2524211406707764,
+      "learning_rate": 1.983741526634288e-05,
+      "loss": 0.6395,
+      "step": 35200
+    },
+    {
+      "epoch": 2.711329897700177,
+      "grad_norm": 0.8736916780471802,
+      "learning_rate": 1.95776952445264e-05,
+      "loss": 0.588,
+      "step": 35250
+    },
+    {
+      "epoch": 2.711329897700177,
+      "eval_loss": 0.6089532375335693,
+      "eval_runtime": 21.4253,
+      "eval_samples_per_second": 23.337,
+      "eval_steps_per_second": 5.834,
+      "step": 35250
+    },
+    {
+      "epoch": 2.7151757557110994,
+      "grad_norm": 0.9132745265960693,
+      "learning_rate": 1.931797522270992e-05,
+      "loss": 0.6122,
+      "step": 35300
+    },
+    {
+      "epoch": 2.7190216137220213,
+      "grad_norm": 0.8643609285354614,
+      "learning_rate": 1.9058255200893437e-05,
+      "loss": 0.6096,
+      "step": 35350
+    },
+    {
+      "epoch": 2.7228674717329437,
+      "grad_norm": 1.093375563621521,
+      "learning_rate": 1.8798535179076957e-05,
+      "loss": 0.6539,
+      "step": 35400
+    },
+    {
+      "epoch": 2.7267133297438657,
+      "grad_norm": 1.0180147886276245,
+      "learning_rate": 1.8538815157260476e-05,
+      "loss": 0.6063,
+      "step": 35450
+    },
+    {
+      "epoch": 2.730559187754788,
+      "grad_norm": 1.0596697330474854,
+      "learning_rate": 1.8279095135443993e-05,
+      "loss": 0.6467,
+      "step": 35500
+    },
+    {
+      "epoch": 2.730559187754788,
+      "eval_loss": 0.6064323782920837,
+      "eval_runtime": 22.1846,
+      "eval_samples_per_second": 22.538,
+      "eval_steps_per_second": 5.635,
+      "step": 35500
     }
   ],
   "logging_steps": 50,