Training in progress, step 35000, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/ar_diffusion_info.bin +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +2 -2
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +88 -2

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:581c31679972bdcfdd93694ec7c812b17d40019a808688f579a943d85463c904
 size 132187888

 version https://git-lfs.github.com/spec/v1
+oid sha256:187b0895f6db7770ad3826278e4168eb73d6e6ed9c71ec20c7a7e8579ed764be
 size 132187888

last-checkpoint/ar_diffusion_info.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d5748fa82d57453d9a0fe9a462a4395564f717f50912fdd1523a9305b512fa60
 size 1800

 version https://git-lfs.github.com/spec/v1
+oid sha256:11add07e0fdec640b0675ab2d16165508e317746c1a605059e3fcf527ae10315
 size 1800

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bf55f9271c729abd81f424026c2d810f5ae513f2dba23347c474641256e114eb
 size 264665786

 version https://git-lfs.github.com/spec/v1
+oid sha256:77932285a3df82a40bad75f9043807d3f0399a9e710f3ce34c7c5543f06a1d00
 size 264665786

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f9ce460b1138284b49eaf780f57970d8521e6ca2b85cc1fe914b4f8e171c90fa
-size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:7dd827a2711c80977afcf1e29041cd37bfb2c6103a14b6effcc63506ecf6d4c7
+size 14180

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d90106738b2858e018cd3ec3d64f24c362a10f5e044b671422e6245917f6420f
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:88c8e4d90bec7e1ab80725ca72e32f87387270f70019247cb1ad002169d3fdc6
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b632fa657d89cf9d024b864a979b41e9d4484feec7658b4550443a85b8f54ac3
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:cc40176b44fff927c20f1bac9b67d6ff31ea020f24aee448725b6d82a306f911
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": 31000,
   "best_metric": 0.6043956279754639,
   "best_model_checkpoint": "./qwen3-4b-ar-diffusion-checkpoints/checkpoint-31000",
-  "epoch": 2.6536420275363435,
   "eval_steps": 250,
-  "global_step": 34500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -5942,6 +5942,92 @@
       "eval_samples_per_second": 22.407,
       "eval_steps_per_second": 5.602,
       "step": 34500
     }
   ],
   "logging_steps": 50,

   "best_global_step": 31000,
   "best_metric": 0.6043956279754639,
   "best_model_checkpoint": "./qwen3-4b-ar-diffusion-checkpoints/checkpoint-31000",
+  "epoch": 2.692100607645566,
   "eval_steps": 250,
+  "global_step": 35000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 22.407,
       "eval_steps_per_second": 5.602,
       "step": 34500
+    },
+    {
+      "epoch": 2.6574878855472654,
+      "grad_norm": 1.246099591255188,
+      "learning_rate": 2.3208581149520815e-05,
+      "loss": 0.6193,
+      "step": 34550
+    },
+    {
+      "epoch": 2.661333743558188,
+      "grad_norm": 0.6598573923110962,
+      "learning_rate": 2.2948861127704335e-05,
+      "loss": 0.5973,
+      "step": 34600
+    },
+    {
+      "epoch": 2.6651796015691103,
+      "grad_norm": 0.588585615158081,
+      "learning_rate": 2.2689141105887855e-05,
+      "loss": 0.6195,
+      "step": 34650
+    },
+    {
+      "epoch": 2.6690254595800322,
+      "grad_norm": 0.8450884819030762,
+      "learning_rate": 2.2429421084071374e-05,
+      "loss": 0.6124,
+      "step": 34700
+    },
+    {
+      "epoch": 2.6728713175909546,
+      "grad_norm": 0.9003159999847412,
+      "learning_rate": 2.216970106225489e-05,
+      "loss": 0.5948,
+      "step": 34750
+    },
+    {
+      "epoch": 2.6728713175909546,
+      "eval_loss": 0.6135697960853577,
+      "eval_runtime": 21.4775,
+      "eval_samples_per_second": 23.28,
+      "eval_steps_per_second": 5.82,
+      "step": 34750
+    },
+    {
+      "epoch": 2.676717175601877,
+      "grad_norm": 1.0328209400177002,
+      "learning_rate": 2.190998104043841e-05,
+      "loss": 0.6453,
+      "step": 34800
+    },
+    {
+      "epoch": 2.680563033612799,
+      "grad_norm": 0.8492136001586914,
+      "learning_rate": 2.1650261018621926e-05,
+      "loss": 0.5774,
+      "step": 34850
+    },
+    {
+      "epoch": 2.684408891623721,
+      "grad_norm": 1.1003891229629517,
+      "learning_rate": 2.1390540996805446e-05,
+      "loss": 0.6325,
+      "step": 34900
+    },
+    {
+      "epoch": 2.6882547496346434,
+      "grad_norm": 1.361631989479065,
+      "learning_rate": 2.1130820974988962e-05,
+      "loss": 0.6089,
+      "step": 34950
+    },
+    {
+      "epoch": 2.692100607645566,
+      "grad_norm": 1.0950570106506348,
+      "learning_rate": 2.087110095317248e-05,
+      "loss": 0.5846,
+      "step": 35000
+    },
+    {
+      "epoch": 2.692100607645566,
+      "eval_loss": 0.6102504134178162,
+      "eval_runtime": 22.2494,
+      "eval_samples_per_second": 22.473,
+      "eval_steps_per_second": 5.618,
+      "step": 35000
     }
   ],
   "logging_steps": 50,