Training in progress, step 31500, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/ar_diffusion_info.bin +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +88 -2

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c822cadf122b8d81bed076d5b6b6c87adeac04badf1f9b9b9d715859da5b1843
 size 132187888

 version https://git-lfs.github.com/spec/v1
+oid sha256:cb1d7e6c9c0b0a239d02e15a2159556c5bd1fcf1e8847f331a9a6e433d20fa5a
 size 132187888

last-checkpoint/ar_diffusion_info.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c581a475019fa3a8f30579300dafcbee366ee095e196a5f5274ed005879d33e4
 size 1800

 version https://git-lfs.github.com/spec/v1
+oid sha256:6e86b3a858274139b3be961d3af1a11f158dbed04011a2fb0d226fa427bebe93
 size 1800

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:de5fca106ac94431cf0d18f7ca11bd0da4ea78e43121004b46ea9f6bfa639a81
 size 264665786

 version https://git-lfs.github.com/spec/v1
+oid sha256:9e7c2116295a25f8bb18ac5af56b3b66bcefc07893fdd1dace52696c12337661
 size 264665786

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:97ab3280ba738c96067535954dc214f9f14277e63441d3d85f0ccbd573a6d6e3
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:79c133c2a3f6f8e5d4540624b02ef0bb23de1d12e242c3f6a4a6fbfc3892c66b
 size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3037fa29c14116fb7f57a7d8f13370ce35ad863cc8cab599d44882849d5d0780
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:f8bd5d9ea98bbf4c19a3f4d1081add700e97c16f34e816ad12ce83b81a590f6a
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ed58c2b335b3b36d75acfd3c9f3a4f61a466c2c389eddcb7dec50bfb380a2d25
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:3cc290e356b72b5d6c7ea8116aa7addab4b6ab1041682e12bf6b315f56282c40
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": 31000,
   "best_metric": 0.6043956279754639,
   "best_model_checkpoint": "./qwen3-4b-ar-diffusion-checkpoints/checkpoint-31000",
-  "epoch": 2.384431966771787,
   "eval_steps": 250,
-  "global_step": 31000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -5340,6 +5340,92 @@
       "eval_samples_per_second": 22.387,
       "eval_steps_per_second": 5.597,
       "step": 31000
     }
   ],
   "logging_steps": 50,

   "best_global_step": 31000,
   "best_metric": 0.6043956279754639,
   "best_model_checkpoint": "./qwen3-4b-ar-diffusion-checkpoints/checkpoint-31000",
+  "epoch": 2.422890546881009,
   "eval_steps": 250,
+  "global_step": 31500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 22.387,
       "eval_steps_per_second": 5.597,
       "step": 31000
+    },
+    {
+      "epoch": 2.3882778247827092,
+      "grad_norm": 0.873634934425354,
+      "learning_rate": 4.1378593875801884e-05,
+      "loss": 0.6262,
+      "step": 31050
+    },
+    {
+      "epoch": 2.392123682793631,
+      "grad_norm": 0.8385778069496155,
+      "learning_rate": 4.1118873853985404e-05,
+      "loss": 0.6317,
+      "step": 31100
+    },
+    {
+      "epoch": 2.3959695408045536,
+      "grad_norm": 1.0967971086502075,
+      "learning_rate": 4.085915383216892e-05,
+      "loss": 0.6406,
+      "step": 31150
+    },
+    {
+      "epoch": 2.3998153988154756,
+      "grad_norm": 0.6314703226089478,
+      "learning_rate": 4.059943381035244e-05,
+      "loss": 0.621,
+      "step": 31200
+    },
+    {
+      "epoch": 2.403661256826398,
+      "grad_norm": 0.8299015164375305,
+      "learning_rate": 4.033971378853596e-05,
+      "loss": 0.626,
+      "step": 31250
+    },
+    {
+      "epoch": 2.403661256826398,
+      "eval_loss": 0.6425282955169678,
+      "eval_runtime": 21.4071,
+      "eval_samples_per_second": 23.357,
+      "eval_steps_per_second": 5.839,
+      "step": 31250
+    },
+    {
+      "epoch": 2.4075071148373204,
+      "grad_norm": 0.6408383846282959,
+      "learning_rate": 4.0079993766719475e-05,
+      "loss": 0.6407,
+      "step": 31300
+    },
+    {
+      "epoch": 2.4113529728482423,
+      "grad_norm": 0.7746095061302185,
+      "learning_rate": 3.9820273744902995e-05,
+      "loss": 0.6294,
+      "step": 31350
+    },
+    {
+      "epoch": 2.4151988308591648,
+      "grad_norm": 1.1451231241226196,
+      "learning_rate": 3.9560553723086515e-05,
+      "loss": 0.6509,
+      "step": 31400
+    },
+    {
+      "epoch": 2.4190446888700867,
+      "grad_norm": 0.6468200087547302,
+      "learning_rate": 3.9300833701270034e-05,
+      "loss": 0.605,
+      "step": 31450
+    },
+    {
+      "epoch": 2.422890546881009,
+      "grad_norm": 1.0352072715759277,
+      "learning_rate": 3.904111367945355e-05,
+      "loss": 0.6356,
+      "step": 31500
+    },
+    {
+      "epoch": 2.422890546881009,
+      "eval_loss": 0.641932487487793,
+      "eval_runtime": 22.3719,
+      "eval_samples_per_second": 22.349,
+      "eval_steps_per_second": 5.587,
+      "step": 31500
     }
   ],
   "logging_steps": 50,