Training in progress, step 34000, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/ar_diffusion_info.bin +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +2 -2
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +88 -2

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cba8cb77ffe78e2d20b2d0ccc4c9669535c480fcc7dc13618e40879b6569a4ef
 size 132187888

 version https://git-lfs.github.com/spec/v1
+oid sha256:387eaea2b60677f1bca5f4689e58687d4d68c1a3bd12a633dbaa83e1a472eadb
 size 132187888

last-checkpoint/ar_diffusion_info.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8c065148843d8271c381f3d8b1e806505a52caa006aaab9e14474604a503f994
 size 1800

 version https://git-lfs.github.com/spec/v1
+oid sha256:ed09fd0bbee5530eed7299419b0a8bf04c1f5eb432d7d005305a84b7653ae3cf
 size 1800

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9d9ffa1c5d4bb6cb13fd3129b2255256a3ec74888dd1726ff04d1a2ff740b6b3
 size 264665786

 version https://git-lfs.github.com/spec/v1
+oid sha256:54c02c28239c3fb2bd3b6a0347baac24ca1abcc8f6c7036565e9c2726c285b1e
 size 264665786

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eff35bb1a8c46c5468e2039629e000a02a24eb92defc378676def9fc2ee080f9
-size 14308

 version https://git-lfs.github.com/spec/v1
+oid sha256:b6cc7154848c18f975fe3126d040aa5665065e37899e2bed962f5bb2fd23e3c0
+size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a6d920d97680fbe7b80b71b492e592480f373318cca68f37e407be6a777bba52
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:73b82920d494ad0b9c6b5781afaec447f97db85d9f0641dba380ac45674e29c1
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ff9711516719328bf9804dafd0879b843ab233063e11999f87b9c16f7278b99d
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:2206e3ea9caa91bbe357a176c4a03573c2b47177cf241fe9772382f8b2e0ca8f
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": 31000,
   "best_metric": 0.6043956279754639,
   "best_model_checkpoint": "./qwen3-4b-ar-diffusion-checkpoints/checkpoint-31000",
-  "epoch": 2.576724867317899,
   "eval_steps": 250,
-  "global_step": 33500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -5770,6 +5770,92 @@
       "eval_samples_per_second": 22.528,
       "eval_steps_per_second": 5.632,
       "step": 33500
     }
   ],
   "logging_steps": 50,

   "best_global_step": 31000,
   "best_metric": 0.6043956279754639,
   "best_model_checkpoint": "./qwen3-4b-ar-diffusion-checkpoints/checkpoint-31000",
+  "epoch": 2.615183447427121,
   "eval_steps": 250,
+  "global_step": 34000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 22.528,
       "eval_steps_per_second": 5.632,
       "step": 33500
+    },
+    {
+      "epoch": 2.580570725328821,
+      "grad_norm": 0.5690587759017944,
+      "learning_rate": 2.8397787185414125e-05,
+      "loss": 0.6188,
+      "step": 33550
+    },
+    {
+      "epoch": 2.5844165833397432,
+      "grad_norm": 0.9739165902137756,
+      "learning_rate": 2.813806716359764e-05,
+      "loss": 0.6377,
+      "step": 33600
+    },
+    {
+      "epoch": 2.588262441350665,
+      "grad_norm": 0.7335163354873657,
+      "learning_rate": 2.788354154221749e-05,
+      "loss": 0.6031,
+      "step": 33650
+    },
+    {
+      "epoch": 2.5921082993615876,
+      "grad_norm": 0.8928486108779907,
+      "learning_rate": 2.7623821520401012e-05,
+      "loss": 0.6042,
+      "step": 33700
+    },
+    {
+      "epoch": 2.5959541573725096,
+      "grad_norm": 0.8350071907043457,
+      "learning_rate": 2.7364101498584525e-05,
+      "loss": 0.6349,
+      "step": 33750
+    },
+    {
+      "epoch": 2.5959541573725096,
+      "eval_loss": 0.6190235018730164,
+      "eval_runtime": 21.555,
+      "eval_samples_per_second": 23.196,
+      "eval_steps_per_second": 5.799,
+      "step": 33750
+    },
+    {
+      "epoch": 2.599800015383432,
+      "grad_norm": 0.8973419070243835,
+      "learning_rate": 2.710438147676804e-05,
+      "loss": 0.6201,
+      "step": 33800
+    },
+    {
+      "epoch": 2.6036458733943544,
+      "grad_norm": 0.9094308018684387,
+      "learning_rate": 2.6844661454951564e-05,
+      "loss": 0.648,
+      "step": 33850
+    },
+    {
+      "epoch": 2.6074917314052763,
+      "grad_norm": 1.1847707033157349,
+      "learning_rate": 2.658494143313508e-05,
+      "loss": 0.6052,
+      "step": 33900
+    },
+    {
+      "epoch": 2.6113375894161988,
+      "grad_norm": 1.0160280466079712,
+      "learning_rate": 2.63252214113186e-05,
+      "loss": 0.5866,
+      "step": 33950
+    },
+    {
+      "epoch": 2.615183447427121,
+      "grad_norm": 0.8359413743019104,
+      "learning_rate": 2.6065501389502116e-05,
+      "loss": 0.6265,
+      "step": 34000
+    },
+    {
+      "epoch": 2.615183447427121,
+      "eval_loss": 0.6169971227645874,
+      "eval_runtime": 22.1614,
+      "eval_samples_per_second": 22.562,
+      "eval_steps_per_second": 5.64,
+      "step": 34000
     }
   ],
   "logging_steps": 50,