Training in progress, step 34500, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/ar_diffusion_info.bin +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +88 -2

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:387eaea2b60677f1bca5f4689e58687d4d68c1a3bd12a633dbaa83e1a472eadb
 size 132187888

 version https://git-lfs.github.com/spec/v1
+oid sha256:581c31679972bdcfdd93694ec7c812b17d40019a808688f579a943d85463c904
 size 132187888

last-checkpoint/ar_diffusion_info.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ed09fd0bbee5530eed7299419b0a8bf04c1f5eb432d7d005305a84b7653ae3cf
 size 1800

 version https://git-lfs.github.com/spec/v1
+oid sha256:d5748fa82d57453d9a0fe9a462a4395564f717f50912fdd1523a9305b512fa60
 size 1800

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:54c02c28239c3fb2bd3b6a0347baac24ca1abcc8f6c7036565e9c2726c285b1e
 size 264665786

 version https://git-lfs.github.com/spec/v1
+oid sha256:bf55f9271c729abd81f424026c2d810f5ae513f2dba23347c474641256e114eb
 size 264665786

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b6cc7154848c18f975fe3126d040aa5665065e37899e2bed962f5bb2fd23e3c0
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:f9ce460b1138284b49eaf780f57970d8521e6ca2b85cc1fe914b4f8e171c90fa
 size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:73b82920d494ad0b9c6b5781afaec447f97db85d9f0641dba380ac45674e29c1
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:d90106738b2858e018cd3ec3d64f24c362a10f5e044b671422e6245917f6420f
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2206e3ea9caa91bbe357a176c4a03573c2b47177cf241fe9772382f8b2e0ca8f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:b632fa657d89cf9d024b864a979b41e9d4484feec7658b4550443a85b8f54ac3
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": 31000,
   "best_metric": 0.6043956279754639,
   "best_model_checkpoint": "./qwen3-4b-ar-diffusion-checkpoints/checkpoint-31000",
-  "epoch": 2.615183447427121,
   "eval_steps": 250,
-  "global_step": 34000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -5856,6 +5856,92 @@
       "eval_samples_per_second": 22.562,
       "eval_steps_per_second": 5.64,
       "step": 34000
     }
   ],
   "logging_steps": 50,

   "best_global_step": 31000,
   "best_metric": 0.6043956279754639,
   "best_model_checkpoint": "./qwen3-4b-ar-diffusion-checkpoints/checkpoint-31000",
+  "epoch": 2.6536420275363435,
   "eval_steps": 250,
+  "global_step": 34500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 22.562,
       "eval_steps_per_second": 5.64,
       "step": 34000
+    },
+    {
+      "epoch": 2.619029305438043,
+      "grad_norm": 0.581876814365387,
+      "learning_rate": 2.580578136768564e-05,
+      "loss": 0.6315,
+      "step": 34050
+    },
+    {
+      "epoch": 2.6228751634489655,
+      "grad_norm": 0.8881607055664062,
+      "learning_rate": 2.5546061345869156e-05,
+      "loss": 0.603,
+      "step": 34100
+    },
+    {
+      "epoch": 2.626721021459888,
+      "grad_norm": 0.4935351610183716,
+      "learning_rate": 2.5286341324052672e-05,
+      "loss": 0.6311,
+      "step": 34150
+    },
+    {
+      "epoch": 2.63056687947081,
+      "grad_norm": 0.8172516226768494,
+      "learning_rate": 2.502662130223619e-05,
+      "loss": 0.6029,
+      "step": 34200
+    },
+    {
+      "epoch": 2.6344127374817323,
+      "grad_norm": 0.6940003037452698,
+      "learning_rate": 2.4766901280419708e-05,
+      "loss": 0.6334,
+      "step": 34250
+    },
+    {
+      "epoch": 2.6344127374817323,
+      "eval_loss": 0.6158848404884338,
+      "eval_runtime": 21.2951,
+      "eval_samples_per_second": 23.48,
+      "eval_steps_per_second": 5.87,
+      "step": 34250
+    },
+    {
+      "epoch": 2.6382585954926543,
+      "grad_norm": 0.9116266965866089,
+      "learning_rate": 2.4507181258603227e-05,
+      "loss": 0.6716,
+      "step": 34300
+    },
+    {
+      "epoch": 2.6421044535035767,
+      "grad_norm": 0.8472510576248169,
+      "learning_rate": 2.4247461236786744e-05,
+      "loss": 0.5982,
+      "step": 34350
+    },
+    {
+      "epoch": 2.6459503115144987,
+      "grad_norm": 0.9200981855392456,
+      "learning_rate": 2.3987741214970263e-05,
+      "loss": 0.6111,
+      "step": 34400
+    },
+    {
+      "epoch": 2.649796169525421,
+      "grad_norm": 0.7209369540214539,
+      "learning_rate": 2.3728021193153783e-05,
+      "loss": 0.6498,
+      "step": 34450
+    },
+    {
+      "epoch": 2.6536420275363435,
+      "grad_norm": 1.0441888570785522,
+      "learning_rate": 2.3468301171337302e-05,
+      "loss": 0.5979,
+      "step": 34500
+    },
+    {
+      "epoch": 2.6536420275363435,
+      "eval_loss": 0.6152419447898865,
+      "eval_runtime": 22.3142,
+      "eval_samples_per_second": 22.407,
+      "eval_steps_per_second": 5.602,
+      "step": 34500
     }
   ],
   "logging_steps": 50,