Training in progress, step 30000, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/ar_diffusion_info.bin +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +91 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c3d2b56b1909f10ec091b339e19d3deed68b4ef6036485c876749907ab70feae
 size 132187888

 version https://git-lfs.github.com/spec/v1
+oid sha256:c51c95b62fe64237a3070b38732becb17c727e262f2a166cf9b540a95a07ffa4
 size 132187888

last-checkpoint/ar_diffusion_info.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c7f39b7fecf41dc806808cbc1fcb7ebfc548308cac03fe5ff57a6ed111230c19
 size 1800

 version https://git-lfs.github.com/spec/v1
+oid sha256:c956420b50cd1beed5b84ba3d1b039f88d0f55421c32ed697563eb48dbe3e467
 size 1800

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d18bda7cc478b78a2baff9b2ff268d792c1bfcb109692f6f43cd01c1334af6e4
 size 264665786

 version https://git-lfs.github.com/spec/v1
+oid sha256:7a6ad13ae7222893577b884130d3ce0bc936a3a1c24d4768f253e6c8a17784ab
 size 264665786

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0b564041a05d5dec52405f82824f25abbc3402c3fee815ee33c0e6e880970bde
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:072a1f78d2c87d7bd95194d5360ec258a354ea618d79e75e77fefc7224373d1f
 size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d10fe23746f9663211426e22e1f688a86e95134ebca1ba9cc0e90e060038ab25
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:db92c81e1d1adfede0ee8a02a6941b37c6dd7a52f54da9d0ece7ad64c5439504
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:424a6fa8dcc89ac1a4c9d7aceae072f365d903e39787d3dc1c38f7e0a9e82f96
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:961ccdacdfed72cc3f6e549530202fa2bdca81a4b4bb1d566331261ea797f82d
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 29500,
-  "best_metric": 0.6208207607269287,
-  "best_model_checkpoint": "./qwen3-4b-ar-diffusion-checkpoints/checkpoint-29500",
-  "epoch": 2.26905622644412,
   "eval_steps": 250,
-  "global_step": 29500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -5082,6 +5082,92 @@
       "eval_samples_per_second": 22.355,
       "eval_steps_per_second": 5.589,
       "step": 29500
     }
   ],
   "logging_steps": 50,

 {
+  "best_global_step": 30000,
+  "best_metric": 0.6152763962745667,
+  "best_model_checkpoint": "./qwen3-4b-ar-diffusion-checkpoints/checkpoint-30000",
+  "epoch": 2.307514806553342,
   "eval_steps": 250,
+  "global_step": 30000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 22.355,
       "eval_steps_per_second": 5.589,
       "step": 29500
+    },
+    {
+      "epoch": 2.272902084455042,
+      "grad_norm": 0.776597797870636,
+      "learning_rate": 4.917019453029634e-05,
+      "loss": 0.6117,
+      "step": 29550
+    },
+    {
+      "epoch": 2.2767479424659642,
+      "grad_norm": 0.71247398853302,
+      "learning_rate": 4.8910474508479856e-05,
+      "loss": 0.6223,
+      "step": 29600
+    },
+    {
+      "epoch": 2.280593800476886,
+      "grad_norm": 1.0202375650405884,
+      "learning_rate": 4.865075448666338e-05,
+      "loss": 0.6364,
+      "step": 29650
+    },
+    {
+      "epoch": 2.2844396584878086,
+      "grad_norm": 0.7959633469581604,
+      "learning_rate": 4.8391034464846895e-05,
+      "loss": 0.6635,
+      "step": 29700
+    },
+    {
+      "epoch": 2.288285516498731,
+      "grad_norm": 0.786555826663971,
+      "learning_rate": 4.8131314443030415e-05,
+      "loss": 0.6214,
+      "step": 29750
+    },
+    {
+      "epoch": 2.288285516498731,
+      "eval_loss": 0.6206551790237427,
+      "eval_runtime": 21.496,
+      "eval_samples_per_second": 23.26,
+      "eval_steps_per_second": 5.815,
+      "step": 29750
+    },
+    {
+      "epoch": 2.292131374509653,
+      "grad_norm": 1.349275827407837,
+      "learning_rate": 4.7871594421213934e-05,
+      "loss": 0.5998,
+      "step": 29800
+    },
+    {
+      "epoch": 2.2959772325205754,
+      "grad_norm": 1.2118281126022339,
+      "learning_rate": 4.761187439939745e-05,
+      "loss": 0.6384,
+      "step": 29850
+    },
+    {
+      "epoch": 2.299823090531498,
+      "grad_norm": 0.6467416286468506,
+      "learning_rate": 4.7352154377580974e-05,
+      "loss": 0.6109,
+      "step": 29900
+    },
+    {
+      "epoch": 2.3036689485424198,
+      "grad_norm": 0.626610279083252,
+      "learning_rate": 4.7092434355764486e-05,
+      "loss": 0.6444,
+      "step": 29950
+    },
+    {
+      "epoch": 2.307514806553342,
+      "grad_norm": 0.8306999206542969,
+      "learning_rate": 4.6832714333948006e-05,
+      "loss": 0.6378,
+      "step": 30000
+    },
+    {
+      "epoch": 2.307514806553342,
+      "eval_loss": 0.6152763962745667,
+      "eval_runtime": 22.4259,
+      "eval_samples_per_second": 22.296,
+      "eval_steps_per_second": 5.574,
+      "step": 30000
     }
   ],
   "logging_steps": 50,