Training in progress, step 37000, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/ar_diffusion_info.bin +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +91 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:651010c952c4f2e5438cf065b7526e8b7ed7591516d3bc5f9700bebff456e394
 size 132187888

 version https://git-lfs.github.com/spec/v1
+oid sha256:9c9908eb2bd5f9beaa06015a751a042f84d87660bd9118a9d8c6df3afc04ac10
 size 132187888

last-checkpoint/ar_diffusion_info.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ee0e0adf2d9b4aaacdcafc95dc9f871bf71cf1d2a2f1053d39ef57319d6a1bfe
 size 1800

 version https://git-lfs.github.com/spec/v1
+oid sha256:a8df926c54955b4f050345ff87bc95e0eaf9e14e0c202091aed069141a6d8050
 size 1800

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:444bcb69ebd6dade1e1ffb612d0702662876875378acdb30d35fc8fc0385d21c
 size 264665786

 version https://git-lfs.github.com/spec/v1
+oid sha256:4baf25384281505a1f4c020627ece1722b2a1cb0bdf59122f0338fb59149157c
 size 264665786

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e8d399a9966448d8b21883a1ed6c9a0ed112cf6f2c15eec1d90ff9a1b08984a7
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:8956824c98764344b0f23bb58a4085e09bf86c1c62227126501658f2249b0da6
 size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:727a5807be63831a649cf3a788d2dbe9fdce0ad9219d92aa0ebe11b8f8712f61
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:8dbf48616e0aa20785358bd8c57fa652f00571ca576de0c652d60cefc5452b44
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0cf91a495853427b5f841ab1be3c35766ad0edbc12ff06e2c15160a47811ed22
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:0bc995789ac7ace85eec5527f15f9a82c9f1388944ba2d5baa678f54ce3d8943
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 36500,
-  "best_metric": 0.6020208597183228,
-  "best_model_checkpoint": "./qwen3-4b-ar-diffusion-checkpoints/checkpoint-36500",
-  "epoch": 2.8074763479732328,
   "eval_steps": 250,
-  "global_step": 36500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -6286,6 +6286,92 @@
       "eval_samples_per_second": 22.584,
       "eval_steps_per_second": 5.646,
       "step": 36500
     }
   ],
   "logging_steps": 50,

 {
+  "best_global_step": 37000,
+  "best_metric": 0.5988173484802246,
+  "best_model_checkpoint": "./qwen3-4b-ar-diffusion-checkpoints/checkpoint-37000",
+  "epoch": 2.845934928082455,
   "eval_steps": 250,
+  "global_step": 37000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 22.584,
       "eval_steps_per_second": 5.646,
       "step": 36500
+    },
+    {
+      "epoch": 2.811322205984155,
+      "grad_norm": 0.9810405969619751,
+      "learning_rate": 1.2824974677297874e-05,
+      "loss": 0.6134,
+      "step": 36550
+    },
+    {
+      "epoch": 2.8151680639950776,
+      "grad_norm": 1.0784183740615845,
+      "learning_rate": 1.2565254655481392e-05,
+      "loss": 0.5578,
+      "step": 36600
+    },
+    {
+      "epoch": 2.8190139220059995,
+      "grad_norm": 1.193577527999878,
+      "learning_rate": 1.230553463366491e-05,
+      "loss": 0.595,
+      "step": 36650
+    },
+    {
+      "epoch": 2.8228597800169215,
+      "grad_norm": 1.293881893157959,
+      "learning_rate": 1.204581461184843e-05,
+      "loss": 0.6137,
+      "step": 36700
+    },
+    {
+      "epoch": 2.826705638027844,
+      "grad_norm": 1.2237833738327026,
+      "learning_rate": 1.1786094590031946e-05,
+      "loss": 0.6168,
+      "step": 36750
+    },
+    {
+      "epoch": 2.826705638027844,
+      "eval_loss": 0.6000112891197205,
+      "eval_runtime": 21.2269,
+      "eval_samples_per_second": 23.555,
+      "eval_steps_per_second": 5.889,
+      "step": 36750
+    },
+    {
+      "epoch": 2.8305514960387663,
+      "grad_norm": 1.132026195526123,
+      "learning_rate": 1.1526374568215465e-05,
+      "loss": 0.603,
+      "step": 36800
+    },
+    {
+      "epoch": 2.8343973540496883,
+      "grad_norm": 0.6755896210670471,
+      "learning_rate": 1.1266654546398983e-05,
+      "loss": 0.6041,
+      "step": 36850
+    },
+    {
+      "epoch": 2.8382432120606107,
+      "grad_norm": 1.1434203386306763,
+      "learning_rate": 1.1006934524582501e-05,
+      "loss": 0.593,
+      "step": 36900
+    },
+    {
+      "epoch": 2.842089070071533,
+      "grad_norm": 0.8664344549179077,
+      "learning_rate": 1.0747214502766019e-05,
+      "loss": 0.6159,
+      "step": 36950
+    },
+    {
+      "epoch": 2.845934928082455,
+      "grad_norm": 1.2732676267623901,
+      "learning_rate": 1.0487494480949537e-05,
+      "loss": 0.6146,
+      "step": 37000
+    },
+    {
+      "epoch": 2.845934928082455,
+      "eval_loss": 0.5988173484802246,
+      "eval_runtime": 22.0557,
+      "eval_samples_per_second": 22.67,
+      "eval_steps_per_second": 5.667,
+      "step": 37000
     }
   ],
   "logging_steps": 50,