Training in progress, step 3500, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +2 -2
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +91 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0f77dbb7c6bf6487a48a714e4c4e440e388d69a8afa7310e97fc320615f989a6
 size 36730224

 version https://git-lfs.github.com/spec/v1
+oid sha256:24082cd1025a9c16d6bc6449cbc8ef1f1d242da73316dafd4f2689fc8c860917
 size 36730224

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b1814592ba74cdcca20fb08c3ea7e5ee573986aff77c3810b20a982bd1be5d78
 size 73588346

 version https://git-lfs.github.com/spec/v1
+oid sha256:a4d61ee4cf28e305ccbd9c0cd63b04a590ac2c163f4c12096fd42f05674ed054
 size 73588346

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0cdad770e6415de25f2503b80a04125ce36c191e7ebbe40cc70935c15b3079b5
-size 14180

 version https://git-lfs.github.com/spec/v1
+oid sha256:32c4abfc978e57dde0e9122ce6e0a211a14cdb3e9d7e1f8e79d82dbf8734a5a1
+size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a9aa9825ab5c6a64b78405ab88bd271bc07d34d8fb6641eef252a11c55bfe386
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:835fd47c5d5c5f39bf487b0cc415ae7b687f6d1d1601a7df5275be58f8fd603c
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0276c75f304794326dfbdfec2d07b2898318c16d7455e1133773ea583662ada9
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:3b0c041eadc91e24d174b435fcb1ec46a0c56f36b09b7dbbf49009145cd7fa33
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 3000,
-  "best_metric": 4.55267858505249,
-  "best_model_checkpoint": "./ar-diffusion-checkpoints/checkpoint-3000",
-  "epoch": 0.2307514806553342,
   "eval_steps": 250,
-  "global_step": 3000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -524,6 +524,92 @@
       "eval_samples_per_second": 52.705,
       "eval_steps_per_second": 13.176,
       "step": 3000
     }
   ],
   "logging_steps": 50,

 {
+  "best_global_step": 3500,
+  "best_metric": 4.488556861877441,
+  "best_model_checkpoint": "./ar-diffusion-checkpoints/checkpoint-3500",
+  "epoch": 0.26921006076455656,
   "eval_steps": 250,
+  "global_step": 3500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 52.705,
       "eval_steps_per_second": 13.176,
       "step": 3000
+    },
+    {
+      "epoch": 0.23459733866625646,
+      "grad_norm": 4.74845027923584,
+      "learning_rate": 0.00012484761589647437,
+      "loss": 4.6248,
+      "step": 3050
+    },
+    {
+      "epoch": 0.23844319667717867,
+      "grad_norm": 6.299524784088135,
+      "learning_rate": 0.00012459027241645528,
+      "loss": 4.5457,
+      "step": 3100
+    },
+    {
+      "epoch": 0.2422890546881009,
+      "grad_norm": 5.853606700897217,
+      "learning_rate": 0.00012433292893643616,
+      "loss": 4.5135,
+      "step": 3150
+    },
+    {
+      "epoch": 0.24613491269902316,
+      "grad_norm": 3.1514365673065186,
+      "learning_rate": 0.00012407558545641704,
+      "loss": 4.672,
+      "step": 3200
+    },
+    {
+      "epoch": 0.2499807707099454,
+      "grad_norm": 8.455827713012695,
+      "learning_rate": 0.00012381824197639792,
+      "loss": 4.6545,
+      "step": 3250
+    },
+    {
+      "epoch": 0.2499807707099454,
+      "eval_loss": 4.550297737121582,
+      "eval_runtime": 18.9801,
+      "eval_samples_per_second": 52.687,
+      "eval_steps_per_second": 13.172,
+      "step": 3250
+    },
+    {
+      "epoch": 0.25382662872086764,
+      "grad_norm": 2.8094310760498047,
+      "learning_rate": 0.0001235608984963788,
+      "loss": 4.5392,
+      "step": 3300
+    },
+    {
+      "epoch": 0.2576724867317899,
+      "grad_norm": 3.2565436363220215,
+      "learning_rate": 0.00012330355501635968,
+      "loss": 4.481,
+      "step": 3350
+    },
+    {
+      "epoch": 0.26151834474271207,
+      "grad_norm": 3.5588488578796387,
+      "learning_rate": 0.00012304621153634056,
+      "loss": 4.5543,
+      "step": 3400
+    },
+    {
+      "epoch": 0.2653642027536343,
+      "grad_norm": 3.0696310997009277,
+      "learning_rate": 0.00012278886805632146,
+      "loss": 4.5858,
+      "step": 3450
+    },
+    {
+      "epoch": 0.26921006076455656,
+      "grad_norm": 3.886117935180664,
+      "learning_rate": 0.00012253152457630234,
+      "loss": 4.4694,
+      "step": 3500
+    },
+    {
+      "epoch": 0.26921006076455656,
+      "eval_loss": 4.488556861877441,
+      "eval_runtime": 18.9212,
+      "eval_samples_per_second": 52.851,
+      "eval_steps_per_second": 13.213,
+      "step": 3500
     }
   ],
   "logging_steps": 50,