Training in progress, step 25500, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/ar_diffusion_info.bin +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +2 -2
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +88 -2

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:53ba090014a5fdd08b7878dce816fc2bcc21b79b5293e870aee77f6ca34193d8
 size 36730224

 version https://git-lfs.github.com/spec/v1
+oid sha256:a05a340cb4a65f48636e96ed4fd91629d922458e974787fca1ba7f6545c46cb6
 size 36730224

last-checkpoint/ar_diffusion_info.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d5294506a0dbe88e79db7cf86a6033ff90def7db0343064423c20938cbd5a481
 size 1544

 version https://git-lfs.github.com/spec/v1
+oid sha256:fe554b76c07e1e707d896c2ee3a20371f26db4350a7a78776a0cbae8a2db2c39
 size 1544

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:af842a0894abafa3506e73299546568446a97e1ea7329265514a89728c57bd43
 size 73588346

 version https://git-lfs.github.com/spec/v1
+oid sha256:d55ae62412810c5314e1159d09e99db512bb7ac1a37d12bf0208475b2b472ef4
 size 73588346

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f4a89f558d7b243194fee72d6e3b515995ba03b6bdbb2a1ac92b9b326a12ba3e
-size 14308

 version https://git-lfs.github.com/spec/v1
+oid sha256:dc69f04c57ac233f68440607df3025c3f527f698c64e56350e0ea45b99be0781
+size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a6cd9ada0c89e07e180ef4e3a5bdc14470c4b9c1d8b88158be8ed8cef4bf377c
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:6ce31cedb3c2765a684ec6f8057f362dc008c191e855761ff2fb30ba5f1fb29d
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d0fc65b3869ebeb7a5d7d420159bfafde1ffecffe4a739eaebb4f61c9ea0708e
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:ec634d9549d9c3645447089832de3b53917dd1ce5acd38abf0faed5b1df6f1af
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": 24500,
   "best_metric": 1.445096731185913,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-24500",
-  "epoch": 1.9229290054611183,
   "eval_steps": 250,
-  "global_step": 25000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4308,6 +4308,92 @@
       "eval_samples_per_second": 54.096,
       "eval_steps_per_second": 13.524,
       "step": 25000
     }
   ],
   "logging_steps": 50,

   "best_global_step": 24500,
   "best_metric": 1.445096731185913,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-24500",
+  "epoch": 1.9613875855703409,
   "eval_steps": 250,
+  "global_step": 25500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 54.096,
       "eval_steps_per_second": 13.524,
       "step": 25000
+    },
+    {
+      "epoch": 1.9267748634720405,
+      "grad_norm": 1.4893878698349,
+      "learning_rate": 7.25449964937797e-05,
+      "loss": 1.5067,
+      "step": 25050
+    },
+    {
+      "epoch": 1.930620721482963,
+      "grad_norm": 0.8735935091972351,
+      "learning_rate": 7.228527647196322e-05,
+      "loss": 1.4671,
+      "step": 25100
+    },
+    {
+      "epoch": 1.9344665794938851,
+      "grad_norm": 1.6086535453796387,
+      "learning_rate": 7.202555645014675e-05,
+      "loss": 1.4551,
+      "step": 25150
+    },
+    {
+      "epoch": 1.9383124375048073,
+      "grad_norm": 0.683675229549408,
+      "learning_rate": 7.176583642833027e-05,
+      "loss": 1.4673,
+      "step": 25200
+    },
+    {
+      "epoch": 1.9421582955157297,
+      "grad_norm": 1.9318158626556396,
+      "learning_rate": 7.150611640651378e-05,
+      "loss": 1.4199,
+      "step": 25250
+    },
+    {
+      "epoch": 1.9421582955157297,
+      "eval_loss": 1.4574114084243774,
+      "eval_runtime": 18.5222,
+      "eval_samples_per_second": 53.989,
+      "eval_steps_per_second": 13.497,
+      "step": 25250
+    },
+    {
+      "epoch": 1.9460041535266517,
+      "grad_norm": 1.9871971607208252,
+      "learning_rate": 7.12463963846973e-05,
+      "loss": 1.5002,
+      "step": 25300
+    },
+    {
+      "epoch": 1.949850011537574,
+      "grad_norm": 1.4302830696105957,
+      "learning_rate": 7.098667636288082e-05,
+      "loss": 1.46,
+      "step": 25350
+    },
+    {
+      "epoch": 1.9536958695484963,
+      "grad_norm": 1.8389050960540771,
+      "learning_rate": 7.072695634106434e-05,
+      "loss": 1.4025,
+      "step": 25400
+    },
+    {
+      "epoch": 1.9575417275594185,
+      "grad_norm": 1.7089191675186157,
+      "learning_rate": 7.046723631924785e-05,
+      "loss": 1.4507,
+      "step": 25450
+    },
+    {
+      "epoch": 1.9613875855703409,
+      "grad_norm": 1.3698766231536865,
+      "learning_rate": 7.020751629743138e-05,
+      "loss": 1.4954,
+      "step": 25500
+    },
+    {
+      "epoch": 1.9613875855703409,
+      "eval_loss": 1.454710841178894,
+      "eval_runtime": 18.5708,
+      "eval_samples_per_second": 53.848,
+      "eval_steps_per_second": 13.462,
+      "step": 25500
     }
   ],
   "logging_steps": 50,