Training in progress, step 36000, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/ar_diffusion_info.bin +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +88 -2

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c4d51eeeda51bc19f5c6d7222c3569a8b30c8252006cab154f166725a5d6a0a8
 size 36730224

 version https://git-lfs.github.com/spec/v1
+oid sha256:74ae96a07f0a1364fae979dc8192670789abe5ddf742fd023b1f7e6cff9f0baf
 size 36730224

last-checkpoint/ar_diffusion_info.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fc1b1084a32b0cff2b333748a7e838a8590ff81e228b7c3e840ae1cbbc113c15
 size 1544

 version https://git-lfs.github.com/spec/v1
+oid sha256:14c071741a7326f16a83b0de63af44ed2b3c7961447b59e277e8e3f8fd62b865
 size 1544

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:86e904a91e2cb70946038bcc4ef0f399dffd5e68a67a3db4e06d21064557dbb3
 size 73588346

 version https://git-lfs.github.com/spec/v1
+oid sha256:ae2cee13b4f8b39a57ec4a0861bd7b8c66161ea17bdf36a9f9ee8d1ce1e2759c
 size 73588346

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c53689ea6f99d2293000a099d231d87ec2b98e3ae16c084822ed187b69c19695
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:c6591f94e486820dc9de5c16ae67ac55b097fbd6c09cd7885ab8396b22d79615
 size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c0b69fcd3d6df327b4f7a7f693a8457e7a615ee5a38d8957008f6b6d0162dd3f
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:f183c8ebab3f56f9652055ab8d2536f1affa446052e58c49d6e1ac9410f236aa
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f72dabb66926d5f103787feb6d06e607565f49ca5105e75822f116bfd973c31b
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:906c43e30b9edc8f130b3f77317e01f206c6e5f1267c22ca4899b9c5968ba8ca
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": 34000,
   "best_metric": 0.987713634967804,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-34000",
-  "epoch": 2.730559187754788,
   "eval_steps": 250,
-  "global_step": 35500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -6114,6 +6114,92 @@
       "eval_samples_per_second": 58.178,
       "eval_steps_per_second": 14.544,
       "step": 35500
     }
   ],
   "logging_steps": 50,

   "best_global_step": 34000,
   "best_metric": 0.987713634967804,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-34000",
+  "epoch": 2.7690177678640104,
   "eval_steps": 250,
+  "global_step": 36000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 58.178,
       "eval_steps_per_second": 14.544,
       "step": 35500
+    },
+    {
+      "epoch": 2.73440504576571,
+      "grad_norm": 0.66939777135849,
+      "learning_rate": 1.801937511362751e-05,
+      "loss": 0.8892,
+      "step": 35550
+    },
+    {
+      "epoch": 2.7382509037766325,
+      "grad_norm": 1.0852998495101929,
+      "learning_rate": 1.775965509181103e-05,
+      "loss": 0.9502,
+      "step": 35600
+    },
+    {
+      "epoch": 2.742096761787555,
+      "grad_norm": 0.7603423595428467,
+      "learning_rate": 1.7499935069994548e-05,
+      "loss": 1.0034,
+      "step": 35650
+    },
+    {
+      "epoch": 2.745942619798477,
+      "grad_norm": 0.4625702202320099,
+      "learning_rate": 1.7240215048178064e-05,
+      "loss": 1.0123,
+      "step": 35700
+    },
+    {
+      "epoch": 2.7497884778093993,
+      "grad_norm": 1.4387953281402588,
+      "learning_rate": 1.6980495026361584e-05,
+      "loss": 0.9704,
+      "step": 35750
+    },
+    {
+      "epoch": 2.7497884778093993,
+      "eval_loss": 0.9952225685119629,
+      "eval_runtime": 17.4458,
+      "eval_samples_per_second": 57.32,
+      "eval_steps_per_second": 14.33,
+      "step": 35750
+    },
+    {
+      "epoch": 2.7536343358203217,
+      "grad_norm": 0.6899126172065735,
+      "learning_rate": 1.67207750045451e-05,
+      "loss": 0.9627,
+      "step": 35800
+    },
+    {
+      "epoch": 2.7574801938312437,
+      "grad_norm": 1.0329424142837524,
+      "learning_rate": 1.646105498272862e-05,
+      "loss": 0.9207,
+      "step": 35850
+    },
+    {
+      "epoch": 2.761326051842166,
+      "grad_norm": 1.1055504083633423,
+      "learning_rate": 1.6201334960912136e-05,
+      "loss": 0.9834,
+      "step": 35900
+    },
+    {
+      "epoch": 2.7651719098530885,
+      "grad_norm": 0.7458188533782959,
+      "learning_rate": 1.5941614939095655e-05,
+      "loss": 1.003,
+      "step": 35950
+    },
+    {
+      "epoch": 2.7690177678640104,
+      "grad_norm": 1.112021803855896,
+      "learning_rate": 1.5681894917279175e-05,
+      "loss": 1.0001,
+      "step": 36000
+    },
+    {
+      "epoch": 2.7690177678640104,
+      "eval_loss": 0.9910063147544861,
+      "eval_runtime": 17.2718,
+      "eval_samples_per_second": 57.898,
+      "eval_steps_per_second": 14.474,
+      "step": 36000
     }
   ],
   "logging_steps": 50,