Training in progress, step 26000, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/ar_diffusion_info.bin +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +88 -2

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a05a340cb4a65f48636e96ed4fd91629d922458e974787fca1ba7f6545c46cb6
 size 36730224

 version https://git-lfs.github.com/spec/v1
+oid sha256:354784630980b3e128043f599d1fa81d4eaeefccc49f9c73ac417f4b9affdc81
 size 36730224

last-checkpoint/ar_diffusion_info.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fe554b76c07e1e707d896c2ee3a20371f26db4350a7a78776a0cbae8a2db2c39
 size 1544

 version https://git-lfs.github.com/spec/v1
+oid sha256:a382cd1d7b1cfe5578921e4a35263f149f5e86ef7359d296d8b1f906cce62a74
 size 1544

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d55ae62412810c5314e1159d09e99db512bb7ac1a37d12bf0208475b2b472ef4
 size 73588346

 version https://git-lfs.github.com/spec/v1
+oid sha256:fbdd51e862aa846114442fbe4fc73ff82d5222c26562144ee40037d5d63ab0b6
 size 73588346

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dc69f04c57ac233f68440607df3025c3f527f698c64e56350e0ea45b99be0781
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:35c260873e53de579d314af7f23d76fd9a02c023129e1ca7c8f1d3d5f4fae1d0
 size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6ce31cedb3c2765a684ec6f8057f362dc008c191e855761ff2fb30ba5f1fb29d
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:bfd4827b4f5f4123b9a08cd207611b32b5022ac9c327a327659c2a44bd51e209
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ec634d9549d9c3645447089832de3b53917dd1ce5acd38abf0faed5b1df6f1af
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:7f5beeb269815e15f5dc6759e189a2780818b22a064798960c77eef6918e2b17
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": 24500,
   "best_metric": 1.445096731185913,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-24500",
-  "epoch": 1.9613875855703409,
   "eval_steps": 250,
-  "global_step": 25500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4394,6 +4394,92 @@
       "eval_samples_per_second": 53.848,
       "eval_steps_per_second": 13.462,
       "step": 25500
     }
   ],
   "logging_steps": 50,

   "best_global_step": 24500,
   "best_metric": 1.445096731185913,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-24500",
+  "epoch": 1.9998461656795632,
   "eval_steps": 250,
+  "global_step": 26000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 53.848,
       "eval_steps_per_second": 13.462,
       "step": 25500
+    },
+    {
+      "epoch": 1.9652334435812628,
+      "grad_norm": 1.808030128479004,
+      "learning_rate": 6.994779627561489e-05,
+      "loss": 1.4254,
+      "step": 25550
+    },
+    {
+      "epoch": 1.9690793015921852,
+      "grad_norm": 1.634099006652832,
+      "learning_rate": 6.96880762537984e-05,
+      "loss": 1.3325,
+      "step": 25600
+    },
+    {
+      "epoch": 1.9729251596031074,
+      "grad_norm": 0.8857108354568481,
+      "learning_rate": 6.942835623198193e-05,
+      "loss": 1.3983,
+      "step": 25650
+    },
+    {
+      "epoch": 1.9767710176140296,
+      "grad_norm": 1.6114498376846313,
+      "learning_rate": 6.916863621016545e-05,
+      "loss": 1.3348,
+      "step": 25700
+    },
+    {
+      "epoch": 1.980616875624952,
+      "grad_norm": 1.4415462017059326,
+      "learning_rate": 6.890891618834895e-05,
+      "loss": 1.4617,
+      "step": 25750
+    },
+    {
+      "epoch": 1.980616875624952,
+      "eval_loss": 1.4457746744155884,
+      "eval_runtime": 17.9567,
+      "eval_samples_per_second": 55.689,
+      "eval_steps_per_second": 13.922,
+      "step": 25750
+    },
+    {
+      "epoch": 1.984462733635874,
+      "grad_norm": 1.9614554643630981,
+      "learning_rate": 6.864919616653248e-05,
+      "loss": 1.3813,
+      "step": 25800
+    },
+    {
+      "epoch": 1.9883085916467964,
+      "grad_norm": 1.2938437461853027,
+      "learning_rate": 6.8389476144716e-05,
+      "loss": 1.4047,
+      "step": 25850
+    },
+    {
+      "epoch": 1.9921544496577186,
+      "grad_norm": 2.1129326820373535,
+      "learning_rate": 6.812975612289952e-05,
+      "loss": 1.4362,
+      "step": 25900
+    },
+    {
+      "epoch": 1.9960003076686408,
+      "grad_norm": 0.8634279370307922,
+      "learning_rate": 6.787003610108303e-05,
+      "loss": 1.4805,
+      "step": 25950
+    },
+    {
+      "epoch": 1.9998461656795632,
+      "grad_norm": 2.995699405670166,
+      "learning_rate": 6.761031607926656e-05,
+      "loss": 1.5073,
+      "step": 26000
+    },
+    {
+      "epoch": 1.9998461656795632,
+      "eval_loss": 1.453719973564148,
+      "eval_runtime": 18.0595,
+      "eval_samples_per_second": 55.373,
+      "eval_steps_per_second": 13.843,
+      "step": 26000
     }
   ],
   "logging_steps": 50,