Training in progress, step 25000, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/ar_diffusion_info.bin +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +2 -2
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +88 -2

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fe77af0b92d78af8f090fa50857d0c38d1b1c8c9a61171e03ceab5a8bf778802
 size 36730224

 version https://git-lfs.github.com/spec/v1
+oid sha256:53ba090014a5fdd08b7878dce816fc2bcc21b79b5293e870aee77f6ca34193d8
 size 36730224

last-checkpoint/ar_diffusion_info.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9b6fd07dac8559828de7e766ee09820ece8ba98e8864c99beb26f34eb1163183
 size 1544

 version https://git-lfs.github.com/spec/v1
+oid sha256:d5294506a0dbe88e79db7cf86a6033ff90def7db0343064423c20938cbd5a481
 size 1544

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2af1c783f76f5348e49f62ee7a890b8e943c0ef68fa2435323d3eee421b050d6
 size 73588346

 version https://git-lfs.github.com/spec/v1
+oid sha256:af842a0894abafa3506e73299546568446a97e1ea7329265514a89728c57bd43
 size 73588346

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e6abd220bb5c699b08784d9e5bd7e4f3c387ae6cf3a2fc509bcb49366bfaee15
-size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:f4a89f558d7b243194fee72d6e3b515995ba03b6bdbb2a1ac92b9b326a12ba3e
+size 14308

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:53322b8d938de07c14e159878b580255485dcd3bd83b66c76e6228ae02ba69d0
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:a6cd9ada0c89e07e180ef4e3a5bdc14470c4b9c1d8b88158be8ed8cef4bf377c
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6c34139dcaf2b70cc0d5b8ce63586446a3e5ce8fa9ab1d39d72513aeacbe3543
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:d0fc65b3869ebeb7a5d7d420159bfafde1ffecffe4a739eaebb4f61c9ea0708e
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": 24500,
   "best_metric": 1.445096731185913,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-24500",
-  "epoch": 1.884470425351896,
   "eval_steps": 250,
-  "global_step": 24500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4222,6 +4222,92 @@
       "eval_samples_per_second": 54.114,
       "eval_steps_per_second": 13.528,
       "step": 24500
     }
   ],
   "logging_steps": 50,

   "best_global_step": 24500,
   "best_metric": 1.445096731185913,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-24500",
+  "epoch": 1.9229290054611183,
   "eval_steps": 250,
+  "global_step": 25000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 54.114,
       "eval_steps_per_second": 13.528,
       "step": 24500
+    },
+    {
+      "epoch": 1.8883162833628182,
+      "grad_norm": 3.0785481929779053,
+      "learning_rate": 7.51370023115082e-05,
+      "loss": 1.493,
+      "step": 24550
+    },
+    {
+      "epoch": 1.8921621413737406,
+      "grad_norm": 1.2793898582458496,
+      "learning_rate": 7.487728228969173e-05,
+      "loss": 1.3865,
+      "step": 24600
+    },
+    {
+      "epoch": 1.8960079993846626,
+      "grad_norm": 1.474137544631958,
+      "learning_rate": 7.461756226787522e-05,
+      "loss": 1.4316,
+      "step": 24650
+    },
+    {
+      "epoch": 1.899853857395585,
+      "grad_norm": 1.270415186882019,
+      "learning_rate": 7.435784224605875e-05,
+      "loss": 1.3844,
+      "step": 24700
+    },
+    {
+      "epoch": 1.9036997154065072,
+      "grad_norm": 1.3681602478027344,
+      "learning_rate": 7.409812222424228e-05,
+      "loss": 1.4202,
+      "step": 24750
+    },
+    {
+      "epoch": 1.9036997154065072,
+      "eval_loss": 1.4705748558044434,
+      "eval_runtime": 18.5933,
+      "eval_samples_per_second": 53.783,
+      "eval_steps_per_second": 13.446,
+      "step": 24750
+    },
+    {
+      "epoch": 1.9075455734174294,
+      "grad_norm": 1.028225302696228,
+      "learning_rate": 7.384359660286212e-05,
+      "loss": 1.4658,
+      "step": 24800
+    },
+    {
+      "epoch": 1.9113914314283518,
+      "grad_norm": 1.1178765296936035,
+      "learning_rate": 7.358387658104564e-05,
+      "loss": 1.4616,
+      "step": 24850
+    },
+    {
+      "epoch": 1.9152372894392737,
+      "grad_norm": 2.1088242530822754,
+      "learning_rate": 7.332415655922915e-05,
+      "loss": 1.4916,
+      "step": 24900
+    },
+    {
+      "epoch": 1.9190831474501961,
+      "grad_norm": 0.7096924781799316,
+      "learning_rate": 7.306443653741267e-05,
+      "loss": 1.3687,
+      "step": 24950
+    },
+    {
+      "epoch": 1.9229290054611183,
+      "grad_norm": 1.4435713291168213,
+      "learning_rate": 7.28047165155962e-05,
+      "loss": 1.5273,
+      "step": 25000
+    },
+    {
+      "epoch": 1.9229290054611183,
+      "eval_loss": 1.4638206958770752,
+      "eval_runtime": 18.4856,
+      "eval_samples_per_second": 54.096,
+      "eval_steps_per_second": 13.524,
+      "step": 25000
     }
   ],
   "logging_steps": 50,