Training in progress, step 36000, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/ar_diffusion_info.bin +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +2 -2
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +88 -2

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cad19b1bbdb7570168a857d04b0badb427b439bfb6d74e023668d1ee7a49d209
 size 36730224

 version https://git-lfs.github.com/spec/v1
+oid sha256:16887918a2514cde38397627644e79ad7a7cc859123d9755cbcacbf31a8c9f7d
 size 36730224

last-checkpoint/ar_diffusion_info.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:147d1b9d26e62d2fd8dd2d02dbf00a76a94d4e43d7bf6241907ca36cdc920537
 size 1736

 version https://git-lfs.github.com/spec/v1
+oid sha256:fc4a7c0e93c6189640f847962e46079ebcf94653f638d4fdd14079010baf0e65
 size 1736

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cfbea59d5107cfdfc45afcc08cb49f7d291f1d605976088bffde49c00df10f70
 size 73588346

 version https://git-lfs.github.com/spec/v1
+oid sha256:266a495e1a502f1d39b57b5fcb15d594e7ebb88b9a37c10fcde88037b918f14e
 size 73588346

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:794b2d7734896f09d529efb9a92a21c928e4cfc02d074667ee89fb5190300335
-size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:6c600e0bd51e53276481f2f5ca4e889540a7504baebe1c05ac1ae4c81b5b17f3
+size 14180

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b4df8567ad6b42579407169e339ee1469d124e6f0bdf185b7ba1cb62f796a196
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:49ec2d3f3b18676d40b30b5547947dd759a32e3455d479b941fbf8c1dd3301d4
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f72dabb66926d5f103787feb6d06e607565f49ca5105e75822f116bfd973c31b
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:906c43e30b9edc8f130b3f77317e01f206c6e5f1267c22ca4899b9c5968ba8ca
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": 35500,
   "best_metric": -30.469755172729492,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-progressive-attention/checkpoint-35500",
-  "epoch": 2.730559187754788,
   "eval_steps": 250,
-  "global_step": 35500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -6114,6 +6114,92 @@
       "eval_samples_per_second": 59.371,
       "eval_steps_per_second": 14.843,
       "step": 35500
     }
   ],
   "logging_steps": 50,

   "best_global_step": 35500,
   "best_metric": -30.469755172729492,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-progressive-attention/checkpoint-35500",
+  "epoch": 2.7690177678640104,
   "eval_steps": 250,
+  "global_step": 36000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 59.371,
       "eval_steps_per_second": 14.843,
       "step": 35500
+    },
+    {
+      "epoch": 2.73440504576571,
+      "grad_norm": 1.0075780153274536,
+      "learning_rate": 1.801937511362751e-05,
+      "loss": -30.4655,
+      "step": 35550
+    },
+    {
+      "epoch": 2.7382509037766325,
+      "grad_norm": 1.856740117073059,
+      "learning_rate": 1.775965509181103e-05,
+      "loss": -30.4653,
+      "step": 35600
+    },
+    {
+      "epoch": 2.742096761787555,
+      "grad_norm": 0.6788634657859802,
+      "learning_rate": 1.7499935069994548e-05,
+      "loss": -30.4655,
+      "step": 35650
+    },
+    {
+      "epoch": 2.745942619798477,
+      "grad_norm": 0.9009542465209961,
+      "learning_rate": 1.7240215048178064e-05,
+      "loss": -30.4656,
+      "step": 35700
+    },
+    {
+      "epoch": 2.7497884778093993,
+      "grad_norm": 1.9731862545013428,
+      "learning_rate": 1.6980495026361584e-05,
+      "loss": -30.4643,
+      "step": 35750
+    },
+    {
+      "epoch": 2.7497884778093993,
+      "eval_loss": -30.46780014038086,
+      "eval_runtime": 16.8878,
+      "eval_samples_per_second": 59.214,
+      "eval_steps_per_second": 14.804,
+      "step": 35750
+    },
+    {
+      "epoch": 2.7536343358203217,
+      "grad_norm": 1.0164039134979248,
+      "learning_rate": 1.67207750045451e-05,
+      "loss": -30.4655,
+      "step": 35800
+    },
+    {
+      "epoch": 2.7574801938312437,
+      "grad_norm": 1.1127376556396484,
+      "learning_rate": 1.646105498272862e-05,
+      "loss": -30.4657,
+      "step": 35850
+    },
+    {
+      "epoch": 2.761326051842166,
+      "grad_norm": 1.2492812871932983,
+      "learning_rate": 1.6201334960912136e-05,
+      "loss": -30.4659,
+      "step": 35900
+    },
+    {
+      "epoch": 2.7651719098530885,
+      "grad_norm": 0.944760799407959,
+      "learning_rate": 1.5941614939095655e-05,
+      "loss": -30.4654,
+      "step": 35950
+    },
+    {
+      "epoch": 2.7690177678640104,
+      "grad_norm": 0.7091095447540283,
+      "learning_rate": 1.5681894917279175e-05,
+      "loss": -30.4654,
+      "step": 36000
+    },
+    {
+      "epoch": 2.7690177678640104,
+      "eval_loss": -30.46934700012207,
+      "eval_runtime": 16.7482,
+      "eval_samples_per_second": 59.708,
+      "eval_steps_per_second": 14.927,
+      "step": 36000
     }
   ],
   "logging_steps": 50,