Training in progress, step 19000, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/ar_diffusion_info.bin +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +90 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:566ede041af9927aaf3a99063bbbb39906d51b0dae6dc2971321cd81bbe6d46b
 size 36730224

 version https://git-lfs.github.com/spec/v1
+oid sha256:31847bb52936d686e74359d3478c14923c1ebe168be3dabe55eeb97e094e4e4d
 size 36730224

last-checkpoint/ar_diffusion_info.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8245a854cccd4f75ef67a2fc0a146b42b9184d6fe923ca2ace73890f7dc48c4e
 size 1544

 version https://git-lfs.github.com/spec/v1
+oid sha256:a28811b9b6f21f7c3eb8dd1560ffdbc347e72ba020959bb8f5bc088d847bdc83
 size 1544

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:14726f58d8d95f5ffac4c91fb097e80457cec53c8bddd8e102b784c0cb3b5e7e
 size 73588346

 version https://git-lfs.github.com/spec/v1
+oid sha256:40965b88e5eb22bf8d3caa10525eb8f13ed0f07bce8d46631079916b2bb29747
 size 73588346

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a637703e63dd26bf3fc5d45021980dfb8c6c15b36b34b2b812e241dcfa5b3276
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:3c57dd490464340c9b3aa212b9d3844b50cfd1f6b44323e804e87459d3ff333e
 size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9b057aaa1f69d73e0bf4ef4b900fbc14f133252f8a709b65c493591309b84be0
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:dbc432474a75821e9b2dae49e65dbd5211090e2d95ceeb48957adde037f27b78
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3b19e0d45d48155881edd9e1c841838b3186845172b736cd05c0110b70c24971
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:68cdaa34d552da65c658445f52e286a15f93a5093fe3daa82953914a2ad847cc
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 16750,
-  "best_metric": 1.4798808097839355,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-15500",
-  "epoch": 1.4229674640412275,
   "eval_steps": 250,
-  "global_step": 18500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3190,6 +3190,92 @@
       "eval_samples_per_second": 56.419,
       "eval_steps_per_second": 14.105,
       "step": 18500
     }
   ],
   "logging_steps": 50,

 {
+  "best_global_step": 18750,
+  "best_metric": 1.4757392406463623,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-15500",
+  "epoch": 1.4614260441504499,
   "eval_steps": 250,
+  "global_step": 19000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 56.419,
       "eval_steps_per_second": 14.105,
       "step": 18500
+    },
+    {
+      "epoch": 1.42681332205215,
+      "grad_norm": 1.0700381994247437,
+      "learning_rate": 0.0001062982105290497,
+      "loss": 1.3846,
+      "step": 18550
+    },
+    {
+      "epoch": 1.4306591800630721,
+      "grad_norm": 1.2848351001739502,
+      "learning_rate": 0.0001060384905072332,
+      "loss": 1.4874,
+      "step": 18600
+    },
+    {
+      "epoch": 1.4345050380739943,
+      "grad_norm": 1.4261386394500732,
+      "learning_rate": 0.00010577877048541674,
+      "loss": 1.5771,
+      "step": 18650
+    },
+    {
+      "epoch": 1.4383508960849165,
+      "grad_norm": 1.3613426685333252,
+      "learning_rate": 0.00010551905046360025,
+      "loss": 1.4445,
+      "step": 18700
+    },
+    {
+      "epoch": 1.4421967540958387,
+      "grad_norm": 0.8625685572624207,
+      "learning_rate": 0.00010525933044178375,
+      "loss": 1.3845,
+      "step": 18750
+    },
+    {
+      "epoch": 1.4421967540958387,
+      "eval_loss": 1.4757392406463623,
+      "eval_runtime": 17.8903,
+      "eval_samples_per_second": 55.896,
+      "eval_steps_per_second": 13.974,
+      "step": 18750
+    },
+    {
+      "epoch": 1.446042612106761,
+      "grad_norm": 1.5575672388076782,
+      "learning_rate": 0.00010499961041996729,
+      "loss": 1.5387,
+      "step": 18800
+    },
+    {
+      "epoch": 1.4498884701176833,
+      "grad_norm": 2.2173306941986084,
+      "learning_rate": 0.0001047398903981508,
+      "loss": 1.459,
+      "step": 18850
+    },
+    {
+      "epoch": 1.4537343281286055,
+      "grad_norm": 1.904809832572937,
+      "learning_rate": 0.00010448017037633431,
+      "loss": 1.5229,
+      "step": 18900
+    },
+    {
+      "epoch": 1.4575801861395277,
+      "grad_norm": 1.8832893371582031,
+      "learning_rate": 0.00010422045035451784,
+      "loss": 1.4093,
+      "step": 18950
+    },
+    {
+      "epoch": 1.4614260441504499,
+      "grad_norm": 1.852971076965332,
+      "learning_rate": 0.00010396073033270135,
+      "loss": 1.389,
+      "step": 19000
+    },
+    {
+      "epoch": 1.4614260441504499,
+      "eval_loss": 1.4788576364517212,
+      "eval_runtime": 17.7751,
+      "eval_samples_per_second": 56.258,
+      "eval_steps_per_second": 14.065,
+      "step": 19000
     }
   ],
   "logging_steps": 50,