Training in progress, step 6000, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/ar_diffusion_info.bin +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +91 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4eb8910307bec61db122da2594e6b3f530d868dc95f89d2ca698471ef1bf7e40
 size 36730224

 version https://git-lfs.github.com/spec/v1
+oid sha256:0d3519cd9f54111b61d5c7bda32b6503a50d9a901f0867b18c77e1c8775d34cc
 size 36730224

last-checkpoint/ar_diffusion_info.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7f7c3bd2e2b53a0436de47612a1d9d71e57d2e478df8b52acc7aec65dc000186
 size 1736

 version https://git-lfs.github.com/spec/v1
+oid sha256:fc8be5680951e9b7e427f6500eddc8c10ce019d345c9c9f83581fc8bb331d518
 size 1736

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:42be51fbf276340c9331b95a10d361ad5f54ac5fddd8d3003ab5a2b3205b1bf3
 size 73588346

 version https://git-lfs.github.com/spec/v1
+oid sha256:fead462933224306a9b42a0eb2433085db43c13976438f5d79faccec086ccd4f
 size 73588346

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:edba3e2e11b49613ce2a377ec116d91655a77025fcd35863ca859fcc236283bd
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:f460ca4efaa2c47b577474097b3561bee10506073f07d444922fddb74fb1bc7b
 size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ee231d5124e1faa72bb59e0d3351580448c9875eebe2a58142e26f5eeab5354c
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:faa0523a11b32ac61978a5b91bfe471f27b6d880dfaedd29cb6e6516dad00d0b
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c1402f998a531b2d9e639df3a0d0bab3a51ee695db29df819edf5370824d49f4
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:1ee9289020d6b3ecd17f692689ed65a2fe5f50143b40afcd424248034cb8eabc
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 5250,
-  "best_metric": 1.4721767902374268,
-  "best_model_checkpoint": "./ar-diffusion-checkpoints-progressive-attention/checkpoint-5000",
-  "epoch": 0.42304438120144605,
   "eval_steps": 250,
-  "global_step": 5500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -954,6 +954,92 @@
       "eval_samples_per_second": 59.336,
       "eval_steps_per_second": 14.834,
       "step": 5500
     }
   ],
   "logging_steps": 50,

 {
+  "best_global_step": 6000,
+  "best_metric": 1.4524279832839966,
+  "best_model_checkpoint": "./ar-diffusion-checkpoints-progressive-attention/checkpoint-6000",
+  "epoch": 0.4615029613106684,
   "eval_steps": 250,
+  "global_step": 6000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 59.336,
       "eval_steps_per_second": 14.834,
       "step": 5500
+    },
+    {
+      "epoch": 0.4268902392123683,
+      "grad_norm": 1.1347377300262451,
+      "learning_rate": 0.00017379424979871699,
+      "loss": 1.4507,
+      "step": 5550
+    },
+    {
+      "epoch": 0.43073609722329054,
+      "grad_norm": 1.5237597227096558,
+      "learning_rate": 0.0001735345297769005,
+      "loss": 1.4066,
+      "step": 5600
+    },
+    {
+      "epoch": 0.4345819552342128,
+      "grad_norm": 1.0041602849960327,
+      "learning_rate": 0.00017327480975508404,
+      "loss": 1.4724,
+      "step": 5650
+    },
+    {
+      "epoch": 0.43842781324513497,
+      "grad_norm": 1.3285658359527588,
+      "learning_rate": 0.00017301508973326755,
+      "loss": 1.5599,
+      "step": 5700
+    },
+    {
+      "epoch": 0.4422736712560572,
+      "grad_norm": 0.7520576119422913,
+      "learning_rate": 0.00017275536971145106,
+      "loss": 1.4572,
+      "step": 5750
+    },
+    {
+      "epoch": 0.4422736712560572,
+      "eval_loss": 1.4671169519424438,
+      "eval_runtime": 16.9411,
+      "eval_samples_per_second": 59.028,
+      "eval_steps_per_second": 14.757,
+      "step": 5750
+    },
+    {
+      "epoch": 0.44611952926697945,
+      "grad_norm": 1.737941861152649,
+      "learning_rate": 0.00017249564968963458,
+      "loss": 1.5221,
+      "step": 5800
+    },
+    {
+      "epoch": 0.4499653872779017,
+      "grad_norm": 1.5023373365402222,
+      "learning_rate": 0.0001722359296678181,
+      "loss": 1.5291,
+      "step": 5850
+    },
+    {
+      "epoch": 0.45381124528882394,
+      "grad_norm": 1.2984132766723633,
+      "learning_rate": 0.00017197620964600163,
+      "loss": 1.4288,
+      "step": 5900
+    },
+    {
+      "epoch": 0.4576571032997462,
+      "grad_norm": 1.1742748022079468,
+      "learning_rate": 0.00017171648962418514,
+      "loss": 1.4943,
+      "step": 5950
+    },
+    {
+      "epoch": 0.4615029613106684,
+      "grad_norm": 1.8346530199050903,
+      "learning_rate": 0.00017145676960236866,
+      "loss": 1.489,
+      "step": 6000
+    },
+    {
+      "epoch": 0.4615029613106684,
+      "eval_loss": 1.4524279832839966,
+      "eval_runtime": 16.8863,
+      "eval_samples_per_second": 59.22,
+      "eval_steps_per_second": 14.805,
+      "step": 6000
     }
   ],
   "logging_steps": 50,