Training in progress, step 9000, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/ar_diffusion_info.bin +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +2 -2
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +90 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:64d306725c80312e5129c700db5f1b446afe8e7ae7dd6316ba0e260f92b175cc
 size 36730224

 version https://git-lfs.github.com/spec/v1
+oid sha256:d41b0a6b7b93326606bd1adb6fe554c4f3a4896093e8d2cda0d85615659fbea9
 size 36730224

last-checkpoint/ar_diffusion_info.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:aded19b16b58d2665657ed9436c8f8202f2f226989fa9f44064f3004c4c9f352
 size 1736

 version https://git-lfs.github.com/spec/v1
+oid sha256:61e6388870be8d5091de8ee4171a40d8d34fd90416acec89a4530ab1810d1d11
 size 1736

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6ef627c205c49617bbd8eff17e12d329ee9da18b36aa3d369121d14fed0afb2b
 size 73588346

 version https://git-lfs.github.com/spec/v1
+oid sha256:8114c7619958e289ae818af20bbbb40ca496ec99d1d2cf5336f332be768bd676
 size 73588346

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ca8ab81e621162f8a9202e1abd3bdf1fc40e3d6f45f592533b7f8b7c3cb0c2df
-size 14180

 version https://git-lfs.github.com/spec/v1
+oid sha256:6f82ab7544ab0f2c7299f888437f6d772f90becf0f776876608740887a96023f
+size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:54672d09f1aec146185491fd461111d38d14cab878b7fb3a8d83bbaa34824c7e
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:7c86e9949dede8e9039d4479cc9a7b6de2de62acc5bc9bce167cc78f0df5d789
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0d578571b1ae2f1a6a8668f7ff332c5420175cf78129d97a69b053a775064e46
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:67134d509d59e4154961ca89be855a6a8dd7ecee21023e7a214d3f3e40df8ac6
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 8500,
-  "best_metric": 1.4011365175247192,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-progressive-attention/checkpoint-8500",
-  "epoch": 0.6537958618567803,
   "eval_steps": 250,
-  "global_step": 8500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1470,6 +1470,92 @@
       "eval_samples_per_second": 58.954,
       "eval_steps_per_second": 14.739,
       "step": 8500
     }
   ],
   "logging_steps": 50,

 {
+  "best_global_step": 8750,
+  "best_metric": 1.3920339345932007,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-progressive-attention/checkpoint-8500",
+  "epoch": 0.6922544419660026,
   "eval_steps": 250,
+  "global_step": 9000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 58.954,
       "eval_steps_per_second": 14.739,
       "step": 8500
+    },
+    {
+      "epoch": 0.6576417198677025,
+      "grad_norm": 0.8412348628044128,
+      "learning_rate": 0.00015821624289016442,
+      "loss": 1.4098,
+      "step": 8550
+    },
+    {
+      "epoch": 0.6614875778786247,
+      "grad_norm": 1.3487842082977295,
+      "learning_rate": 0.00015795652286834793,
+      "loss": 1.4095,
+      "step": 8600
+    },
+    {
+      "epoch": 0.665333435889547,
+      "grad_norm": 1.1506551504135132,
+      "learning_rate": 0.00015769680284653145,
+      "loss": 1.4009,
+      "step": 8650
+    },
+    {
+      "epoch": 0.6691792939004692,
+      "grad_norm": 1.1333333253860474,
+      "learning_rate": 0.00015743708282471496,
+      "loss": 1.4042,
+      "step": 8700
+    },
+    {
+      "epoch": 0.6730251519113915,
+      "grad_norm": 1.1276965141296387,
+      "learning_rate": 0.00015717736280289847,
+      "loss": 1.4143,
+      "step": 8750
+    },
+    {
+      "epoch": 0.6730251519113915,
+      "eval_loss": 1.3920339345932007,
+      "eval_runtime": 16.7893,
+      "eval_samples_per_second": 59.562,
+      "eval_steps_per_second": 14.89,
+      "step": 8750
+    },
+    {
+      "epoch": 0.6768710099223136,
+      "grad_norm": 1.3561677932739258,
+      "learning_rate": 0.000156917642781082,
+      "loss": 1.4228,
+      "step": 8800
+    },
+    {
+      "epoch": 0.6807168679332359,
+      "grad_norm": 1.4107307195663452,
+      "learning_rate": 0.00015665792275926552,
+      "loss": 1.4227,
+      "step": 8850
+    },
+    {
+      "epoch": 0.6845627259441581,
+      "grad_norm": 1.4296494722366333,
+      "learning_rate": 0.00015639820273744904,
+      "loss": 1.3846,
+      "step": 8900
+    },
+    {
+      "epoch": 0.6884085839550804,
+      "grad_norm": 1.9556208848953247,
+      "learning_rate": 0.00015613848271563255,
+      "loss": 1.3799,
+      "step": 8950
+    },
+    {
+      "epoch": 0.6922544419660026,
+      "grad_norm": 0.8003421425819397,
+      "learning_rate": 0.00015587876269381606,
+      "loss": 1.3924,
+      "step": 9000
+    },
+    {
+      "epoch": 0.6922544419660026,
+      "eval_loss": 1.4001529216766357,
+      "eval_runtime": 16.7639,
+      "eval_samples_per_second": 59.652,
+      "eval_steps_per_second": 14.913,
+      "step": 9000
     }
   ],
   "logging_steps": 50,