Training in progress, step 11000, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/ar_diffusion_info.bin +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +2 -2
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +91 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ac66d1bed32cb77a6fe046d97ff60fe2cfaef95ddf73a9bf13a7ff56a55c11af
 size 36730224

 version https://git-lfs.github.com/spec/v1
+oid sha256:78684fe66423fcc71792a533cdf4a615150a5d7719cd88fbc583e2cf7207b1f2
 size 36730224

last-checkpoint/ar_diffusion_info.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:298a32675b40f08695b3fb4fa7bbd261866561afa1edbe21444c5e1018c7c6df
 size 1736

 version https://git-lfs.github.com/spec/v1
+oid sha256:9d827d0c5de1fe1d4d42261146337ddfecdb8784573ad919f9058a14e73074cb
 size 1736

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:df829391bae99716149a25d0f76e0e75e0e3329d3b7ef7d8f960f81bf3520101
 size 73588346

 version https://git-lfs.github.com/spec/v1
+oid sha256:b118dfa8e1001390c89e0eac0d61d9f1d84255e6c68db2d2cc7fd7107e67ae24
 size 73588346

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2286056e584e728d67ca2ee5e9e130931cc603f814dc38d9957d5e8ae618fb75
-size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:0b1422ca832a4908b348152649eb6c40e62866db2c96015a75fe3a4ed0effd72
+size 14180

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:64e34184efeb9f5a5622c883abc37387f021455b8ebc365e06c304057c5bb8b6
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:b71aebdeeb32cab8c73c6ce65908475546106933ecd5ef49363bd4d3f77b4ba2
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:83df1333fe8f59c1710a91e769544177d60bc5aa48c1018ddd6a061172e2a46b
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:a1d6a033c9c4c6cee23163acb32007f6f866e5b846f8755100cbc84bc6fe976e
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 10500,
-  "best_metric": 1.3613618612289429,
-  "best_model_checkpoint": "./ar-diffusion-checkpoints-progressive-attention/checkpoint-10500",
-  "epoch": 0.8076301822936697,
   "eval_steps": 250,
-  "global_step": 10500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1814,6 +1814,92 @@
       "eval_samples_per_second": 59.523,
       "eval_steps_per_second": 14.881,
       "step": 10500
     }
   ],
   "logging_steps": 50,

 {
+  "best_global_step": 11000,
+  "best_metric": 1.3456926345825195,
+  "best_model_checkpoint": "./ar-diffusion-checkpoints-progressive-attention/checkpoint-11000",
+  "epoch": 0.8460887624028921,
   "eval_steps": 250,
+  "global_step": 11000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 59.523,
       "eval_steps_per_second": 14.881,
       "step": 10500
+    },
+    {
+      "epoch": 0.811476040304592,
+      "grad_norm": 1.2509782314300537,
+      "learning_rate": 0.00014782744201750512,
+      "loss": 1.4795,
+      "step": 10550
+    },
+    {
+      "epoch": 0.8153218983155142,
+      "grad_norm": 1.7617859840393066,
+      "learning_rate": 0.00014756772199568864,
+      "loss": 1.4244,
+      "step": 10600
+    },
+    {
+      "epoch": 0.8191677563264365,
+      "grad_norm": 1.4050170183181763,
+      "learning_rate": 0.00014730800197387218,
+      "loss": 1.3426,
+      "step": 10650
+    },
+    {
+      "epoch": 0.8230136143373586,
+      "grad_norm": 1.3139458894729614,
+      "learning_rate": 0.0001470482819520557,
+      "loss": 1.4864,
+      "step": 10700
+    },
+    {
+      "epoch": 0.8268594723482809,
+      "grad_norm": 1.7595279216766357,
+      "learning_rate": 0.0001467885619302392,
+      "loss": 1.3767,
+      "step": 10750
+    },
+    {
+      "epoch": 0.8268594723482809,
+      "eval_loss": 1.35465407371521,
+      "eval_runtime": 16.8836,
+      "eval_samples_per_second": 59.229,
+      "eval_steps_per_second": 14.807,
+      "step": 10750
+    },
+    {
+      "epoch": 0.8307053303592031,
+      "grad_norm": 1.3413208723068237,
+      "learning_rate": 0.00014652884190842274,
+      "loss": 1.3273,
+      "step": 10800
+    },
+    {
+      "epoch": 0.8345511883701254,
+      "grad_norm": 1.6046358346939087,
+      "learning_rate": 0.00014626912188660625,
+      "loss": 1.3967,
+      "step": 10850
+    },
+    {
+      "epoch": 0.8383970463810476,
+      "grad_norm": 1.2793117761611938,
+      "learning_rate": 0.00014600940186478977,
+      "loss": 1.4168,
+      "step": 10900
+    },
+    {
+      "epoch": 0.8422429043919698,
+      "grad_norm": 1.1738851070404053,
+      "learning_rate": 0.00014574968184297328,
+      "loss": 1.3577,
+      "step": 10950
+    },
+    {
+      "epoch": 0.8460887624028921,
+      "grad_norm": 1.3740490674972534,
+      "learning_rate": 0.0001454899618211568,
+      "loss": 1.3609,
+      "step": 11000
+    },
+    {
+      "epoch": 0.8460887624028921,
+      "eval_loss": 1.3456926345825195,
+      "eval_runtime": 16.7867,
+      "eval_samples_per_second": 59.571,
+      "eval_steps_per_second": 14.893,
+      "step": 11000
     }
   ],
   "logging_steps": 50,