Training in progress, step 10500, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/ar_diffusion_info.bin +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +2 -2
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +91 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eb0e3c8eeaeaaeed92b7974a796b8555d972ab04a230ed8a0aa39040f919522e
 size 36730224

 version https://git-lfs.github.com/spec/v1
+oid sha256:ac66d1bed32cb77a6fe046d97ff60fe2cfaef95ddf73a9bf13a7ff56a55c11af
 size 36730224

last-checkpoint/ar_diffusion_info.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dbc9386aa433cf09ea700ba9554d99ebbf74421553fda8c6e9f15d579ffea58d
 size 1736

 version https://git-lfs.github.com/spec/v1
+oid sha256:298a32675b40f08695b3fb4fa7bbd261866561afa1edbe21444c5e1018c7c6df
 size 1736

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:845a998395b0eed3947658b954a32b49a265bc7bcb21586d38b38bbd5b7b0ca3
 size 73588346

 version https://git-lfs.github.com/spec/v1
+oid sha256:df829391bae99716149a25d0f76e0e75e0e3329d3b7ef7d8f960f81bf3520101
 size 73588346

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:45788da03bae97e95c3537137dc4032cafd5cea57659195759c4661fda86a92e
-size 14180

 version https://git-lfs.github.com/spec/v1
+oid sha256:2286056e584e728d67ca2ee5e9e130931cc603f814dc38d9957d5e8ae618fb75
+size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:59deba323ff65998dc2bdf22d9e342db9cffc30bd0e70e0e297b662f8184f414
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:64e34184efeb9f5a5622c883abc37387f021455b8ebc365e06c304057c5bb8b6
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ab5aa9661d156b69bcd5976a8b5f6e5eaf3f91f473a83c47e1ba991c358f74ef
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:83df1333fe8f59c1710a91e769544177d60bc5aa48c1018ddd6a061172e2a46b
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 10000,
-  "best_metric": 1.36810302734375,
-  "best_model_checkpoint": "./ar-diffusion-checkpoints-progressive-attention/checkpoint-10000",
-  "epoch": 0.7691716021844474,
   "eval_steps": 250,
-  "global_step": 10000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1728,6 +1728,92 @@
       "eval_samples_per_second": 59.387,
       "eval_steps_per_second": 14.847,
       "step": 10000
     }
   ],
   "logging_steps": 50,

 {
+  "best_global_step": 10500,
+  "best_metric": 1.3613618612289429,
+  "best_model_checkpoint": "./ar-diffusion-checkpoints-progressive-attention/checkpoint-10500",
+  "epoch": 0.8076301822936697,
   "eval_steps": 250,
+  "global_step": 10500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 59.387,
       "eval_steps_per_second": 14.847,
       "step": 10000
+    },
+    {
+      "epoch": 0.7730174601953695,
+      "grad_norm": 1.1201566457748413,
+      "learning_rate": 0.00015042464223566997,
+      "loss": 1.4327,
+      "step": 10050
+    },
+    {
+      "epoch": 0.7768633182062918,
+      "grad_norm": 1.7418923377990723,
+      "learning_rate": 0.00015016492221385348,
+      "loss": 1.2776,
+      "step": 10100
+    },
+    {
+      "epoch": 0.780709176217214,
+      "grad_norm": 1.3154345750808716,
+      "learning_rate": 0.000149905202192037,
+      "loss": 1.4374,
+      "step": 10150
+    },
+    {
+      "epoch": 0.7845550342281363,
+      "grad_norm": 1.129528284072876,
+      "learning_rate": 0.0001496454821702205,
+      "loss": 1.3404,
+      "step": 10200
+    },
+    {
+      "epoch": 0.7884008922390585,
+      "grad_norm": 1.3940690755844116,
+      "learning_rate": 0.00014938576214840402,
+      "loss": 1.3828,
+      "step": 10250
+    },
+    {
+      "epoch": 0.7884008922390585,
+      "eval_loss": 1.3682047128677368,
+      "eval_runtime": 17.0099,
+      "eval_samples_per_second": 58.789,
+      "eval_steps_per_second": 14.697,
+      "step": 10250
+    },
+    {
+      "epoch": 0.7922467502499808,
+      "grad_norm": 1.3081247806549072,
+      "learning_rate": 0.00014912604212658753,
+      "loss": 1.4071,
+      "step": 10300
+    },
+    {
+      "epoch": 0.796092608260903,
+      "grad_norm": 0.8190014362335205,
+      "learning_rate": 0.00014886632210477107,
+      "loss": 1.4668,
+      "step": 10350
+    },
+    {
+      "epoch": 0.7999384662718253,
+      "grad_norm": 1.8602573871612549,
+      "learning_rate": 0.00014860660208295459,
+      "loss": 1.3456,
+      "step": 10400
+    },
+    {
+      "epoch": 0.8037843242827475,
+      "grad_norm": 1.4184271097183228,
+      "learning_rate": 0.0001483468820611381,
+      "loss": 1.3851,
+      "step": 10450
+    },
+    {
+      "epoch": 0.8076301822936697,
+      "grad_norm": 1.5128880739212036,
+      "learning_rate": 0.00014808716203932164,
+      "loss": 1.3869,
+      "step": 10500
+    },
+    {
+      "epoch": 0.8076301822936697,
+      "eval_loss": 1.3613618612289429,
+      "eval_runtime": 16.8001,
+      "eval_samples_per_second": 59.523,
+      "eval_steps_per_second": 14.881,
+      "step": 10500
     }
   ],
   "logging_steps": 50,