Training in progress, step 11000, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/ar_diffusion_info.bin +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +2 -2
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +91 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2355e3e82295bb14e617f48ba9a53dcaecdce82329ed609cc4929ae9d83b250b
 size 36730224

 version https://git-lfs.github.com/spec/v1
+oid sha256:81cf0e3dd4d992ca19a0a903b87889cb1dcb0561835bd1a05ad25d4805a11c3a
 size 36730224

last-checkpoint/ar_diffusion_info.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2e45f55b2e0437c4eb0d6bdb520b7b1c7edbedaf9253b60e08be085f388b8113
 size 1736

 version https://git-lfs.github.com/spec/v1
+oid sha256:24383c9348cb96ba012340aa8a76698ba299b93dfbd362d850260ceb6b5bff92
 size 1736

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:90e2bba69ad980b5be837dce2dab49768cfe98d25981ae562b11cdccf65223e4
 size 73588346

 version https://git-lfs.github.com/spec/v1
+oid sha256:714a435b99357bfd46a0b087ff628bd01321e6a7b7b84db498111b7fbf583143
 size 73588346

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0766963e075955373626125e0506ee76918124a59001be5cd204b364faad380e
-size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:43f28196579619a7a1a9fd513d6b01be77d05b370f16ae231d5c0e099a688b29
+size 14180

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:864c2fbfca6a229661e71bfe02bc47d1f2746dcbece8e0e2d9bd754183c9462a
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:9ffb6ab86afd8a1b76a16f7a0e015b06dbb79dc500dae39323cc69f06851bdbd
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a599609b8ba5b4e05421477366bf16e78592175247e304a0d39fba83577db549
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:894bd6c57ea4e17b26aada8f86d81df3acee0b45c80103268804ff49bb2ddbbc
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 10500,
-  "best_metric": 1.8220328092575073,
-  "best_model_checkpoint": "./ar-diffusion-checkpoints-progressive-attention/checkpoint-10500",
-  "epoch": 0.8076301822936697,
   "eval_steps": 250,
-  "global_step": 10500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1814,6 +1814,92 @@
       "eval_samples_per_second": 58.606,
       "eval_steps_per_second": 14.652,
       "step": 10500
     }
   ],
   "logging_steps": 50,

 {
+  "best_global_step": 11000,
+  "best_metric": 1.807216763496399,
+  "best_model_checkpoint": "./ar-diffusion-checkpoints-progressive-attention/checkpoint-11000",
+  "epoch": 0.8460887624028921,
   "eval_steps": 250,
+  "global_step": 11000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 58.606,
       "eval_steps_per_second": 14.652,
       "step": 10500
+    },
+    {
+      "epoch": 0.811476040304592,
+      "grad_norm": 1.8630917072296143,
+      "learning_rate": 0.00014783263641794146,
+      "loss": 1.9692,
+      "step": 10550
+    },
+    {
+      "epoch": 0.8153218983155142,
+      "grad_norm": 1.744325876235962,
+      "learning_rate": 0.00014757291639612497,
+      "loss": 1.8893,
+      "step": 10600
+    },
+    {
+      "epoch": 0.8191677563264365,
+      "grad_norm": 1.8451564311981201,
+      "learning_rate": 0.0001473131963743085,
+      "loss": 1.7862,
+      "step": 10650
+    },
+    {
+      "epoch": 0.8230136143373586,
+      "grad_norm": 1.9895585775375366,
+      "learning_rate": 0.00014705347635249203,
+      "loss": 1.9978,
+      "step": 10700
+    },
+    {
+      "epoch": 0.8268594723482809,
+      "grad_norm": 2.574155330657959,
+      "learning_rate": 0.00014679375633067554,
+      "loss": 1.8705,
+      "step": 10750
+    },
+    {
+      "epoch": 0.8268594723482809,
+      "eval_loss": 1.8234485387802124,
+      "eval_runtime": 17.061,
+      "eval_samples_per_second": 58.613,
+      "eval_steps_per_second": 14.653,
+      "step": 10750
+    },
+    {
+      "epoch": 0.8307053303592031,
+      "grad_norm": 1.347955584526062,
+      "learning_rate": 0.00014653403630885905,
+      "loss": 1.7948,
+      "step": 10800
+    },
+    {
+      "epoch": 0.8345511883701254,
+      "grad_norm": 2.8867287635803223,
+      "learning_rate": 0.00014627431628704257,
+      "loss": 1.8986,
+      "step": 10850
+    },
+    {
+      "epoch": 0.8383970463810476,
+      "grad_norm": 2.692473888397217,
+      "learning_rate": 0.00014601459626522608,
+      "loss": 1.9209,
+      "step": 10900
+    },
+    {
+      "epoch": 0.8422429043919698,
+      "grad_norm": 1.7835667133331299,
+      "learning_rate": 0.00014575487624340962,
+      "loss": 1.8406,
+      "step": 10950
+    },
+    {
+      "epoch": 0.8460887624028921,
+      "grad_norm": 1.8864330053329468,
+      "learning_rate": 0.00014549515622159313,
+      "loss": 1.8001,
+      "step": 11000
+    },
+    {
+      "epoch": 0.8460887624028921,
+      "eval_loss": 1.807216763496399,
+      "eval_runtime": 17.2188,
+      "eval_samples_per_second": 58.076,
+      "eval_steps_per_second": 14.519,
+      "step": 11000
     }
   ],
   "logging_steps": 50,