Training in progress, step 10500, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/ar_diffusion_info.bin +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +91 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:42f1ca9dac6b6ebcdce4b00359a28210be4ba525244b591572f5b2287e25b0f9
 size 36730224

 version https://git-lfs.github.com/spec/v1
+oid sha256:2355e3e82295bb14e617f48ba9a53dcaecdce82329ed609cc4929ae9d83b250b
 size 36730224

last-checkpoint/ar_diffusion_info.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:93ef9d4a1c4c97b75d44e8a9d7ebd61f014e4cbe01f8111a09cb70d30d2060b0
 size 1736

 version https://git-lfs.github.com/spec/v1
+oid sha256:2e45f55b2e0437c4eb0d6bdb520b7b1c7edbedaf9253b60e08be085f388b8113
 size 1736

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6c0943241d3c12af607553b4e6abe354fb336ff905d2c1fb46e1651cbdb980d6
 size 73588346

 version https://git-lfs.github.com/spec/v1
+oid sha256:90e2bba69ad980b5be837dce2dab49768cfe98d25981ae562b11cdccf65223e4
 size 73588346

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:233660262675d93c5fec35f1803b0486ea65b8e55d6ffa01a964eeb9acc8c92f
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:0766963e075955373626125e0506ee76918124a59001be5cd204b364faad380e
 size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:250db0f613d9618dc37866ea93a85951fa852bff7fd15eb41a9bb89d17f93c5f
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:864c2fbfca6a229661e71bfe02bc47d1f2746dcbece8e0e2d9bd754183c9462a
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cd971f0e9f9fab99e52eb560d68aa87eb93fac7faa2dc0c68c4d5d10aa759271
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:a599609b8ba5b4e05421477366bf16e78592175247e304a0d39fba83577db549
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 10000,
-  "best_metric": 1.8548085689544678,
-  "best_model_checkpoint": "./ar-diffusion-checkpoints-progressive-attention/checkpoint-10000",
-  "epoch": 0.7691716021844474,
   "eval_steps": 250,
-  "global_step": 10000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1728,6 +1728,92 @@
       "eval_samples_per_second": 58.746,
       "eval_steps_per_second": 14.687,
       "step": 10000
     }
   ],
   "logging_steps": 50,

 {
+  "best_global_step": 10500,
+  "best_metric": 1.8220328092575073,
+  "best_model_checkpoint": "./ar-diffusion-checkpoints-progressive-attention/checkpoint-10500",
+  "epoch": 0.8076301822936697,
   "eval_steps": 250,
+  "global_step": 10500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 58.746,
       "eval_steps_per_second": 14.687,
       "step": 10000
+    },
+    {
+      "epoch": 0.7730174601953695,
+      "grad_norm": 1.4667410850524902,
+      "learning_rate": 0.00015042983663610628,
+      "loss": 1.9318,
+      "step": 10050
+    },
+    {
+      "epoch": 0.7768633182062918,
+      "grad_norm": 2.0754499435424805,
+      "learning_rate": 0.00015017011661428982,
+      "loss": 1.753,
+      "step": 10100
+    },
+    {
+      "epoch": 0.780709176217214,
+      "grad_norm": 1.634293794631958,
+      "learning_rate": 0.00014991039659247333,
+      "loss": 1.9328,
+      "step": 10150
+    },
+    {
+      "epoch": 0.7845550342281363,
+      "grad_norm": 1.5003916025161743,
+      "learning_rate": 0.00014965067657065684,
+      "loss": 1.8237,
+      "step": 10200
+    },
+    {
+      "epoch": 0.7884008922390585,
+      "grad_norm": 1.7433470487594604,
+      "learning_rate": 0.00014939095654884036,
+      "loss": 1.859,
+      "step": 10250
+    },
+    {
+      "epoch": 0.7884008922390585,
+      "eval_loss": 1.842873215675354,
+      "eval_runtime": 16.9242,
+      "eval_samples_per_second": 59.087,
+      "eval_steps_per_second": 14.772,
+      "step": 10250
+    },
+    {
+      "epoch": 0.7922467502499808,
+      "grad_norm": 1.8703033924102783,
+      "learning_rate": 0.00014913123652702387,
+      "loss": 1.9019,
+      "step": 10300
+    },
+    {
+      "epoch": 0.796092608260903,
+      "grad_norm": 1.1216288805007935,
+      "learning_rate": 0.00014887151650520738,
+      "loss": 1.9812,
+      "step": 10350
+    },
+    {
+      "epoch": 0.7999384662718253,
+      "grad_norm": 3.2229816913604736,
+      "learning_rate": 0.00014861179648339092,
+      "loss": 1.7986,
+      "step": 10400
+    },
+    {
+      "epoch": 0.8037843242827475,
+      "grad_norm": 2.366506814956665,
+      "learning_rate": 0.00014835207646157444,
+      "loss": 1.8995,
+      "step": 10450
+    },
+    {
+      "epoch": 0.8076301822936697,
+      "grad_norm": 2.0333054065704346,
+      "learning_rate": 0.00014809235643975795,
+      "loss": 1.916,
+      "step": 10500
+    },
+    {
+      "epoch": 0.8076301822936697,
+      "eval_loss": 1.8220328092575073,
+      "eval_runtime": 17.063,
+      "eval_samples_per_second": 58.606,
+      "eval_steps_per_second": 14.652,
+      "step": 10500
     }
   ],
   "logging_steps": 50,