Training in progress, step 38500, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/ar_diffusion_info.bin +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +90 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fc9e082dc3b2b599ece245c68d836aa3280cd4e7a9b0918ad403250af895d5e3
 size 36730224

 version https://git-lfs.github.com/spec/v1
+oid sha256:d9fccd6e8cf77b198a4f4b87f312750517824202a02166eb04e56577ecd2ba00
 size 36730224

last-checkpoint/ar_diffusion_info.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c350b485739b4fddb9d5148423e5dfbced50fc251b92973c875bcddb4d66a775
 size 1736

 version https://git-lfs.github.com/spec/v1
+oid sha256:66d49ec8e5680b4ea0cac8d1930f19a010f9ae0bd4d5ca4b158ebc77b3d54acd
 size 1736

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:54a8acb2b80e4297ad7cc3210bf7b7be72618237e5040794a64b58c69faec7fc
 size 73588346

 version https://git-lfs.github.com/spec/v1
+oid sha256:38f23e9c9a2a443780a64b0cf18b93c2bd78a442ad08f1e37293ea92f7c88993
 size 73588346

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a2c0cded846d640f3719120429980641a6206dc92844fb42e8f946ff3bea6b2e
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:b1b4df89a65698a9335c43463fa8aa3cc49c1acdfae5f7a285af000ba78e95b1
 size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5fc19191502cd55e651632979b36f722e8851e564a429a904a6573212b31486c
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:1a1d56165e0890bb9432c217b765bdd79a8b4d93dcde80b4671874513824409b
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:541cb6dea9c80e2359e5134078f161ec83a5de3af8e29b3e9b6b880e5dd9058f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:f3dea87c40748698e240c93bc3eea5482b3f627ab3a1ed391f6cbe2fe5d7da89
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 37750,
-  "best_metric": -30.47093391418457,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-progressive-attention/checkpoint-37500",
-  "epoch": 2.9228520883008997,
   "eval_steps": 250,
-  "global_step": 38000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -6544,6 +6544,92 @@
       "eval_samples_per_second": 59.431,
       "eval_steps_per_second": 14.858,
       "step": 38000
     }
   ],
   "logging_steps": 50,

 {
+  "best_global_step": 38250,
+  "best_metric": -30.471132278442383,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-progressive-attention/checkpoint-37500",
+  "epoch": 2.961310668410122,
   "eval_steps": 250,
+  "global_step": 38500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 59.431,
       "eval_steps_per_second": 14.858,
       "step": 38000
+    },
+    {
+      "epoch": 2.926697946311822,
+      "grad_norm": 0.9110496044158936,
+      "learning_rate": 5.033374022803418e-06,
+      "loss": -30.4668,
+      "step": 38050
+    },
+    {
+      "epoch": 2.9305438043227445,
+      "grad_norm": 0.7347224950790405,
+      "learning_rate": 4.773654000986936e-06,
+      "loss": -30.4668,
+      "step": 38100
+    },
+    {
+      "epoch": 2.9343896623336665,
+      "grad_norm": 0.946358859539032,
+      "learning_rate": 4.513933979170454e-06,
+      "loss": -30.4669,
+      "step": 38150
+    },
+    {
+      "epoch": 2.938235520344589,
+      "grad_norm": 0.5716750621795654,
+      "learning_rate": 4.254213957353972e-06,
+      "loss": -30.4669,
+      "step": 38200
+    },
+    {
+      "epoch": 2.9420813783555113,
+      "grad_norm": 1.8405364751815796,
+      "learning_rate": 3.994493935537491e-06,
+      "loss": -30.4667,
+      "step": 38250
+    },
+    {
+      "epoch": 2.9420813783555113,
+      "eval_loss": -30.471132278442383,
+      "eval_runtime": 16.8489,
+      "eval_samples_per_second": 59.351,
+      "eval_steps_per_second": 14.838,
+      "step": 38250
+    },
+    {
+      "epoch": 2.9459272363664333,
+      "grad_norm": 0.6454173922538757,
+      "learning_rate": 3.734773913721009e-06,
+      "loss": -30.467,
+      "step": 38300
+    },
+    {
+      "epoch": 2.9497730943773557,
+      "grad_norm": 0.7232244610786438,
+      "learning_rate": 3.475053891904527e-06,
+      "loss": -30.4668,
+      "step": 38350
+    },
+    {
+      "epoch": 2.953618952388278,
+      "grad_norm": 1.0730299949645996,
+      "learning_rate": 3.215333870088045e-06,
+      "loss": -30.4668,
+      "step": 38400
+    },
+    {
+      "epoch": 2.9574648103992,
+      "grad_norm": 0.4886613190174103,
+      "learning_rate": 2.9556138482715634e-06,
+      "loss": -30.4669,
+      "step": 38450
+    },
+    {
+      "epoch": 2.961310668410122,
+      "grad_norm": 0.5141581296920776,
+      "learning_rate": 2.6958938264550813e-06,
+      "loss": -30.4669,
+      "step": 38500
+    },
+    {
+      "epoch": 2.961310668410122,
+      "eval_loss": -30.471107482910156,
+      "eval_runtime": 16.867,
+      "eval_samples_per_second": 59.287,
+      "eval_steps_per_second": 14.822,
+      "step": 38500
     }
   ],
   "logging_steps": 50,