Training in progress, step 22000, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/ar_diffusion_info.bin +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +2 -2
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +90 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:66cda148dcae03c8b6ee9a988c41356b8fb7dd85bc794057def1a0a106239b14
 size 36730224

 version https://git-lfs.github.com/spec/v1
+oid sha256:7d7b8f572c134e72c7026e2e9ad914d2679628dec1b66f03f49c50f611744778
 size 36730224

last-checkpoint/ar_diffusion_info.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7a7ccadc0fc62d6e734efb6eac59f8de15c8962f84260b3fa84659524029cca9
 size 1544

 version https://git-lfs.github.com/spec/v1
+oid sha256:70ce7eba6d133886c57e789ae1ced0054a79c486c5c2f9581bd59cf429b1f437
 size 1544

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4cde556e6d84497b700bedd313afb1db4fbdff84a922d3df94365577a9ffe5cb
 size 73588346

 version https://git-lfs.github.com/spec/v1
+oid sha256:8d3bd2c73ee827d2b8927a44cbea930a6ab308656fbc61ae1272b12f9654d264
 size 73588346

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:24cdd6f45f9ebce887e06d548bf949bd18ccf52b17999d18752823b6dd7dc03a
-size 14308

 version https://git-lfs.github.com/spec/v1
+oid sha256:625da12a62ce1ec712e7ea0b4fc06eed36ff20b9634198d1bc6029989e807f8d
+size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:76d7482aa4f2ea8d9ee623a2338b27a160c64d9b3e6847f775500f74a89d839e
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:8788cf54002af30b32604c9f2a6a5a9fa6c726ebc719ce2f7ca555b2dcfdfac8
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ba5e991474e4af796236702d23dc20d105ef404660d6c7d1c95fb199aa1ce3be
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:854a60bf19d6e0989bdf3b974086f8fa81da02ef244adb541905035064ca56fc
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 21000,
-  "best_metric": 1.4690666198730469,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-21000",
-  "epoch": 1.6537189446965619,
   "eval_steps": 250,
-  "global_step": 21500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3706,6 +3706,92 @@
       "eval_samples_per_second": 56.129,
       "eval_steps_per_second": 14.032,
       "step": 21500
     }
   ],
   "logging_steps": 50,

 {
+  "best_global_step": 21750,
+  "best_metric": 1.4662117958068848,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-21000",
+  "epoch": 1.6921775248057842,
   "eval_steps": 250,
+  "global_step": 22000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 56.129,
       "eval_steps_per_second": 14.032,
       "step": 21500
+    },
+    {
+      "epoch": 1.657564802707484,
+      "grad_norm": 1.3839844465255737,
+      "learning_rate": 9.072020362049712e-05,
+      "loss": 1.522,
+      "step": 21550
+    },
+    {
+      "epoch": 1.6614106607184063,
+      "grad_norm": 1.187853455543518,
+      "learning_rate": 9.046048359868063e-05,
+      "loss": 1.4469,
+      "step": 21600
+    },
+    {
+      "epoch": 1.6652565187293287,
+      "grad_norm": 2.8398866653442383,
+      "learning_rate": 9.020076357686414e-05,
+      "loss": 1.4875,
+      "step": 21650
+    },
+    {
+      "epoch": 1.6691023767402506,
+      "grad_norm": 1.801963448524475,
+      "learning_rate": 8.994104355504767e-05,
+      "loss": 1.3892,
+      "step": 21700
+    },
+    {
+      "epoch": 1.672948234751173,
+      "grad_norm": 1.7727116346359253,
+      "learning_rate": 8.968132353323118e-05,
+      "loss": 1.3886,
+      "step": 21750
+    },
+    {
+      "epoch": 1.672948234751173,
+      "eval_loss": 1.4662117958068848,
+      "eval_runtime": 17.7809,
+      "eval_samples_per_second": 56.24,
+      "eval_steps_per_second": 14.06,
+      "step": 21750
+    },
+    {
+      "epoch": 1.6767940927620952,
+      "grad_norm": 1.7052053213119507,
+      "learning_rate": 8.94216035114147e-05,
+      "loss": 1.4483,
+      "step": 21800
+    },
+    {
+      "epoch": 1.6806399507730174,
+      "grad_norm": 1.9812465906143188,
+      "learning_rate": 8.916188348959822e-05,
+      "loss": 1.4325,
+      "step": 21850
+    },
+    {
+      "epoch": 1.6844858087839398,
+      "grad_norm": 1.2499721050262451,
+      "learning_rate": 8.890216346778173e-05,
+      "loss": 1.5246,
+      "step": 21900
+    },
+    {
+      "epoch": 1.6883316667948618,
+      "grad_norm": 1.2503259181976318,
+      "learning_rate": 8.864244344596525e-05,
+      "loss": 1.4661,
+      "step": 21950
+    },
+    {
+      "epoch": 1.6921775248057842,
+      "grad_norm": 2.201223134994507,
+      "learning_rate": 8.838272342414877e-05,
+      "loss": 1.5103,
+      "step": 22000
+    },
+    {
+      "epoch": 1.6921775248057842,
+      "eval_loss": 1.470120906829834,
+      "eval_runtime": 17.7715,
+      "eval_samples_per_second": 56.27,
+      "eval_steps_per_second": 14.067,
+      "step": 22000
     }
   ],
   "logging_steps": 50,