Training in progress, step 31500, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/ar_diffusion_info.bin +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +88 -2

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:aaeede45da47f0d75d62e988c6ec4e75278f17721a6f05fc8fadaeb434482f59
 size 36730224

 version https://git-lfs.github.com/spec/v1
+oid sha256:7dc19b8d0d5f9136639755d9316a3022b8c82a5289f75b8c2a154ea24a7ec37d
 size 36730224

last-checkpoint/ar_diffusion_info.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:63e60a966b76339936843c940f84b9ea07a91ec1e4d63f98283ff1b088f9fde6
 size 1544

 version https://git-lfs.github.com/spec/v1
+oid sha256:77557a289798db28dd4dc90cd32e22abe79a243a7d8657956d33bce4d7666e79
 size 1544

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:187283a9cec55184e3ccd0a3e0d5f383455ef16110c948463ba075754a4a4a69
 size 73588346

 version https://git-lfs.github.com/spec/v1
+oid sha256:4263d1c23e4d38ddf0a4a29df3a3b188cb0c869be730f51b663c9aae88580c07
 size 73588346

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e1377909bbeca185f1cd667205e5ee426651b530652d98a241a6435759b20841
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:34336c82053d260113435e2b759b35a50c0eba98515a30dfe9d41e121f34b323
 size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0805ae3d6f83adad04a95ac3342264a30fddb6eac2cd341698788c5b29bb3024
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:d859bf97583170267785e1e8320d8e4f984a79e2c33679e5f98c773a6e6e145a
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:52fbed6fec9b9318154947715651eba157eaae1cb8891751ee3a2257f6530107
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:d10804979bf6e76891746681a7665a759c1b00ee5b7dc26a2cd76065e4556d2b
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": 30000,
   "best_metric": 0.9945911169052124,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-30000",
-  "epoch": 2.384431966771787,
   "eval_steps": 250,
-  "global_step": 31000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -5340,6 +5340,92 @@
       "eval_samples_per_second": 58.119,
       "eval_steps_per_second": 14.53,
       "step": 31000
     }
   ],
   "logging_steps": 50,

   "best_global_step": 30000,
   "best_metric": 0.9945911169052124,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-30000",
+  "epoch": 2.422890546881009,
   "eval_steps": 250,
+  "global_step": 31500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 58.119,
       "eval_steps_per_second": 14.53,
       "step": 31000
+    },
+    {
+      "epoch": 2.3882778247827092,
+      "grad_norm": 0.8717153668403625,
+      "learning_rate": 4.138898267667455e-05,
+      "loss": 1.0038,
+      "step": 31050
+    },
+    {
+      "epoch": 2.392123682793631,
+      "grad_norm": 1.007270097732544,
+      "learning_rate": 4.112926265485807e-05,
+      "loss": 0.9858,
+      "step": 31100
+    },
+    {
+      "epoch": 2.3959695408045536,
+      "grad_norm": 1.9409807920455933,
+      "learning_rate": 4.0869542633041587e-05,
+      "loss": 1.004,
+      "step": 31150
+    },
+    {
+      "epoch": 2.3998153988154756,
+      "grad_norm": 0.6027572154998779,
+      "learning_rate": 4.06098226112251e-05,
+      "loss": 0.9958,
+      "step": 31200
+    },
+    {
+      "epoch": 2.403661256826398,
+      "grad_norm": 0.8274515867233276,
+      "learning_rate": 4.035010258940862e-05,
+      "loss": 0.9852,
+      "step": 31250
+    },
+    {
+      "epoch": 2.403661256826398,
+      "eval_loss": 1.0001976490020752,
+      "eval_runtime": 17.2233,
+      "eval_samples_per_second": 58.061,
+      "eval_steps_per_second": 14.515,
+      "step": 31250
+    },
+    {
+      "epoch": 2.4075071148373204,
+      "grad_norm": 0.7238942384719849,
+      "learning_rate": 4.009038256759214e-05,
+      "loss": 1.0062,
+      "step": 31300
+    },
+    {
+      "epoch": 2.4113529728482423,
+      "grad_norm": 0.8912849426269531,
+      "learning_rate": 3.983066254577565e-05,
+      "loss": 0.9802,
+      "step": 31350
+    },
+    {
+      "epoch": 2.4151988308591648,
+      "grad_norm": 1.1922829151153564,
+      "learning_rate": 3.957094252395918e-05,
+      "loss": 1.0317,
+      "step": 31400
+    },
+    {
+      "epoch": 2.4190446888700867,
+      "grad_norm": 1.3773999214172363,
+      "learning_rate": 3.931122250214269e-05,
+      "loss": 0.9773,
+      "step": 31450
+    },
+    {
+      "epoch": 2.422890546881009,
+      "grad_norm": 1.0747745037078857,
+      "learning_rate": 3.905150248032621e-05,
+      "loss": 1.0208,
+      "step": 31500
+    },
+    {
+      "epoch": 2.422890546881009,
+      "eval_loss": 1.0009056329727173,
+      "eval_runtime": 17.1069,
+      "eval_samples_per_second": 58.456,
+      "eval_steps_per_second": 14.614,
+      "step": 31500
     }
   ],
   "logging_steps": 50,