Training in progress, step 32000, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/ar_diffusion_info.bin +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +88 -2

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7dc19b8d0d5f9136639755d9316a3022b8c82a5289f75b8c2a154ea24a7ec37d
 size 36730224

 version https://git-lfs.github.com/spec/v1
+oid sha256:19d9bd7de028454d166b4a1c6d6f3145ed67ff36482f791a79118ea7b7d201ab
 size 36730224

last-checkpoint/ar_diffusion_info.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:77557a289798db28dd4dc90cd32e22abe79a243a7d8657956d33bce4d7666e79
 size 1544

 version https://git-lfs.github.com/spec/v1
+oid sha256:a3efe4a639c0cf535238d781f181b5f7410e28e813293a3ad08dd1b3c0569ebd
 size 1544

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4263d1c23e4d38ddf0a4a29df3a3b188cb0c869be730f51b663c9aae88580c07
 size 73588346

 version https://git-lfs.github.com/spec/v1
+oid sha256:e4f5b2ce31636fea31b4a89764e7b37be4b908e5ead9294fd64eb17613e89d11
 size 73588346

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:34336c82053d260113435e2b759b35a50c0eba98515a30dfe9d41e121f34b323
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:7f48c0047bbeb15d4e945ddf8a422e66a19ddd71e12c9b8b2e5a3e449379fb78
 size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d859bf97583170267785e1e8320d8e4f984a79e2c33679e5f98c773a6e6e145a
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:b918fd89981e331e86195be60fa3132ecc53927ce3bb181201004c9e6a502ae5
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d10804979bf6e76891746681a7665a759c1b00ee5b7dc26a2cd76065e4556d2b
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:e779fea59867c3454c83f513ec8ab50e6683297addf1c5a422af8000a78db3f7
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": 30000,
   "best_metric": 0.9945911169052124,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-30000",
-  "epoch": 2.422890546881009,
   "eval_steps": 250,
-  "global_step": 31500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -5426,6 +5426,92 @@
       "eval_samples_per_second": 58.456,
       "eval_steps_per_second": 14.614,
       "step": 31500
     }
   ],
   "logging_steps": 50,

   "best_global_step": 30000,
   "best_metric": 0.9945911169052124,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-30000",
+  "epoch": 2.4613491269902315,
   "eval_steps": 250,
+  "global_step": 32000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 58.456,
       "eval_steps_per_second": 14.614,
       "step": 31500
+    },
+    {
+      "epoch": 2.4267364048919315,
+      "grad_norm": 1.3409994840621948,
+      "learning_rate": 3.879178245850973e-05,
+      "loss": 0.9546,
+      "step": 31550
+    },
+    {
+      "epoch": 2.4305822629028535,
+      "grad_norm": 1.482633352279663,
+      "learning_rate": 3.853206243669324e-05,
+      "loss": 1.0155,
+      "step": 31600
+    },
+    {
+      "epoch": 2.434428120913776,
+      "grad_norm": 1.0458152294158936,
+      "learning_rate": 3.827234241487677e-05,
+      "loss": 0.989,
+      "step": 31650
+    },
+    {
+      "epoch": 2.4382739789246983,
+      "grad_norm": 0.9805555939674377,
+      "learning_rate": 3.801262239306028e-05,
+      "loss": 0.9125,
+      "step": 31700
+    },
+    {
+      "epoch": 2.4421198369356203,
+      "grad_norm": 1.5680670738220215,
+      "learning_rate": 3.77529023712438e-05,
+      "loss": 0.9713,
+      "step": 31750
+    },
+    {
+      "epoch": 2.4421198369356203,
+      "eval_loss": 0.9981379508972168,
+      "eval_runtime": 17.3284,
+      "eval_samples_per_second": 57.709,
+      "eval_steps_per_second": 14.427,
+      "step": 31750
+    },
+    {
+      "epoch": 2.4459656949465427,
+      "grad_norm": 1.0316798686981201,
+      "learning_rate": 3.749318234942732e-05,
+      "loss": 0.9689,
+      "step": 31800
+    },
+    {
+      "epoch": 2.4498115529574647,
+      "grad_norm": 0.6630721092224121,
+      "learning_rate": 3.7233462327610834e-05,
+      "loss": 0.9772,
+      "step": 31850
+    },
+    {
+      "epoch": 2.453657410968387,
+      "grad_norm": 1.1662702560424805,
+      "learning_rate": 3.6973742305794354e-05,
+      "loss": 1.0165,
+      "step": 31900
+    },
+    {
+      "epoch": 2.457503268979309,
+      "grad_norm": 1.0451244115829468,
+      "learning_rate": 3.671402228397787e-05,
+      "loss": 1.0233,
+      "step": 31950
+    },
+    {
+      "epoch": 2.4613491269902315,
+      "grad_norm": 0.9077771306037903,
+      "learning_rate": 3.645430226216139e-05,
+      "loss": 0.9797,
+      "step": 32000
+    },
+    {
+      "epoch": 2.4613491269902315,
+      "eval_loss": 0.9961766004562378,
+      "eval_runtime": 17.2799,
+      "eval_samples_per_second": 57.871,
+      "eval_steps_per_second": 14.468,
+      "step": 32000
     }
   ],
   "logging_steps": 50,