Training in progress, step 32500, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/ar_diffusion_info.bin +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +88 -2

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:19d9bd7de028454d166b4a1c6d6f3145ed67ff36482f791a79118ea7b7d201ab
 size 36730224

 version https://git-lfs.github.com/spec/v1
+oid sha256:d47a059c4465cb96ca8cf7f1905ca26df8afde99f0c2208111a3832ed682273e
 size 36730224

last-checkpoint/ar_diffusion_info.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a3efe4a639c0cf535238d781f181b5f7410e28e813293a3ad08dd1b3c0569ebd
 size 1544

 version https://git-lfs.github.com/spec/v1
+oid sha256:789a7c970269f3838d005c341e4869fd88818ad8ae5141deea1681f158455f61
 size 1544

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e4f5b2ce31636fea31b4a89764e7b37be4b908e5ead9294fd64eb17613e89d11
 size 73588346

 version https://git-lfs.github.com/spec/v1
+oid sha256:01682574d44e97467301d5779733da7210577aa9e9ec38e6d369a4e1bb9c71a7
 size 73588346

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7f48c0047bbeb15d4e945ddf8a422e66a19ddd71e12c9b8b2e5a3e449379fb78
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:e10cec93434f8ec9066e53d88256d0df13c4dfad53975c2a473bada794e39de4
 size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b918fd89981e331e86195be60fa3132ecc53927ce3bb181201004c9e6a502ae5
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:fe23086b61822081f0f874226d60c752bbd88420dba9100921fe74a8fe8db57f
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e779fea59867c3454c83f513ec8ab50e6683297addf1c5a422af8000a78db3f7
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:16e4c0e7d997f50c97bce12877fd963ff1e035235b3d794e37197e971fb5ab23
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": 30000,
   "best_metric": 0.9945911169052124,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-30000",
-  "epoch": 2.4613491269902315,
   "eval_steps": 250,
-  "global_step": 32000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -5512,6 +5512,92 @@
       "eval_samples_per_second": 57.871,
       "eval_steps_per_second": 14.468,
       "step": 32000
     }
   ],
   "logging_steps": 50,

   "best_global_step": 30000,
   "best_metric": 0.9945911169052124,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-30000",
+  "epoch": 2.4998077070994538,
   "eval_steps": 250,
+  "global_step": 32500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 57.871,
       "eval_steps_per_second": 14.468,
       "step": 32000
+    },
+    {
+      "epoch": 2.465194985001154,
+      "grad_norm": 0.999718964099884,
+      "learning_rate": 3.619458224034491e-05,
+      "loss": 0.9725,
+      "step": 32050
+    },
+    {
+      "epoch": 2.469040843012076,
+      "grad_norm": 2.740297794342041,
+      "learning_rate": 3.5934862218528425e-05,
+      "loss": 0.9838,
+      "step": 32100
+    },
+    {
+      "epoch": 2.4728867010229982,
+      "grad_norm": 1.199425458908081,
+      "learning_rate": 3.5675142196711945e-05,
+      "loss": 0.9807,
+      "step": 32150
+    },
+    {
+      "epoch": 2.4767325590339206,
+      "grad_norm": 0.7113758325576782,
+      "learning_rate": 3.5415422174895465e-05,
+      "loss": 1.0046,
+      "step": 32200
+    },
+    {
+      "epoch": 2.4805784170448426,
+      "grad_norm": 0.9929390549659729,
+      "learning_rate": 3.5155702153078984e-05,
+      "loss": 0.9692,
+      "step": 32250
+    },
+    {
+      "epoch": 2.4805784170448426,
+      "eval_loss": 1.002519965171814,
+      "eval_runtime": 17.3042,
+      "eval_samples_per_second": 57.789,
+      "eval_steps_per_second": 14.447,
+      "step": 32250
+    },
+    {
+      "epoch": 2.484424275055765,
+      "grad_norm": 0.8170703649520874,
+      "learning_rate": 3.48959821312625e-05,
+      "loss": 0.982,
+      "step": 32300
+    },
+    {
+      "epoch": 2.488270133066687,
+      "grad_norm": 0.8909692168235779,
+      "learning_rate": 3.463626210944602e-05,
+      "loss": 0.9953,
+      "step": 32350
+    },
+    {
+      "epoch": 2.4921159910776094,
+      "grad_norm": 1.806539535522461,
+      "learning_rate": 3.4376542087629536e-05,
+      "loss": 1.0069,
+      "step": 32400
+    },
+    {
+      "epoch": 2.495961849088532,
+      "grad_norm": 1.4509518146514893,
+      "learning_rate": 3.4116822065813056e-05,
+      "loss": 0.9642,
+      "step": 32450
+    },
+    {
+      "epoch": 2.4998077070994538,
+      "grad_norm": 1.0312175750732422,
+      "learning_rate": 3.3857102043996575e-05,
+      "loss": 0.9921,
+      "step": 32500
+    },
+    {
+      "epoch": 2.4998077070994538,
+      "eval_loss": 0.9993879199028015,
+      "eval_runtime": 17.3389,
+      "eval_samples_per_second": 57.674,
+      "eval_steps_per_second": 14.418,
+      "step": 32500
     }
   ],
   "logging_steps": 50,