Training in progress, step 10500, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/ar_diffusion_info.bin +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +88 -2

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5a0635af77a0cc188290373b523679a526e8c1ad75d8c7f25b922fea9cf62dca
 size 36730224

 version https://git-lfs.github.com/spec/v1
+oid sha256:4324a3a5915156493f27435981bc5e067e17329d248df8e005af28872089db08
 size 36730224

last-checkpoint/ar_diffusion_info.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1bf901e73d41ea0ccfa16c6684d24d585b1f05ef9f57a4524e8694a26b9940a3
 size 1544

 version https://git-lfs.github.com/spec/v1
+oid sha256:586643082c797c6471cec4d99035ab6336a6eec2692a30ba5ac6aa1ea78f1ad3
 size 1544

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4b950c496923243d0912e84a1eb84cb370513a822a8463c038d022e062e515bc
 size 73588346

 version https://git-lfs.github.com/spec/v1
+oid sha256:435157f2e32de040f237ef44fcb2f7d2ce0740bd523e00f2682e862fe6e5b77b
 size 73588346

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2b4e6f78506ab09c8a3ff311a2dfeb7a6190585c49701c5bd2fcc763c2b50448
 size 14180

 version https://git-lfs.github.com/spec/v1
+oid sha256:371a8ee92df296caadab094d1243e6f6a8e33531055d940b9b2beb58c3296d37
 size 14180

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f2a8c76f206a59cf071ae08cd5fd0af4dd2719f5d4bfbabc67d57af26f56bb51
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:d5b29e642bf24d79ebcf705888b6c986c0f26a1dd38cc2f292d82caae0977305
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dca9e86a8e1c5a776637e4448f160d7ddd557ac645e78f5bee2fc465ee6ebde3
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:d497e82650965830e0a6f7b87b60635133c5dcd48d2ca0d74cebf5c5827dfab0
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": 9500,
   "best_metric": 4.357193470001221,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-9500",
-  "epoch": 0.7691716021844474,
   "eval_steps": 250,
-  "global_step": 10000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1728,6 +1728,92 @@
       "eval_samples_per_second": 53.935,
       "eval_steps_per_second": 13.484,
       "step": 10000
     }
   ],
   "logging_steps": 50,

   "best_global_step": 9500,
   "best_metric": 4.357193470001221,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-9500",
+  "epoch": 0.8076301822936697,
   "eval_steps": 250,
+  "global_step": 10500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 53.935,
       "eval_steps_per_second": 13.484,
       "step": 10000
+    },
+    {
+      "epoch": 0.7730174601953695,
+      "grad_norm": 3.882775068283081,
+      "learning_rate": 0.00015044541983741527,
+      "loss": 4.5207,
+      "step": 10050
+    },
+    {
+      "epoch": 0.7768633182062918,
+      "grad_norm": 5.814795017242432,
+      "learning_rate": 0.0001501856998155988,
+      "loss": 4.2462,
+      "step": 10100
+    },
+    {
+      "epoch": 0.780709176217214,
+      "grad_norm": 4.733581066131592,
+      "learning_rate": 0.00014992597979378232,
+      "loss": 4.5563,
+      "step": 10150
+    },
+    {
+      "epoch": 0.7845550342281363,
+      "grad_norm": 4.805403232574463,
+      "learning_rate": 0.00014966625977196583,
+      "loss": 4.4353,
+      "step": 10200
+    },
+    {
+      "epoch": 0.7884008922390585,
+      "grad_norm": 5.814332008361816,
+      "learning_rate": 0.00014940653975014935,
+      "loss": 4.4004,
+      "step": 10250
+    },
+    {
+      "epoch": 0.7884008922390585,
+      "eval_loss": 4.41144323348999,
+      "eval_runtime": 18.5402,
+      "eval_samples_per_second": 53.937,
+      "eval_steps_per_second": 13.484,
+      "step": 10250
+    },
+    {
+      "epoch": 0.7922467502499808,
+      "grad_norm": 5.321393013000488,
+      "learning_rate": 0.00014914681972833286,
+      "loss": 4.4383,
+      "step": 10300
+    },
+    {
+      "epoch": 0.796092608260903,
+      "grad_norm": 3.681452751159668,
+      "learning_rate": 0.00014888709970651637,
+      "loss": 4.5094,
+      "step": 10350
+    },
+    {
+      "epoch": 0.7999384662718253,
+      "grad_norm": 4.766401767730713,
+      "learning_rate": 0.0001486273796846999,
+      "loss": 4.3104,
+      "step": 10400
+    },
+    {
+      "epoch": 0.8037843242827475,
+      "grad_norm": 4.676774024963379,
+      "learning_rate": 0.00014836765966288342,
+      "loss": 4.516,
+      "step": 10450
+    },
+    {
+      "epoch": 0.8076301822936697,
+      "grad_norm": 3.623643159866333,
+      "learning_rate": 0.00014810793964106694,
+      "loss": 4.5146,
+      "step": 10500
+    },
+    {
+      "epoch": 0.8076301822936697,
+      "eval_loss": 4.398375034332275,
+      "eval_runtime": 18.4969,
+      "eval_samples_per_second": 54.063,
+      "eval_steps_per_second": 13.516,
+      "step": 10500
     }
   ],
   "logging_steps": 50,