Training in progress, step 10000, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/ar_diffusion_info.bin +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +2 -2
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +88 -2

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a07c7b37309bd7fd0af854709b7f4fd8d23fc489f1f01e3ce9ee9cd1dd8fe07a
 size 36730224

 version https://git-lfs.github.com/spec/v1
+oid sha256:5a0635af77a0cc188290373b523679a526e8c1ad75d8c7f25b922fea9cf62dca
 size 36730224

last-checkpoint/ar_diffusion_info.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:688f8190afce8ca65b8c35bcd1fdf6b4a9f824fa48e42d0160028e0b49e4b918
 size 1544

 version https://git-lfs.github.com/spec/v1
+oid sha256:1bf901e73d41ea0ccfa16c6684d24d585b1f05ef9f57a4524e8694a26b9940a3
 size 1544

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7d91d17eb9f0aaaaca3ce7b6032cf0974efb84898d63756427a7c28dca8b82f6
 size 73588346

 version https://git-lfs.github.com/spec/v1
+oid sha256:4b950c496923243d0912e84a1eb84cb370513a822a8463c038d022e062e515bc
 size 73588346

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1c4598e219bb7f2bb5d2c34aa1d6d86aefb320efdbbe18af0ce36833a2da16e9
-size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:2b4e6f78506ab09c8a3ff311a2dfeb7a6190585c49701c5bd2fcc763c2b50448
+size 14180

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2b53ce89a0a15b867485840cbf9ec970e5c24e7fed0de2f98955bcfdb979c079
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:f2a8c76f206a59cf071ae08cd5fd0af4dd2719f5d4bfbabc67d57af26f56bb51
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ab5873d20a0c6d3d1a6dc5b11f7165499055143d4f4ba4693d6c6ee7d261e65c
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:dca9e86a8e1c5a776637e4448f160d7ddd557ac645e78f5bee2fc465ee6ebde3
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": 9500,
   "best_metric": 4.357193470001221,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-9500",
-  "epoch": 0.7307130220752249,
   "eval_steps": 250,
-  "global_step": 9500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1642,6 +1642,92 @@
       "eval_samples_per_second": 53.656,
       "eval_steps_per_second": 13.414,
       "step": 9500
     }
   ],
   "logging_steps": 50,

   "best_global_step": 9500,
   "best_metric": 4.357193470001221,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-9500",
+  "epoch": 0.7691716021844474,
   "eval_steps": 250,
+  "global_step": 10000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 53.656,
       "eval_steps_per_second": 13.414,
       "step": 9500
+    },
+    {
+      "epoch": 0.7345588800861472,
+      "grad_norm": 3.8532371520996094,
+      "learning_rate": 0.0001530426200555801,
+      "loss": 4.3473,
+      "step": 9550
+    },
+    {
+      "epoch": 0.7384047380970694,
+      "grad_norm": 4.654659271240234,
+      "learning_rate": 0.0001527829000337636,
+      "loss": 4.457,
+      "step": 9600
+    },
+    {
+      "epoch": 0.7422505961079917,
+      "grad_norm": 2.420182228088379,
+      "learning_rate": 0.0001525231800119471,
+      "loss": 4.4521,
+      "step": 9650
+    },
+    {
+      "epoch": 0.7460964541189139,
+      "grad_norm": 4.189414978027344,
+      "learning_rate": 0.00015226345999013065,
+      "loss": 4.2569,
+      "step": 9700
+    },
+    {
+      "epoch": 0.7499423121298362,
+      "grad_norm": 2.824084997177124,
+      "learning_rate": 0.00015200373996831416,
+      "loss": 4.3409,
+      "step": 9750
+    },
+    {
+      "epoch": 0.7499423121298362,
+      "eval_loss": 4.378731727600098,
+      "eval_runtime": 18.4857,
+      "eval_samples_per_second": 54.096,
+      "eval_steps_per_second": 13.524,
+      "step": 9750
+    },
+    {
+      "epoch": 0.7537881701407584,
+      "grad_norm": 6.379781723022461,
+      "learning_rate": 0.00015174401994649768,
+      "loss": 4.3041,
+      "step": 9800
+    },
+    {
+      "epoch": 0.7576340281516807,
+      "grad_norm": 1.7334113121032715,
+      "learning_rate": 0.00015148429992468122,
+      "loss": 4.3096,
+      "step": 9850
+    },
+    {
+      "epoch": 0.7614798861626029,
+      "grad_norm": 4.287415027618408,
+      "learning_rate": 0.00015122457990286473,
+      "loss": 4.4411,
+      "step": 9900
+    },
+    {
+      "epoch": 0.7653257441735252,
+      "grad_norm": 3.3184821605682373,
+      "learning_rate": 0.00015096485988104821,
+      "loss": 4.3992,
+      "step": 9950
+    },
+    {
+      "epoch": 0.7691716021844474,
+      "grad_norm": 4.698968887329102,
+      "learning_rate": 0.00015070513985923175,
+      "loss": 4.4726,
+      "step": 10000
+    },
+    {
+      "epoch": 0.7691716021844474,
+      "eval_loss": 4.408615589141846,
+      "eval_runtime": 18.5408,
+      "eval_samples_per_second": 53.935,
+      "eval_steps_per_second": 13.484,
+      "step": 10000
     }
   ],
   "logging_steps": 50,