Training in progress, step 10000, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +2 -2
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +88 -2

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f99a737d1188d26749e1f79393398cf632ff62d367413aa544169176d1155d64
 size 36730224

 version https://git-lfs.github.com/spec/v1
+oid sha256:fbda29e3fc4574d26f4c2d88945024a17cf0a9095cfd76acea4713a70561f4b9
 size 36730224

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0bfc7b1dae63d312ce05a66fb9cd5a96fb16e5d6a11cfa4ba0f11944d2a8a072
 size 73588346

 version https://git-lfs.github.com/spec/v1
+oid sha256:f807c16f8bec038522bfe252b213fc1087e8a39fb1f495399cdf7ee1d92e00a6
 size 73588346

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1c4598e219bb7f2bb5d2c34aa1d6d86aefb320efdbbe18af0ce36833a2da16e9
-size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:2b4e6f78506ab09c8a3ff311a2dfeb7a6190585c49701c5bd2fcc763c2b50448
+size 14180

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c80bec9d89af6c0ab5db061d313a8506f3b43411e72ccae614261263d0bf59b7
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:c5057516ff1b0b207608fc5bf21c504e3b16c8f39cb674a438cf642593270922
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:10022e052ca5e66e7d62da25b0a5c62caae94a4e337df0aab0b25e792e2f0920
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:cf5349680f22d749c8735deb8f593d381f787d0e5d89e99661139aee18144bbf
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": 9500,
   "best_metric": 4.328299045562744,
   "best_model_checkpoint": "./ar-diffusion-checkpoints/checkpoint-9500",
-  "epoch": 0.7307130220752249,
   "eval_steps": 250,
-  "global_step": 9500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1642,6 +1642,92 @@
       "eval_samples_per_second": 53.014,
       "eval_steps_per_second": 13.253,
       "step": 9500
     }
   ],
   "logging_steps": 50,

   "best_global_step": 9500,
   "best_metric": 4.328299045562744,
   "best_model_checkpoint": "./ar-diffusion-checkpoints/checkpoint-9500",
+  "epoch": 0.7691716021844474,
   "eval_steps": 250,
+  "global_step": 10000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 53.014,
       "eval_steps_per_second": 13.253,
       "step": 9500
+    },
+    {
+      "epoch": 0.7345588800861472,
+      "grad_norm": 3.9685990810394287,
+      "learning_rate": 9.141355097239072e-05,
+      "loss": 4.325,
+      "step": 9550
+    },
+    {
+      "epoch": 0.7384047380970694,
+      "grad_norm": 5.303285121917725,
+      "learning_rate": 9.11562074923716e-05,
+      "loss": 4.4277,
+      "step": 9600
+    },
+    {
+      "epoch": 0.7422505961079917,
+      "grad_norm": 2.70599627494812,
+      "learning_rate": 9.089886401235249e-05,
+      "loss": 4.4329,
+      "step": 9650
+    },
+    {
+      "epoch": 0.7460964541189139,
+      "grad_norm": 4.711449146270752,
+      "learning_rate": 9.064152053233336e-05,
+      "loss": 4.251,
+      "step": 9700
+    },
+    {
+      "epoch": 0.7499423121298362,
+      "grad_norm": 3.0169851779937744,
+      "learning_rate": 9.038417705231424e-05,
+      "loss": 4.3483,
+      "step": 9750
+    },
+    {
+      "epoch": 0.7499423121298362,
+      "eval_loss": 4.341108322143555,
+      "eval_runtime": 18.9063,
+      "eval_samples_per_second": 52.893,
+      "eval_steps_per_second": 13.223,
+      "step": 9750
+    },
+    {
+      "epoch": 0.7537881701407584,
+      "grad_norm": 3.375880002975464,
+      "learning_rate": 9.012683357229513e-05,
+      "loss": 4.313,
+      "step": 9800
+    },
+    {
+      "epoch": 0.7576340281516807,
+      "grad_norm": 1.707850456237793,
+      "learning_rate": 8.986949009227601e-05,
+      "loss": 4.3062,
+      "step": 9850
+    },
+    {
+      "epoch": 0.7614798861626029,
+      "grad_norm": 3.6718738079071045,
+      "learning_rate": 8.96121466122569e-05,
+      "loss": 4.4415,
+      "step": 9900
+    },
+    {
+      "epoch": 0.7653257441735252,
+      "grad_norm": 3.5382699966430664,
+      "learning_rate": 8.935480313223778e-05,
+      "loss": 4.3754,
+      "step": 9950
+    },
+    {
+      "epoch": 0.7691716021844474,
+      "grad_norm": 4.678229808807373,
+      "learning_rate": 8.909745965221865e-05,
+      "loss": 4.4404,
+      "step": 10000
+    },
+    {
+      "epoch": 0.7691716021844474,
+      "eval_loss": 4.3746819496154785,
+      "eval_runtime": 18.7221,
+      "eval_samples_per_second": 53.413,
+      "eval_steps_per_second": 13.353,
+      "step": 10000
     }
   ],
   "logging_steps": 50,