Training in progress, step 23000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +81 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:596c1e3afdd59a5f888e2e097f32bc12312812a5874bc9ba56a6a84a477bb16a
 size 891558696

 version https://git-lfs.github.com/spec/v1
+oid sha256:40edcfcd3eadd3934df8237241fafe734256be703a0e3946a4e6ee14e6bf5a22
 size 891558696

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5db73359845187641317b27e1b4060f1552fef0e348ea1b12216d2d2fe327502
 size 1783272762

 version https://git-lfs.github.com/spec/v1
+oid sha256:0d296490c405857ea96e4fbe1deae357928a09b842487dd9e87ba7f64056b04e
 size 1783272762

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:59a02c4a661b5f9af67ada735fa8a7871859bbc9bec13b24943a443d89f55f00
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:9b5df9c2ed680cbe1eadef613230eab99b9589effb616e86f824a6c4d292f402
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5024d85f7d5741e2ee48baa326700e94d49b2910a8865857cf6ad58106fa2d05
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:5dcf2c6dc0ad63a4d7cbede289213f75c3cbabb91c5c15238e6438903f0efdfd
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.0815029963850975,
   "best_model_checkpoint": "./fine-tuned/checkpoint-22500",
-  "epoch": 1.8,
   "eval_steps": 500,
-  "global_step": 22500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3517,6 +3517,84 @@
       "eval_samples_per_second": 22.709,
       "eval_steps_per_second": 5.677,
       "step": 22500
     }
   ],
   "logging_steps": 50,
@@ -3536,7 +3614,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5.48062101504e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.0815029963850975,
   "best_model_checkpoint": "./fine-tuned/checkpoint-22500",
+  "epoch": 1.8399999999999999,
   "eval_steps": 500,
+  "global_step": 23000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 22.709,
       "eval_steps_per_second": 5.677,
       "step": 22500
+    },
+    {
+      "epoch": 1.804,
+      "grad_norm": 0.10228476673364639,
+      "learning_rate": 2.9496e-06,
+      "loss": 0.0534,
+      "step": 22550
+    },
+    {
+      "epoch": 1.808,
+      "grad_norm": 0.12501686811447144,
+      "learning_rate": 2.8896000000000003e-06,
+      "loss": 0.0529,
+      "step": 22600
+    },
+    {
+      "epoch": 1.812,
+      "grad_norm": 0.10296665877103806,
+      "learning_rate": 2.8296e-06,
+      "loss": 0.0575,
+      "step": 22650
+    },
+    {
+      "epoch": 1.8159999999999998,
+      "grad_norm": 0.15849712491035461,
+      "learning_rate": 2.7696e-06,
+      "loss": 0.054,
+      "step": 22700
+    },
+    {
+      "epoch": 1.8199999999999998,
+      "grad_norm": 0.0910249873995781,
+      "learning_rate": 2.7096e-06,
+      "loss": 0.0533,
+      "step": 22750
+    },
+    {
+      "epoch": 1.8239999999999998,
+      "grad_norm": 0.14466793835163116,
+      "learning_rate": 2.6496e-06,
+      "loss": 0.0512,
+      "step": 22800
+    },
+    {
+      "epoch": 1.8279999999999998,
+      "grad_norm": 0.21741582453250885,
+      "learning_rate": 2.5895999999999997e-06,
+      "loss": 0.0574,
+      "step": 22850
+    },
+    {
+      "epoch": 1.8319999999999999,
+      "grad_norm": 0.14835171401500702,
+      "learning_rate": 2.5296000000000003e-06,
+      "loss": 0.0569,
+      "step": 22900
+    },
+    {
+      "epoch": 1.8359999999999999,
+      "grad_norm": 0.13074947893619537,
+      "learning_rate": 2.4696e-06,
+      "loss": 0.0555,
+      "step": 22950
+    },
+    {
+      "epoch": 1.8399999999999999,
+      "grad_norm": 0.14285966753959656,
+      "learning_rate": 2.4096e-06,
+      "loss": 0.0531,
+      "step": 23000
+    },
+    {
+      "epoch": 1.8399999999999999,
+      "eval_loss": 0.08154193311929703,
+      "eval_runtime": 88.0742,
+      "eval_samples_per_second": 22.708,
+      "eval_steps_per_second": 5.677,
+      "step": 23000
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 5.602412593152e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null