Training in progress, step 10000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +83 -5

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:79d246435ab5b40ad2ea43d8f5100d2b86ff4b2b6856057a71c7e027ed54a525
 size 891558696

 version https://git-lfs.github.com/spec/v1
+oid sha256:5d220ecc16a6dfc89422bca61f2e82fa5409c8e0025b733a0084094bebb3ad38
 size 891558696

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:64f09f59006a636b77641a43b73bf147e4d36c6b5a2f33fb4d1638706ccc710a
 size 1783272762

 version https://git-lfs.github.com/spec/v1
+oid sha256:732697ac83fc07fe43a3d59c6ed5cfdde9a44eb04f5a28df82f1bae231ebecac
 size 1783272762

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9d34bc75d96aba8284db8d20e2294a4e554617b7623afa838e1b67103dc8d05a
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:d4f0336fd2179ac86a5ce6aaf8830eebae152619763d875677000624b0d5df8f
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6239f6e8ed7e2039649ceba0353d677c59a2e919a67e2025fa635742b0397798
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:661fa99b8052c174bd0009dc67982291a9f4a6f70e6b8d4ec974bec23de59a1d
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.08371420204639435,
-  "best_model_checkpoint": "./fine-tuned/checkpoint-9500",
-  "epoch": 0.76,
   "eval_steps": 500,
-  "global_step": 9500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1489,6 +1489,84 @@
       "eval_samples_per_second": 22.71,
       "eval_steps_per_second": 5.677,
       "step": 9500
     }
   ],
   "logging_steps": 50,
@@ -1508,7 +1586,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.314039984128e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.08371368050575256,
+  "best_model_checkpoint": "./fine-tuned/checkpoint-10000",
+  "epoch": 0.8,
   "eval_steps": 500,
+  "global_step": 10000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 22.71,
       "eval_steps_per_second": 5.677,
       "step": 9500
+    },
+    {
+      "epoch": 0.764,
+      "grad_norm": 0.07568900287151337,
+      "learning_rate": 1.85424e-05,
+      "loss": 0.0648,
+      "step": 9550
+    },
+    {
+      "epoch": 0.768,
+      "grad_norm": 0.11715036630630493,
+      "learning_rate": 1.8482399999999998e-05,
+      "loss": 0.0644,
+      "step": 9600
+    },
+    {
+      "epoch": 0.772,
+      "grad_norm": 0.18466413021087646,
+      "learning_rate": 1.84224e-05,
+      "loss": 0.0641,
+      "step": 9650
+    },
+    {
+      "epoch": 0.776,
+      "grad_norm": 0.15552838146686554,
+      "learning_rate": 1.83624e-05,
+      "loss": 0.0538,
+      "step": 9700
+    },
+    {
+      "epoch": 0.78,
+      "grad_norm": 0.1408630758523941,
+      "learning_rate": 1.83024e-05,
+      "loss": 0.0589,
+      "step": 9750
+    },
+    {
+      "epoch": 0.784,
+      "grad_norm": 0.1492939293384552,
+      "learning_rate": 1.82424e-05,
+      "loss": 0.0599,
+      "step": 9800
+    },
+    {
+      "epoch": 0.788,
+      "grad_norm": 0.08888087421655655,
+      "learning_rate": 1.81824e-05,
+      "loss": 0.0591,
+      "step": 9850
+    },
+    {
+      "epoch": 0.792,
+      "grad_norm": 0.11865179240703583,
+      "learning_rate": 1.8122399999999998e-05,
+      "loss": 0.0581,
+      "step": 9900
+    },
+    {
+      "epoch": 0.796,
+      "grad_norm": 0.18105269968509674,
+      "learning_rate": 1.80624e-05,
+      "loss": 0.0592,
+      "step": 9950
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 0.11952503770589828,
+      "learning_rate": 1.80024e-05,
+      "loss": 0.0567,
+      "step": 10000
+    },
+    {
+      "epoch": 0.8,
+      "eval_loss": 0.08371368050575256,
+      "eval_runtime": 88.0598,
+      "eval_samples_per_second": 22.712,
+      "eval_steps_per_second": 5.678,
+      "step": 10000
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 2.43583156224e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null