Training in progress, step 11000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +83 -5

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5aacaf54054c9481ab96f4c124aec209c4d1863401659f98c84a616c7cf3b550
 size 891558696

 version https://git-lfs.github.com/spec/v1
+oid sha256:8d578e67cefa0cbc87c4588c8c5826c14d9ecd5d9fbb6cb344342920af139033
 size 891558696

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a8f332eb9f4d28577df53d3028e51e20450cadb931e86cac2055b40c315a56d9
 size 1783272762

 version https://git-lfs.github.com/spec/v1
+oid sha256:178bbcd230b3578cd203d8ae6c2add9e74bb7aeabb94d447a3f70919fc0e8241
 size 1783272762

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bcc8dbed04c9f3746bd0fa583310ef7861dc750445ac3c5d408dc532e0ad467a
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:b125975f9fae8190f9270b46403bcee0bbce4a754ced1327bdd16ba81bfb9533
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a2b3eacb375d6a673591c6a5df9c962d90dc8b2211d5552b0eeae2d8a3b7ae27
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:224b826add4bdc720485795d14278c83b0b542b6e36e3b8f6419da3fb4a5e74d
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.08319947868585587,
-  "best_model_checkpoint": "./fine-tuned/checkpoint-10500",
-  "epoch": 0.84,
   "eval_steps": 500,
-  "global_step": 10500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1645,6 +1645,84 @@
       "eval_samples_per_second": 22.724,
       "eval_steps_per_second": 5.681,
       "step": 10500
     }
   ],
   "logging_steps": 50,
@@ -1664,7 +1742,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.557623140352e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.08301527053117752,
+  "best_model_checkpoint": "./fine-tuned/checkpoint-11000",
+  "epoch": 0.88,
   "eval_steps": 500,
+  "global_step": 11000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 22.724,
       "eval_steps_per_second": 5.681,
       "step": 10500
+    },
+    {
+      "epoch": 0.844,
+      "grad_norm": 0.16710689663887024,
+      "learning_rate": 1.7342400000000002e-05,
+      "loss": 0.0616,
+      "step": 10550
+    },
+    {
+      "epoch": 0.848,
+      "grad_norm": 0.2513883411884308,
+      "learning_rate": 1.7282400000000002e-05,
+      "loss": 0.0638,
+      "step": 10600
+    },
+    {
+      "epoch": 0.852,
+      "grad_norm": 0.182452991604805,
+      "learning_rate": 1.7222400000000003e-05,
+      "loss": 0.0588,
+      "step": 10650
+    },
+    {
+      "epoch": 0.856,
+      "grad_norm": 0.16390974819660187,
+      "learning_rate": 1.71624e-05,
+      "loss": 0.059,
+      "step": 10700
+    },
+    {
+      "epoch": 0.86,
+      "grad_norm": 0.13543175160884857,
+      "learning_rate": 1.71024e-05,
+      "loss": 0.0648,
+      "step": 10750
+    },
+    {
+      "epoch": 0.864,
+      "grad_norm": 0.12370152771472931,
+      "learning_rate": 1.70424e-05,
+      "loss": 0.0625,
+      "step": 10800
+    },
+    {
+      "epoch": 0.868,
+      "grad_norm": 0.23662041127681732,
+      "learning_rate": 1.6982400000000002e-05,
+      "loss": 0.0667,
+      "step": 10850
+    },
+    {
+      "epoch": 0.872,
+      "grad_norm": 0.1502092331647873,
+      "learning_rate": 1.6922400000000003e-05,
+      "loss": 0.0652,
+      "step": 10900
+    },
+    {
+      "epoch": 0.876,
+      "grad_norm": 0.1745540052652359,
+      "learning_rate": 1.68624e-05,
+      "loss": 0.063,
+      "step": 10950
+    },
+    {
+      "epoch": 0.88,
+      "grad_norm": 0.20543019473552704,
+      "learning_rate": 1.68024e-05,
+      "loss": 0.0605,
+      "step": 11000
+    },
+    {
+      "epoch": 0.88,
+      "eval_loss": 0.08301527053117752,
+      "eval_runtime": 88.0655,
+      "eval_samples_per_second": 22.71,
+      "eval_steps_per_second": 5.678,
+      "step": 11000
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 2.679414718464e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null