Training in progress, epoch 9, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +79 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:79ecb58c1fcba639498eb4bb8f9fd11485e8f410da635bffd7990f7d24a9ad84
 size 2682482800

 version https://git-lfs.github.com/spec/v1
+oid sha256:99e82e82f374c2673ef04a502ab788d5b3699ba02ae9cbb612822d23f1048aaa
 size 2682482800

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bc51d878f8242e2efc63c0c0a3e6c6b8ebb1c5eedd276b9fd4ca5863d4b4c44c
 size 5365108834

 version https://git-lfs.github.com/spec/v1
+oid sha256:11a72e36fd2dbdba8586fcbf48397a69a66a780b5217bacb7a4c129bba516b9e
 size 5365108834

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:11f1252e969592bce36bc2e2fc4eed6af06892f0a3f45eb582be003ac5046ad5
 size 15006

 version https://git-lfs.github.com/spec/v1
+oid sha256:2168e6be520a803e330b14854aa047c840fbbc36e1cd7f9a8956c981c5afc55f
 size 15006

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:37acfbdf3414734e537adb979fbdbc4d04a389a43d3107d724270efe19fa191f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:6602c18a1ebe894c1d51ce5c9cea3744db091c466423f123d4fa8b7754d9378a
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 9.0,
   "eval_steps": 50,
-  "global_step": 2457,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -742,6 +742,81 @@
       "eval_samples_per_second": 41.573,
       "eval_steps_per_second": 20.786,
       "step": 2450
     }
   ],
   "logging_steps": 50,
@@ -756,12 +831,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 6.316931282433475e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 9.966800689259047,
   "eval_steps": 50,
+  "global_step": 2720,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 41.573,
       "eval_steps_per_second": 20.786,
       "step": 2450
+    },
+    {
+      "epoch": 9.15807007466973,
+      "grad_norm": 55.69232940673828,
+      "learning_rate": 8.088235294117648e-06,
+      "loss": 0.7995,
+      "step": 2500
+    },
+    {
+      "epoch": 9.15807007466973,
+      "eval_loss": 1.2360199689865112,
+      "eval_runtime": 116.0847,
+      "eval_samples_per_second": 41.573,
+      "eval_steps_per_second": 20.787,
+      "step": 2500
+    },
+    {
+      "epoch": 9.341872487076392,
+      "grad_norm": 62.24937438964844,
+      "learning_rate": 6.25e-06,
+      "loss": 0.8149,
+      "step": 2550
+    },
+    {
+      "epoch": 9.341872487076392,
+      "eval_loss": 1.2363650798797607,
+      "eval_runtime": 116.0508,
+      "eval_samples_per_second": 41.585,
+      "eval_steps_per_second": 20.793,
+      "step": 2550
+    },
+    {
+      "epoch": 9.525674899483056,
+      "grad_norm": 50.01460266113281,
+      "learning_rate": 4.411764705882353e-06,
+      "loss": 0.8146,
+      "step": 2600
+    },
+    {
+      "epoch": 9.525674899483056,
+      "eval_loss": 1.2402119636535645,
+      "eval_runtime": 116.1442,
+      "eval_samples_per_second": 41.552,
+      "eval_steps_per_second": 20.776,
+      "step": 2600
+    },
+    {
+      "epoch": 9.709477311889719,
+      "grad_norm": 60.61581802368164,
+      "learning_rate": 2.573529411764706e-06,
+      "loss": 0.8075,
+      "step": 2650
+    },
+    {
+      "epoch": 9.709477311889719,
+      "eval_loss": 1.2341493368148804,
+      "eval_runtime": 116.3546,
+      "eval_samples_per_second": 41.477,
+      "eval_steps_per_second": 20.738,
+      "step": 2650
+    },
+    {
+      "epoch": 9.89327972429638,
+      "grad_norm": 54.73764419555664,
+      "learning_rate": 7.352941176470589e-07,
+      "loss": 0.8108,
+      "step": 2700
+    },
+    {
+      "epoch": 9.89327972429638,
+      "eval_loss": 1.2355538606643677,
+      "eval_runtime": 116.1282,
+      "eval_samples_per_second": 41.558,
+      "eval_steps_per_second": 20.779,
+      "step": 2700
     }
   ],
   "logging_steps": 50,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 6.99559007609684e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null