Training in progress, step 28, checkpoint

Browse files

Files changed (3) hide show

last-checkpoint/model-00001-of-00002.safetensors +1 -1
last-checkpoint/model-00002-of-00002.safetensors +1 -1
last-checkpoint/trainer_state.json +110 -4

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:92ba3a3db349e135630227b69d3b515f4496a179bcceedee16fae37b44a13c45
 size 4967215360

 version https://git-lfs.github.com/spec/v1
+oid sha256:302a39c9d5329aabe20f61d80d89f05070bb802acbec752413fd637b7e66bd79
 size 4967215360

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9f848578fbc87f766e993623cf533a89e3b6f9ebe7feb0b3b27cd2a05ddeb760
 size 3077766632

 version https://git-lfs.github.com/spec/v1
+oid sha256:8e7bd6a8c24f94c6c5ddc25d7185ca414e65c6937283d89755268e46f5613f88
 size 3077766632

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.0,
   "eval_steps": 14,
-  "global_step": 14,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -114,6 +114,112 @@
       "eval_samples_per_second": 12.13,
       "eval_steps_per_second": 3.154,
       "step": 14
     }
   ],
   "logging_steps": 1,
@@ -128,12 +234,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 2778037092352.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 4.0,
   "eval_steps": 14,
+  "global_step": 28,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 12.13,
       "eval_steps_per_second": 3.154,
       "step": 14
+    },
+    {
+      "epoch": 2.142857142857143,
+      "grad_norm": 0.7105587071696532,
+      "learning_rate": 6.343215915635762e-05,
+      "loss": 0.3543,
+      "step": 15
+    },
+    {
+      "epoch": 2.2857142857142856,
+      "grad_norm": 0.627398851675487,
+      "learning_rate": 5.782557337881911e-05,
+      "loss": 0.3089,
+      "step": 16
+    },
+    {
+      "epoch": 2.4285714285714284,
+      "grad_norm": 0.6105424817514371,
+      "learning_rate": 5.2174426621180906e-05,
+      "loss": 0.2729,
+      "step": 17
+    },
+    {
+      "epoch": 2.571428571428571,
+      "grad_norm": 0.6952762206191616,
+      "learning_rate": 4.6567840843642384e-05,
+      "loss": 0.2858,
+      "step": 18
+    },
+    {
+      "epoch": 2.7142857142857144,
+      "grad_norm": 0.46310196187720826,
+      "learning_rate": 4.109423525312738e-05,
+      "loss": 0.2778,
+      "step": 19
+    },
+    {
+      "epoch": 2.857142857142857,
+      "grad_norm": 0.9186572654489482,
+      "learning_rate": 3.583993187957173e-05,
+      "loss": 0.2704,
+      "step": 20
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 0.4188753131719169,
+      "learning_rate": 3.088779422594514e-05,
+      "loss": 0.2588,
+      "step": 21
+    },
+    {
+      "epoch": 3.142857142857143,
+      "grad_norm": 0.6042841569424611,
+      "learning_rate": 2.6315920461308964e-05,
+      "loss": 0.2056,
+      "step": 22
+    },
+    {
+      "epoch": 3.2857142857142856,
+      "grad_norm": 0.5170326076545962,
+      "learning_rate": 2.219641176603649e-05,
+      "loss": 0.1908,
+      "step": 23
+    },
+    {
+      "epoch": 3.4285714285714284,
+      "grad_norm": 0.4239245143510279,
+      "learning_rate": 1.8594235253127375e-05,
+      "loss": 0.1778,
+      "step": 24
+    },
+    {
+      "epoch": 3.571428571428571,
+      "grad_norm": 0.44150441663060497,
+      "learning_rate": 1.556619939802615e-05,
+      "loss": 0.179,
+      "step": 25
+    },
+    {
+      "epoch": 3.7142857142857144,
+      "grad_norm": 0.666599351157649,
+      "learning_rate": 1.3160058135028691e-05,
+      "loss": 0.173,
+      "step": 26
+    },
+    {
+      "epoch": 3.857142857142857,
+      "grad_norm": 0.5574526628587583,
+      "learning_rate": 1.1413757749211602e-05,
+      "loss": 0.1666,
+      "step": 27
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 0.45628437147964007,
+      "learning_rate": 1.0354838440848503e-05,
+      "loss": 0.1653,
+      "step": 28
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 0.46450117230415344,
+      "eval_runtime": 4.2935,
+      "eval_samples_per_second": 11.645,
+      "eval_steps_per_second": 3.028,
+      "step": 28
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 5574381731840.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null