End of training: push final checkpoint

Browse files

Files changed (4) hide show

README.md +1 -1
all_results.json +15 -0
train_results.json +15 -0
trainer_state.json +203 -0

README.md CHANGED Viewed

@@ -14,7 +14,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [](https://huggingface.co/) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 11.9038
 ## Model description

 This model is a fine-tuned version of [](https://huggingface.co/) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 11.9037
 ## Model description

all_results.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+    "epoch": 0.9922480620155039,
+    "eval_epoch": 0.9922480620155039,
+    "eval_eval_loss": 11.903702735900879,
+    "eval_eval_runtime": 0.5035,
+    "eval_eval_samples_per_second": 9.931,
+    "eval_eval_steps_per_second": 3.972,
+    "eval_perplexity": 147812.92543935214,
+    "total_flos": 26286684635136.0,
+    "train_loss": 95.25646018981934,
+    "train_runtime": 18.4927,
+    "train_samples": 515,
+    "train_samples_per_second": 27.849,
+    "train_steps_per_second": 0.865
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+    "epoch": 0.9922480620155039,
+    "eval_epoch": 0.9922480620155039,
+    "eval_eval_loss": 11.903702735900879,
+    "eval_eval_runtime": 0.5035,
+    "eval_eval_samples_per_second": 9.931,
+    "eval_eval_steps_per_second": 3.972,
+    "eval_perplexity": 147812.92543935214,
+    "total_flos": 26286684635136.0,
+    "train_loss": 95.25646018981934,
+    "train_runtime": 18.4927,
+    "train_samples": 515,
+    "train_samples_per_second": 27.849,
+    "train_steps_per_second": 0.865
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,203 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.9922480620155039,
+  "eval_steps": 3,
+  "global_step": 16,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.06201550387596899,
+      "grad_norm": 1.324246883392334,
+      "learning_rate": 0.0,
+      "loss": 95.471,
+      "step": 1
+    },
+    {
+      "epoch": 0.12403100775193798,
+      "grad_norm": 1.289596676826477,
+      "learning_rate": 0.0002,
+      "loss": 95.437,
+      "step": 2
+    },
+    {
+      "epoch": 0.18604651162790697,
+      "grad_norm": 1.3081743717193604,
+      "learning_rate": 0.00019781476007338058,
+      "loss": 95.3922,
+      "step": 3
+    },
+    {
+      "epoch": 0.18604651162790697,
+      "eval_loss": 11.929765701293945,
+      "eval_runtime": 0.1016,
+      "eval_samples_per_second": 49.2,
+      "eval_steps_per_second": 19.68,
+      "step": 3
+    },
+    {
+      "epoch": 0.24806201550387597,
+      "grad_norm": 1.3165432214736938,
+      "learning_rate": 0.0001913545457642601,
+      "loss": 95.3637,
+      "step": 4
+    },
+    {
+      "epoch": 0.31007751937984496,
+      "grad_norm": 1.312530755996704,
+      "learning_rate": 0.00018090169943749476,
+      "loss": 95.3947,
+      "step": 5
+    },
+    {
+      "epoch": 0.37209302325581395,
+      "grad_norm": 1.3151068687438965,
+      "learning_rate": 0.00016691306063588583,
+      "loss": 95.3294,
+      "step": 6
+    },
+    {
+      "epoch": 0.37209302325581395,
+      "eval_loss": 11.918438911437988,
+      "eval_runtime": 0.0905,
+      "eval_samples_per_second": 55.233,
+      "eval_steps_per_second": 22.093,
+      "step": 6
+    },
+    {
+      "epoch": 0.43410852713178294,
+      "grad_norm": 1.3396779298782349,
+      "learning_rate": 0.00015000000000000001,
+      "loss": 95.2012,
+      "step": 7
+    },
+    {
+      "epoch": 0.49612403100775193,
+      "grad_norm": 1.3890634775161743,
+      "learning_rate": 0.00013090169943749476,
+      "loss": 95.2384,
+      "step": 8
+    },
+    {
+      "epoch": 0.5581395348837209,
+      "grad_norm": 1.3167331218719482,
+      "learning_rate": 0.00011045284632676536,
+      "loss": 95.1952,
+      "step": 9
+    },
+    {
+      "epoch": 0.5581395348837209,
+      "eval_loss": 11.909274101257324,
+      "eval_runtime": 0.083,
+      "eval_samples_per_second": 60.261,
+      "eval_steps_per_second": 24.104,
+      "step": 9
+    },
+    {
+      "epoch": 0.6201550387596899,
+      "grad_norm": 1.3647342920303345,
+      "learning_rate": 8.954715367323468e-05,
+      "loss": 95.1965,
+      "step": 10
+    },
+    {
+      "epoch": 0.6821705426356589,
+      "grad_norm": 1.311335563659668,
+      "learning_rate": 6.909830056250527e-05,
+      "loss": 95.1483,
+      "step": 11
+    },
+    {
+      "epoch": 0.7441860465116279,
+      "grad_norm": 1.2832609415054321,
+      "learning_rate": 5.000000000000002e-05,
+      "loss": 95.1862,
+      "step": 12
+    },
+    {
+      "epoch": 0.7441860465116279,
+      "eval_loss": 11.905265808105469,
+      "eval_runtime": 0.0675,
+      "eval_samples_per_second": 74.071,
+      "eval_steps_per_second": 29.628,
+      "step": 12
+    },
+    {
+      "epoch": 0.8062015503875969,
+      "grad_norm": 1.3671646118164062,
+      "learning_rate": 3.308693936411421e-05,
+      "loss": 95.1522,
+      "step": 13
+    },
+    {
+      "epoch": 0.8682170542635659,
+      "grad_norm": 1.2626255750656128,
+      "learning_rate": 1.9098300562505266e-05,
+      "loss": 95.1792,
+      "step": 14
+    },
+    {
+      "epoch": 0.9302325581395349,
+      "grad_norm": 1.3233616352081299,
+      "learning_rate": 8.645454235739903e-06,
+      "loss": 95.0949,
+      "step": 15
+    },
+    {
+      "epoch": 0.9302325581395349,
+      "eval_loss": 11.903751373291016,
+      "eval_runtime": 0.0733,
+      "eval_samples_per_second": 68.257,
+      "eval_steps_per_second": 27.303,
+      "step": 15
+    },
+    {
+      "epoch": 0.9922480620155039,
+      "grad_norm": 1.3294514417648315,
+      "learning_rate": 2.1852399266194314e-06,
+      "loss": 95.1233,
+      "step": 16
+    },
+    {
+      "epoch": 0.9922480620155039,
+      "step": 16,
+      "total_flos": 26286684635136.0,
+      "train_loss": 95.25646018981934,
+      "train_runtime": 18.4927,
+      "train_samples_per_second": 27.849,
+      "train_steps_per_second": 0.865
+    },
+    {
+      "epoch": 0.9922480620155039,
+      "eval_loss": 11.903702735900879,
+      "eval_runtime": 0.5035,
+      "eval_samples_per_second": 9.931,
+      "eval_steps_per_second": 3.972,
+      "step": 16
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 16,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 2000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 26286684635136.0,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}