End of training

Browse files

Files changed (7) hide show

README.md +2 -1
all_results.json +12 -0
eval_results.json +7 -0
train_results.json +8 -0
trainer_state.json +472 -0
training_eval_loss.png +0 -0
training_loss.png +0 -0

README.md CHANGED Viewed

@@ -4,6 +4,7 @@ license: llama3
 base_model: meta-llama/Meta-Llama-3-8B-Instruct
 tags:
 - llama-factory
 - generated_from_trainer
 model-index:
 - name: sft_mc_filtered
@@ -15,7 +16,7 @@ should probably proofread and complete it, then remove this comment. -->
 # sft_mc_filtered
-This model is a fine-tuned version of [meta-llama/Meta-Llama-3-8B-Instruct](https://huggingface.co/meta-llama/Meta-Llama-3-8B-Instruct) on the None dataset.
 It achieves the following results on the evaluation set:
 - Loss: 2.3079

 base_model: meta-llama/Meta-Llama-3-8B-Instruct
 tags:
 - llama-factory
+- full
 - generated_from_trainer
 model-index:
 - name: sft_mc_filtered
 # sft_mc_filtered
+This model is a fine-tuned version of [meta-llama/Meta-Llama-3-8B-Instruct](https://huggingface.co/meta-llama/Meta-Llama-3-8B-Instruct) on the identity and the data_mc_filtered datasets.
 It achieves the following results on the evaluation set:
 - Loss: 2.3079

all_results.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+    "epoch": 10.0,
+    "eval_loss": 2.3078930377960205,
+    "eval_runtime": 1.0328,
+    "eval_samples_per_second": 16.46,
+    "eval_steps_per_second": 2.905,
+    "total_flos": 37534574837760.0,
+    "train_loss": 0.26039194798469545,
+    "train_runtime": 1475.1742,
+    "train_samples_per_second": 5.403,
+    "train_steps_per_second": 0.339
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "epoch": 10.0,
+    "eval_loss": 2.3078930377960205,
+    "eval_runtime": 1.0328,
+    "eval_samples_per_second": 16.46,
+    "eval_steps_per_second": 2.905
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 10.0,
+    "total_flos": 37534574837760.0,
+    "train_loss": 0.26039194798469545,
+    "train_runtime": 1475.1742,
+    "train_samples_per_second": 5.403,
+    "train_steps_per_second": 0.339
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,472 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 10.0,
+  "eval_steps": 50,
+  "global_step": 500,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.2,
+      "grad_norm": 32.215486418057836,
+      "learning_rate": 2.0000000000000003e-06,
+      "loss": 1.507,
+      "step": 10
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 17.53584966854256,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 1.0158,
+      "step": 20
+    },
+    {
+      "epoch": 0.6,
+      "grad_norm": 10.21777506024786,
+      "learning_rate": 6e-06,
+      "loss": 0.9148,
+      "step": 30
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 11.037533581774264,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 0.7659,
+      "step": 40
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 12.348125604423814,
+      "learning_rate": 1e-05,
+      "loss": 0.8433,
+      "step": 50
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 1.0960203409194946,
+      "eval_runtime": 1.0335,
+      "eval_samples_per_second": 16.448,
+      "eval_steps_per_second": 2.903,
+      "step": 50
+    },
+    {
+      "epoch": 1.2,
+      "grad_norm": 11.850091156248704,
+      "learning_rate": 9.987820251299121e-06,
+      "loss": 0.6045,
+      "step": 60
+    },
+    {
+      "epoch": 1.4,
+      "grad_norm": 8.774567976123997,
+      "learning_rate": 9.951340343707852e-06,
+      "loss": 0.6436,
+      "step": 70
+    },
+    {
+      "epoch": 1.6,
+      "grad_norm": 7.56423224860242,
+      "learning_rate": 9.890738003669029e-06,
+      "loss": 0.6194,
+      "step": 80
+    },
+    {
+      "epoch": 1.8,
+      "grad_norm": 9.761428972107632,
+      "learning_rate": 9.806308479691595e-06,
+      "loss": 0.6762,
+      "step": 90
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 8.275718136211415,
+      "learning_rate": 9.698463103929542e-06,
+      "loss": 0.6237,
+      "step": 100
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 1.131184697151184,
+      "eval_runtime": 1.0288,
+      "eval_samples_per_second": 16.524,
+      "eval_steps_per_second": 2.916,
+      "step": 100
+    },
+    {
+      "epoch": 2.2,
+      "grad_norm": 10.243082528915453,
+      "learning_rate": 9.567727288213005e-06,
+      "loss": 0.3926,
+      "step": 110
+    },
+    {
+      "epoch": 2.4,
+      "grad_norm": 6.692595611616738,
+      "learning_rate": 9.414737964294636e-06,
+      "loss": 0.386,
+      "step": 120
+    },
+    {
+      "epoch": 2.6,
+      "grad_norm": 7.767268297417072,
+      "learning_rate": 9.24024048078213e-06,
+      "loss": 0.4027,
+      "step": 130
+    },
+    {
+      "epoch": 2.8,
+      "grad_norm": 8.931326769204444,
+      "learning_rate": 9.045084971874738e-06,
+      "loss": 0.397,
+      "step": 140
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 8.32608967253919,
+      "learning_rate": 8.83022221559489e-06,
+      "loss": 0.391,
+      "step": 150
+    },
+    {
+      "epoch": 3.0,
+      "eval_loss": 1.2465544939041138,
+      "eval_runtime": 1.0305,
+      "eval_samples_per_second": 16.498,
+      "eval_steps_per_second": 2.911,
+      "step": 150
+    },
+    {
+      "epoch": 3.2,
+      "grad_norm": 7.073212488180378,
+      "learning_rate": 8.596699001693257e-06,
+      "loss": 0.2198,
+      "step": 160
+    },
+    {
+      "epoch": 3.4,
+      "grad_norm": 7.2442332680693875,
+      "learning_rate": 8.345653031794292e-06,
+      "loss": 0.2356,
+      "step": 170
+    },
+    {
+      "epoch": 3.6,
+      "grad_norm": 6.16850982087996,
+      "learning_rate": 8.078307376628292e-06,
+      "loss": 0.2416,
+      "step": 180
+    },
+    {
+      "epoch": 3.8,
+      "grad_norm": 5.844877152864581,
+      "learning_rate": 7.795964517353734e-06,
+      "loss": 0.2504,
+      "step": 190
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 6.614175675387944,
+      "learning_rate": 7.500000000000001e-06,
+      "loss": 0.2529,
+      "step": 200
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 1.4002876281738281,
+      "eval_runtime": 1.0309,
+      "eval_samples_per_second": 16.49,
+      "eval_steps_per_second": 2.91,
+      "step": 200
+    },
+    {
+      "epoch": 4.2,
+      "grad_norm": 4.846835703254587,
+      "learning_rate": 7.191855733945388e-06,
+      "loss": 0.1487,
+      "step": 210
+    },
+    {
+      "epoch": 4.4,
+      "grad_norm": 5.61752695846374,
+      "learning_rate": 6.873032967079562e-06,
+      "loss": 0.1411,
+      "step": 220
+    },
+    {
+      "epoch": 4.6,
+      "grad_norm": 7.574897231650108,
+      "learning_rate": 6.545084971874738e-06,
+      "loss": 0.1586,
+      "step": 230
+    },
+    {
+      "epoch": 4.8,
+      "grad_norm": 4.565228907443193,
+      "learning_rate": 6.209609477998339e-06,
+      "loss": 0.2038,
+      "step": 240
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 4.885717790285905,
+      "learning_rate": 5.8682408883346535e-06,
+      "loss": 0.148,
+      "step": 250
+    },
+    {
+      "epoch": 5.0,
+      "eval_loss": 1.46064031124115,
+      "eval_runtime": 1.03,
+      "eval_samples_per_second": 16.505,
+      "eval_steps_per_second": 2.913,
+      "step": 250
+    },
+    {
+      "epoch": 5.2,
+      "grad_norm": 7.108983510814077,
+      "learning_rate": 5.522642316338268e-06,
+      "loss": 0.0645,
+      "step": 260
+    },
+    {
+      "epoch": 5.4,
+      "grad_norm": 5.454792099444044,
+      "learning_rate": 5.174497483512506e-06,
+      "loss": 0.084,
+      "step": 270
+    },
+    {
+      "epoch": 5.6,
+      "grad_norm": 3.0763686972511572,
+      "learning_rate": 4.825502516487497e-06,
+      "loss": 0.0773,
+      "step": 280
+    },
+    {
+      "epoch": 5.8,
+      "grad_norm": 4.791359217511534,
+      "learning_rate": 4.477357683661734e-06,
+      "loss": 0.1003,
+      "step": 290
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 3.746744930874563,
+      "learning_rate": 4.131759111665349e-06,
+      "loss": 0.0818,
+      "step": 300
+    },
+    {
+      "epoch": 6.0,
+      "eval_loss": 1.5259884595870972,
+      "eval_runtime": 1.0326,
+      "eval_samples_per_second": 16.463,
+      "eval_steps_per_second": 2.905,
+      "step": 300
+    },
+    {
+      "epoch": 6.2,
+      "grad_norm": 7.111673793819084,
+      "learning_rate": 3.790390522001662e-06,
+      "loss": 0.049,
+      "step": 310
+    },
+    {
+      "epoch": 6.4,
+      "grad_norm": 2.936988902922916,
+      "learning_rate": 3.4549150281252635e-06,
+      "loss": 0.0428,
+      "step": 320
+    },
+    {
+      "epoch": 6.6,
+      "grad_norm": 1.8852801169974247,
+      "learning_rate": 3.12696703292044e-06,
+      "loss": 0.0508,
+      "step": 330
+    },
+    {
+      "epoch": 6.8,
+      "grad_norm": 2.313238846786626,
+      "learning_rate": 2.8081442660546126e-06,
+      "loss": 0.0394,
+      "step": 340
+    },
+    {
+      "epoch": 7.0,
+      "grad_norm": 3.084443875902426,
+      "learning_rate": 2.5000000000000015e-06,
+      "loss": 0.0352,
+      "step": 350
+    },
+    {
+      "epoch": 7.0,
+      "eval_loss": 2.0276832580566406,
+      "eval_runtime": 1.0308,
+      "eval_samples_per_second": 16.492,
+      "eval_steps_per_second": 2.91,
+      "step": 350
+    },
+    {
+      "epoch": 7.2,
+      "grad_norm": 3.5661235534617943,
+      "learning_rate": 2.204035482646267e-06,
+      "loss": 0.0272,
+      "step": 360
+    },
+    {
+      "epoch": 7.4,
+      "grad_norm": 0.4070183405976748,
+      "learning_rate": 1.9216926233717087e-06,
+      "loss": 0.0257,
+      "step": 370
+    },
+    {
+      "epoch": 7.6,
+      "grad_norm": 2.699699532592376,
+      "learning_rate": 1.6543469682057105e-06,
+      "loss": 0.0259,
+      "step": 380
+    },
+    {
+      "epoch": 7.8,
+      "grad_norm": 1.0226717900156348,
+      "learning_rate": 1.4033009983067454e-06,
+      "loss": 0.0179,
+      "step": 390
+    },
+    {
+      "epoch": 8.0,
+      "grad_norm": 1.2731011142101376,
+      "learning_rate": 1.1697777844051105e-06,
+      "loss": 0.0197,
+      "step": 400
+    },
+    {
+      "epoch": 8.0,
+      "eval_loss": 2.1508045196533203,
+      "eval_runtime": 1.0303,
+      "eval_samples_per_second": 16.5,
+      "eval_steps_per_second": 2.912,
+      "step": 400
+    },
+    {
+      "epoch": 8.2,
+      "grad_norm": 0.9183553687922849,
+      "learning_rate": 9.549150281252633e-07,
+      "loss": 0.009,
+      "step": 410
+    },
+    {
+      "epoch": 8.4,
+      "grad_norm": 1.051244265434313,
+      "learning_rate": 7.597595192178702e-07,
+      "loss": 0.0074,
+      "step": 420
+    },
+    {
+      "epoch": 8.6,
+      "grad_norm": 0.8106413095614442,
+      "learning_rate": 5.852620357053651e-07,
+      "loss": 0.0115,
+      "step": 430
+    },
+    {
+      "epoch": 8.8,
+      "grad_norm": 1.4089090443500107,
+      "learning_rate": 4.322727117869951e-07,
+      "loss": 0.0142,
+      "step": 440
+    },
+    {
+      "epoch": 9.0,
+      "grad_norm": 0.2897517823285663,
+      "learning_rate": 3.015368960704584e-07,
+      "loss": 0.0129,
+      "step": 450
+    },
+    {
+      "epoch": 9.0,
+      "eval_loss": 2.2827517986297607,
+      "eval_runtime": 1.0366,
+      "eval_samples_per_second": 16.401,
+      "eval_steps_per_second": 2.894,
+      "step": 450
+    },
+    {
+      "epoch": 9.2,
+      "grad_norm": 0.581294302728187,
+      "learning_rate": 1.9369152030840553e-07,
+      "loss": 0.009,
+      "step": 460
+    },
+    {
+      "epoch": 9.4,
+      "grad_norm": 0.07224896290446714,
+      "learning_rate": 1.0926199633097156e-07,
+      "loss": 0.0071,
+      "step": 470
+    },
+    {
+      "epoch": 9.6,
+      "grad_norm": 0.9382264066330144,
+      "learning_rate": 4.865965629214819e-08,
+      "loss": 0.0058,
+      "step": 480
+    },
+    {
+      "epoch": 9.8,
+      "grad_norm": 0.7841805435055503,
+      "learning_rate": 1.2179748700879013e-08,
+      "loss": 0.0104,
+      "step": 490
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 0.5841804580391363,
+      "learning_rate": 0.0,
+      "loss": 0.0066,
+      "step": 500
+    },
+    {
+      "epoch": 10.0,
+      "eval_loss": 2.3078930377960205,
+      "eval_runtime": 1.0306,
+      "eval_samples_per_second": 16.495,
+      "eval_steps_per_second": 2.911,
+      "step": 500
+    },
+    {
+      "epoch": 10.0,
+      "step": 500,
+      "total_flos": 37534574837760.0,
+      "train_loss": 0.26039194798469545,
+      "train_runtime": 1475.1742,
+      "train_samples_per_second": 5.403,
+      "train_steps_per_second": 0.339
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 500,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 37534574837760.0,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}

training_eval_loss.png ADDED Viewed

training_loss.png ADDED Viewed