End of training

Browse files

Files changed (7) hide show

README.md +2 -1
all_results.json +12 -0
eval_results.json +7 -0
train_results.json +8 -0
trainer_state.json +321 -0
training_eval_loss.png +0 -0
training_loss.png +0 -0

README.md CHANGED Viewed

@@ -4,6 +4,7 @@ library_name: peft
 license: llama3.1
 tags:
 - llama-factory
 - generated_from_trainer
 model-index:
 - name: Llama-3.1-8B-Instruct-SFT-600
@@ -15,7 +16,7 @@ should probably proofread and complete it, then remove this comment. -->
 # Llama-3.1-8B-Instruct-SFT-600
-This model is a fine-tuned version of [meta-llama/Llama-3.1-8B-Instruct](https://huggingface.co/meta-llama/Llama-3.1-8B-Instruct) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.0599

 license: llama3.1
 tags:
 - llama-factory
+- lora
 - generated_from_trainer
 model-index:
 - name: Llama-3.1-8B-Instruct-SFT-600
 # Llama-3.1-8B-Instruct-SFT-600
+This model is a fine-tuned version of [meta-llama/Llama-3.1-8B-Instruct](https://huggingface.co/meta-llama/Llama-3.1-8B-Instruct) on the bct_non_cot_sft_600 dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.0599

all_results.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+    "epoch": 9.777777777777779,
+    "eval_loss": 0.059873927384614944,
+    "eval_runtime": 1.4711,
+    "eval_samples_per_second": 40.785,
+    "eval_steps_per_second": 20.393,
+    "total_flos": 2.980254892032e+16,
+    "train_loss": 0.33037761359503776,
+    "train_runtime": 478.3332,
+    "train_samples_per_second": 11.289,
+    "train_steps_per_second": 0.69
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "epoch": 9.777777777777779,
+    "eval_loss": 0.059873927384614944,
+    "eval_runtime": 1.4711,
+    "eval_samples_per_second": 40.785,
+    "eval_steps_per_second": 20.393
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 9.777777777777779,
+    "total_flos": 2.980254892032e+16,
+    "train_loss": 0.33037761359503776,
+    "train_runtime": 478.3332,
+    "train_samples_per_second": 11.289,
+    "train_steps_per_second": 0.69
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,321 @@

+{
+  "best_metric": 0.059873927384614944,
+  "best_model_checkpoint": "saves/Llama-3.1-8B-Instruct/lora/sft-600/checkpoint-300",
+  "epoch": 9.777777777777779,
+  "eval_steps": 50,
+  "global_step": 330,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.2962962962962963,
+      "grad_norm": 6.189852714538574,
+      "learning_rate": 1.2121212121212122e-06,
+      "loss": 1.6653,
+      "step": 10
+    },
+    {
+      "epoch": 0.5925925925925926,
+      "grad_norm": 6.125744342803955,
+      "learning_rate": 2.7272727272727272e-06,
+      "loss": 1.6705,
+      "step": 20
+    },
+    {
+      "epoch": 0.8888888888888888,
+      "grad_norm": 6.1585564613342285,
+      "learning_rate": 4.242424242424243e-06,
+      "loss": 1.5233,
+      "step": 30
+    },
+    {
+      "epoch": 1.1851851851851851,
+      "grad_norm": 4.542370319366455,
+      "learning_rate": 4.996504288113624e-06,
+      "loss": 1.2046,
+      "step": 40
+    },
+    {
+      "epoch": 1.4814814814814814,
+      "grad_norm": 3.5093865394592285,
+      "learning_rate": 4.968597221690986e-06,
+      "loss": 0.996,
+      "step": 50
+    },
+    {
+      "epoch": 1.4814814814814814,
+      "eval_loss": 0.7777566909790039,
+      "eval_runtime": 1.4531,
+      "eval_samples_per_second": 41.29,
+      "eval_steps_per_second": 20.645,
+      "step": 50
+    },
+    {
+      "epoch": 1.7777777777777777,
+      "grad_norm": 2.996188163757324,
+      "learning_rate": 4.913095046794282e-06,
+      "loss": 0.7068,
+      "step": 60
+    },
+    {
+      "epoch": 2.074074074074074,
+      "grad_norm": 2.828265428543091,
+      "learning_rate": 4.830618192112065e-06,
+      "loss": 0.4801,
+      "step": 70
+    },
+    {
+      "epoch": 2.3703703703703702,
+      "grad_norm": 1.7485547065734863,
+      "learning_rate": 4.7220886216373095e-06,
+      "loss": 0.3392,
+      "step": 80
+    },
+    {
+      "epoch": 2.6666666666666665,
+      "grad_norm": 1.9241418838500977,
+      "learning_rate": 4.588719528532342e-06,
+      "loss": 0.2073,
+      "step": 90
+    },
+    {
+      "epoch": 2.962962962962963,
+      "grad_norm": 0.8280075788497925,
+      "learning_rate": 4.432001773500958e-06,
+      "loss": 0.1326,
+      "step": 100
+    },
+    {
+      "epoch": 2.962962962962963,
+      "eval_loss": 0.08797858655452728,
+      "eval_runtime": 1.454,
+      "eval_samples_per_second": 41.265,
+      "eval_steps_per_second": 20.633,
+      "step": 100
+    },
+    {
+      "epoch": 3.259259259259259,
+      "grad_norm": 0.9453921914100647,
+      "learning_rate": 4.253687219265803e-06,
+      "loss": 0.128,
+      "step": 110
+    },
+    {
+      "epoch": 3.5555555555555554,
+      "grad_norm": 1.1997650861740112,
+      "learning_rate": 4.055769147445842e-06,
+      "loss": 0.1056,
+      "step": 120
+    },
+    {
+      "epoch": 3.851851851851852,
+      "grad_norm": 1.073952078819275,
+      "learning_rate": 3.840459976743024e-06,
+      "loss": 0.094,
+      "step": 130
+    },
+    {
+      "epoch": 4.148148148148148,
+      "grad_norm": 0.5060385465621948,
+      "learning_rate": 3.6101665315144357e-06,
+      "loss": 0.0811,
+      "step": 140
+    },
+    {
+      "epoch": 4.444444444444445,
+      "grad_norm": 0.7095502614974976,
+      "learning_rate": 3.3674631371891564e-06,
+      "loss": 0.0931,
+      "step": 150
+    },
+    {
+      "epoch": 4.444444444444445,
+      "eval_loss": 0.06363307684659958,
+      "eval_runtime": 1.4518,
+      "eval_samples_per_second": 41.328,
+      "eval_steps_per_second": 20.664,
+      "step": 150
+    },
+    {
+      "epoch": 4.7407407407407405,
+      "grad_norm": 0.8627045154571533,
+      "learning_rate": 3.115062843281534e-06,
+      "loss": 0.0983,
+      "step": 160
+    },
+    {
+      "epoch": 5.037037037037037,
+      "grad_norm": 0.855678915977478,
+      "learning_rate": 2.8557870956832135e-06,
+      "loss": 0.0866,
+      "step": 170
+    },
+    {
+      "epoch": 5.333333333333333,
+      "grad_norm": 1.1568437814712524,
+      "learning_rate": 2.5925341972508954e-06,
+      "loss": 0.1014,
+      "step": 180
+    },
+    {
+      "epoch": 5.62962962962963,
+      "grad_norm": 0.4954282343387604,
+      "learning_rate": 2.3282469092517977e-06,
+      "loss": 0.0765,
+      "step": 190
+    },
+    {
+      "epoch": 5.925925925925926,
+      "grad_norm": 1.1054996252059937,
+      "learning_rate": 2.0658795558326745e-06,
+      "loss": 0.0915,
+      "step": 200
+    },
+    {
+      "epoch": 5.925925925925926,
+      "eval_loss": 0.06135586276650429,
+      "eval_runtime": 1.4559,
+      "eval_samples_per_second": 41.211,
+      "eval_steps_per_second": 20.605,
+      "step": 200
+    },
+    {
+      "epoch": 6.222222222222222,
+      "grad_norm": 0.9405269622802734,
+      "learning_rate": 1.8083649992336827e-06,
+      "loss": 0.0574,
+      "step": 210
+    },
+    {
+      "epoch": 6.518518518518518,
+      "grad_norm": 0.7912412881851196,
+      "learning_rate": 1.5585818549132532e-06,
+      "loss": 0.1016,
+      "step": 220
+    },
+    {
+      "epoch": 6.814814814814815,
+      "grad_norm": 0.7758650183677673,
+      "learning_rate": 1.3193223130682937e-06,
+      "loss": 0.068,
+      "step": 230
+    },
+    {
+      "epoch": 7.111111111111111,
+      "grad_norm": 0.689277708530426,
+      "learning_rate": 1.0932609262554748e-06,
+      "loss": 0.0962,
+      "step": 240
+    },
+    {
+      "epoch": 7.407407407407407,
+      "grad_norm": 1.6058521270751953,
+      "learning_rate": 8.829247120198564e-07,
+      "loss": 0.0888,
+      "step": 250
+    },
+    {
+      "epoch": 7.407407407407407,
+      "eval_loss": 0.060000352561473846,
+      "eval_runtime": 1.4511,
+      "eval_samples_per_second": 41.348,
+      "eval_steps_per_second": 20.674,
+      "step": 250
+    },
+    {
+      "epoch": 7.703703703703704,
+      "grad_norm": 0.9326350688934326,
+      "learning_rate": 6.906649047373246e-07,
+      "loss": 0.0556,
+      "step": 260
+    },
+    {
+      "epoch": 8.0,
+      "grad_norm": 0.48831021785736084,
+      "learning_rate": 5.186306724416714e-07,
+      "loss": 0.0962,
+      "step": 270
+    },
+    {
+      "epoch": 8.296296296296296,
+      "grad_norm": 0.5553194880485535,
+      "learning_rate": 3.6874509244163414e-07,
+      "loss": 0.0854,
+      "step": 280
+    },
+    {
+      "epoch": 8.592592592592592,
+      "grad_norm": 1.4299075603485107,
+      "learning_rate": 2.4268365428344737e-07,
+      "loss": 0.0715,
+      "step": 290
+    },
+    {
+      "epoch": 8.88888888888889,
+      "grad_norm": 0.6290613412857056,
+      "learning_rate": 1.4185553036259097e-07,
+      "loss": 0.0653,
+      "step": 300
+    },
+    {
+      "epoch": 8.88888888888889,
+      "eval_loss": 0.059873927384614944,
+      "eval_runtime": 1.4538,
+      "eval_samples_per_second": 41.271,
+      "eval_steps_per_second": 20.636,
+      "step": 300
+    },
+    {
+      "epoch": 9.185185185185185,
+      "grad_norm": 1.0468003749847412,
+      "learning_rate": 6.738782355044048e-08,
+      "loss": 0.0858,
+      "step": 310
+    },
+    {
+      "epoch": 9.481481481481481,
+      "grad_norm": 0.9963248372077942,
+      "learning_rate": 2.011296792301165e-08,
+      "loss": 0.072,
+      "step": 320
+    },
+    {
+      "epoch": 9.777777777777779,
+      "grad_norm": 0.6986972093582153,
+      "learning_rate": 5.59423432245354e-10,
+      "loss": 0.0773,
+      "step": 330
+    },
+    {
+      "epoch": 9.777777777777779,
+      "step": 330,
+      "total_flos": 2.980254892032e+16,
+      "train_loss": 0.33037761359503776,
+      "train_runtime": 478.3332,
+      "train_samples_per_second": 11.289,
+      "train_steps_per_second": 0.69
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 330,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 50,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2.980254892032e+16,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}

training_eval_loss.png ADDED Viewed

training_loss.png ADDED Viewed