End of training

Browse files

Files changed (7) hide show

README.md +2 -1
all_results.json +12 -0
eval_results.json +7 -0
train_results.json +8 -0
trainer_state.json +192 -0
training_eval_loss.png +0 -0
training_loss.png +0 -0

README.md CHANGED Viewed

@@ -4,6 +4,7 @@ license: llama3.1
 base_model: meta-llama/Meta-Llama-3.1-8B
 tags:
 - llama-factory
 - generated_from_trainer
 model-index:
 - name: oh_v1-2_only_camel_math
@@ -15,7 +16,7 @@ should probably proofread and complete it, then remove this comment. -->
 # oh_v1-2_only_camel_math
-This model is a fine-tuned version of [meta-llama/Meta-Llama-3.1-8B](https://huggingface.co/meta-llama/Meta-Llama-3.1-8B) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.3989

 base_model: meta-llama/Meta-Llama-3.1-8B
 tags:
 - llama-factory
+- full
 - generated_from_trainer
 model-index:
 - name: oh_v1-2_only_camel_math
 # oh_v1-2_only_camel_math
+This model is a fine-tuned version of [meta-llama/Meta-Llama-3.1-8B](https://huggingface.co/meta-llama/Meta-Llama-3.1-8B) on the mlfoundations-dev/oh_v1-2_only_camel_math dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.3989

all_results.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+    "epoch": 2.9575757575757575,
+    "eval_loss": 0.3988819718360901,
+    "eval_runtime": 45.9635,
+    "eval_samples_per_second": 36.268,
+    "eval_steps_per_second": 0.587,
+    "total_flos": 306322436259840.0,
+    "train_loss": 0.3892440470189996,
+    "train_runtime": 6166.0025,
+    "train_samples_per_second": 15.409,
+    "train_steps_per_second": 0.03
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "epoch": 2.9575757575757575,
+    "eval_loss": 0.3988819718360901,
+    "eval_runtime": 45.9635,
+    "eval_samples_per_second": 36.268,
+    "eval_steps_per_second": 0.587
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 2.9575757575757575,
+    "total_flos": 306322436259840.0,
+    "train_loss": 0.3892440470189996,
+    "train_runtime": 6166.0025,
+    "train_samples_per_second": 15.409,
+    "train_steps_per_second": 0.03
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,192 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.9575757575757575,
+  "eval_steps": 500,
+  "global_step": 183,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.16161616161616163,
+      "grad_norm": 6.166819605908173,
+      "learning_rate": 5e-06,
+      "loss": 0.5239,
+      "step": 10
+    },
+    {
+      "epoch": 0.32323232323232326,
+      "grad_norm": 0.5900922088739049,
+      "learning_rate": 5e-06,
+      "loss": 0.4554,
+      "step": 20
+    },
+    {
+      "epoch": 0.48484848484848486,
+      "grad_norm": 0.6225237661644525,
+      "learning_rate": 5e-06,
+      "loss": 0.4328,
+      "step": 30
+    },
+    {
+      "epoch": 0.6464646464646465,
+      "grad_norm": 0.7157838630554848,
+      "learning_rate": 5e-06,
+      "loss": 0.4187,
+      "step": 40
+    },
+    {
+      "epoch": 0.8080808080808081,
+      "grad_norm": 0.5140317827695708,
+      "learning_rate": 5e-06,
+      "loss": 0.4144,
+      "step": 50
+    },
+    {
+      "epoch": 0.9696969696969697,
+      "grad_norm": 0.392407636237434,
+      "learning_rate": 5e-06,
+      "loss": 0.4052,
+      "step": 60
+    },
+    {
+      "epoch": 0.9858585858585859,
+      "eval_loss": 0.41120877861976624,
+      "eval_runtime": 44.0611,
+      "eval_samples_per_second": 37.834,
+      "eval_steps_per_second": 0.613,
+      "step": 61
+    },
+    {
+      "epoch": 1.1313131313131313,
+      "grad_norm": 0.4462073119339811,
+      "learning_rate": 5e-06,
+      "loss": 0.3938,
+      "step": 70
+    },
+    {
+      "epoch": 1.2929292929292928,
+      "grad_norm": 0.4719593740637459,
+      "learning_rate": 5e-06,
+      "loss": 0.3746,
+      "step": 80
+    },
+    {
+      "epoch": 1.4545454545454546,
+      "grad_norm": 0.3870857604814084,
+      "learning_rate": 5e-06,
+      "loss": 0.3748,
+      "step": 90
+    },
+    {
+      "epoch": 1.6161616161616161,
+      "grad_norm": 0.4809774445566907,
+      "learning_rate": 5e-06,
+      "loss": 0.3751,
+      "step": 100
+    },
+    {
+      "epoch": 1.7777777777777777,
+      "grad_norm": 0.3871389438459577,
+      "learning_rate": 5e-06,
+      "loss": 0.3737,
+      "step": 110
+    },
+    {
+      "epoch": 1.9393939393939394,
+      "grad_norm": 0.4244656775249173,
+      "learning_rate": 5e-06,
+      "loss": 0.3753,
+      "step": 120
+    },
+    {
+      "epoch": 1.9878787878787878,
+      "eval_loss": 0.3987608253955841,
+      "eval_runtime": 46.45,
+      "eval_samples_per_second": 35.888,
+      "eval_steps_per_second": 0.581,
+      "step": 123
+    },
+    {
+      "epoch": 2.101010101010101,
+      "grad_norm": 0.7823936552473925,
+      "learning_rate": 5e-06,
+      "loss": 0.36,
+      "step": 130
+    },
+    {
+      "epoch": 2.2626262626262625,
+      "grad_norm": 0.41729734619946546,
+      "learning_rate": 5e-06,
+      "loss": 0.3487,
+      "step": 140
+    },
+    {
+      "epoch": 2.4242424242424243,
+      "grad_norm": 0.6202086141424988,
+      "learning_rate": 5e-06,
+      "loss": 0.348,
+      "step": 150
+    },
+    {
+      "epoch": 2.5858585858585856,
+      "grad_norm": 0.7937253942964878,
+      "learning_rate": 5e-06,
+      "loss": 0.3508,
+      "step": 160
+    },
+    {
+      "epoch": 2.7474747474747474,
+      "grad_norm": 0.38375331802783846,
+      "learning_rate": 5e-06,
+      "loss": 0.3486,
+      "step": 170
+    },
+    {
+      "epoch": 2.909090909090909,
+      "grad_norm": 0.41424447785006596,
+      "learning_rate": 5e-06,
+      "loss": 0.3467,
+      "step": 180
+    },
+    {
+      "epoch": 2.9575757575757575,
+      "eval_loss": 0.3988819718360901,
+      "eval_runtime": 43.7285,
+      "eval_samples_per_second": 38.122,
+      "eval_steps_per_second": 0.617,
+      "step": 183
+    },
+    {
+      "epoch": 2.9575757575757575,
+      "step": 183,
+      "total_flos": 306322436259840.0,
+      "train_loss": 0.3892440470189996,
+      "train_runtime": 6166.0025,
+      "train_samples_per_second": 15.409,
+      "train_steps_per_second": 0.03
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 183,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 306322436259840.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

training_eval_loss.png ADDED Viewed

training_loss.png ADDED Viewed