End of training

Browse files

Files changed (7) hide show

README.md +2 -1
all_results.json +12 -0
eval_results.json +7 -0
train_results.json +8 -0
trainer_state.json +393 -0
training_eval_loss.png +0 -0
training_loss.png +0 -0

README.md CHANGED Viewed

@@ -4,6 +4,7 @@ license: apache-2.0
 base_model: mistralai/Mistral-7B-v0.1
 tags:
 - llama-factory
 - generated_from_trainer
 model-index:
 - name: hp_ablations_mistral_epoch1
@@ -15,7 +16,7 @@ should probably proofread and complete it, then remove this comment. -->
 # hp_ablations_mistral_epoch1
-This model is a fine-tuned version of [mistralai/Mistral-7B-v0.1](https://huggingface.co/mistralai/Mistral-7B-v0.1) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.0690

 base_model: mistralai/Mistral-7B-v0.1
 tags:
 - llama-factory
+- full
 - generated_from_trainer
 model-index:
 - name: hp_ablations_mistral_epoch1
 # hp_ablations_mistral_epoch1
+This model is a fine-tuned version of [mistralai/Mistral-7B-v0.1](https://huggingface.co/mistralai/Mistral-7B-v0.1) on the mlfoundations-dev/oh-dcft-v3.1-gpt-4o-mini dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.0690

all_results.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+    "epoch": 0.9984810126582279,
+    "eval_loss": 0.0689920112490654,
+    "eval_runtime": 502.8838,
+    "eval_samples_per_second": 26.455,
+    "eval_steps_per_second": 0.414,
+    "total_flos": 825583982346240.0,
+    "train_loss": 0.5740175109364198,
+    "train_runtime": 27939.3141,
+    "train_samples_per_second": 9.047,
+    "train_steps_per_second": 0.018
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "epoch": 0.9984810126582279,
+    "eval_loss": 0.0689920112490654,
+    "eval_runtime": 502.8838,
+    "eval_samples_per_second": 26.455,
+    "eval_steps_per_second": 0.414
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 0.9984810126582279,
+    "total_flos": 825583982346240.0,
+    "train_loss": 0.5740175109364198,
+    "train_runtime": 27939.3141,
+    "train_samples_per_second": 9.047,
+    "train_steps_per_second": 0.018
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,393 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.9984810126582279,
+  "eval_steps": 500,
+  "global_step": 493,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.020253164556962026,
+      "grad_norm": 2.882945391057014,
+      "learning_rate": 5e-06,
+      "loss": 0.7569,
+      "step": 10
+    },
+    {
+      "epoch": 0.04050632911392405,
+      "grad_norm": 2.215930707747834,
+      "learning_rate": 5e-06,
+      "loss": 0.6506,
+      "step": 20
+    },
+    {
+      "epoch": 0.060759493670886074,
+      "grad_norm": 1.894429021053666,
+      "learning_rate": 5e-06,
+      "loss": 0.6288,
+      "step": 30
+    },
+    {
+      "epoch": 0.0810126582278481,
+      "grad_norm": 1.4315710417507135,
+      "learning_rate": 5e-06,
+      "loss": 0.6136,
+      "step": 40
+    },
+    {
+      "epoch": 0.10126582278481013,
+      "grad_norm": 1.7157625882254233,
+      "learning_rate": 5e-06,
+      "loss": 0.6033,
+      "step": 50
+    },
+    {
+      "epoch": 0.12151898734177215,
+      "grad_norm": 1.4217599360047826,
+      "learning_rate": 5e-06,
+      "loss": 0.5971,
+      "step": 60
+    },
+    {
+      "epoch": 0.14177215189873418,
+      "grad_norm": 1.4919608736087413,
+      "learning_rate": 5e-06,
+      "loss": 0.5928,
+      "step": 70
+    },
+    {
+      "epoch": 0.1620253164556962,
+      "grad_norm": 1.3847069011356332,
+      "learning_rate": 5e-06,
+      "loss": 0.5879,
+      "step": 80
+    },
+    {
+      "epoch": 0.18227848101265823,
+      "grad_norm": 1.8689825245661746,
+      "learning_rate": 5e-06,
+      "loss": 0.5865,
+      "step": 90
+    },
+    {
+      "epoch": 0.20253164556962025,
+      "grad_norm": 1.6007319042790646,
+      "learning_rate": 5e-06,
+      "loss": 0.5891,
+      "step": 100
+    },
+    {
+      "epoch": 0.22278481012658227,
+      "grad_norm": 1.6661187893059985,
+      "learning_rate": 5e-06,
+      "loss": 0.5817,
+      "step": 110
+    },
+    {
+      "epoch": 0.2430379746835443,
+      "grad_norm": 1.5088824762043296,
+      "learning_rate": 5e-06,
+      "loss": 0.579,
+      "step": 120
+    },
+    {
+      "epoch": 0.26329113924050634,
+      "grad_norm": 2.4968134853778117,
+      "learning_rate": 5e-06,
+      "loss": 0.578,
+      "step": 130
+    },
+    {
+      "epoch": 0.28354430379746837,
+      "grad_norm": 1.7148820016172805,
+      "learning_rate": 5e-06,
+      "loss": 0.5678,
+      "step": 140
+    },
+    {
+      "epoch": 0.3037974683544304,
+      "grad_norm": 3.7110251410070583,
+      "learning_rate": 5e-06,
+      "loss": 0.5781,
+      "step": 150
+    },
+    {
+      "epoch": 0.3240506329113924,
+      "grad_norm": 2.7150715560626195,
+      "learning_rate": 5e-06,
+      "loss": 0.5763,
+      "step": 160
+    },
+    {
+      "epoch": 0.34430379746835443,
+      "grad_norm": 1.2312010583367314,
+      "learning_rate": 5e-06,
+      "loss": 0.5751,
+      "step": 170
+    },
+    {
+      "epoch": 0.36455696202531646,
+      "grad_norm": 1.9963116161483436,
+      "learning_rate": 5e-06,
+      "loss": 0.5706,
+      "step": 180
+    },
+    {
+      "epoch": 0.3848101265822785,
+      "grad_norm": 1.3042779714841761,
+      "learning_rate": 5e-06,
+      "loss": 0.5716,
+      "step": 190
+    },
+    {
+      "epoch": 0.4050632911392405,
+      "grad_norm": 1.4634415468631845,
+      "learning_rate": 5e-06,
+      "loss": 0.5675,
+      "step": 200
+    },
+    {
+      "epoch": 0.4253164556962025,
+      "grad_norm": 1.4367866258568494,
+      "learning_rate": 5e-06,
+      "loss": 0.5632,
+      "step": 210
+    },
+    {
+      "epoch": 0.44556962025316454,
+      "grad_norm": 1.9787155615814422,
+      "learning_rate": 5e-06,
+      "loss": 0.5686,
+      "step": 220
+    },
+    {
+      "epoch": 0.46582278481012657,
+      "grad_norm": 1.554761610864969,
+      "learning_rate": 5e-06,
+      "loss": 0.5679,
+      "step": 230
+    },
+    {
+      "epoch": 0.4860759493670886,
+      "grad_norm": 1.4050684281133805,
+      "learning_rate": 5e-06,
+      "loss": 0.5634,
+      "step": 240
+    },
+    {
+      "epoch": 0.5063291139240507,
+      "grad_norm": 2.389886434286958,
+      "learning_rate": 5e-06,
+      "loss": 0.5679,
+      "step": 250
+    },
+    {
+      "epoch": 0.5265822784810127,
+      "grad_norm": 1.9930786400945644,
+      "learning_rate": 5e-06,
+      "loss": 0.5549,
+      "step": 260
+    },
+    {
+      "epoch": 0.5468354430379747,
+      "grad_norm": 2.241950368987,
+      "learning_rate": 5e-06,
+      "loss": 0.5627,
+      "step": 270
+    },
+    {
+      "epoch": 0.5670886075949367,
+      "grad_norm": 1.2762960468034965,
+      "learning_rate": 5e-06,
+      "loss": 0.557,
+      "step": 280
+    },
+    {
+      "epoch": 0.5873417721518988,
+      "grad_norm": 1.9147658341187483,
+      "learning_rate": 5e-06,
+      "loss": 0.558,
+      "step": 290
+    },
+    {
+      "epoch": 0.6075949367088608,
+      "grad_norm": 1.8505958524714776,
+      "learning_rate": 5e-06,
+      "loss": 0.5571,
+      "step": 300
+    },
+    {
+      "epoch": 0.6278481012658228,
+      "grad_norm": 1.9130752385076857,
+      "learning_rate": 5e-06,
+      "loss": 0.5619,
+      "step": 310
+    },
+    {
+      "epoch": 0.6481012658227848,
+      "grad_norm": 1.3375681147091247,
+      "learning_rate": 5e-06,
+      "loss": 0.5589,
+      "step": 320
+    },
+    {
+      "epoch": 0.6683544303797468,
+      "grad_norm": 1.7350301588890396,
+      "learning_rate": 5e-06,
+      "loss": 0.559,
+      "step": 330
+    },
+    {
+      "epoch": 0.6886075949367089,
+      "grad_norm": 1.3739045710832587,
+      "learning_rate": 5e-06,
+      "loss": 0.5577,
+      "step": 340
+    },
+    {
+      "epoch": 0.7088607594936709,
+      "grad_norm": 1.2476279822426537,
+      "learning_rate": 5e-06,
+      "loss": 0.5592,
+      "step": 350
+    },
+    {
+      "epoch": 0.7291139240506329,
+      "grad_norm": 1.5513351657124166,
+      "learning_rate": 5e-06,
+      "loss": 0.5624,
+      "step": 360
+    },
+    {
+      "epoch": 0.7493670886075949,
+      "grad_norm": 1.4242614435377774,
+      "learning_rate": 5e-06,
+      "loss": 0.5553,
+      "step": 370
+    },
+    {
+      "epoch": 0.769620253164557,
+      "grad_norm": 1.154791151204361,
+      "learning_rate": 5e-06,
+      "loss": 0.5523,
+      "step": 380
+    },
+    {
+      "epoch": 0.789873417721519,
+      "grad_norm": 1.2406846291234284,
+      "learning_rate": 5e-06,
+      "loss": 0.5564,
+      "step": 390
+    },
+    {
+      "epoch": 0.810126582278481,
+      "grad_norm": 1.3155697193277984,
+      "learning_rate": 5e-06,
+      "loss": 0.5572,
+      "step": 400
+    },
+    {
+      "epoch": 0.830379746835443,
+      "grad_norm": 1.290691328404162,
+      "learning_rate": 5e-06,
+      "loss": 0.5516,
+      "step": 410
+    },
+    {
+      "epoch": 0.850632911392405,
+      "grad_norm": 1.2175694217624276,
+      "learning_rate": 5e-06,
+      "loss": 0.5592,
+      "step": 420
+    },
+    {
+      "epoch": 0.8708860759493671,
+      "grad_norm": 1.201899124438492,
+      "learning_rate": 5e-06,
+      "loss": 0.5526,
+      "step": 430
+    },
+    {
+      "epoch": 0.8911392405063291,
+      "grad_norm": 1.182820314526854,
+      "learning_rate": 5e-06,
+      "loss": 0.5577,
+      "step": 440
+    },
+    {
+      "epoch": 0.9113924050632911,
+      "grad_norm": 1.4381251643237962,
+      "learning_rate": 5e-06,
+      "loss": 0.5494,
+      "step": 450
+    },
+    {
+      "epoch": 0.9316455696202531,
+      "grad_norm": 1.0475436039121593,
+      "learning_rate": 5e-06,
+      "loss": 0.5539,
+      "step": 460
+    },
+    {
+      "epoch": 0.9518987341772152,
+      "grad_norm": 1.3740300354445663,
+      "learning_rate": 5e-06,
+      "loss": 0.5549,
+      "step": 470
+    },
+    {
+      "epoch": 0.9721518987341772,
+      "grad_norm": 1.0792354520292615,
+      "learning_rate": 5e-06,
+      "loss": 0.5522,
+      "step": 480
+    },
+    {
+      "epoch": 0.9924050632911392,
+      "grad_norm": 1.1522113303559152,
+      "learning_rate": 5e-06,
+      "loss": 0.549,
+      "step": 490
+    },
+    {
+      "epoch": 0.9984810126582279,
+      "eval_loss": 0.0689920112490654,
+      "eval_runtime": 505.0744,
+      "eval_samples_per_second": 26.341,
+      "eval_steps_per_second": 0.412,
+      "step": 493
+    },
+    {
+      "epoch": 0.9984810126582279,
+      "step": 493,
+      "total_flos": 825583982346240.0,
+      "train_loss": 0.5740175109364198,
+      "train_runtime": 27939.3141,
+      "train_samples_per_second": 9.047,
+      "train_steps_per_second": 0.018
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 493,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 825583982346240.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

training_eval_loss.png ADDED Viewed

training_loss.png ADDED Viewed