End of training

Browse files

Files changed (7) hide show

README.md +2 -1
all_results.json +12 -0
eval_results.json +7 -0
train_results.json +8 -0
trainer_state.json +591 -0
training_eval_loss.png +0 -0
training_loss.png +0 -0

README.md CHANGED Viewed

@@ -4,6 +4,7 @@ license: apache-2.0
 base_model: mistralai/Mistral-7B-v0.3
 tags:
 - llama-factory
 - generated_from_trainer
 model-index:
 - name: mistral_7b_0-3_webinstruct_original_750k_uniform_v2
@@ -15,7 +16,7 @@ should probably proofread and complete it, then remove this comment. -->
 # mistral_7b_0-3_webinstruct_original_750k_uniform_v2
-This model is a fine-tuned version of [mistralai/Mistral-7B-v0.3](https://huggingface.co/mistralai/Mistral-7B-v0.3) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.3717

 base_model: mistralai/Mistral-7B-v0.3
 tags:
 - llama-factory
+- full
 - generated_from_trainer
 model-index:
 - name: mistral_7b_0-3_webinstruct_original_750k_uniform_v2
 # mistral_7b_0-3_webinstruct_original_750k_uniform_v2
+This model is a fine-tuned version of [mistralai/Mistral-7B-v0.3](https://huggingface.co/mistralai/Mistral-7B-v0.3) on the mlfoundations-dev/webinstruct_original_750k_uniform dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.3717

all_results.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+    "epoch": 3.0,
+    "eval_loss": 0.37169188261032104,
+    "eval_runtime": 23.4247,
+    "eval_samples_per_second": 286.577,
+    "eval_steps_per_second": 1.153,
+    "total_flos": 1256277934080000.0,
+    "train_loss": 0.3125666214625041,
+    "train_runtime": 4624.742,
+    "train_samples_per_second": 82.737,
+    "train_steps_per_second": 0.162
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "epoch": 3.0,
+    "eval_loss": 0.37169188261032104,
+    "eval_runtime": 23.4247,
+    "eval_samples_per_second": 286.577,
+    "eval_steps_per_second": 1.153
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 3.0,
+    "total_flos": 1256277934080000.0,
+    "train_loss": 0.3125666214625041,
+    "train_runtime": 4624.742,
+    "train_samples_per_second": 82.737,
+    "train_steps_per_second": 0.162
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,591 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 3.0,
+  "eval_steps": 500,
+  "global_step": 750,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.04,
+      "grad_norm": 7.405676394065885,
+      "learning_rate": 1.3157894736842106e-06,
+      "loss": 0.562,
+      "step": 10
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 1.4808664279431412,
+      "learning_rate": 2.631578947368421e-06,
+      "loss": 0.4745,
+      "step": 20
+    },
+    {
+      "epoch": 0.12,
+      "grad_norm": 2.1412237798795983,
+      "learning_rate": 3.947368421052632e-06,
+      "loss": 0.4401,
+      "step": 30
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 1.779775771320836,
+      "learning_rate": 4.9999123908526755e-06,
+      "loss": 0.4181,
+      "step": 40
+    },
+    {
+      "epoch": 0.2,
+      "grad_norm": 1.8098388619283128,
+      "learning_rate": 4.996846787004002e-06,
+      "loss": 0.4075,
+      "step": 50
+    },
+    {
+      "epoch": 0.24,
+      "grad_norm": 1.3956362585237865,
+      "learning_rate": 4.989407545945897e-06,
+      "loss": 0.3981,
+      "step": 60
+    },
+    {
+      "epoch": 0.28,
+      "grad_norm": 1.3390011122743337,
+      "learning_rate": 4.977609148657522e-06,
+      "loss": 0.3953,
+      "step": 70
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 1.6165361734987194,
+      "learning_rate": 4.961474561506542e-06,
+      "loss": 0.3906,
+      "step": 80
+    },
+    {
+      "epoch": 0.36,
+      "grad_norm": 1.0867017331160276,
+      "learning_rate": 4.941035191543551e-06,
+      "loss": 0.3896,
+      "step": 90
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 1.0086678350055638,
+      "learning_rate": 4.9163308253661615e-06,
+      "loss": 0.3831,
+      "step": 100
+    },
+    {
+      "epoch": 0.44,
+      "grad_norm": 1.072846551894899,
+      "learning_rate": 4.88740955167173e-06,
+      "loss": 0.3765,
+      "step": 110
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 1.221763749203504,
+      "learning_rate": 4.854327667649502e-06,
+      "loss": 0.3775,
+      "step": 120
+    },
+    {
+      "epoch": 0.52,
+      "grad_norm": 1.0092621110027236,
+      "learning_rate": 4.8171495693943766e-06,
+      "loss": 0.375,
+      "step": 130
+    },
+    {
+      "epoch": 0.56,
+      "grad_norm": 1.208561990347492,
+      "learning_rate": 4.775947626555608e-06,
+      "loss": 0.3739,
+      "step": 140
+    },
+    {
+      "epoch": 0.6,
+      "grad_norm": 1.176554376995382,
+      "learning_rate": 4.730802041464456e-06,
+      "loss": 0.3793,
+      "step": 150
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 1.1369349974571963,
+      "learning_rate": 4.681800693014995e-06,
+      "loss": 0.3725,
+      "step": 160
+    },
+    {
+      "epoch": 0.68,
+      "grad_norm": 0.9231187737297902,
+      "learning_rate": 4.62903896560198e-06,
+      "loss": 0.3737,
+      "step": 170
+    },
+    {
+      "epoch": 0.72,
+      "grad_norm": 1.0454964740112676,
+      "learning_rate": 4.572619563448765e-06,
+      "loss": 0.3691,
+      "step": 180
+    },
+    {
+      "epoch": 0.76,
+      "grad_norm": 0.9928273265656697,
+      "learning_rate": 4.5126523106866685e-06,
+      "loss": 0.3683,
+      "step": 190
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 0.9575987290306286,
+      "learning_rate": 4.449253937574979e-06,
+      "loss": 0.3649,
+      "step": 200
+    },
+    {
+      "epoch": 0.84,
+      "grad_norm": 0.787890419318379,
+      "learning_rate": 4.382547853277711e-06,
+      "loss": 0.3626,
+      "step": 210
+    },
+    {
+      "epoch": 0.88,
+      "grad_norm": 0.8612414019861957,
+      "learning_rate": 4.312663905639441e-06,
+      "loss": 0.3694,
+      "step": 220
+    },
+    {
+      "epoch": 0.92,
+      "grad_norm": 0.8262841994453005,
+      "learning_rate": 4.239738128427801e-06,
+      "loss": 0.3645,
+      "step": 230
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 0.8368718170451225,
+      "learning_rate": 4.16391247653468e-06,
+      "loss": 0.3594,
+      "step": 240
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 0.9215074005834266,
+      "learning_rate": 4.085334549651552e-06,
+      "loss": 0.3646,
+      "step": 250
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 0.35972926020622253,
+      "eval_runtime": 23.2519,
+      "eval_samples_per_second": 288.707,
+      "eval_steps_per_second": 1.161,
+      "step": 250
+    },
+    {
+      "epoch": 1.04,
+      "grad_norm": 1.165050524786145,
+      "learning_rate": 4.004157304956824e-06,
+      "loss": 0.3087,
+      "step": 260
+    },
+    {
+      "epoch": 1.08,
+      "grad_norm": 1.008240758670673,
+      "learning_rate": 3.920538759374485e-06,
+      "loss": 0.3054,
+      "step": 270
+    },
+    {
+      "epoch": 1.12,
+      "grad_norm": 1.0221095175436803,
+      "learning_rate": 3.834641681983617e-06,
+      "loss": 0.3052,
+      "step": 280
+    },
+    {
+      "epoch": 1.16,
+      "grad_norm": 1.0240271073473286,
+      "learning_rate": 3.7466332771775184e-06,
+      "loss": 0.3073,
+      "step": 290
+    },
+    {
+      "epoch": 1.2,
+      "grad_norm": 0.9412340740751259,
+      "learning_rate": 3.656684859189198e-06,
+      "loss": 0.304,
+      "step": 300
+    },
+    {
+      "epoch": 1.24,
+      "grad_norm": 1.0757903728934715,
+      "learning_rate": 3.564971518616786e-06,
+      "loss": 0.3074,
+      "step": 310
+    },
+    {
+      "epoch": 1.28,
+      "grad_norm": 0.8788588031740697,
+      "learning_rate": 3.4716717815980004e-06,
+      "loss": 0.3025,
+      "step": 320
+    },
+    {
+      "epoch": 1.32,
+      "grad_norm": 0.8596918070645869,
+      "learning_rate": 3.376967262297108e-06,
+      "loss": 0.3033,
+      "step": 330
+    },
+    {
+      "epoch": 1.3599999999999999,
+      "grad_norm": 1.0313995367592261,
+      "learning_rate": 3.2810423093808307e-06,
+      "loss": 0.3079,
+      "step": 340
+    },
+    {
+      "epoch": 1.4,
+      "grad_norm": 0.8667828516508759,
+      "learning_rate": 3.184083647171368e-06,
+      "loss": 0.3055,
+      "step": 350
+    },
+    {
+      "epoch": 1.44,
+      "grad_norm": 0.8867289748518105,
+      "learning_rate": 3.08628001217504e-06,
+      "loss": 0.3089,
+      "step": 360
+    },
+    {
+      "epoch": 1.48,
+      "grad_norm": 0.9208383212214953,
+      "learning_rate": 2.9878217856940844e-06,
+      "loss": 0.3074,
+      "step": 370
+    },
+    {
+      "epoch": 1.52,
+      "grad_norm": 0.9978552238621926,
+      "learning_rate": 2.8889006232367455e-06,
+      "loss": 0.3034,
+      "step": 380
+    },
+    {
+      "epoch": 1.56,
+      "grad_norm": 0.8760456045025133,
+      "learning_rate": 2.7897090814470402e-06,
+      "loss": 0.3029,
+      "step": 390
+    },
+    {
+      "epoch": 1.6,
+      "grad_norm": 0.8636869853498937,
+      "learning_rate": 2.6904402432803968e-06,
+      "loss": 0.3035,
+      "step": 400
+    },
+    {
+      "epoch": 1.6400000000000001,
+      "grad_norm": 0.8906545485164509,
+      "learning_rate": 2.5912873421548e-06,
+      "loss": 0.3024,
+      "step": 410
+    },
+    {
+      "epoch": 1.6800000000000002,
+      "grad_norm": 0.8378263474774879,
+      "learning_rate": 2.4924433858090513e-06,
+      "loss": 0.3028,
+      "step": 420
+    },
+    {
+      "epoch": 1.72,
+      "grad_norm": 0.8807828593678831,
+      "learning_rate": 2.3941007806003163e-06,
+      "loss": 0.3029,
+      "step": 430
+    },
+    {
+      "epoch": 1.76,
+      "grad_norm": 0.866045737856776,
+      "learning_rate": 2.2964509569723175e-06,
+      "loss": 0.3039,
+      "step": 440
+    },
+    {
+      "epoch": 1.8,
+      "grad_norm": 0.8045213693263892,
+      "learning_rate": 2.1996839968232002e-06,
+      "loss": 0.2988,
+      "step": 450
+    },
+    {
+      "epoch": 1.8399999999999999,
+      "grad_norm": 0.8985482585858041,
+      "learning_rate": 2.1039882634984314e-06,
+      "loss": 0.3032,
+      "step": 460
+    },
+    {
+      "epoch": 1.88,
+      "grad_norm": 0.8026724494445288,
+      "learning_rate": 2.0095500351289776e-06,
+      "loss": 0.3033,
+      "step": 470
+    },
+    {
+      "epoch": 1.92,
+      "grad_norm": 0.8098584424025912,
+      "learning_rate": 1.9165531420284942e-06,
+      "loss": 0.299,
+      "step": 480
+    },
+    {
+      "epoch": 1.96,
+      "grad_norm": 0.8418880488102612,
+      "learning_rate": 1.825178608855351e-06,
+      "loss": 0.3018,
+      "step": 490
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 1.2621791449191886,
+      "learning_rate": 1.7356043022360534e-06,
+      "loss": 0.2994,
+      "step": 500
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 0.3540443778038025,
+      "eval_runtime": 23.427,
+      "eval_samples_per_second": 286.549,
+      "eval_steps_per_second": 1.153,
+      "step": 500
+    },
+    {
+      "epoch": 2.04,
+      "grad_norm": 1.1125408865085207,
+      "learning_rate": 1.6480045845359866e-06,
+      "loss": 0.2452,
+      "step": 510
+    },
+    {
+      "epoch": 2.08,
+      "grad_norm": 0.9550266586265046,
+      "learning_rate": 1.5625499744514327e-06,
+      "loss": 0.2392,
+      "step": 520
+    },
+    {
+      "epoch": 2.12,
+      "grad_norm": 0.9636896936192534,
+      "learning_rate": 1.4794068150835547e-06,
+      "loss": 0.2441,
+      "step": 530
+    },
+    {
+      "epoch": 2.16,
+      "grad_norm": 0.990740891225938,
+      "learning_rate": 1.3987369501404421e-06,
+      "loss": 0.2426,
+      "step": 540
+    },
+    {
+      "epoch": 2.2,
+      "grad_norm": 0.9541502720129523,
+      "learning_rate": 1.3206974088975384e-06,
+      "loss": 0.2417,
+      "step": 550
+    },
+    {
+      "epoch": 2.24,
+      "grad_norm": 0.9287304371229521,
+      "learning_rate": 1.245440100529675e-06,
+      "loss": 0.2441,
+      "step": 560
+    },
+    {
+      "epoch": 2.2800000000000002,
+      "grad_norm": 0.962119628291641,
+      "learning_rate": 1.1731115184097258e-06,
+      "loss": 0.2419,
+      "step": 570
+    },
+    {
+      "epoch": 2.32,
+      "grad_norm": 0.9741055322033145,
+      "learning_rate": 1.1038524549494814e-06,
+      "loss": 0.2426,
+      "step": 580
+    },
+    {
+      "epoch": 2.36,
+      "grad_norm": 0.979048696685581,
+      "learning_rate": 1.0377977275378227e-06,
+      "loss": 0.237,
+      "step": 590
+    },
+    {
+      "epoch": 2.4,
+      "grad_norm": 0.9374109657605778,
+      "learning_rate": 9.75075916109678e-07,
+      "loss": 0.239,
+      "step": 600
+    },
+    {
+      "epoch": 2.44,
+      "grad_norm": 0.9213868496179243,
+      "learning_rate": 9.158091128565985e-07,
+      "loss": 0.2414,
+      "step": 610
+    },
+    {
+      "epoch": 2.48,
+      "grad_norm": 0.9362610185478109,
+      "learning_rate": 8.601126845661592e-07,
+      "loss": 0.2435,
+      "step": 620
+    },
+    {
+      "epoch": 2.52,
+      "grad_norm": 0.9594230633417852,
+      "learning_rate": 8.080950480528108e-07,
+      "loss": 0.2411,
+      "step": 630
+    },
+    {
+      "epoch": 2.56,
+      "grad_norm": 0.9587708118572509,
+      "learning_rate": 7.598574591173123e-07,
+      "loss": 0.2389,
+      "step": 640
+    },
+    {
+      "epoch": 2.6,
+      "grad_norm": 0.9632573104844587,
+      "learning_rate": 7.154938154455593e-07,
+      "loss": 0.2407,
+      "step": 650
+    },
+    {
+      "epoch": 2.64,
+      "grad_norm": 0.9937798751831849,
+      "learning_rate": 6.750904738304712e-07,
+      "loss": 0.2444,
+      "step": 660
+    },
+    {
+      "epoch": 2.68,
+      "grad_norm": 0.9538408777366829,
+      "learning_rate": 6.387260820727336e-07,
+      "loss": 0.2442,
+      "step": 670
+    },
+    {
+      "epoch": 2.7199999999999998,
+      "grad_norm": 0.9865719301819308,
+      "learning_rate": 6.064714258876026e-07,
+      "loss": 0.244,
+      "step": 680
+    },
+    {
+      "epoch": 2.76,
+      "grad_norm": 0.9447856849767184,
+      "learning_rate": 5.783892911157884e-07,
+      "loss": 0.2379,
+      "step": 690
+    },
+    {
+      "epoch": 2.8,
+      "grad_norm": 0.9255210583910624,
+      "learning_rate": 5.545343415066254e-07,
+      "loss": 0.2388,
+      "step": 700
+    },
+    {
+      "epoch": 2.84,
+      "grad_norm": 0.92833568809518,
+      "learning_rate": 5.349530123114375e-07,
+      "loss": 0.244,
+      "step": 710
+    },
+    {
+      "epoch": 2.88,
+      "grad_norm": 0.986492057017101,
+      "learning_rate": 5.196834198942211e-07,
+      "loss": 0.2396,
+      "step": 720
+    },
+    {
+      "epoch": 2.92,
+      "grad_norm": 1.0041806350073348,
+      "learning_rate": 5.087552875355995e-07,
+      "loss": 0.2399,
+      "step": 730
+    },
+    {
+      "epoch": 2.96,
+      "grad_norm": 0.9294612829305497,
+      "learning_rate": 5.021898875744752e-07,
+      "loss": 0.2402,
+      "step": 740
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 1.1188607975055915,
+      "learning_rate": 5e-07,
+      "loss": 0.2354,
+      "step": 750
+    },
+    {
+      "epoch": 3.0,
+      "eval_loss": 0.37169188261032104,
+      "eval_runtime": 23.4243,
+      "eval_samples_per_second": 286.583,
+      "eval_steps_per_second": 1.153,
+      "step": 750
+    },
+    {
+      "epoch": 3.0,
+      "step": 750,
+      "total_flos": 1256277934080000.0,
+      "train_loss": 0.3125666214625041,
+      "train_runtime": 4624.742,
+      "train_samples_per_second": 82.737,
+      "train_steps_per_second": 0.162
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 750,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1256277934080000.0,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

training_eval_loss.png ADDED Viewed

training_loss.png ADDED Viewed