End of training

Browse files

Files changed (7) hide show

README.md +2 -1
all_results.json +12 -0
eval_results.json +7 -0
train_results.json +8 -0
trainer_state.json +570 -0
training_eval_loss.png +0 -0
training_loss.png +0 -0

README.md CHANGED Viewed

@@ -4,6 +4,7 @@ license: llama3.1
 base_model: meta-llama/Meta-Llama-3.1-8B
 tags:
 - llama-factory
 - generated_from_trainer
 model-index:
 - name: oh_v3.1_leave_out_non_v1.2_subsets
@@ -15,7 +16,7 @@ should probably proofread and complete it, then remove this comment. -->
 # oh_v3.1_leave_out_non_v1.2_subsets
-This model is a fine-tuned version of [meta-llama/Meta-Llama-3.1-8B](https://huggingface.co/meta-llama/Meta-Llama-3.1-8B) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.6441

 base_model: meta-llama/Meta-Llama-3.1-8B
 tags:
 - llama-factory
+- full
 - generated_from_trainer
 model-index:
 - name: oh_v3.1_leave_out_non_v1.2_subsets
 # oh_v3.1_leave_out_non_v1.2_subsets
+This model is a fine-tuned version of [meta-llama/Meta-Llama-3.1-8B](https://huggingface.co/meta-llama/Meta-Llama-3.1-8B) on the mlfoundations-dev/oh_v3.1_leave_out_non_v1.2_subsets dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.6441

all_results.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+    "epoch": 3.0,
+    "eval_loss": 0.6440598964691162,
+    "eval_runtime": 42.6485,
+    "eval_samples_per_second": 152.01,
+    "eval_steps_per_second": 0.61,
+    "total_flos": 1210214409830400.0,
+    "train_loss": 0.6203547849694723,
+    "train_runtime": 6426.9902,
+    "train_samples_per_second": 57.488,
+    "train_steps_per_second": 0.112
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "epoch": 3.0,
+    "eval_loss": 0.6440598964691162,
+    "eval_runtime": 42.6485,
+    "eval_samples_per_second": 152.01,
+    "eval_steps_per_second": 0.61
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 3.0,
+    "total_flos": 1210214409830400.0,
+    "train_loss": 0.6203547849694723,
+    "train_runtime": 6426.9902,
+    "train_samples_per_second": 57.488,
+    "train_steps_per_second": 0.112
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,570 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 3.0,
+  "eval_steps": 500,
+  "global_step": 723,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.04149377593360996,
+      "grad_norm": 4.692910183081259,
+      "learning_rate": 5e-06,
+      "loss": 0.8926,
+      "step": 10
+    },
+    {
+      "epoch": 0.08298755186721991,
+      "grad_norm": 3.9587808997272367,
+      "learning_rate": 5e-06,
+      "loss": 0.7811,
+      "step": 20
+    },
+    {
+      "epoch": 0.12448132780082988,
+      "grad_norm": 1.7341654533658646,
+      "learning_rate": 5e-06,
+      "loss": 0.7551,
+      "step": 30
+    },
+    {
+      "epoch": 0.16597510373443983,
+      "grad_norm": 1.2479554148072647,
+      "learning_rate": 5e-06,
+      "loss": 0.7351,
+      "step": 40
+    },
+    {
+      "epoch": 0.2074688796680498,
+      "grad_norm": 1.8273832972074038,
+      "learning_rate": 5e-06,
+      "loss": 0.7144,
+      "step": 50
+    },
+    {
+      "epoch": 0.24896265560165975,
+      "grad_norm": 0.8138076831404122,
+      "learning_rate": 5e-06,
+      "loss": 0.7064,
+      "step": 60
+    },
+    {
+      "epoch": 0.29045643153526973,
+      "grad_norm": 1.1407262585354465,
+      "learning_rate": 5e-06,
+      "loss": 0.7033,
+      "step": 70
+    },
+    {
+      "epoch": 0.33195020746887965,
+      "grad_norm": 0.8238677009194335,
+      "learning_rate": 5e-06,
+      "loss": 0.693,
+      "step": 80
+    },
+    {
+      "epoch": 0.37344398340248963,
+      "grad_norm": 0.5627738490815636,
+      "learning_rate": 5e-06,
+      "loss": 0.6908,
+      "step": 90
+    },
+    {
+      "epoch": 0.4149377593360996,
+      "grad_norm": 0.49719078697733404,
+      "learning_rate": 5e-06,
+      "loss": 0.6837,
+      "step": 100
+    },
+    {
+      "epoch": 0.45643153526970953,
+      "grad_norm": 0.6797244336684127,
+      "learning_rate": 5e-06,
+      "loss": 0.6781,
+      "step": 110
+    },
+    {
+      "epoch": 0.4979253112033195,
+      "grad_norm": 0.9462681975906982,
+      "learning_rate": 5e-06,
+      "loss": 0.6717,
+      "step": 120
+    },
+    {
+      "epoch": 0.5394190871369294,
+      "grad_norm": 0.8126221328532167,
+      "learning_rate": 5e-06,
+      "loss": 0.6751,
+      "step": 130
+    },
+    {
+      "epoch": 0.5809128630705395,
+      "grad_norm": 0.6311672551359881,
+      "learning_rate": 5e-06,
+      "loss": 0.6714,
+      "step": 140
+    },
+    {
+      "epoch": 0.6224066390041494,
+      "grad_norm": 0.5629380137819353,
+      "learning_rate": 5e-06,
+      "loss": 0.6705,
+      "step": 150
+    },
+    {
+      "epoch": 0.6639004149377593,
+      "grad_norm": 0.5156251933558172,
+      "learning_rate": 5e-06,
+      "loss": 0.6616,
+      "step": 160
+    },
+    {
+      "epoch": 0.7053941908713693,
+      "grad_norm": 0.5430229315776672,
+      "learning_rate": 5e-06,
+      "loss": 0.6732,
+      "step": 170
+    },
+    {
+      "epoch": 0.7468879668049793,
+      "grad_norm": 0.562947435208453,
+      "learning_rate": 5e-06,
+      "loss": 0.6618,
+      "step": 180
+    },
+    {
+      "epoch": 0.7883817427385892,
+      "grad_norm": 0.8365952426281964,
+      "learning_rate": 5e-06,
+      "loss": 0.6513,
+      "step": 190
+    },
+    {
+      "epoch": 0.8298755186721992,
+      "grad_norm": 0.723509115051752,
+      "learning_rate": 5e-06,
+      "loss": 0.6639,
+      "step": 200
+    },
+    {
+      "epoch": 0.8713692946058091,
+      "grad_norm": 0.6979421362415176,
+      "learning_rate": 5e-06,
+      "loss": 0.659,
+      "step": 210
+    },
+    {
+      "epoch": 0.9128630705394191,
+      "grad_norm": 0.5360800645755232,
+      "learning_rate": 5e-06,
+      "loss": 0.6478,
+      "step": 220
+    },
+    {
+      "epoch": 0.9543568464730291,
+      "grad_norm": 0.5268876559917598,
+      "learning_rate": 5e-06,
+      "loss": 0.6627,
+      "step": 230
+    },
+    {
+      "epoch": 0.995850622406639,
+      "grad_norm": 0.9017098344076718,
+      "learning_rate": 5e-06,
+      "loss": 0.6609,
+      "step": 240
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 0.648727297782898,
+      "eval_runtime": 43.6249,
+      "eval_samples_per_second": 148.608,
+      "eval_steps_per_second": 0.596,
+      "step": 241
+    },
+    {
+      "epoch": 1.037344398340249,
+      "grad_norm": 0.9774605752797116,
+      "learning_rate": 5e-06,
+      "loss": 0.6054,
+      "step": 250
+    },
+    {
+      "epoch": 1.0788381742738589,
+      "grad_norm": 0.5579603987304247,
+      "learning_rate": 5e-06,
+      "loss": 0.6085,
+      "step": 260
+    },
+    {
+      "epoch": 1.120331950207469,
+      "grad_norm": 0.5082526938460165,
+      "learning_rate": 5e-06,
+      "loss": 0.6121,
+      "step": 270
+    },
+    {
+      "epoch": 1.161825726141079,
+      "grad_norm": 0.577873962008403,
+      "learning_rate": 5e-06,
+      "loss": 0.6039,
+      "step": 280
+    },
+    {
+      "epoch": 1.2033195020746887,
+      "grad_norm": 0.8264610959213172,
+      "learning_rate": 5e-06,
+      "loss": 0.6084,
+      "step": 290
+    },
+    {
+      "epoch": 1.2448132780082988,
+      "grad_norm": 0.7810472700290516,
+      "learning_rate": 5e-06,
+      "loss": 0.6058,
+      "step": 300
+    },
+    {
+      "epoch": 1.2863070539419086,
+      "grad_norm": 1.0165843254642077,
+      "learning_rate": 5e-06,
+      "loss": 0.6028,
+      "step": 310
+    },
+    {
+      "epoch": 1.3278008298755186,
+      "grad_norm": 0.5463319445923467,
+      "learning_rate": 5e-06,
+      "loss": 0.6052,
+      "step": 320
+    },
+    {
+      "epoch": 1.3692946058091287,
+      "grad_norm": 0.5367970888984819,
+      "learning_rate": 5e-06,
+      "loss": 0.6091,
+      "step": 330
+    },
+    {
+      "epoch": 1.4107883817427385,
+      "grad_norm": 0.5755875593246926,
+      "learning_rate": 5e-06,
+      "loss": 0.6083,
+      "step": 340
+    },
+    {
+      "epoch": 1.4522821576763485,
+      "grad_norm": 0.67471919059626,
+      "learning_rate": 5e-06,
+      "loss": 0.6038,
+      "step": 350
+    },
+    {
+      "epoch": 1.4937759336099585,
+      "grad_norm": 0.7628032732436587,
+      "learning_rate": 5e-06,
+      "loss": 0.6044,
+      "step": 360
+    },
+    {
+      "epoch": 1.5352697095435683,
+      "grad_norm": 0.8144526511601552,
+      "learning_rate": 5e-06,
+      "loss": 0.6185,
+      "step": 370
+    },
+    {
+      "epoch": 1.5767634854771784,
+      "grad_norm": 0.5175614055983699,
+      "learning_rate": 5e-06,
+      "loss": 0.6053,
+      "step": 380
+    },
+    {
+      "epoch": 1.6182572614107884,
+      "grad_norm": 0.5172905638008732,
+      "learning_rate": 5e-06,
+      "loss": 0.6068,
+      "step": 390
+    },
+    {
+      "epoch": 1.6597510373443982,
+      "grad_norm": 0.5307106428613048,
+      "learning_rate": 5e-06,
+      "loss": 0.6085,
+      "step": 400
+    },
+    {
+      "epoch": 1.7012448132780082,
+      "grad_norm": 0.6179023030500128,
+      "learning_rate": 5e-06,
+      "loss": 0.6091,
+      "step": 410
+    },
+    {
+      "epoch": 1.7427385892116183,
+      "grad_norm": 0.7086042469109006,
+      "learning_rate": 5e-06,
+      "loss": 0.6179,
+      "step": 420
+    },
+    {
+      "epoch": 1.784232365145228,
+      "grad_norm": 0.5176134123863614,
+      "learning_rate": 5e-06,
+      "loss": 0.605,
+      "step": 430
+    },
+    {
+      "epoch": 1.8257261410788381,
+      "grad_norm": 0.5171649513530067,
+      "learning_rate": 5e-06,
+      "loss": 0.6034,
+      "step": 440
+    },
+    {
+      "epoch": 1.8672199170124482,
+      "grad_norm": 0.5367432657084621,
+      "learning_rate": 5e-06,
+      "loss": 0.613,
+      "step": 450
+    },
+    {
+      "epoch": 1.908713692946058,
+      "grad_norm": 0.48408277238761427,
+      "learning_rate": 5e-06,
+      "loss": 0.6057,
+      "step": 460
+    },
+    {
+      "epoch": 1.950207468879668,
+      "grad_norm": 0.49669435241743065,
+      "learning_rate": 5e-06,
+      "loss": 0.6042,
+      "step": 470
+    },
+    {
+      "epoch": 1.991701244813278,
+      "grad_norm": 0.48987580475367126,
+      "learning_rate": 5e-06,
+      "loss": 0.6004,
+      "step": 480
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 0.6395143866539001,
+      "eval_runtime": 43.8734,
+      "eval_samples_per_second": 147.766,
+      "eval_steps_per_second": 0.593,
+      "step": 482
+    },
+    {
+      "epoch": 2.033195020746888,
+      "grad_norm": 0.694640496714418,
+      "learning_rate": 5e-06,
+      "loss": 0.5694,
+      "step": 490
+    },
+    {
+      "epoch": 2.074688796680498,
+      "grad_norm": 0.6268578643699597,
+      "learning_rate": 5e-06,
+      "loss": 0.5547,
+      "step": 500
+    },
+    {
+      "epoch": 2.116182572614108,
+      "grad_norm": 0.5711614970904298,
+      "learning_rate": 5e-06,
+      "loss": 0.564,
+      "step": 510
+    },
+    {
+      "epoch": 2.1576763485477177,
+      "grad_norm": 0.534249477570971,
+      "learning_rate": 5e-06,
+      "loss": 0.552,
+      "step": 520
+    },
+    {
+      "epoch": 2.199170124481328,
+      "grad_norm": 0.5669497290253546,
+      "learning_rate": 5e-06,
+      "loss": 0.5608,
+      "step": 530
+    },
+    {
+      "epoch": 2.240663900414938,
+      "grad_norm": 0.5226279216140413,
+      "learning_rate": 5e-06,
+      "loss": 0.5602,
+      "step": 540
+    },
+    {
+      "epoch": 2.2821576763485476,
+      "grad_norm": 0.5391174076513888,
+      "learning_rate": 5e-06,
+      "loss": 0.5567,
+      "step": 550
+    },
+    {
+      "epoch": 2.323651452282158,
+      "grad_norm": 0.6529505060498241,
+      "learning_rate": 5e-06,
+      "loss": 0.56,
+      "step": 560
+    },
+    {
+      "epoch": 2.3651452282157677,
+      "grad_norm": 0.5210241275652869,
+      "learning_rate": 5e-06,
+      "loss": 0.5632,
+      "step": 570
+    },
+    {
+      "epoch": 2.4066390041493775,
+      "grad_norm": 0.6756682017846208,
+      "learning_rate": 5e-06,
+      "loss": 0.5614,
+      "step": 580
+    },
+    {
+      "epoch": 2.4481327800829877,
+      "grad_norm": 0.5404704000307257,
+      "learning_rate": 5e-06,
+      "loss": 0.5702,
+      "step": 590
+    },
+    {
+      "epoch": 2.4896265560165975,
+      "grad_norm": 0.6697757206019171,
+      "learning_rate": 5e-06,
+      "loss": 0.5619,
+      "step": 600
+    },
+    {
+      "epoch": 2.5311203319502074,
+      "grad_norm": 0.5048680170724003,
+      "learning_rate": 5e-06,
+      "loss": 0.5544,
+      "step": 610
+    },
+    {
+      "epoch": 2.572614107883817,
+      "grad_norm": 0.5684690270985966,
+      "learning_rate": 5e-06,
+      "loss": 0.564,
+      "step": 620
+    },
+    {
+      "epoch": 2.6141078838174274,
+      "grad_norm": 0.4900867200817702,
+      "learning_rate": 5e-06,
+      "loss": 0.5554,
+      "step": 630
+    },
+    {
+      "epoch": 2.6556016597510372,
+      "grad_norm": 0.6334967179963366,
+      "learning_rate": 5e-06,
+      "loss": 0.5546,
+      "step": 640
+    },
+    {
+      "epoch": 2.6970954356846475,
+      "grad_norm": 0.5548094054571096,
+      "learning_rate": 5e-06,
+      "loss": 0.5614,
+      "step": 650
+    },
+    {
+      "epoch": 2.7385892116182573,
+      "grad_norm": 0.5034985984912429,
+      "learning_rate": 5e-06,
+      "loss": 0.5574,
+      "step": 660
+    },
+    {
+      "epoch": 2.780082987551867,
+      "grad_norm": 0.5828333344441201,
+      "learning_rate": 5e-06,
+      "loss": 0.5529,
+      "step": 670
+    },
+    {
+      "epoch": 2.821576763485477,
+      "grad_norm": 0.5919548268073235,
+      "learning_rate": 5e-06,
+      "loss": 0.5585,
+      "step": 680
+    },
+    {
+      "epoch": 2.863070539419087,
+      "grad_norm": 0.5214263176098621,
+      "learning_rate": 5e-06,
+      "loss": 0.57,
+      "step": 690
+    },
+    {
+      "epoch": 2.904564315352697,
+      "grad_norm": 0.5391043885537505,
+      "learning_rate": 5e-06,
+      "loss": 0.5619,
+      "step": 700
+    },
+    {
+      "epoch": 2.9460580912863072,
+      "grad_norm": 0.5267641922982713,
+      "learning_rate": 5e-06,
+      "loss": 0.5614,
+      "step": 710
+    },
+    {
+      "epoch": 2.987551867219917,
+      "grad_norm": 0.6315320754540618,
+      "learning_rate": 5e-06,
+      "loss": 0.556,
+      "step": 720
+    },
+    {
+      "epoch": 3.0,
+      "eval_loss": 0.6440598964691162,
+      "eval_runtime": 42.4846,
+      "eval_samples_per_second": 152.597,
+      "eval_steps_per_second": 0.612,
+      "step": 723
+    },
+    {
+      "epoch": 3.0,
+      "step": 723,
+      "total_flos": 1210214409830400.0,
+      "train_loss": 0.6203547849694723,
+      "train_runtime": 6426.9902,
+      "train_samples_per_second": 57.488,
+      "train_steps_per_second": 0.112
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 723,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1210214409830400.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

training_eval_loss.png ADDED Viewed

training_loss.png ADDED Viewed