End of training

Browse files

Files changed (7) hide show

README.md +2 -1
all_results.json +12 -0
eval_results.json +7 -0
train_results.json +8 -0
trainer_state.json +612 -0
training_eval_loss.png +0 -0
training_loss.png +0 -0

README.md CHANGED Viewed

@@ -4,6 +4,7 @@ license: llama2
 base_model: meta-llama/Llama-2-7b-hf
 tags:
 - llama-factory
 - generated_from_trainer
 model-index:
 - name: llama2_oh_teknium_scaling_down_random_0.7
@@ -15,7 +16,7 @@ should probably proofread and complete it, then remove this comment. -->
 # llama2_oh_teknium_scaling_down_random_0.7
-This model is a fine-tuned version of [meta-llama/Llama-2-7b-hf](https://huggingface.co/meta-llama/Llama-2-7b-hf) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.5556

 base_model: meta-llama/Llama-2-7b-hf
 tags:
 - llama-factory
+- full
 - generated_from_trainer
 model-index:
 - name: llama2_oh_teknium_scaling_down_random_0.7
 # llama2_oh_teknium_scaling_down_random_0.7
+This model is a fine-tuned version of [meta-llama/Llama-2-7b-hf](https://huggingface.co/meta-llama/Llama-2-7b-hf) on the mlfoundations-dev/oh_teknium_scaling_down_random_0.7 dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.5556

all_results.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+    "epoch": 2.9914040114613183,
+    "eval_loss": 0.5556380152702332,
+    "eval_runtime": 266.6242,
+    "eval_samples_per_second": 26.445,
+    "eval_steps_per_second": 0.416,
+    "total_flos": 1311344783523840.0,
+    "train_loss": 0.56458546481979,
+    "train_runtime": 43241.279,
+    "train_samples_per_second": 9.294,
+    "train_steps_per_second": 0.018
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "epoch": 2.9914040114613183,
+    "eval_loss": 0.5556380152702332,
+    "eval_runtime": 266.6242,
+    "eval_samples_per_second": 26.445,
+    "eval_steps_per_second": 0.416
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 2.9914040114613183,
+    "total_flos": 1311344783523840.0,
+    "train_loss": 0.56458546481979,
+    "train_runtime": 43241.279,
+    "train_samples_per_second": 9.294,
+    "train_steps_per_second": 0.018
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,612 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.9914040114613183,
+  "eval_steps": 500,
+  "global_step": 783,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.038204393505253106,
+      "grad_norm": 0.4276723796700453,
+      "learning_rate": 5e-06,
+      "loss": 0.7667,
+      "step": 10
+    },
+    {
+      "epoch": 0.07640878701050621,
+      "grad_norm": 0.32348084518039205,
+      "learning_rate": 5e-06,
+      "loss": 0.6918,
+      "step": 20
+    },
+    {
+      "epoch": 0.11461318051575932,
+      "grad_norm": 0.249229325173226,
+      "learning_rate": 5e-06,
+      "loss": 0.6746,
+      "step": 30
+    },
+    {
+      "epoch": 0.15281757402101243,
+      "grad_norm": 0.2330974473839111,
+      "learning_rate": 5e-06,
+      "loss": 0.6616,
+      "step": 40
+    },
+    {
+      "epoch": 0.19102196752626552,
+      "grad_norm": 0.21939385628582367,
+      "learning_rate": 5e-06,
+      "loss": 0.6476,
+      "step": 50
+    },
+    {
+      "epoch": 0.22922636103151864,
+      "grad_norm": 0.22653282596248933,
+      "learning_rate": 5e-06,
+      "loss": 0.6393,
+      "step": 60
+    },
+    {
+      "epoch": 0.26743075453677173,
+      "grad_norm": 0.21566654146702766,
+      "learning_rate": 5e-06,
+      "loss": 0.6332,
+      "step": 70
+    },
+    {
+      "epoch": 0.30563514804202485,
+      "grad_norm": 0.23074248808260428,
+      "learning_rate": 5e-06,
+      "loss": 0.6213,
+      "step": 80
+    },
+    {
+      "epoch": 0.3438395415472779,
+      "grad_norm": 0.2243717024132665,
+      "learning_rate": 5e-06,
+      "loss": 0.6308,
+      "step": 90
+    },
+    {
+      "epoch": 0.38204393505253104,
+      "grad_norm": 0.22036293175240984,
+      "learning_rate": 5e-06,
+      "loss": 0.6164,
+      "step": 100
+    },
+    {
+      "epoch": 0.42024832855778416,
+      "grad_norm": 0.21643485347884658,
+      "learning_rate": 5e-06,
+      "loss": 0.614,
+      "step": 110
+    },
+    {
+      "epoch": 0.4584527220630373,
+      "grad_norm": 0.23679718136436143,
+      "learning_rate": 5e-06,
+      "loss": 0.6122,
+      "step": 120
+    },
+    {
+      "epoch": 0.49665711556829034,
+      "grad_norm": 0.21300114530932357,
+      "learning_rate": 5e-06,
+      "loss": 0.6116,
+      "step": 130
+    },
+    {
+      "epoch": 0.5348615090735435,
+      "grad_norm": 0.22152143302856503,
+      "learning_rate": 5e-06,
+      "loss": 0.605,
+      "step": 140
+    },
+    {
+      "epoch": 0.5730659025787965,
+      "grad_norm": 0.22150673339975496,
+      "learning_rate": 5e-06,
+      "loss": 0.6043,
+      "step": 150
+    },
+    {
+      "epoch": 0.6112702960840497,
+      "grad_norm": 0.24912302728756616,
+      "learning_rate": 5e-06,
+      "loss": 0.602,
+      "step": 160
+    },
+    {
+      "epoch": 0.6494746895893028,
+      "grad_norm": 0.2432846766077662,
+      "learning_rate": 5e-06,
+      "loss": 0.5968,
+      "step": 170
+    },
+    {
+      "epoch": 0.6876790830945558,
+      "grad_norm": 0.26332738403854294,
+      "learning_rate": 5e-06,
+      "loss": 0.5951,
+      "step": 180
+    },
+    {
+      "epoch": 0.725883476599809,
+      "grad_norm": 0.21754173355334794,
+      "learning_rate": 5e-06,
+      "loss": 0.5931,
+      "step": 190
+    },
+    {
+      "epoch": 0.7640878701050621,
+      "grad_norm": 0.22624132864342666,
+      "learning_rate": 5e-06,
+      "loss": 0.6013,
+      "step": 200
+    },
+    {
+      "epoch": 0.8022922636103151,
+      "grad_norm": 0.23298472948158777,
+      "learning_rate": 5e-06,
+      "loss": 0.5911,
+      "step": 210
+    },
+    {
+      "epoch": 0.8404966571155683,
+      "grad_norm": 0.23281516321048557,
+      "learning_rate": 5e-06,
+      "loss": 0.5843,
+      "step": 220
+    },
+    {
+      "epoch": 0.8787010506208214,
+      "grad_norm": 0.24902984573388898,
+      "learning_rate": 5e-06,
+      "loss": 0.5833,
+      "step": 230
+    },
+    {
+      "epoch": 0.9169054441260746,
+      "grad_norm": 0.23447860858377242,
+      "learning_rate": 5e-06,
+      "loss": 0.5904,
+      "step": 240
+    },
+    {
+      "epoch": 0.9551098376313276,
+      "grad_norm": 0.2505627332870155,
+      "learning_rate": 5e-06,
+      "loss": 0.5883,
+      "step": 250
+    },
+    {
+      "epoch": 0.9933142311365807,
+      "grad_norm": 0.22477676543315434,
+      "learning_rate": 5e-06,
+      "loss": 0.5903,
+      "step": 260
+    },
+    {
+      "epoch": 0.997134670487106,
+      "eval_loss": 0.584246039390564,
+      "eval_runtime": 265.5626,
+      "eval_samples_per_second": 26.551,
+      "eval_steps_per_second": 0.418,
+      "step": 261
+    },
+    {
+      "epoch": 1.0315186246418337,
+      "grad_norm": 0.2352884844118039,
+      "learning_rate": 5e-06,
+      "loss": 0.5757,
+      "step": 270
+    },
+    {
+      "epoch": 1.069723018147087,
+      "grad_norm": 0.2265143278786619,
+      "learning_rate": 5e-06,
+      "loss": 0.5599,
+      "step": 280
+    },
+    {
+      "epoch": 1.10792741165234,
+      "grad_norm": 0.23703051084829976,
+      "learning_rate": 5e-06,
+      "loss": 0.5609,
+      "step": 290
+    },
+    {
+      "epoch": 1.146131805157593,
+      "grad_norm": 0.23682463293260125,
+      "learning_rate": 5e-06,
+      "loss": 0.5617,
+      "step": 300
+    },
+    {
+      "epoch": 1.1843361986628462,
+      "grad_norm": 0.22196069951621014,
+      "learning_rate": 5e-06,
+      "loss": 0.5659,
+      "step": 310
+    },
+    {
+      "epoch": 1.2225405921680994,
+      "grad_norm": 0.22990143320629003,
+      "learning_rate": 5e-06,
+      "loss": 0.5623,
+      "step": 320
+    },
+    {
+      "epoch": 1.2607449856733524,
+      "grad_norm": 0.23117727752852635,
+      "learning_rate": 5e-06,
+      "loss": 0.5536,
+      "step": 330
+    },
+    {
+      "epoch": 1.2989493791786055,
+      "grad_norm": 0.24177690757057696,
+      "learning_rate": 5e-06,
+      "loss": 0.5524,
+      "step": 340
+    },
+    {
+      "epoch": 1.3371537726838587,
+      "grad_norm": 0.277046963962815,
+      "learning_rate": 5e-06,
+      "loss": 0.557,
+      "step": 350
+    },
+    {
+      "epoch": 1.3753581661891117,
+      "grad_norm": 0.24447457739587525,
+      "learning_rate": 5e-06,
+      "loss": 0.5562,
+      "step": 360
+    },
+    {
+      "epoch": 1.4135625596943648,
+      "grad_norm": 0.22521828675343608,
+      "learning_rate": 5e-06,
+      "loss": 0.5557,
+      "step": 370
+    },
+    {
+      "epoch": 1.451766953199618,
+      "grad_norm": 0.24923924743373047,
+      "learning_rate": 5e-06,
+      "loss": 0.5535,
+      "step": 380
+    },
+    {
+      "epoch": 1.4899713467048712,
+      "grad_norm": 0.23051752759244015,
+      "learning_rate": 5e-06,
+      "loss": 0.5512,
+      "step": 390
+    },
+    {
+      "epoch": 1.5281757402101241,
+      "grad_norm": 0.2305514578191316,
+      "learning_rate": 5e-06,
+      "loss": 0.5574,
+      "step": 400
+    },
+    {
+      "epoch": 1.5663801337153773,
+      "grad_norm": 0.2315782231048154,
+      "learning_rate": 5e-06,
+      "loss": 0.5544,
+      "step": 410
+    },
+    {
+      "epoch": 1.6045845272206303,
+      "grad_norm": 0.22664996821288788,
+      "learning_rate": 5e-06,
+      "loss": 0.5425,
+      "step": 420
+    },
+    {
+      "epoch": 1.6427889207258835,
+      "grad_norm": 0.2418068965690577,
+      "learning_rate": 5e-06,
+      "loss": 0.5577,
+      "step": 430
+    },
+    {
+      "epoch": 1.6809933142311366,
+      "grad_norm": 0.22893902566494653,
+      "learning_rate": 5e-06,
+      "loss": 0.5538,
+      "step": 440
+    },
+    {
+      "epoch": 1.7191977077363898,
+      "grad_norm": 0.2465301749712713,
+      "learning_rate": 5e-06,
+      "loss": 0.5485,
+      "step": 450
+    },
+    {
+      "epoch": 1.7574021012416428,
+      "grad_norm": 0.24143985417715072,
+      "learning_rate": 5e-06,
+      "loss": 0.5474,
+      "step": 460
+    },
+    {
+      "epoch": 1.795606494746896,
+      "grad_norm": 0.24566695881021275,
+      "learning_rate": 5e-06,
+      "loss": 0.5503,
+      "step": 470
+    },
+    {
+      "epoch": 1.8338108882521489,
+      "grad_norm": 0.24718715138028305,
+      "learning_rate": 5e-06,
+      "loss": 0.5526,
+      "step": 480
+    },
+    {
+      "epoch": 1.872015281757402,
+      "grad_norm": 0.22975894080844286,
+      "learning_rate": 5e-06,
+      "loss": 0.5453,
+      "step": 490
+    },
+    {
+      "epoch": 1.9102196752626552,
+      "grad_norm": 0.23859388198650291,
+      "learning_rate": 5e-06,
+      "loss": 0.5464,
+      "step": 500
+    },
+    {
+      "epoch": 1.9484240687679084,
+      "grad_norm": 0.23136216226812198,
+      "learning_rate": 5e-06,
+      "loss": 0.5449,
+      "step": 510
+    },
+    {
+      "epoch": 1.9866284622731614,
+      "grad_norm": 0.2349357255149748,
+      "learning_rate": 5e-06,
+      "loss": 0.5494,
+      "step": 520
+    },
+    {
+      "epoch": 1.9980897803247375,
+      "eval_loss": 0.5642140507698059,
+      "eval_runtime": 264.3703,
+      "eval_samples_per_second": 26.671,
+      "eval_steps_per_second": 0.42,
+      "step": 523
+    },
+    {
+      "epoch": 2.0248328557784143,
+      "grad_norm": 0.25826245327612535,
+      "learning_rate": 5e-06,
+      "loss": 0.5442,
+      "step": 530
+    },
+    {
+      "epoch": 2.0630372492836675,
+      "grad_norm": 0.2626169515572602,
+      "learning_rate": 5e-06,
+      "loss": 0.512,
+      "step": 540
+    },
+    {
+      "epoch": 2.1012416427889207,
+      "grad_norm": 0.2603762571041837,
+      "learning_rate": 5e-06,
+      "loss": 0.5191,
+      "step": 550
+    },
+    {
+      "epoch": 2.139446036294174,
+      "grad_norm": 0.23015404536582382,
+      "learning_rate": 5e-06,
+      "loss": 0.5197,
+      "step": 560
+    },
+    {
+      "epoch": 2.177650429799427,
+      "grad_norm": 0.25412548793554895,
+      "learning_rate": 5e-06,
+      "loss": 0.5239,
+      "step": 570
+    },
+    {
+      "epoch": 2.21585482330468,
+      "grad_norm": 0.2441125264745981,
+      "learning_rate": 5e-06,
+      "loss": 0.5222,
+      "step": 580
+    },
+    {
+      "epoch": 2.2540592168099334,
+      "grad_norm": 0.24058030309164696,
+      "learning_rate": 5e-06,
+      "loss": 0.5279,
+      "step": 590
+    },
+    {
+      "epoch": 2.292263610315186,
+      "grad_norm": 0.24101649460454033,
+      "learning_rate": 5e-06,
+      "loss": 0.5189,
+      "step": 600
+    },
+    {
+      "epoch": 2.3304680038204393,
+      "grad_norm": 0.239682006849809,
+      "learning_rate": 5e-06,
+      "loss": 0.5245,
+      "step": 610
+    },
+    {
+      "epoch": 2.3686723973256925,
+      "grad_norm": 0.2534122143594625,
+      "learning_rate": 5e-06,
+      "loss": 0.5204,
+      "step": 620
+    },
+    {
+      "epoch": 2.4068767908309456,
+      "grad_norm": 0.258948321654359,
+      "learning_rate": 5e-06,
+      "loss": 0.5136,
+      "step": 630
+    },
+    {
+      "epoch": 2.445081184336199,
+      "grad_norm": 0.25723419087922345,
+      "learning_rate": 5e-06,
+      "loss": 0.5158,
+      "step": 640
+    },
+    {
+      "epoch": 2.4832855778414515,
+      "grad_norm": 0.23908804434217376,
+      "learning_rate": 5e-06,
+      "loss": 0.526,
+      "step": 650
+    },
+    {
+      "epoch": 2.5214899713467047,
+      "grad_norm": 0.25488020166141667,
+      "learning_rate": 5e-06,
+      "loss": 0.5168,
+      "step": 660
+    },
+    {
+      "epoch": 2.559694364851958,
+      "grad_norm": 0.24336089633028843,
+      "learning_rate": 5e-06,
+      "loss": 0.5161,
+      "step": 670
+    },
+    {
+      "epoch": 2.597898758357211,
+      "grad_norm": 0.2345400964975648,
+      "learning_rate": 5e-06,
+      "loss": 0.5249,
+      "step": 680
+    },
+    {
+      "epoch": 2.6361031518624642,
+      "grad_norm": 0.23758922544588199,
+      "learning_rate": 5e-06,
+      "loss": 0.5151,
+      "step": 690
+    },
+    {
+      "epoch": 2.6743075453677174,
+      "grad_norm": 0.24683864837473207,
+      "learning_rate": 5e-06,
+      "loss": 0.5183,
+      "step": 700
+    },
+    {
+      "epoch": 2.7125119388729706,
+      "grad_norm": 0.2380248988277514,
+      "learning_rate": 5e-06,
+      "loss": 0.5063,
+      "step": 710
+    },
+    {
+      "epoch": 2.7507163323782233,
+      "grad_norm": 0.2475222519828434,
+      "learning_rate": 5e-06,
+      "loss": 0.5112,
+      "step": 720
+    },
+    {
+      "epoch": 2.7889207258834765,
+      "grad_norm": 0.2519246553878985,
+      "learning_rate": 5e-06,
+      "loss": 0.5163,
+      "step": 730
+    },
+    {
+      "epoch": 2.8271251193887297,
+      "grad_norm": 0.2677256569155169,
+      "learning_rate": 5e-06,
+      "loss": 0.5207,
+      "step": 740
+    },
+    {
+      "epoch": 2.865329512893983,
+      "grad_norm": 0.24396924044719615,
+      "learning_rate": 5e-06,
+      "loss": 0.5102,
+      "step": 750
+    },
+    {
+      "epoch": 2.903533906399236,
+      "grad_norm": 0.2451469714206881,
+      "learning_rate": 5e-06,
+      "loss": 0.5149,
+      "step": 760
+    },
+    {
+      "epoch": 2.9417382999044888,
+      "grad_norm": 0.23740064104751296,
+      "learning_rate": 5e-06,
+      "loss": 0.5115,
+      "step": 770
+    },
+    {
+      "epoch": 2.9799426934097424,
+      "grad_norm": 0.24379186400055985,
+      "learning_rate": 5e-06,
+      "loss": 0.5177,
+      "step": 780
+    },
+    {
+      "epoch": 2.9914040114613183,
+      "eval_loss": 0.5556380152702332,
+      "eval_runtime": 265.4623,
+      "eval_samples_per_second": 26.561,
+      "eval_steps_per_second": 0.418,
+      "step": 783
+    },
+    {
+      "epoch": 2.9914040114613183,
+      "step": 783,
+      "total_flos": 1311344783523840.0,
+      "train_loss": 0.56458546481979,
+      "train_runtime": 43241.279,
+      "train_samples_per_second": 9.294,
+      "train_steps_per_second": 0.018
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 783,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1311344783523840.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

training_eval_loss.png ADDED Viewed

training_loss.png ADDED Viewed