mlfoundations-dev
/

multiple_samples_ground_truth_numina_aime_llm_verifier

@@ -4,6 +4,7 @@ license: apache-2.0
 base_model: Qwen/Qwen2.5-7B-Instruct
 tags:
 - llama-factory
 - generated_from_trainer
 model-index:
 - name: multiple_samples_ground_truth_numina_aime_llm_verifier
@@ -15,7 +16,7 @@ should probably proofread and complete it, then remove this comment. -->
 # multiple_samples_ground_truth_numina_aime_llm_verifier
-This model is a fine-tuned version of [Qwen/Qwen2.5-7B-Instruct](https://huggingface.co/Qwen/Qwen2.5-7B-Instruct) on an unknown dataset.
 ## Model description

 base_model: Qwen/Qwen2.5-7B-Instruct
 tags:
 - llama-factory
+- full
 - generated_from_trainer
 model-index:
 - name: multiple_samples_ground_truth_numina_aime_llm_verifier
 # multiple_samples_ground_truth_numina_aime_llm_verifier
+This model is a fine-tuned version of [Qwen/Qwen2.5-7B-Instruct](https://huggingface.co/Qwen/Qwen2.5-7B-Instruct) on the mlfoundations-dev/multiple_samples_ground_truth_numina_aime_llm_verifier dataset.
 ## Model description

all_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 2.979057591623037,
+    "total_flos": 164949602598912.0,
+    "train_loss": 0.7452578336473495,
+    "train_runtime": 5576.0717,
+    "train_samples_per_second": 3.284,
+    "train_steps_per_second": 0.034
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 2.979057591623037,
+    "total_flos": 164949602598912.0,
+    "train_loss": 0.7452578336473495,
+    "train_runtime": 5576.0717,
+    "train_samples_per_second": 3.284,
+    "train_steps_per_second": 0.034
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1365 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.979057591623037,
+  "eval_steps": 500,
+  "global_step": 189,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.015706806282722512,
+      "grad_norm": 6.8887248039245605,
+      "learning_rate": 5.263157894736843e-07,
+      "loss": 1.1142,
+      "step": 1
+    },
+    {
+      "epoch": 0.031413612565445025,
+      "grad_norm": 6.753639221191406,
+      "learning_rate": 1.0526315789473685e-06,
+      "loss": 1.0768,
+      "step": 2
+    },
+    {
+      "epoch": 0.04712041884816754,
+      "grad_norm": 6.876628398895264,
+      "learning_rate": 1.5789473684210526e-06,
+      "loss": 1.0897,
+      "step": 3
+    },
+    {
+      "epoch": 0.06282722513089005,
+      "grad_norm": 6.902674674987793,
+      "learning_rate": 2.105263157894737e-06,
+      "loss": 1.0808,
+      "step": 4
+    },
+    {
+      "epoch": 0.07853403141361257,
+      "grad_norm": 6.087132930755615,
+      "learning_rate": 2.631578947368421e-06,
+      "loss": 1.0093,
+      "step": 5
+    },
+    {
+      "epoch": 0.09424083769633508,
+      "grad_norm": 5.059581756591797,
+      "learning_rate": 3.157894736842105e-06,
+      "loss": 0.9661,
+      "step": 6
+    },
+    {
+      "epoch": 0.1099476439790576,
+      "grad_norm": 3.064566135406494,
+      "learning_rate": 3.6842105263157896e-06,
+      "loss": 0.9779,
+      "step": 7
+    },
+    {
+      "epoch": 0.1256544502617801,
+      "grad_norm": 2.968360424041748,
+      "learning_rate": 4.210526315789474e-06,
+      "loss": 1.0165,
+      "step": 8
+    },
+    {
+      "epoch": 0.14136125654450263,
+      "grad_norm": 2.631955862045288,
+      "learning_rate": 4.736842105263158e-06,
+      "loss": 0.9334,
+      "step": 9
+    },
+    {
+      "epoch": 0.15706806282722513,
+      "grad_norm": 4.7284369468688965,
+      "learning_rate": 5.263157894736842e-06,
+      "loss": 0.9337,
+      "step": 10
+    },
+    {
+      "epoch": 0.17277486910994763,
+      "grad_norm": 5.158217906951904,
+      "learning_rate": 5.789473684210527e-06,
+      "loss": 0.9655,
+      "step": 11
+    },
+    {
+      "epoch": 0.18848167539267016,
+      "grad_norm": 5.292913436889648,
+      "learning_rate": 6.31578947368421e-06,
+      "loss": 0.9602,
+      "step": 12
+    },
+    {
+      "epoch": 0.20418848167539266,
+      "grad_norm": 4.853399753570557,
+      "learning_rate": 6.842105263157896e-06,
+      "loss": 0.9138,
+      "step": 13
+    },
+    {
+      "epoch": 0.2198952879581152,
+      "grad_norm": 4.435394287109375,
+      "learning_rate": 7.368421052631579e-06,
+      "loss": 0.9393,
+      "step": 14
+    },
+    {
+      "epoch": 0.2356020942408377,
+      "grad_norm": 3.3229806423187256,
+      "learning_rate": 7.894736842105265e-06,
+      "loss": 0.9176,
+      "step": 15
+    },
+    {
+      "epoch": 0.2513089005235602,
+      "grad_norm": 2.570058584213257,
+      "learning_rate": 8.421052631578948e-06,
+      "loss": 0.8813,
+      "step": 16
+    },
+    {
+      "epoch": 0.2670157068062827,
+      "grad_norm": 2.4447691440582275,
+      "learning_rate": 8.947368421052632e-06,
+      "loss": 0.8583,
+      "step": 17
+    },
+    {
+      "epoch": 0.28272251308900526,
+      "grad_norm": 2.521718978881836,
+      "learning_rate": 9.473684210526315e-06,
+      "loss": 0.838,
+      "step": 18
+    },
+    {
+      "epoch": 0.29842931937172773,
+      "grad_norm": 2.3478972911834717,
+      "learning_rate": 1e-05,
+      "loss": 0.8747,
+      "step": 19
+    },
+    {
+      "epoch": 0.31413612565445026,
+      "grad_norm": 1.7178244590759277,
+      "learning_rate": 9.999146252290264e-06,
+      "loss": 0.8543,
+      "step": 20
+    },
+    {
+      "epoch": 0.3298429319371728,
+      "grad_norm": 1.8173781633377075,
+      "learning_rate": 9.996585300715117e-06,
+      "loss": 0.8834,
+      "step": 21
+    },
+    {
+      "epoch": 0.34554973821989526,
+      "grad_norm": 1.7335622310638428,
+      "learning_rate": 9.992318019837171e-06,
+      "loss": 0.8207,
+      "step": 22
+    },
+    {
+      "epoch": 0.3612565445026178,
+      "grad_norm": 1.218032956123352,
+      "learning_rate": 9.98634586692894e-06,
+      "loss": 0.818,
+      "step": 23
+    },
+    {
+      "epoch": 0.3769633507853403,
+      "grad_norm": 1.1680783033370972,
+      "learning_rate": 9.978670881475173e-06,
+      "loss": 0.8207,
+      "step": 24
+    },
+    {
+      "epoch": 0.39267015706806285,
+      "grad_norm": 1.1440259218215942,
+      "learning_rate": 9.96929568447637e-06,
+      "loss": 0.7783,
+      "step": 25
+    },
+    {
+      "epoch": 0.4083769633507853,
+      "grad_norm": 0.9146878123283386,
+      "learning_rate": 9.958223477553715e-06,
+      "loss": 0.8105,
+      "step": 26
+    },
+    {
+      "epoch": 0.42408376963350786,
+      "grad_norm": 0.8173267841339111,
+      "learning_rate": 9.945458041855732e-06,
+      "loss": 0.8161,
+      "step": 27
+    },
+    {
+      "epoch": 0.4397905759162304,
+      "grad_norm": 0.7967058420181274,
+      "learning_rate": 9.931003736767013e-06,
+      "loss": 0.8021,
+      "step": 28
+    },
+    {
+      "epoch": 0.45549738219895286,
+      "grad_norm": 1.0137078762054443,
+      "learning_rate": 9.91486549841951e-06,
+      "loss": 0.7907,
+      "step": 29
+    },
+    {
+      "epoch": 0.4712041884816754,
+      "grad_norm": 0.8691787123680115,
+      "learning_rate": 9.89704883800683e-06,
+      "loss": 0.801,
+      "step": 30
+    },
+    {
+      "epoch": 0.4869109947643979,
+      "grad_norm": 0.8762310743331909,
+      "learning_rate": 9.877559839902185e-06,
+      "loss": 0.7908,
+      "step": 31
+    },
+    {
+      "epoch": 0.5026178010471204,
+      "grad_norm": 0.7979404330253601,
+      "learning_rate": 9.85640515958057e-06,
+      "loss": 0.7773,
+      "step": 32
+    },
+    {
+      "epoch": 0.518324607329843,
+      "grad_norm": 0.7002436518669128,
+      "learning_rate": 9.833592021345938e-06,
+      "loss": 0.8667,
+      "step": 33
+    },
+    {
+      "epoch": 0.5340314136125655,
+      "grad_norm": 0.6912110447883606,
+      "learning_rate": 9.809128215864096e-06,
+      "loss": 0.79,
+      "step": 34
+    },
+    {
+      "epoch": 0.5497382198952879,
+      "grad_norm": 0.7821699380874634,
+      "learning_rate": 9.783022097502204e-06,
+      "loss": 0.7856,
+      "step": 35
+    },
+    {
+      "epoch": 0.5654450261780105,
+      "grad_norm": 0.7298029065132141,
+      "learning_rate": 9.755282581475769e-06,
+      "loss": 0.8258,
+      "step": 36
+    },
+    {
+      "epoch": 0.581151832460733,
+      "grad_norm": 0.6821584701538086,
+      "learning_rate": 9.7259191408041e-06,
+      "loss": 0.8172,
+      "step": 37
+    },
+    {
+      "epoch": 0.5968586387434555,
+      "grad_norm": 0.7345920205116272,
+      "learning_rate": 9.694941803075285e-06,
+      "loss": 0.7891,
+      "step": 38
+    },
+    {
+      "epoch": 0.612565445026178,
+      "grad_norm": 0.6704655289649963,
+      "learning_rate": 9.66236114702178e-06,
+      "loss": 0.818,
+      "step": 39
+    },
+    {
+      "epoch": 0.6282722513089005,
+      "grad_norm": 0.6662957668304443,
+      "learning_rate": 9.628188298907782e-06,
+      "loss": 0.7672,
+      "step": 40
+    },
+    {
+      "epoch": 0.643979057591623,
+      "grad_norm": 0.7332305908203125,
+      "learning_rate": 9.592434928729617e-06,
+      "loss": 0.7463,
+      "step": 41
+    },
+    {
+      "epoch": 0.6596858638743456,
+      "grad_norm": 0.7164070010185242,
+      "learning_rate": 9.555113246230443e-06,
+      "loss": 0.809,
+      "step": 42
+    },
+    {
+      "epoch": 0.675392670157068,
+      "grad_norm": 0.6916602849960327,
+      "learning_rate": 9.516235996730645e-06,
+      "loss": 0.7437,
+      "step": 43
+    },
+    {
+      "epoch": 0.6910994764397905,
+      "grad_norm": 0.6922323703765869,
+      "learning_rate": 9.475816456775313e-06,
+      "loss": 0.7736,
+      "step": 44
+    },
+    {
+      "epoch": 0.7068062827225131,
+      "grad_norm": 0.5958998203277588,
+      "learning_rate": 9.43386842960031e-06,
+      "loss": 0.6926,
+      "step": 45
+    },
+    {
+      "epoch": 0.7225130890052356,
+      "grad_norm": 0.6692982912063599,
+      "learning_rate": 9.39040624041849e-06,
+      "loss": 0.7831,
+      "step": 46
+    },
+    {
+      "epoch": 0.7382198952879581,
+      "grad_norm": 0.6842427253723145,
+      "learning_rate": 9.345444731527642e-06,
+      "loss": 0.7786,
+      "step": 47
+    },
+    {
+      "epoch": 0.7539267015706806,
+      "grad_norm": 0.7029358744621277,
+      "learning_rate": 9.298999257241862e-06,
+      "loss": 0.7424,
+      "step": 48
+    },
+    {
+      "epoch": 0.7696335078534031,
+      "grad_norm": 0.677168071269989,
+      "learning_rate": 9.251085678648072e-06,
+      "loss": 0.7373,
+      "step": 49
+    },
+    {
+      "epoch": 0.7853403141361257,
+      "grad_norm": 0.8029330372810364,
+      "learning_rate": 9.201720358189464e-06,
+      "loss": 0.7831,
+      "step": 50
+    },
+    {
+      "epoch": 0.8010471204188482,
+      "grad_norm": 0.5628848671913147,
+      "learning_rate": 9.150920154077753e-06,
+      "loss": 0.7364,
+      "step": 51
+    },
+    {
+      "epoch": 0.8167539267015707,
+      "grad_norm": 0.6686862707138062,
+      "learning_rate": 9.098702414536107e-06,
+      "loss": 0.6732,
+      "step": 52
+    },
+    {
+      "epoch": 0.8324607329842932,
+      "grad_norm": 0.8103529810905457,
+      "learning_rate": 9.045084971874738e-06,
+      "loss": 0.7908,
+      "step": 53
+    },
+    {
+      "epoch": 0.8481675392670157,
+      "grad_norm": 0.5656948089599609,
+      "learning_rate": 8.990086136401199e-06,
+      "loss": 0.8206,
+      "step": 54
+    },
+    {
+      "epoch": 0.8638743455497382,
+      "grad_norm": 0.613905668258667,
+      "learning_rate": 8.933724690167417e-06,
+      "loss": 0.7643,
+      "step": 55
+    },
+    {
+      "epoch": 0.8795811518324608,
+      "grad_norm": 0.6404189467430115,
+      "learning_rate": 8.87601988055565e-06,
+      "loss": 0.7106,
+      "step": 56
+    },
+    {
+      "epoch": 0.8952879581151832,
+      "grad_norm": 0.722918689250946,
+      "learning_rate": 8.816991413705515e-06,
+      "loss": 0.7901,
+      "step": 57
+    },
+    {
+      "epoch": 0.9109947643979057,
+      "grad_norm": 0.6225880980491638,
+      "learning_rate": 8.756659447784367e-06,
+      "loss": 0.7921,
+      "step": 58
+    },
+    {
+      "epoch": 0.9267015706806283,
+      "grad_norm": 0.6296599507331848,
+      "learning_rate": 8.695044586103297e-06,
+      "loss": 0.7981,
+      "step": 59
+    },
+    {
+      "epoch": 0.9424083769633508,
+      "grad_norm": 0.6509311199188232,
+      "learning_rate": 8.632167870081122e-06,
+      "loss": 0.8012,
+      "step": 60
+    },
+    {
+      "epoch": 0.9581151832460733,
+      "grad_norm": 0.5411696434020996,
+      "learning_rate": 8.568050772058763e-06,
+      "loss": 0.7498,
+      "step": 61
+    },
+    {
+      "epoch": 0.9738219895287958,
+      "grad_norm": 0.632453978061676,
+      "learning_rate": 8.502715187966455e-06,
+      "loss": 0.8052,
+      "step": 62
+    },
+    {
+      "epoch": 0.9895287958115183,
+      "grad_norm": 0.6090638637542725,
+      "learning_rate": 8.436183429846314e-06,
+      "loss": 0.7478,
+      "step": 63
+    },
+    {
+      "epoch": 1.0104712041884816,
+      "grad_norm": 0.8797024488449097,
+      "learning_rate": 8.368478218232787e-06,
+      "loss": 1.1137,
+      "step": 64
+    },
+    {
+      "epoch": 1.0261780104712042,
+      "grad_norm": 0.6260608434677124,
+      "learning_rate": 8.299622674393615e-06,
+      "loss": 0.7327,
+      "step": 65
+    },
+    {
+      "epoch": 1.0418848167539267,
+      "grad_norm": 0.6227336525917053,
+      "learning_rate": 8.229640312433938e-06,
+      "loss": 0.6987,
+      "step": 66
+    },
+    {
+      "epoch": 1.057591623036649,
+      "grad_norm": 0.5498214364051819,
+      "learning_rate": 8.158555031266255e-06,
+      "loss": 0.7469,
+      "step": 67
+    },
+    {
+      "epoch": 1.0732984293193717,
+      "grad_norm": 0.5488673448562622,
+      "learning_rate": 8.086391106448965e-06,
+      "loss": 0.6833,
+      "step": 68
+    },
+    {
+      "epoch": 1.0890052356020943,
+      "grad_norm": 0.6719608902931213,
+      "learning_rate": 8.013173181896283e-06,
+      "loss": 0.6856,
+      "step": 69
+    },
+    {
+      "epoch": 1.1047120418848166,
+      "grad_norm": 0.541298508644104,
+      "learning_rate": 7.938926261462366e-06,
+      "loss": 0.6511,
+      "step": 70
+    },
+    {
+      "epoch": 1.1204188481675392,
+      "grad_norm": 0.5568633079528809,
+      "learning_rate": 7.863675700402527e-06,
+      "loss": 0.7641,
+      "step": 71
+    },
+    {
+      "epoch": 1.1361256544502618,
+      "grad_norm": 0.8458566665649414,
+      "learning_rate": 7.787447196714428e-06,
+      "loss": 0.7687,
+      "step": 72
+    },
+    {
+      "epoch": 1.1518324607329844,
+      "grad_norm": 0.6657412052154541,
+      "learning_rate": 7.710266782362248e-06,
+      "loss": 0.6879,
+      "step": 73
+    },
+    {
+      "epoch": 1.1675392670157068,
+      "grad_norm": 0.5643890500068665,
+      "learning_rate": 7.63216081438678e-06,
+      "loss": 0.6912,
+      "step": 74
+    },
+    {
+      "epoch": 1.1832460732984293,
+      "grad_norm": 0.5691969990730286,
+      "learning_rate": 7.553155965904535e-06,
+      "loss": 0.7043,
+      "step": 75
+    },
+    {
+      "epoch": 1.1989528795811517,
+      "grad_norm": 0.7023627161979675,
+      "learning_rate": 7.473279216998896e-06,
+      "loss": 0.7959,
+      "step": 76
+    },
+    {
+      "epoch": 1.2146596858638743,
+      "grad_norm": 0.6135534644126892,
+      "learning_rate": 7.392557845506433e-06,
+      "loss": 0.6544,
+      "step": 77
+    },
+    {
+      "epoch": 1.2303664921465969,
+      "grad_norm": 0.7511048316955566,
+      "learning_rate": 7.311019417701567e-06,
+      "loss": 0.8021,
+      "step": 78
+    },
+    {
+      "epoch": 1.2460732984293195,
+      "grad_norm": 0.6865676045417786,
+      "learning_rate": 7.2286917788826926e-06,
+      "loss": 0.7154,
+      "step": 79
+    },
+    {
+      "epoch": 1.2617801047120418,
+      "grad_norm": 0.5783461332321167,
+      "learning_rate": 7.145603043863045e-06,
+      "loss": 0.731,
+      "step": 80
+    },
+    {
+      "epoch": 1.2774869109947644,
+      "grad_norm": 0.6058831810951233,
+      "learning_rate": 7.061781587369518e-06,
+      "loss": 0.7729,
+      "step": 81
+    },
+    {
+      "epoch": 1.2931937172774868,
+      "grad_norm": 0.6356728076934814,
+      "learning_rate": 6.977256034352713e-06,
+      "loss": 0.7515,
+      "step": 82
+    },
+    {
+      "epoch": 1.3089005235602094,
+      "grad_norm": 0.5666873455047607,
+      "learning_rate": 6.892055250211552e-06,
+      "loss": 0.6709,
+      "step": 83
+    },
+    {
+      "epoch": 1.324607329842932,
+      "grad_norm": 0.5328983664512634,
+      "learning_rate": 6.806208330935766e-06,
+      "loss": 0.6942,
+      "step": 84
+    },
+    {
+      "epoch": 1.3403141361256545,
+      "grad_norm": 0.5726785659790039,
+      "learning_rate": 6.719744593169642e-06,
+      "loss": 0.6881,
+      "step": 85
+    },
+    {
+      "epoch": 1.356020942408377,
+      "grad_norm": 0.5899186730384827,
+      "learning_rate": 6.6326935642004165e-06,
+      "loss": 0.6958,
+      "step": 86
+    },
+    {
+      "epoch": 1.3717277486910995,
+      "grad_norm": 0.5207964181900024,
+      "learning_rate": 6.545084971874738e-06,
+      "loss": 0.7355,
+      "step": 87
+    },
+    {
+      "epoch": 1.387434554973822,
+      "grad_norm": 0.5856805443763733,
+      "learning_rate": 6.456948734446624e-06,
+      "loss": 0.7066,
+      "step": 88
+    },
+    {
+      "epoch": 1.4031413612565444,
+      "grad_norm": 0.6421239376068115,
+      "learning_rate": 6.368314950360416e-06,
+      "loss": 0.8473,
+      "step": 89
+    },
+    {
+      "epoch": 1.418848167539267,
+      "grad_norm": 0.48290762305259705,
+      "learning_rate": 6.279213887972179e-06,
+      "loss": 0.6627,
+      "step": 90
+    },
+    {
+      "epoch": 1.4345549738219896,
+      "grad_norm": 0.49485981464385986,
+      "learning_rate": 6.189675975213094e-06,
+      "loss": 0.6982,
+      "step": 91
+    },
+    {
+      "epoch": 1.450261780104712,
+      "grad_norm": 0.5824511647224426,
+      "learning_rate": 6.099731789198344e-06,
+      "loss": 0.6915,
+      "step": 92
+    },
+    {
+      "epoch": 1.4659685863874345,
+      "grad_norm": 0.5693953037261963,
+      "learning_rate": 6.009412045785051e-06,
+      "loss": 0.718,
+      "step": 93
+    },
+    {
+      "epoch": 1.4816753926701571,
+      "grad_norm": 0.4671615958213806,
+      "learning_rate": 5.918747589082853e-06,
+      "loss": 0.6941,
+      "step": 94
+    },
+    {
+      "epoch": 1.4973821989528795,
+      "grad_norm": 0.5226724743843079,
+      "learning_rate": 5.82776938092065e-06,
+      "loss": 0.6714,
+      "step": 95
+    },
+    {
+      "epoch": 1.513089005235602,
+      "grad_norm": 0.5080131888389587,
+      "learning_rate": 5.736508490273189e-06,
+      "loss": 0.7431,
+      "step": 96
+    },
+    {
+      "epoch": 1.5287958115183247,
+      "grad_norm": 0.5135012865066528,
+      "learning_rate": 5.644996082651018e-06,
+      "loss": 0.7295,
+      "step": 97
+    },
+    {
+      "epoch": 1.5445026178010473,
+      "grad_norm": 0.5139546990394592,
+      "learning_rate": 5.553263409457504e-06,
+      "loss": 0.7827,
+      "step": 98
+    },
+    {
+      "epoch": 1.5602094240837696,
+      "grad_norm": 0.47570303082466125,
+      "learning_rate": 5.46134179731651e-06,
+      "loss": 0.6692,
+      "step": 99
+    },
+    {
+      "epoch": 1.5759162303664922,
+      "grad_norm": 0.5023471713066101,
+      "learning_rate": 5.36926263737437e-06,
+      "loss": 0.8819,
+      "step": 100
+    },
+    {
+      "epoch": 1.5916230366492146,
+      "grad_norm": 0.47785601019859314,
+      "learning_rate": 5.27705737457985e-06,
+      "loss": 0.6361,
+      "step": 101
+    },
+    {
+      "epoch": 1.6073298429319371,
+      "grad_norm": 0.5157394409179688,
+      "learning_rate": 5.184757496945726e-06,
+      "loss": 0.6701,
+      "step": 102
+    },
+    {
+      "epoch": 1.6230366492146597,
+      "grad_norm": 0.44494175910949707,
+      "learning_rate": 5.09239452479565e-06,
+      "loss": 0.704,
+      "step": 103
+    },
+    {
+      "epoch": 1.6387434554973823,
+      "grad_norm": 0.4670911133289337,
+      "learning_rate": 5e-06,
+      "loss": 0.6303,
+      "step": 104
+    },
+    {
+      "epoch": 1.6544502617801047,
+      "grad_norm": 0.4859752058982849,
+      "learning_rate": 4.907605475204352e-06,
+      "loss": 0.747,
+      "step": 105
+    },
+    {
+      "epoch": 1.6701570680628273,
+      "grad_norm": 0.5179928541183472,
+      "learning_rate": 4.815242503054277e-06,
+      "loss": 0.7308,
+      "step": 106
+    },
+    {
+      "epoch": 1.6858638743455496,
+      "grad_norm": 0.4850606620311737,
+      "learning_rate": 4.7229426254201504e-06,
+      "loss": 0.6724,
+      "step": 107
+    },
+    {
+      "epoch": 1.7015706806282722,
+      "grad_norm": 0.5768125057220459,
+      "learning_rate": 4.630737362625631e-06,
+      "loss": 0.712,
+      "step": 108
+    },
+    {
+      "epoch": 1.7172774869109948,
+      "grad_norm": 0.48527592420578003,
+      "learning_rate": 4.53865820268349e-06,
+      "loss": 0.7453,
+      "step": 109
+    },
+    {
+      "epoch": 1.7329842931937174,
+      "grad_norm": 0.5483372807502747,
+      "learning_rate": 4.446736590542497e-06,
+      "loss": 0.7249,
+      "step": 110
+    },
+    {
+      "epoch": 1.7486910994764397,
+      "grad_norm": 0.43958598375320435,
+      "learning_rate": 4.355003917348985e-06,
+      "loss": 0.6654,
+      "step": 111
+    },
+    {
+      "epoch": 1.7643979057591623,
+      "grad_norm": 0.5237957239151001,
+      "learning_rate": 4.263491509726812e-06,
+      "loss": 0.749,
+      "step": 112
+    },
+    {
+      "epoch": 1.7801047120418847,
+      "grad_norm": 0.5130776166915894,
+      "learning_rate": 4.17223061907935e-06,
+      "loss": 0.7046,
+      "step": 113
+    },
+    {
+      "epoch": 1.7958115183246073,
+      "grad_norm": 0.5319405198097229,
+      "learning_rate": 4.081252410917148e-06,
+      "loss": 0.7747,
+      "step": 114
+    },
+    {
+      "epoch": 1.8115183246073299,
+      "grad_norm": 0.4446446895599365,
+      "learning_rate": 3.99058795421495e-06,
+      "loss": 0.6937,
+      "step": 115
+    },
+    {
+      "epoch": 1.8272251308900525,
+      "grad_norm": 0.49844786524772644,
+      "learning_rate": 3.9002682108016585e-06,
+      "loss": 0.6753,
+      "step": 116
+    },
+    {
+      "epoch": 1.8429319371727748,
+      "grad_norm": 0.4860968589782715,
+      "learning_rate": 3.8103240247869077e-06,
+      "loss": 0.6914,
+      "step": 117
+    },
+    {
+      "epoch": 1.8586387434554974,
+      "grad_norm": 0.4261801242828369,
+      "learning_rate": 3.720786112027822e-06,
+      "loss": 0.6999,
+      "step": 118
+    },
+    {
+      "epoch": 1.8743455497382198,
+      "grad_norm": 0.5992511510848999,
+      "learning_rate": 3.6316850496395863e-06,
+      "loss": 0.8479,
+      "step": 119
+    },
+    {
+      "epoch": 1.8900523560209423,
+      "grad_norm": 0.4750865399837494,
+      "learning_rate": 3.5430512655533774e-06,
+      "loss": 0.6632,
+      "step": 120
+    },
+    {
+      "epoch": 1.905759162303665,
+      "grad_norm": 0.416405588388443,
+      "learning_rate": 3.4549150281252635e-06,
+      "loss": 0.6674,
+      "step": 121
+    },
+    {
+      "epoch": 1.9214659685863875,
+      "grad_norm": 0.43647241592407227,
+      "learning_rate": 3.3673064357995844e-06,
+      "loss": 0.6818,
+      "step": 122
+    },
+    {
+      "epoch": 1.93717277486911,
+      "grad_norm": 0.5004796981811523,
+      "learning_rate": 3.2802554068303595e-06,
+      "loss": 0.6472,
+      "step": 123
+    },
+    {
+      "epoch": 1.9528795811518325,
+      "grad_norm": 0.4425862431526184,
+      "learning_rate": 3.1937916690642356e-06,
+      "loss": 0.7239,
+      "step": 124
+    },
+    {
+      "epoch": 1.9685863874345548,
+      "grad_norm": 0.436278760433197,
+      "learning_rate": 3.107944749788449e-06,
+      "loss": 0.7028,
+      "step": 125
+    },
+    {
+      "epoch": 1.9842931937172774,
+      "grad_norm": 0.4920143485069275,
+      "learning_rate": 3.0227439656472878e-06,
+      "loss": 0.6391,
+      "step": 126
+    },
+    {
+      "epoch": 2.005235602094241,
+      "grad_norm": 0.792114794254303,
+      "learning_rate": 2.9382184126304834e-06,
+      "loss": 1.124,
+      "step": 127
+    },
+    {
+      "epoch": 2.020942408376963,
+      "grad_norm": 0.460912823677063,
+      "learning_rate": 2.8543969561369556e-06,
+      "loss": 0.6937,
+      "step": 128
+    },
+    {
+      "epoch": 2.0366492146596857,
+      "grad_norm": 0.4396752715110779,
+      "learning_rate": 2.771308221117309e-06,
+      "loss": 0.6853,
+      "step": 129
+    },
+    {
+      "epoch": 2.0523560209424083,
+      "grad_norm": 0.44551193714141846,
+      "learning_rate": 2.6889805822984348e-06,
+      "loss": 0.714,
+      "step": 130
+    },
+    {
+      "epoch": 2.068062827225131,
+      "grad_norm": 0.5208249092102051,
+      "learning_rate": 2.607442154493568e-06,
+      "loss": 0.6914,
+      "step": 131
+    },
+    {
+      "epoch": 2.0837696335078535,
+      "grad_norm": 0.4930121898651123,
+      "learning_rate": 2.526720783001107e-06,
+      "loss": 0.7072,
+      "step": 132
+    },
+    {
+      "epoch": 2.099476439790576,
+      "grad_norm": 0.41786128282546997,
+      "learning_rate": 2.4468440340954664e-06,
+      "loss": 0.6348,
+      "step": 133
+    },
+    {
+      "epoch": 2.115183246073298,
+      "grad_norm": 0.449455201625824,
+      "learning_rate": 2.3678391856132203e-06,
+      "loss": 0.6953,
+      "step": 134
+    },
+    {
+      "epoch": 2.130890052356021,
+      "grad_norm": 0.41052472591400146,
+      "learning_rate": 2.289733217637753e-06,
+      "loss": 0.652,
+      "step": 135
+    },
+    {
+      "epoch": 2.1465968586387434,
+      "grad_norm": 0.5295667052268982,
+      "learning_rate": 2.2125528032855727e-06,
+      "loss": 0.7051,
+      "step": 136
+    },
+    {
+      "epoch": 2.162303664921466,
+      "grad_norm": 0.46959033608436584,
+      "learning_rate": 2.136324299597474e-06,
+      "loss": 0.6194,
+      "step": 137
+    },
+    {
+      "epoch": 2.1780104712041886,
+      "grad_norm": 0.4724887013435364,
+      "learning_rate": 2.061073738537635e-06,
+      "loss": 0.6875,
+      "step": 138
+    },
+    {
+      "epoch": 2.193717277486911,
+      "grad_norm": 0.4978184103965759,
+      "learning_rate": 1.9868268181037186e-06,
+      "loss": 0.6698,
+      "step": 139
+    },
+    {
+      "epoch": 2.2094240837696333,
+      "grad_norm": 0.40785759687423706,
+      "learning_rate": 1.913608893551036e-06,
+      "loss": 0.6447,
+      "step": 140
+    },
+    {
+      "epoch": 2.225130890052356,
+      "grad_norm": 0.48879924416542053,
+      "learning_rate": 1.8414449687337467e-06,
+      "loss": 0.7046,
+      "step": 141
+    },
+    {
+      "epoch": 2.2408376963350785,
+      "grad_norm": 0.42609426379203796,
+      "learning_rate": 1.7703596875660645e-06,
+      "loss": 0.6335,
+      "step": 142
+    },
+    {
+      "epoch": 2.256544502617801,
+      "grad_norm": 0.43987947702407837,
+      "learning_rate": 1.7003773256063882e-06,
+      "loss": 0.6877,
+      "step": 143
+    },
+    {
+      "epoch": 2.2722513089005236,
+      "grad_norm": 0.37595894932746887,
+      "learning_rate": 1.6315217817672142e-06,
+      "loss": 0.6403,
+      "step": 144
+    },
+    {
+      "epoch": 2.287958115183246,
+      "grad_norm": 0.4371723234653473,
+      "learning_rate": 1.5638165701536866e-06,
+      "loss": 0.7266,
+      "step": 145
+    },
+    {
+      "epoch": 2.303664921465969,
+      "grad_norm": 0.4373566210269928,
+      "learning_rate": 1.4972848120335453e-06,
+      "loss": 0.6715,
+      "step": 146
+    },
+    {
+      "epoch": 2.319371727748691,
+      "grad_norm": 0.4378465712070465,
+      "learning_rate": 1.4319492279412388e-06,
+      "loss": 0.5562,
+      "step": 147
+    },
+    {
+      "epoch": 2.3350785340314135,
+      "grad_norm": 0.43954145908355713,
+      "learning_rate": 1.3678321299188802e-06,
+      "loss": 0.7652,
+      "step": 148
+    },
+    {
+      "epoch": 2.350785340314136,
+      "grad_norm": 0.4022258520126343,
+      "learning_rate": 1.3049554138967052e-06,
+      "loss": 0.6815,
+      "step": 149
+    },
+    {
+      "epoch": 2.3664921465968587,
+      "grad_norm": 0.43489813804626465,
+      "learning_rate": 1.2433405522156334e-06,
+      "loss": 0.69,
+      "step": 150
+    },
+    {
+      "epoch": 2.3821989528795813,
+      "grad_norm": 0.4600178003311157,
+      "learning_rate": 1.1830085862944851e-06,
+      "loss": 0.6484,
+      "step": 151
+    },
+    {
+      "epoch": 2.3979057591623034,
+      "grad_norm": 0.34627747535705566,
+      "learning_rate": 1.1239801194443507e-06,
+      "loss": 0.6155,
+      "step": 152
+    },
+    {
+      "epoch": 2.413612565445026,
+      "grad_norm": 0.507356584072113,
+      "learning_rate": 1.066275309832584e-06,
+      "loss": 0.7869,
+      "step": 153
+    },
+    {
+      "epoch": 2.4293193717277486,
+      "grad_norm": 0.38887491822242737,
+      "learning_rate": 1.0099138635988026e-06,
+      "loss": 0.6249,
+      "step": 154
+    },
+    {
+      "epoch": 2.445026178010471,
+      "grad_norm": 0.41180306673049927,
+      "learning_rate": 9.549150281252633e-07,
+      "loss": 0.6237,
+      "step": 155
+    },
+    {
+      "epoch": 2.4607329842931938,
+      "grad_norm": 0.4110954701900482,
+      "learning_rate": 9.01297585463895e-07,
+      "loss": 0.6458,
+      "step": 156
+    },
+    {
+      "epoch": 2.4764397905759163,
+      "grad_norm": 0.40480712056159973,
+      "learning_rate": 8.490798459222477e-07,
+      "loss": 0.6585,
+      "step": 157
+    },
+    {
+      "epoch": 2.492146596858639,
+      "grad_norm": 0.43430301547050476,
+      "learning_rate": 7.98279641810537e-07,
+      "loss": 0.6931,
+      "step": 158
+    },
+    {
+      "epoch": 2.507853403141361,
+      "grad_norm": 0.3846290409564972,
+      "learning_rate": 7.489143213519301e-07,
+      "loss": 0.6798,
+      "step": 159
+    },
+    {
+      "epoch": 2.5235602094240837,
+      "grad_norm": 0.40328386425971985,
+      "learning_rate": 7.010007427581378e-07,
+      "loss": 0.6295,
+      "step": 160
+    },
+    {
+      "epoch": 2.5392670157068062,
+      "grad_norm": 0.36758309602737427,
+      "learning_rate": 6.545552684723583e-07,
+      "loss": 0.6546,
+      "step": 161
+    },
+    {
+      "epoch": 2.554973821989529,
+      "grad_norm": 0.41784343123435974,
+      "learning_rate": 6.095937595815104e-07,
+      "loss": 0.7019,
+      "step": 162
+    },
+    {
+      "epoch": 2.5706806282722514,
+      "grad_norm": 0.39218631386756897,
+      "learning_rate": 5.661315703996905e-07,
+      "loss": 0.6591,
+      "step": 163
+    },
+    {
+      "epoch": 2.5863874345549736,
+      "grad_norm": 0.42408469319343567,
+      "learning_rate": 5.241835432246888e-07,
+      "loss": 0.7135,
+      "step": 164
+    },
+    {
+      "epoch": 2.6020942408376966,
+      "grad_norm": 0.4178697168827057,
+      "learning_rate": 4.837640032693558e-07,
+      "loss": 0.7447,
+      "step": 165
+    },
+    {
+      "epoch": 2.6178010471204187,
+      "grad_norm": 0.45552054047584534,
+      "learning_rate": 4.448867537695578e-07,
+      "loss": 0.6682,
+      "step": 166
+    },
+    {
+      "epoch": 2.6335078534031413,
+      "grad_norm": 0.4213355779647827,
+      "learning_rate": 4.0756507127038494e-07,
+      "loss": 0.623,
+      "step": 167
+    },
+    {
+      "epoch": 2.649214659685864,
+      "grad_norm": 0.37034934759140015,
+      "learning_rate": 3.71811701092219e-07,
+      "loss": 0.7214,
+      "step": 168
+    },
+    {
+      "epoch": 2.6649214659685865,
+      "grad_norm": 0.386017382144928,
+      "learning_rate": 3.3763885297822153e-07,
+      "loss": 0.5523,
+      "step": 169
+    },
+    {
+      "epoch": 2.680628272251309,
+      "grad_norm": 0.4091106951236725,
+      "learning_rate": 3.0505819692471797e-07,
+      "loss": 0.6741,
+      "step": 170
+    },
+    {
+      "epoch": 2.696335078534031,
+      "grad_norm": 0.3852914273738861,
+      "learning_rate": 2.7408085919590265e-07,
+      "loss": 0.6133,
+      "step": 171
+    },
+    {
+      "epoch": 2.712041884816754,
+      "grad_norm": 0.3645617365837097,
+      "learning_rate": 2.447174185242324e-07,
+      "loss": 0.6571,
+      "step": 172
+    },
+    {
+      "epoch": 2.7277486910994764,
+      "grad_norm": 0.42007333040237427,
+      "learning_rate": 2.1697790249779638e-07,
+      "loss": 0.7894,
+      "step": 173
+    },
+    {
+      "epoch": 2.743455497382199,
+      "grad_norm": 0.3834235370159149,
+      "learning_rate": 1.908717841359048e-07,
+      "loss": 0.5772,
+      "step": 174
+    },
+    {
+      "epoch": 2.7591623036649215,
+      "grad_norm": 0.383451908826828,
+      "learning_rate": 1.664079786540629e-07,
+      "loss": 0.7408,
+      "step": 175
+    },
+    {
+      "epoch": 2.774869109947644,
+      "grad_norm": 0.34740880131721497,
+      "learning_rate": 1.435948404194304e-07,
+      "loss": 0.5673,
+      "step": 176
+    },
+    {
+      "epoch": 2.7905759162303667,
+      "grad_norm": 0.39968305826187134,
+      "learning_rate": 1.22440160097817e-07,
+      "loss": 0.7252,
+      "step": 177
+    },
+    {
+      "epoch": 2.806282722513089,
+      "grad_norm": 0.38173794746398926,
+      "learning_rate": 1.0295116199317057e-07,
+      "loss": 0.7398,
+      "step": 178
+    },
+    {
+      "epoch": 2.8219895287958114,
+      "grad_norm": 0.3933813273906708,
+      "learning_rate": 8.513450158049109e-08,
+      "loss": 0.6269,
+      "step": 179
+    },
+    {
+      "epoch": 2.837696335078534,
+      "grad_norm": 0.38355308771133423,
+      "learning_rate": 6.899626323298714e-08,
+      "loss": 0.5903,
+      "step": 180
+    },
+    {
+      "epoch": 2.8534031413612566,
+      "grad_norm": 0.415020614862442,
+      "learning_rate": 5.454195814427021e-08,
+      "loss": 0.7615,
+      "step": 181
+    },
+    {
+      "epoch": 2.869109947643979,
+      "grad_norm": 0.4046581983566284,
+      "learning_rate": 4.177652244628627e-08,
+      "loss": 0.7331,
+      "step": 182
+    },
+    {
+      "epoch": 2.8848167539267013,
+      "grad_norm": 0.37079158425331116,
+      "learning_rate": 3.0704315523631956e-08,
+      "loss": 0.6103,
+      "step": 183
+    },
+    {
+      "epoch": 2.900523560209424,
+      "grad_norm": 0.4148453176021576,
+      "learning_rate": 2.1329118524827662e-08,
+      "loss": 0.6773,
+      "step": 184
+    },
+    {
+      "epoch": 2.9162303664921465,
+      "grad_norm": 0.3980136811733246,
+      "learning_rate": 1.3654133071059894e-08,
+      "loss": 0.6807,
+      "step": 185
+    },
+    {
+      "epoch": 2.931937172774869,
+      "grad_norm": 0.34544944763183594,
+      "learning_rate": 7.681980162830283e-09,
+      "loss": 0.5805,
+      "step": 186
+    },
+    {
+      "epoch": 2.9476439790575917,
+      "grad_norm": 0.40046486258506775,
+      "learning_rate": 3.41469928488547e-09,
+      "loss": 0.6522,
+      "step": 187
+    },
+    {
+      "epoch": 2.9633507853403143,
+      "grad_norm": 0.3676522672176361,
+      "learning_rate": 8.537477097364522e-10,
+      "loss": 0.6214,
+      "step": 188
+    },
+    {
+      "epoch": 2.979057591623037,
+      "grad_norm": 0.375749409198761,
+      "learning_rate": 0.0,
+      "loss": 0.636,
+      "step": 189
+    },
+    {
+      "epoch": 2.979057591623037,
+      "step": 189,
+      "total_flos": 164949602598912.0,
+      "train_loss": 0.7452578336473495,
+      "train_runtime": 5576.0717,
+      "train_samples_per_second": 3.284,
+      "train_steps_per_second": 0.034
+    }
+  ],
+  "logging_steps": 1.0,
+  "max_steps": 189,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 164949602598912.0,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}

training_loss.png ADDED Viewed