Upload folder using huggingface_hub

Browse files

Files changed (6) hide show

adapter_config.json +5 -5
adapter_model.safetensors +2 -2
optimizer.pt +2 -2
scheduler.pt +1 -1
trainer_state.json +418 -378
training_args.bin +1 -1

adapter_config.json CHANGED Viewed

@@ -12,21 +12,21 @@
   "layers_pattern": null,
   "layers_to_transform": null,
   "loftq_config": {},
-  "lora_alpha": 112,
   "lora_bias": false,
   "lora_dropout": 0,
   "megatron_config": null,
   "megatron_core": "megatron.core",
   "modules_to_save": null,
   "peft_type": "LORA",
-  "r": 56,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "o_proj",
-    "gate_up_proj",
     "qkv_proj",
-    "down_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "layers_pattern": null,
   "layers_to_transform": null,
   "loftq_config": {},
+  "lora_alpha": 256,
   "lora_bias": false,
   "lora_dropout": 0,
   "megatron_config": null,
   "megatron_core": "megatron.core",
   "modules_to_save": null,
   "peft_type": "LORA",
+  "r": 128,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "qkv_proj",
+    "o_proj",
+    "down_proj",
+    "gate_up_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:602f53d6959b4f46f004a4ecc196bb614c0a51b5eba000ca3d35f316695a8894
-size 161515608

 version https://git-lfs.github.com/spec/v1
+oid sha256:b5f2a4574a1cf3760f6f91ba60977d9722c117968695c26c25c621af59a4e41c
+size 369134112

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a57114afad149c40d4f4fb59f0ff7a6cb5b55a70484d2f07b47fb05964b101fa
-size 323181259

 version https://git-lfs.github.com/spec/v1
+oid sha256:ca865aab08124c6a7502014773b63e03e2db1b57e13d98db1ce833c9c645aa41
+size 738417355

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:476926ce2c69ab4ccb2e05f1160789ff4fbbecc78d81f0f191944d21b8ccd89e
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:580cf0c8deda9a5cdf877c15cfecec4f5a37dd72edd01f252f4b56d158b7550a
 size 1465

trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.888888888888889,
   "eval_steps": 500,
-  "global_step": 95,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -12,7 +12,7 @@
     {
       "entropy": 2.2323372662067413,
       "epoch": 0.03065134099616858,
-      "grad_norm": 23.625,
       "learning_rate": 0.0,
       "loss": 2.7706,
       "mean_token_accuracy": 0.41634324193000793,
@@ -22,7 +22,7 @@
     {
       "entropy": 2.174584299325943,
       "epoch": 0.06130268199233716,
-      "grad_norm": 15.9375,
       "learning_rate": 2e-06,
       "loss": 2.4332,
       "mean_token_accuracy": 0.41893551871180534,
@@ -30,934 +30,974 @@
       "step": 2
     },
     {
-      "entropy": 2.02590711414814,
       "epoch": 0.09195402298850575,
-      "grad_norm": 13.875,
       "learning_rate": 4e-06,
-      "loss": 2.3311,
-      "mean_token_accuracy": 0.44238732755184174,
       "num_tokens": 5582.0,
       "step": 3
     },
     {
-      "entropy": 2.293337270617485,
       "epoch": 0.12260536398467432,
-      "grad_norm": 17.5,
       "learning_rate": 6e-06,
-      "loss": 2.4635,
-      "mean_token_accuracy": 0.4375271461904049,
       "num_tokens": 7064.0,
       "step": 4
     },
     {
-      "entropy": 2.307544246315956,
       "epoch": 0.1532567049808429,
-      "grad_norm": 11.875,
       "learning_rate": 8e-06,
-      "loss": 2.1979,
-      "mean_token_accuracy": 0.43325819820165634,
       "num_tokens": 9091.0,
       "step": 5
     },
     {
-      "entropy": 2.4334808588027954,
       "epoch": 0.1839080459770115,
-      "grad_norm": 12.8125,
       "learning_rate": 9.999999999999999e-06,
-      "loss": 2.4082,
-      "mean_token_accuracy": 0.46957090869545937,
       "num_tokens": 10556.0,
       "step": 6
     },
     {
-      "entropy": 2.4482616782188416,
       "epoch": 0.21455938697318008,
-      "grad_norm": 10.5625,
       "learning_rate": 1.2e-05,
-      "loss": 2.2519,
-      "mean_token_accuracy": 0.4758397154510021,
       "num_tokens": 12215.0,
       "step": 7
     },
     {
-      "entropy": 2.358666628599167,
       "epoch": 0.24521072796934865,
-      "grad_norm": 8.8125,
       "learning_rate": 1.4e-05,
-      "loss": 2.0026,
-      "mean_token_accuracy": 0.5035362914204597,
       "num_tokens": 13939.0,
       "step": 8
     },
     {
-      "entropy": 2.3532307744026184,
       "epoch": 0.27586206896551724,
-      "grad_norm": 7.1875,
       "learning_rate": 1.6e-05,
-      "loss": 1.886,
-      "mean_token_accuracy": 0.49147794023156166,
       "num_tokens": 15986.0,
       "step": 9
     },
     {
-      "entropy": 2.328258216381073,
       "epoch": 0.3065134099616858,
-      "grad_norm": 7.0625,
       "learning_rate": 1.8e-05,
-      "loss": 1.8628,
-      "mean_token_accuracy": 0.5151920653879642,
       "num_tokens": 18444.0,
       "step": 10
     },
     {
-      "entropy": 2.0767437368631363,
       "epoch": 0.3371647509578544,
-      "grad_norm": 5.4375,
       "learning_rate": 1.9999999999999998e-05,
-      "loss": 1.6635,
-      "mean_token_accuracy": 0.5702134519815445,
       "num_tokens": 21127.0,
       "step": 11
     },
     {
-      "entropy": 2.2949997633695602,
       "epoch": 0.367816091954023,
-      "grad_norm": 6.53125,
       "learning_rate": 2.2e-05,
-      "loss": 1.9033,
-      "mean_token_accuracy": 0.5190943852066994,
       "num_tokens": 23308.0,
       "step": 12
     },
     {
-      "entropy": 2.2641966193914413,
       "epoch": 0.39846743295019155,
-      "grad_norm": 6.65625,
       "learning_rate": 2.4e-05,
-      "loss": 1.9755,
-      "mean_token_accuracy": 0.5264540836215019,
       "num_tokens": 25072.0,
       "step": 13
     },
     {
-      "entropy": 2.3164361864328384,
       "epoch": 0.42911877394636017,
-      "grad_norm": 7.90625,
       "learning_rate": 2.6000000000000002e-05,
-      "loss": 1.9846,
-      "mean_token_accuracy": 0.5071298070251942,
       "num_tokens": 26450.0,
       "step": 14
     },
     {
-      "entropy": 2.2884700149297714,
       "epoch": 0.45977011494252873,
-      "grad_norm": 6.875,
       "learning_rate": 2.8e-05,
-      "loss": 1.8003,
-      "mean_token_accuracy": 0.5303994193673134,
       "num_tokens": 27912.0,
       "step": 15
     },
     {
-      "entropy": 2.163148954510689,
       "epoch": 0.4904214559386973,
-      "grad_norm": 6.53125,
       "learning_rate": 3e-05,
-      "loss": 1.6794,
-      "mean_token_accuracy": 0.5747136920690536,
       "num_tokens": 29392.0,
       "step": 16
     },
     {
-      "entropy": 2.030226394534111,
       "epoch": 0.5210727969348659,
-      "grad_norm": 4.96875,
       "learning_rate": 2.998951057182598e-05,
-      "loss": 1.4781,
-      "mean_token_accuracy": 0.5864466205239296,
       "num_tokens": 31417.0,
       "step": 17
     },
     {
-      "entropy": 2.046441972255707,
       "epoch": 0.5517241379310345,
-      "grad_norm": 6.09375,
       "learning_rate": 2.99580569577177e-05,
-      "loss": 1.7775,
-      "mean_token_accuracy": 0.531848881393671,
       "num_tokens": 33727.0,
       "step": 18
     },
     {
-      "entropy": 1.947427824139595,
       "epoch": 0.5823754789272031,
-      "grad_norm": 5.78125,
       "learning_rate": 2.9905683148398642e-05,
-      "loss": 1.5924,
-      "mean_token_accuracy": 0.5740942284464836,
       "num_tokens": 35836.0,
       "step": 19
     },
     {
-      "entropy": 2.018353298306465,
       "epoch": 0.6130268199233716,
-      "grad_norm": 5.96875,
       "learning_rate": 2.9832462393376926e-05,
-      "loss": 1.7183,
-      "mean_token_accuracy": 0.5531399250030518,
       "num_tokens": 37639.0,
       "step": 20
     },
     {
-      "entropy": 2.198324888944626,
       "epoch": 0.6436781609195402,
-      "grad_norm": 5.75,
       "learning_rate": 2.9738497098499325e-05,
-      "loss": 1.7776,
-      "mean_token_accuracy": 0.5184755437076092,
       "num_tokens": 39351.0,
       "step": 21
     },
     {
-      "entropy": 1.9849777817726135,
       "epoch": 0.6743295019157088,
-      "grad_norm": 6.09375,
       "learning_rate": 2.9623918682727355e-05,
-      "loss": 1.5472,
-      "mean_token_accuracy": 0.5781424902379513,
       "num_tokens": 41024.0,
       "step": 22
     },
     {
-      "entropy": 2.0799703299999237,
       "epoch": 0.7049808429118773,
-      "grad_norm": 6.0625,
       "learning_rate": 2.9488887394336025e-05,
-      "loss": 1.7815,
-      "mean_token_accuracy": 0.5519590191543102,
       "num_tokens": 42624.0,
       "step": 23
     },
     {
-      "entropy": 2.188886523246765,
       "epoch": 0.735632183908046,
-      "grad_norm": 7.78125,
       "learning_rate": 2.9333592086792113e-05,
-      "loss": 1.9212,
-      "mean_token_accuracy": 0.5380603447556496,
       "num_tokens": 43836.0,
       "step": 24
     },
     {
-      "entropy": 2.061448335647583,
       "epoch": 0.7662835249042146,
-      "grad_norm": 5.21875,
       "learning_rate": 2.9158249954625514e-05,
-      "loss": 1.7393,
-      "mean_token_accuracy": 0.5270493216812611,
       "num_tokens": 45870.0,
       "step": 25
     },
     {
-      "entropy": 2.048309415578842,
       "epoch": 0.7969348659003831,
-      "grad_norm": 5.40625,
       "learning_rate": 2.8963106229663064e-05,
-      "loss": 1.6848,
-      "mean_token_accuracy": 0.5622207410633564,
       "num_tokens": 47664.0,
       "step": 26
     },
     {
-      "entropy": 2.029194623231888,
       "epoch": 0.8275862068965517,
-      "grad_norm": 5.125,
       "learning_rate": 2.8748433838049642e-05,
-      "loss": 1.6591,
-      "mean_token_accuracy": 0.5621702149510384,
       "num_tokens": 49646.0,
       "step": 27
     },
     {
-      "entropy": 2.010026901960373,
       "epoch": 0.8582375478927203,
-      "grad_norm": 5.28125,
       "learning_rate": 2.8514533018536286e-05,
-      "loss": 1.5141,
-      "mean_token_accuracy": 0.5880535058677197,
       "num_tokens": 51235.0,
       "step": 28
     },
     {
-      "entropy": 2.0415484458208084,
       "epoch": 0.8888888888888888,
-      "grad_norm": 5.5,
       "learning_rate": 2.8261730902569146e-05,
-      "loss": 1.6637,
-      "mean_token_accuracy": 0.5668029375374317,
       "num_tokens": 53037.0,
       "step": 29
     },
     {
-      "entropy": 2.0857083946466446,
       "epoch": 0.9195402298850575,
-      "grad_norm": 5.0625,
       "learning_rate": 2.7990381056766583e-05,
-      "loss": 1.6959,
-      "mean_token_accuracy": 0.5493744164705276,
       "num_tokens": 54826.0,
       "step": 30
     },
     {
-      "entropy": 2.112009719014168,
       "epoch": 0.9501915708812261,
-      "grad_norm": 5.40625,
       "learning_rate": 2.770086298842426e-05,
-      "loss": 1.6559,
-      "mean_token_accuracy": 0.5552288331091404,
       "num_tokens": 56737.0,
       "step": 31
     },
     {
-      "entropy": 2.1103257089853287,
       "epoch": 0.9808429118773946,
-      "grad_norm": 6.21875,
       "learning_rate": 2.7393581614739924e-05,
-      "loss": 1.6919,
-      "mean_token_accuracy": 0.5538047850131989,
       "num_tokens": 58084.0,
       "step": 32
     },
     {
-      "entropy": 1.8903157711029053,
       "epoch": 1.0,
-      "grad_norm": 7.21875,
       "learning_rate": 2.7068966696500025e-05,
-      "loss": 1.6264,
-      "mean_token_accuracy": 0.5663587927818299,
       "num_tokens": 59142.0,
       "step": 33
     },
     {
-      "entropy": 1.831245243549347,
       "epoch": 1.0306513409961686,
-      "grad_norm": 4.5625,
       "learning_rate": 2.672747223702045e-05,
-      "loss": 1.3045,
-      "mean_token_accuracy": 0.6326133832335472,
       "num_tokens": 60897.0,
       "step": 34
     },
     {
-      "entropy": 1.9981429725885391,
       "epoch": 1.0613026819923372,
-      "grad_norm": 5.59375,
       "learning_rate": 2.6369575847181795e-05,
-      "loss": 1.5418,
-      "mean_token_accuracy": 0.6115933358669281,
       "num_tokens": 62325.0,
       "step": 35
     },
     {
-      "entropy": 1.8222165703773499,
       "epoch": 1.0919540229885056,
-      "grad_norm": 4.59375,
       "learning_rate": 2.5995778077447393e-05,
-      "loss": 1.2274,
-      "mean_token_accuracy": 0.6454463005065918,
       "num_tokens": 64163.0,
       "step": 36
     },
     {
-      "entropy": 1.7093443274497986,
       "epoch": 1.1226053639846743,
-      "grad_norm": 4.4375,
       "learning_rate": 2.5606601717798212e-05,
-      "loss": 1.2805,
-      "mean_token_accuracy": 0.6579162031412125,
       "num_tokens": 66168.0,
       "step": 37
     },
     {
-      "entropy": 1.74972003698349,
       "epoch": 1.1532567049808429,
-      "grad_norm": 4.34375,
       "learning_rate": 2.520259106656379e-05,
-      "loss": 1.2566,
-      "mean_token_accuracy": 0.6366828829050064,
       "num_tokens": 68398.0,
       "step": 38
     },
     {
-      "entropy": 1.7153682857751846,
       "epoch": 1.1839080459770115,
-      "grad_norm": 4.78125,
       "learning_rate": 2.4784311169171818e-05,
-      "loss": 1.2717,
-      "mean_token_accuracy": 0.6223325058817863,
       "num_tokens": 70548.0,
       "step": 39
     },
     {
-      "entropy": 1.7037858068943024,
       "epoch": 1.21455938697318,
-      "grad_norm": 5.15625,
       "learning_rate": 2.4352347027881003e-05,
-      "loss": 1.2255,
-      "mean_token_accuracy": 0.6531995758414268,
       "num_tokens": 72463.0,
       "step": 40
     },
     {
-      "entropy": 1.5526579767465591,
       "epoch": 1.2452107279693487,
-      "grad_norm": 5.6875,
       "learning_rate": 2.3907302783602522e-05,
-      "loss": 1.1533,
-      "mean_token_accuracy": 0.662347637116909,
       "num_tokens": 74061.0,
       "step": 41
     },
     {
-      "entropy": 1.5910945385694504,
       "epoch": 1.2758620689655173,
-      "grad_norm": 4.78125,
       "learning_rate": 2.344980087095433e-05,
-      "loss": 1.2152,
-      "mean_token_accuracy": 0.6524857208132744,
       "num_tokens": 76130.0,
       "step": 42
     },
     {
-      "entropy": 1.5662062019109726,
       "epoch": 1.3065134099616857,
-      "grad_norm": 5.46875,
       "learning_rate": 2.298048114773005e-05,
-      "loss": 1.2326,
-      "mean_token_accuracy": 0.6478348523378372,
       "num_tokens": 77912.0,
       "step": 43
     },
     {
-      "entropy": 1.471334233880043,
       "epoch": 1.3371647509578544,
-      "grad_norm": 4.875,
       "learning_rate": 2.25e-05,
-      "loss": 1.1379,
-      "mean_token_accuracy": 0.6691200658679008,
       "num_tokens": 79873.0,
       "step": 44
     },
     {
-      "entropy": 1.586159959435463,
       "epoch": 1.367816091954023,
-      "grad_norm": 5.28125,
       "learning_rate": 2.200902942409593e-05,
-      "loss": 1.1442,
-      "mean_token_accuracy": 0.6521164402365685,
       "num_tokens": 81708.0,
       "step": 45
     },
     {
-      "entropy": 1.5281111598014832,
       "epoch": 1.3984674329501916,
-      "grad_norm": 6.125,
       "learning_rate": 2.1508256086763372e-05,
-      "loss": 1.2369,
-      "mean_token_accuracy": 0.6489557102322578,
       "num_tokens": 83479.0,
       "step": 46
     },
     {
-      "entropy": 1.5045715868473053,
       "epoch": 1.4291187739463602,
-      "grad_norm": 6.15625,
       "learning_rate": 2.0998380364796112e-05,
-      "loss": 1.2949,
-      "mean_token_accuracy": 0.6465602889657021,
       "num_tokens": 85091.0,
       "step": 47
     },
     {
-      "entropy": 1.5538268089294434,
       "epoch": 1.4597701149425286,
-      "grad_norm": 5.09375,
       "learning_rate": 2.0480115365495928e-05,
-      "loss": 1.1747,
-      "mean_token_accuracy": 0.6478204801678658,
       "num_tokens": 87067.0,
       "step": 48
     },
     {
-      "entropy": 1.492392674088478,
       "epoch": 1.4904214559386972,
-      "grad_norm": 4.71875,
       "learning_rate": 1.995418592932751e-05,
-      "loss": 1.0862,
-      "mean_token_accuracy": 0.693995900452137,
       "num_tokens": 89257.0,
       "step": 49
     },
     {
-      "entropy": 1.540455773472786,
       "epoch": 1.5210727969348659,
-      "grad_norm": 5.53125,
       "learning_rate": 1.9421327616163564e-05,
-      "loss": 1.2151,
-      "mean_token_accuracy": 0.654072530567646,
       "num_tokens": 91129.0,
       "step": 50
     },
     {
-      "entropy": 1.5558712631464005,
       "epoch": 1.5517241379310345,
-      "grad_norm": 5.21875,
       "learning_rate": 1.888228567653781e-05,
-      "loss": 1.1343,
-      "mean_token_accuracy": 0.6754168346524239,
       "num_tokens": 93217.0,
       "step": 51
     },
     {
-      "entropy": 1.5656412094831467,
       "epoch": 1.582375478927203,
-      "grad_norm": 8.375,
       "learning_rate": 1.8337814009344716e-05,
-      "loss": 1.1019,
-      "mean_token_accuracy": 0.6633822396397591,
       "num_tokens": 94882.0,
       "step": 52
     },
     {
-      "entropy": 1.6264984011650085,
       "epoch": 1.6130268199233715,
-      "grad_norm": 6.5,
       "learning_rate": 1.778867410744372e-05,
-      "loss": 1.1993,
-      "mean_token_accuracy": 0.6627216190099716,
       "num_tokens": 96226.0,
       "step": 53
     },
     {
-      "entropy": 1.5609679520130157,
       "epoch": 1.6436781609195403,
-      "grad_norm": 5.71875,
       "learning_rate": 1.7235633992642615e-05,
-      "loss": 1.1445,
-      "mean_token_accuracy": 0.6396612226963043,
       "num_tokens": 98064.0,
       "step": 54
     },
     {
-      "entropy": 1.6555797308683395,
       "epoch": 1.6743295019157087,
-      "grad_norm": 5.21875,
       "learning_rate": 1.667946714154962e-05,
-      "loss": 1.1914,
-      "mean_token_accuracy": 0.630947545170784,
       "num_tokens": 99875.0,
       "step": 55
     },
     {
-      "entropy": 1.4573774337768555,
       "epoch": 1.7049808429118773,
-      "grad_norm": 4.59375,
       "learning_rate": 1.6120951403796367e-05,
-      "loss": 1.1325,
-      "mean_token_accuracy": 0.6682965606451035,
       "num_tokens": 102303.0,
       "step": 56
     },
     {
-      "entropy": 1.559302657842636,
       "epoch": 1.735632183908046,
-      "grad_norm": 5.9375,
       "learning_rate": 1.5560867914144887e-05,
-      "loss": 1.1645,
-      "mean_token_accuracy": 0.6583909243345261,
       "num_tokens": 103806.0,
       "step": 57
     },
     {
-      "entropy": 1.6225543022155762,
       "epoch": 1.7662835249042146,
-      "grad_norm": 7.1875,
       "learning_rate": 1.5e-05,
-      "loss": 1.2239,
-      "mean_token_accuracy": 0.666826568543911,
       "num_tokens": 105012.0,
       "step": 58
     },
     {
-      "entropy": 1.6973845958709717,
       "epoch": 1.7969348659003832,
-      "grad_norm": 6.3125,
       "learning_rate": 1.4439132085855117e-05,
-      "loss": 1.2516,
-      "mean_token_accuracy": 0.6574011594057083,
       "num_tokens": 106373.0,
       "step": 59
     },
     {
-      "entropy": 1.630146011710167,
       "epoch": 1.8275862068965516,
-      "grad_norm": 5.78125,
       "learning_rate": 1.3879048596203637e-05,
-      "loss": 1.1719,
-      "mean_token_accuracy": 0.6703185066580772,
       "num_tokens": 107938.0,
       "step": 60
     },
     {
-      "entropy": 1.5937796980142593,
       "epoch": 1.8582375478927204,
-      "grad_norm": 5.8125,
       "learning_rate": 1.3320532858450382e-05,
-      "loss": 1.1739,
-      "mean_token_accuracy": 0.6567527502775192,
       "num_tokens": 109587.0,
       "step": 61
     },
     {
-      "entropy": 1.673499509692192,
       "epoch": 1.8888888888888888,
-      "grad_norm": 6.625,
       "learning_rate": 1.2764366007357382e-05,
-      "loss": 1.4405,
-      "mean_token_accuracy": 0.6155448481440544,
       "num_tokens": 111253.0,
       "step": 62
     },
     {
-      "entropy": 1.61783929169178,
       "epoch": 1.9195402298850575,
-      "grad_norm": 6.125,
       "learning_rate": 1.2211325892556282e-05,
-      "loss": 1.2447,
-      "mean_token_accuracy": 0.6791554242372513,
       "num_tokens": 112833.0,
       "step": 63
     },
     {
-      "entropy": 1.5331860035657883,
       "epoch": 1.950191570881226,
-      "grad_norm": 6.25,
       "learning_rate": 1.1662185990655285e-05,
-      "loss": 1.2378,
-      "mean_token_accuracy": 0.6611459106206894,
       "num_tokens": 114573.0,
       "step": 64
     },
     {
-      "entropy": 1.5267712771892548,
       "epoch": 1.9808429118773945,
-      "grad_norm": 4.9375,
       "learning_rate": 1.1117714323462188e-05,
-      "loss": 1.105,
-      "mean_token_accuracy": 0.6428326666355133,
       "num_tokens": 116981.0,
       "step": 65
     },
     {
-      "entropy": 1.596066379547119,
       "epoch": 2.0,
-      "grad_norm": 7.21875,
       "learning_rate": 1.0578672383836437e-05,
-      "loss": 1.3919,
-      "mean_token_accuracy": 0.6277154445648193,
       "num_tokens": 118284.0,
       "step": 66
     },
     {
-      "entropy": 1.6225826889276505,
       "epoch": 2.0306513409961684,
-      "grad_norm": 5.78125,
       "learning_rate": 1.0045814070672498e-05,
-      "loss": 0.934,
-      "mean_token_accuracy": 0.7343822047114372,
       "num_tokens": 119663.0,
       "step": 67
     },
     {
-      "entropy": 1.5247658640146255,
       "epoch": 2.0613026819923372,
-      "grad_norm": 4.5625,
       "learning_rate": 9.519884634504074e-06,
-      "loss": 0.8369,
-      "mean_token_accuracy": 0.7519923225045204,
       "num_tokens": 121476.0,
       "step": 68
     },
     {
-      "entropy": 1.5478522330522537,
       "epoch": 2.0919540229885056,
-      "grad_norm": 4.1875,
       "learning_rate": 9.001619635203889e-06,
-      "loss": 0.84,
-      "mean_token_accuracy": 0.7427392601966858,
       "num_tokens": 123792.0,
       "step": 69
     },
     {
-      "entropy": 1.5817518830299377,
       "epoch": 2.1226053639846745,
-      "grad_norm": 5.25,
       "learning_rate": 8.491743913236629e-06,
-      "loss": 0.8532,
-      "mean_token_accuracy": 0.7553950697183609,
       "num_tokens": 125329.0,
       "step": 70
     },
     {
-      "entropy": 1.5682816207408905,
       "epoch": 2.153256704980843,
-      "grad_norm": 5.5,
       "learning_rate": 7.99097057590407e-06,
-      "loss": 0.8284,
-      "mean_token_accuracy": 0.7582268938422203,
       "num_tokens": 126654.0,
       "step": 71
     },
     {
-      "entropy": 1.4128143042325974,
       "epoch": 2.1839080459770113,
-      "grad_norm": 4.625,
       "learning_rate": 7.500000000000004e-06,
-      "loss": 0.8072,
-      "mean_token_accuracy": 0.766459122300148,
       "num_tokens": 128629.0,
       "step": 72
     },
     {
-      "entropy": 1.4567322432994843,
       "epoch": 2.21455938697318,
-      "grad_norm": 5.46875,
       "learning_rate": 7.019518852269953e-06,
-      "loss": 1.0488,
-      "mean_token_accuracy": 0.7072227671742439,
       "num_tokens": 130344.0,
       "step": 73
     },
     {
-      "entropy": 1.4166576564311981,
       "epoch": 2.2452107279693485,
-      "grad_norm": 4.96875,
       "learning_rate": 6.55019912904567e-06,
-      "loss": 0.9092,
-      "mean_token_accuracy": 0.7404436245560646,
       "num_tokens": 132152.0,
       "step": 74
     },
     {
-      "entropy": 1.4273284822702408,
       "epoch": 2.2758620689655173,
-      "grad_norm": 4.5,
       "learning_rate": 6.092697216397478e-06,
-      "loss": 0.8233,
-      "mean_token_accuracy": 0.7407987862825394,
       "num_tokens": 134144.0,
       "step": 75
     },
     {
-      "entropy": 1.3403969407081604,
       "epoch": 2.3065134099616857,
-      "grad_norm": 4.3125,
       "learning_rate": 5.647652972118998e-06,
-      "loss": 0.924,
-      "mean_token_accuracy": 0.7229798063635826,
       "num_tokens": 136715.0,
       "step": 76
     },
     {
-      "entropy": 1.4036429971456528,
       "epoch": 2.3371647509578546,
-      "grad_norm": 4.5625,
       "learning_rate": 5.2156888308281875e-06,
-      "loss": 0.89,
-      "mean_token_accuracy": 0.7286327704787254,
       "num_tokens": 138907.0,
       "step": 77
     },
     {
-      "entropy": 1.397742137312889,
       "epoch": 2.367816091954023,
-      "grad_norm": 4.96875,
       "learning_rate": 4.797408933436207e-06,
-      "loss": 0.7942,
-      "mean_token_accuracy": 0.7485231980681419,
       "num_tokens": 140536.0,
       "step": 78
     },
     {
-      "entropy": 1.386961117386818,
       "epoch": 2.3984674329501914,
-      "grad_norm": 5.65625,
       "learning_rate": 4.393398282201788e-06,
-      "loss": 0.9061,
-      "mean_token_accuracy": 0.7447740957140923,
       "num_tokens": 142205.0,
       "step": 79
     },
     {
-      "entropy": 1.3736444562673569,
       "epoch": 2.42911877394636,
-      "grad_norm": 5.5,
       "learning_rate": 4.004221922552608e-06,
-      "loss": 0.8485,
-      "mean_token_accuracy": 0.7546191215515137,
       "num_tokens": 143937.0,
       "step": 80
     },
     {
-      "entropy": 1.3484344482421875,
       "epoch": 2.4597701149425286,
-      "grad_norm": 5.15625,
       "learning_rate": 3.630424152818203e-06,
-      "loss": 0.8728,
-      "mean_token_accuracy": 0.7577220499515533,
       "num_tokens": 145867.0,
       "step": 81
     },
     {
-      "entropy": 1.3517859131097794,
       "epoch": 2.4904214559386975,
-      "grad_norm": 5.625,
       "learning_rate": 3.272527762979553e-06,
-      "loss": 0.917,
-      "mean_token_accuracy": 0.7402152791619301,
       "num_tokens": 147522.0,
       "step": 82
     },
     {
-      "entropy": 1.427451640367508,
       "epoch": 2.521072796934866,
-      "grad_norm": 6.0625,
       "learning_rate": 2.931033303499975e-06,
-      "loss": 0.9471,
-      "mean_token_accuracy": 0.7306742072105408,
       "num_tokens": 149154.0,
       "step": 83
     },
     {
-      "entropy": 1.2776079773902893,
       "epoch": 2.5517241379310347,
-      "grad_norm": 4.75,
       "learning_rate": 2.60641838526008e-06,
-      "loss": 0.8647,
-      "mean_token_accuracy": 0.7684408649802208,
       "num_tokens": 151443.0,
       "step": 84
     },
     {
-      "entropy": 1.3705534487962723,
       "epoch": 2.582375478927203,
-      "grad_norm": 5.21875,
       "learning_rate": 2.2991370115757383e-06,
-      "loss": 0.8636,
-      "mean_token_accuracy": 0.7471385598182678,
       "num_tokens": 153346.0,
       "step": 85
     },
     {
-      "entropy": 1.4074051082134247,
       "epoch": 2.6130268199233715,
-      "grad_norm": 5.59375,
       "learning_rate": 2.0096189432334194e-06,
-      "loss": 0.874,
-      "mean_token_accuracy": 0.7286683171987534,
       "num_tokens": 155041.0,
       "step": 86
     },
     {
-      "entropy": 1.2744528949260712,
       "epoch": 2.6436781609195403,
-      "grad_norm": 5.65625,
       "learning_rate": 1.7382690974308551e-06,
-      "loss": 0.7612,
-      "mean_token_accuracy": 0.768292061984539,
       "num_tokens": 156508.0,
       "step": 87
     },
     {
-      "entropy": 1.322000876069069,
       "epoch": 2.6743295019157087,
-      "grad_norm": 5.28125,
       "learning_rate": 1.4854669814637145e-06,
-      "loss": 0.8423,
-      "mean_token_accuracy": 0.7500675544142723,
       "num_tokens": 158506.0,
       "step": 88
     },
     {
-      "entropy": 1.3921757936477661,
       "epoch": 2.704980842911877,
-      "grad_norm": 4.90625,
       "learning_rate": 1.2515661619503572e-06,
-      "loss": 0.8484,
-      "mean_token_accuracy": 0.7282446771860123,
       "num_tokens": 160511.0,
       "step": 89
     },
     {
-      "entropy": 1.3347049802541733,
       "epoch": 2.735632183908046,
-      "grad_norm": 5.0625,
       "learning_rate": 1.036893770336938e-06,
-      "loss": 0.8751,
-      "mean_token_accuracy": 0.7406959384679794,
       "num_tokens": 162548.0,
       "step": 90
     },
     {
-      "entropy": 1.296308308839798,
       "epoch": 2.766283524904215,
-      "grad_norm": 4.78125,
       "learning_rate": 8.417500453744864e-07,
-      "loss": 0.818,
-      "mean_token_accuracy": 0.7431169748306274,
       "num_tokens": 164874.0,
       "step": 91
     },
     {
-      "entropy": 1.296522632241249,
       "epoch": 2.796934865900383,
-      "grad_norm": 8.3125,
       "learning_rate": 6.664079132078881e-07,
-      "loss": 0.8333,
-      "mean_token_accuracy": 0.7412382811307907,
       "num_tokens": 166614.0,
       "step": 92
     },
     {
-      "entropy": 1.3617160469293594,
       "epoch": 2.8275862068965516,
-      "grad_norm": 6.25,
       "learning_rate": 5.11112605663977e-07,
-      "loss": 0.9403,
-      "mean_token_accuracy": 0.728195421397686,
       "num_tokens": 168220.0,
       "step": 93
     },
     {
-      "entropy": 1.3486039191484451,
       "epoch": 2.8582375478927204,
-      "grad_norm": 6.8125,
       "learning_rate": 3.760813172726457e-07,
-      "loss": 0.8643,
-      "mean_token_accuracy": 0.7479279190301895,
       "num_tokens": 169540.0,
       "step": 94
     },
     {
-      "entropy": 1.2711477279663086,
       "epoch": 2.888888888888889,
-      "grad_norm": 4.65625,
       "learning_rate": 2.6150290150067593e-07,
-      "loss": 0.766,
-      "mean_token_accuracy": 0.7430502995848656,
       "num_tokens": 171709.0,
       "step": 95
     }
   ],
   "logging_steps": 1,
@@ -972,12 +1012,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 4559405580668928.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.0,
   "eval_steps": 500,
+  "global_step": 99,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
     {
       "entropy": 2.2323372662067413,
       "epoch": 0.03065134099616858,
+      "grad_norm": 53.25,
       "learning_rate": 0.0,
       "loss": 2.7706,
       "mean_token_accuracy": 0.41634324193000793,
     {
       "entropy": 2.174584299325943,
       "epoch": 0.06130268199233716,
+      "grad_norm": 36.0,
       "learning_rate": 2e-06,
       "loss": 2.4332,
       "mean_token_accuracy": 0.41893551871180534,
       "step": 2
     },
     {
+      "entropy": 2.0810845494270325,
       "epoch": 0.09195402298850575,
+      "grad_norm": 27.75,
       "learning_rate": 4e-06,
+      "loss": 2.2604,
+      "mean_token_accuracy": 0.4491094872355461,
       "num_tokens": 5582.0,
       "step": 3
     },
     {
+      "entropy": 2.389508530497551,
       "epoch": 0.12260536398467432,
+      "grad_norm": 28.625,
       "learning_rate": 6e-06,
+      "loss": 2.224,
+      "mean_token_accuracy": 0.47163403779268265,
       "num_tokens": 7064.0,
       "step": 4
     },
     {
+      "entropy": 2.3899217396974564,
       "epoch": 0.1532567049808429,
+      "grad_norm": 17.0,
       "learning_rate": 8e-06,
+      "loss": 1.9894,
+      "mean_token_accuracy": 0.4873850643634796,
       "num_tokens": 9091.0,
       "step": 5
     },
     {
+      "entropy": 2.3988372683525085,
       "epoch": 0.1839080459770115,
+      "grad_norm": 22.375,
       "learning_rate": 9.999999999999999e-06,
+      "loss": 2.0726,
+      "mean_token_accuracy": 0.5061133019626141,
       "num_tokens": 10556.0,
       "step": 6
     },
     {
+      "entropy": 2.395625740289688,
       "epoch": 0.21455938697318008,
+      "grad_norm": 16.75,
       "learning_rate": 1.2e-05,
+      "loss": 2.0064,
+      "mean_token_accuracy": 0.5037284195423126,
       "num_tokens": 12215.0,
       "step": 7
     },
     {
+      "entropy": 2.2998499274253845,
       "epoch": 0.24521072796934865,
+      "grad_norm": 14.5625,
       "learning_rate": 1.4e-05,
+      "loss": 1.7784,
+      "mean_token_accuracy": 0.5325785167515278,
       "num_tokens": 13939.0,
       "step": 8
     },
     {
+      "entropy": 2.233474910259247,
       "epoch": 0.27586206896551724,
+      "grad_norm": 14.6875,
       "learning_rate": 1.6e-05,
+      "loss": 1.7552,
+      "mean_token_accuracy": 0.5224817767739296,
       "num_tokens": 15986.0,
       "step": 9
     },
     {
+      "entropy": 2.1560849398374557,
       "epoch": 0.3065134099616858,
+      "grad_norm": 12.125,
       "learning_rate": 1.8e-05,
+      "loss": 1.7487,
+      "mean_token_accuracy": 0.5436614826321602,
       "num_tokens": 18444.0,
       "step": 10
     },
     {
+      "entropy": 1.8782547265291214,
       "epoch": 0.3371647509578544,
+      "grad_norm": 11.1875,
       "learning_rate": 1.9999999999999998e-05,
+      "loss": 1.5774,
+      "mean_token_accuracy": 0.5730905011296272,
       "num_tokens": 21127.0,
       "step": 11
     },
     {
+      "entropy": 2.0860691219568253,
       "epoch": 0.367816091954023,
+      "grad_norm": 13.125,
       "learning_rate": 2.2e-05,
+      "loss": 1.8279,
+      "mean_token_accuracy": 0.5077806040644646,
       "num_tokens": 23308.0,
       "step": 12
     },
     {
+      "entropy": 2.0839987099170685,
       "epoch": 0.39846743295019155,
+      "grad_norm": 13.5,
       "learning_rate": 2.4e-05,
+      "loss": 1.8629,
+      "mean_token_accuracy": 0.5324465520679951,
       "num_tokens": 25072.0,
       "step": 13
     },
     {
+      "entropy": 2.211606591939926,
       "epoch": 0.42911877394636017,
+      "grad_norm": 15.3125,
       "learning_rate": 2.6000000000000002e-05,
+      "loss": 1.934,
+      "mean_token_accuracy": 0.513655960559845,
       "num_tokens": 26450.0,
       "step": 14
     },
     {
+      "entropy": 2.2505457401275635,
       "epoch": 0.45977011494252873,
+      "grad_norm": 14.8125,
       "learning_rate": 2.8e-05,
+      "loss": 1.7603,
+      "mean_token_accuracy": 0.5480454824864864,
       "num_tokens": 27912.0,
       "step": 15
     },
     {
+      "entropy": 2.187108889222145,
       "epoch": 0.4904214559386973,
+      "grad_norm": 13.125,
       "learning_rate": 3e-05,
+      "loss": 1.6138,
+      "mean_token_accuracy": 0.5843819156289101,
       "num_tokens": 29392.0,
       "step": 16
     },
     {
+      "entropy": 2.0149056166410446,
       "epoch": 0.5210727969348659,
+      "grad_norm": 9.9375,
       "learning_rate": 2.998951057182598e-05,
+      "loss": 1.4549,
+      "mean_token_accuracy": 0.597277820110321,
       "num_tokens": 31417.0,
       "step": 17
     },
     {
+      "entropy": 1.9988498389720917,
       "epoch": 0.5517241379310345,
+      "grad_norm": 11.0,
       "learning_rate": 2.99580569577177e-05,
+      "loss": 1.7097,
+      "mean_token_accuracy": 0.5442679524421692,
       "num_tokens": 33727.0,
       "step": 18
     },
     {
+      "entropy": 1.8304037749767303,
       "epoch": 0.5823754789272031,
+      "grad_norm": 10.125,
       "learning_rate": 2.9905683148398642e-05,
+      "loss": 1.5381,
+      "mean_token_accuracy": 0.5851795524358749,
       "num_tokens": 35836.0,
       "step": 19
     },
     {
+      "entropy": 1.891087457537651,
       "epoch": 0.6130268199233716,
+      "grad_norm": 12.625,
       "learning_rate": 2.9832462393376926e-05,
+      "loss": 1.6876,
+      "mean_token_accuracy": 0.5546146482229233,
       "num_tokens": 37639.0,
       "step": 20
     },
     {
+      "entropy": 1.9664306491613388,
       "epoch": 0.6436781609195402,
+      "grad_norm": 12.125,
       "learning_rate": 2.9738497098499325e-05,
+      "loss": 1.7271,
+      "mean_token_accuracy": 0.5344564504921436,
       "num_tokens": 39351.0,
       "step": 21
     },
     {
+      "entropy": 1.7850568294525146,
       "epoch": 0.6743295019157088,
+      "grad_norm": 13.375,
       "learning_rate": 2.9623918682727355e-05,
+      "loss": 1.524,
+      "mean_token_accuracy": 0.5623632185161114,
       "num_tokens": 41024.0,
       "step": 22
     },
     {
+      "entropy": 1.898742452263832,
       "epoch": 0.7049808429118773,
+      "grad_norm": 13.0,
       "learning_rate": 2.9488887394336025e-05,
+      "loss": 1.732,
+      "mean_token_accuracy": 0.5667595192790031,
       "num_tokens": 42624.0,
       "step": 23
     },
     {
+      "entropy": 2.062256097793579,
       "epoch": 0.735632183908046,
+      "grad_norm": 15.0625,
       "learning_rate": 2.9333592086792113e-05,
+      "loss": 1.8659,
+      "mean_token_accuracy": 0.5371430143713951,
       "num_tokens": 43836.0,
       "step": 24
     },
     {
+      "entropy": 1.9839176535606384,
       "epoch": 0.7662835249042146,
+      "grad_norm": 10.4375,
       "learning_rate": 2.9158249954625514e-05,
+      "loss": 1.7355,
+      "mean_token_accuracy": 0.548308789730072,
       "num_tokens": 45870.0,
       "step": 25
     },
     {
+      "entropy": 2.005643382668495,
       "epoch": 0.7969348659003831,
+      "grad_norm": 10.6875,
       "learning_rate": 2.8963106229663064e-05,
+      "loss": 1.6277,
+      "mean_token_accuracy": 0.577509343624115,
       "num_tokens": 47664.0,
       "step": 26
     },
     {
+      "entropy": 2.015763074159622,
       "epoch": 0.8275862068965517,
+      "grad_norm": 10.875,
       "learning_rate": 2.8748433838049642e-05,
+      "loss": 1.6878,
+      "mean_token_accuracy": 0.5588897317647934,
       "num_tokens": 49646.0,
       "step": 27
     },
     {
+      "entropy": 2.0416687428951263,
       "epoch": 0.8582375478927203,
+      "grad_norm": 13.0,
       "learning_rate": 2.8514533018536286e-05,
+      "loss": 1.5327,
+      "mean_token_accuracy": 0.5883619785308838,
       "num_tokens": 51235.0,
       "step": 28
     },
     {
+      "entropy": 2.029404863715172,
       "epoch": 0.8888888888888888,
+      "grad_norm": 10.8125,
       "learning_rate": 2.8261730902569146e-05,
+      "loss": 1.6362,
+      "mean_token_accuracy": 0.5863424465060234,
       "num_tokens": 53037.0,
       "step": 29
     },
     {
+      "entropy": 2.0645615607500076,
       "epoch": 0.9195402298850575,
+      "grad_norm": 10.0625,
       "learning_rate": 2.7990381056766583e-05,
+      "loss": 1.6623,
+      "mean_token_accuracy": 0.5610311627388,
       "num_tokens": 54826.0,
       "step": 30
     },
     {
+      "entropy": 2.090387746691704,
       "epoch": 0.9501915708812261,
+      "grad_norm": 12.0,
       "learning_rate": 2.770086298842426e-05,
+      "loss": 1.6578,
+      "mean_token_accuracy": 0.5568758621811867,
       "num_tokens": 56737.0,
       "step": 31
     },
     {
+      "entropy": 2.0354464948177338,
       "epoch": 0.9808429118773946,
+      "grad_norm": 12.5625,
       "learning_rate": 2.7393581614739924e-05,
+      "loss": 1.6745,
+      "mean_token_accuracy": 0.5604493953287601,
       "num_tokens": 58084.0,
       "step": 32
     },
     {
+      "entropy": 1.7894673347473145,
       "epoch": 1.0,
+      "grad_norm": 12.4375,
       "learning_rate": 2.7068966696500025e-05,
+      "loss": 1.6188,
+      "mean_token_accuracy": 0.5824247837066651,
       "num_tokens": 59142.0,
       "step": 33
     },
     {
+      "entropy": 1.63651242852211,
       "epoch": 1.0306513409961686,
+      "grad_norm": 8.0625,
       "learning_rate": 2.672747223702045e-05,
+      "loss": 0.9761,
+      "mean_token_accuracy": 0.7217265591025352,
       "num_tokens": 60897.0,
       "step": 34
     },
     {
+      "entropy": 1.7347675114870071,
       "epoch": 1.0613026819923372,
+      "grad_norm": 9.3125,
       "learning_rate": 2.6369575847181795e-05,
+      "loss": 1.1561,
+      "mean_token_accuracy": 0.7075180560350418,
       "num_tokens": 62325.0,
       "step": 35
     },
     {
+      "entropy": 1.5030861496925354,
       "epoch": 1.0919540229885056,
+      "grad_norm": 7.65625,
       "learning_rate": 2.5995778077447393e-05,
+      "loss": 0.8402,
+      "mean_token_accuracy": 0.7322944924235344,
       "num_tokens": 64163.0,
       "step": 36
     },
     {
+      "entropy": 1.3862270265817642,
       "epoch": 1.1226053639846743,
+      "grad_norm": 8.5625,
       "learning_rate": 2.5606601717798212e-05,
+      "loss": 0.9429,
+      "mean_token_accuracy": 0.7389034852385521,
       "num_tokens": 66168.0,
       "step": 37
     },
     {
+      "entropy": 1.3857311755418777,
       "epoch": 1.1532567049808429,
+      "grad_norm": 7.65625,
       "learning_rate": 2.520259106656379e-05,
+      "loss": 0.8564,
+      "mean_token_accuracy": 0.7321354225277901,
       "num_tokens": 68398.0,
       "step": 38
     },
     {
+      "entropy": 1.2590633258223534,
       "epoch": 1.1839080459770115,
+      "grad_norm": 9.75,
       "learning_rate": 2.4784311169171818e-05,
+      "loss": 0.9376,
+      "mean_token_accuracy": 0.7156714797019958,
       "num_tokens": 70548.0,
       "step": 39
     },
     {
+      "entropy": 1.2306247800588608,
       "epoch": 1.21455938697318,
+      "grad_norm": 10.9375,
       "learning_rate": 2.4352347027881003e-05,
+      "loss": 0.8899,
+      "mean_token_accuracy": 0.756280928850174,
       "num_tokens": 72463.0,
       "step": 40
     },
     {
+      "entropy": 1.110754244029522,
       "epoch": 1.2452107279693487,
+      "grad_norm": 12.125,
       "learning_rate": 2.3907302783602522e-05,
+      "loss": 0.7503,
+      "mean_token_accuracy": 0.7652318105101585,
       "num_tokens": 74061.0,
       "step": 41
     },
     {
+      "entropy": 1.1396447345614433,
       "epoch": 1.2758620689655173,
+      "grad_norm": 10.375,
       "learning_rate": 2.344980087095433e-05,
+      "loss": 0.774,
+      "mean_token_accuracy": 0.7681270688772202,
       "num_tokens": 76130.0,
       "step": 42
     },
     {
+      "entropy": 1.0957090184092522,
       "epoch": 1.3065134099616857,
+      "grad_norm": 12.4375,
       "learning_rate": 2.298048114773005e-05,
+      "loss": 0.7757,
+      "mean_token_accuracy": 0.767442375421524,
       "num_tokens": 77912.0,
       "step": 43
     },
     {
+      "entropy": 1.0323160290718079,
       "epoch": 1.3371647509578544,
+      "grad_norm": 10.625,
       "learning_rate": 2.25e-05,
+      "loss": 0.7192,
+      "mean_token_accuracy": 0.771703340113163,
       "num_tokens": 79873.0,
       "step": 44
     },
     {
+      "entropy": 1.1174012199044228,
       "epoch": 1.367816091954023,
+      "grad_norm": 13.1875,
       "learning_rate": 2.200902942409593e-05,
+      "loss": 0.7571,
+      "mean_token_accuracy": 0.7688822597265244,
       "num_tokens": 81708.0,
       "step": 45
     },
     {
+      "entropy": 1.133009672164917,
       "epoch": 1.3984674329501916,
+      "grad_norm": 11.4375,
       "learning_rate": 2.1508256086763372e-05,
+      "loss": 0.8328,
+      "mean_token_accuracy": 0.7457190081477165,
       "num_tokens": 83479.0,
       "step": 46
     },
     {
+      "entropy": 1.0821977257728577,
       "epoch": 1.4291187739463602,
+      "grad_norm": 12.25,
       "learning_rate": 2.0998380364796112e-05,
+      "loss": 0.8791,
+      "mean_token_accuracy": 0.7517153918743134,
       "num_tokens": 85091.0,
       "step": 47
     },
     {
+      "entropy": 1.160033829510212,
       "epoch": 1.4597701149425286,
+      "grad_norm": 10.25,
       "learning_rate": 2.0480115365495928e-05,
+      "loss": 0.7528,
+      "mean_token_accuracy": 0.7454545870423317,
       "num_tokens": 87067.0,
       "step": 48
     },
     {
+      "entropy": 1.09547870606184,
       "epoch": 1.4904214559386972,
+      "grad_norm": 8.1875,
       "learning_rate": 1.995418592932751e-05,
+      "loss": 0.6824,
+      "mean_token_accuracy": 0.8004695847630501,
       "num_tokens": 89257.0,
       "step": 49
     },
     {
+      "entropy": 1.1644561365246773,
       "epoch": 1.5210727969348659,
+      "grad_norm": 10.125,
       "learning_rate": 1.9421327616163564e-05,
+      "loss": 0.8229,
+      "mean_token_accuracy": 0.744444377720356,
       "num_tokens": 91129.0,
       "step": 50
     },
     {
+      "entropy": 1.1956558972597122,
       "epoch": 1.5517241379310345,
+      "grad_norm": 9.1875,
       "learning_rate": 1.888228567653781e-05,
+      "loss": 0.807,
+      "mean_token_accuracy": 0.7377020716667175,
       "num_tokens": 93217.0,
       "step": 51
     },
     {
+      "entropy": 1.2180762365460396,
       "epoch": 1.582375478927203,
+      "grad_norm": 9.125,
       "learning_rate": 1.8337814009344716e-05,
+      "loss": 0.6652,
+      "mean_token_accuracy": 0.7918966636061668,
       "num_tokens": 94882.0,
       "step": 52
     },
     {
+      "entropy": 1.2762009352445602,
       "epoch": 1.6130268199233715,
+      "grad_norm": 11.625,
       "learning_rate": 1.778867410744372e-05,
+      "loss": 0.8152,
+      "mean_token_accuracy": 0.7556928023695946,
       "num_tokens": 96226.0,
       "step": 53
     },
     {
+      "entropy": 1.2115763127803802,
       "epoch": 1.6436781609195403,
+      "grad_norm": 10.8125,
       "learning_rate": 1.7235633992642615e-05,
+      "loss": 0.7119,
+      "mean_token_accuracy": 0.7653274685144424,
       "num_tokens": 98064.0,
       "step": 54
     },
     {
+      "entropy": 1.301737241446972,
       "epoch": 1.6743295019157087,
+      "grad_norm": 8.75,
       "learning_rate": 1.667946714154962e-05,
+      "loss": 0.7362,
+      "mean_token_accuracy": 0.7743538916110992,
       "num_tokens": 99875.0,
       "step": 55
     },
     {
+      "entropy": 1.1645233482122421,
       "epoch": 1.7049808429118773,
+      "grad_norm": 8.125,
       "learning_rate": 1.6120951403796367e-05,
+      "loss": 0.7929,
+      "mean_token_accuracy": 0.7437388524413109,
       "num_tokens": 102303.0,
       "step": 56
     },
     {
+      "entropy": 1.2387544885277748,
       "epoch": 1.735632183908046,
+      "grad_norm": 10.125,
       "learning_rate": 1.5560867914144887e-05,
+      "loss": 0.7757,
+      "mean_token_accuracy": 0.760113924741745,
       "num_tokens": 103806.0,
       "step": 57
     },
     {
+      "entropy": 1.2401599884033203,
       "epoch": 1.7662835249042146,
+      "grad_norm": 12.25,
       "learning_rate": 1.5e-05,
+      "loss": 0.757,
+      "mean_token_accuracy": 0.7870561257004738,
       "num_tokens": 105012.0,
       "step": 58
     },
     {
+      "entropy": 1.3122059255838394,
       "epoch": 1.7969348659003832,
+      "grad_norm": 11.25,
       "learning_rate": 1.4439132085855117e-05,
+      "loss": 0.8231,
+      "mean_token_accuracy": 0.7717632800340652,
       "num_tokens": 106373.0,
       "step": 59
     },
     {
+      "entropy": 1.224107950925827,
       "epoch": 1.8275862068965516,
+      "grad_norm": 9.3125,
       "learning_rate": 1.3879048596203637e-05,
+      "loss": 0.6616,
+      "mean_token_accuracy": 0.8022700250148773,
       "num_tokens": 107938.0,
       "step": 60
     },
     {
+      "entropy": 1.2059504985809326,
       "epoch": 1.8582375478927204,
+      "grad_norm": 9.625,
       "learning_rate": 1.3320532858450382e-05,
+      "loss": 0.7585,
+      "mean_token_accuracy": 0.7686295211315155,
       "num_tokens": 109587.0,
       "step": 61
     },
     {
+      "entropy": 1.2734860181808472,
       "epoch": 1.8888888888888888,
+      "grad_norm": 12.4375,
       "learning_rate": 1.2764366007357382e-05,
+      "loss": 1.055,
+      "mean_token_accuracy": 0.707017719745636,
       "num_tokens": 111253.0,
       "step": 62
     },
     {
+      "entropy": 1.1893908977508545,
       "epoch": 1.9195402298850575,
+      "grad_norm": 11.1875,
       "learning_rate": 1.2211325892556282e-05,
+      "loss": 0.7912,
+      "mean_token_accuracy": 0.7822966873645782,
       "num_tokens": 112833.0,
       "step": 63
     },
     {
+      "entropy": 1.1533539071679115,
       "epoch": 1.950191570881226,
+      "grad_norm": 11.125,
       "learning_rate": 1.1662185990655285e-05,
+      "loss": 0.8553,
+      "mean_token_accuracy": 0.7498924359679222,
       "num_tokens": 114573.0,
       "step": 64
     },
     {
+      "entropy": 1.1270944774150848,
       "epoch": 1.9808429118773945,
+      "grad_norm": 8.25,
       "learning_rate": 1.1117714323462188e-05,
+      "loss": 0.7116,
+      "mean_token_accuracy": 0.7686784416437149,
       "num_tokens": 116981.0,
       "step": 65
     },
     {
+      "entropy": 1.2168401956558228,
       "epoch": 2.0,
+      "grad_norm": 18.375,
       "learning_rate": 1.0578672383836437e-05,
+      "loss": 1.1399,
+      "mean_token_accuracy": 0.6772964239120484,
       "num_tokens": 118284.0,
       "step": 66
     },
     {
+      "entropy": 1.0973209738731384,
       "epoch": 2.0306513409961684,
+      "grad_norm": 7.8125,
       "learning_rate": 1.0045814070672498e-05,
+      "loss": 0.3245,
+      "mean_token_accuracy": 0.9032263904809952,
       "num_tokens": 119663.0,
       "step": 67
     },
     {
+      "entropy": 1.053741380572319,
       "epoch": 2.0613026819923372,
+      "grad_norm": 6.0,
       "learning_rate": 9.519884634504074e-06,
+      "loss": 0.2808,
+      "mean_token_accuracy": 0.9356953203678131,
       "num_tokens": 121476.0,
       "step": 68
     },
     {
+      "entropy": 0.9946238845586777,
       "epoch": 2.0919540229885056,
+      "grad_norm": 5.375,
       "learning_rate": 9.001619635203889e-06,
+      "loss": 0.2809,
+      "mean_token_accuracy": 0.9175683632493019,
       "num_tokens": 123792.0,
       "step": 69
     },
     {
+      "entropy": 1.015475258231163,
       "epoch": 2.1226053639846745,
+      "grad_norm": 6.65625,
       "learning_rate": 8.491743913236629e-06,
+      "loss": 0.2802,
+      "mean_token_accuracy": 0.9311554208397865,
       "num_tokens": 125329.0,
       "step": 70
     },
     {
+      "entropy": 0.9921716600656509,
       "epoch": 2.153256704980843,
+      "grad_norm": 6.78125,
       "learning_rate": 7.99097057590407e-06,
+      "loss": 0.2807,
+      "mean_token_accuracy": 0.9192091822624207,
       "num_tokens": 126654.0,
       "step": 71
     },
     {
+      "entropy": 0.8778632581233978,
       "epoch": 2.1839080459770113,
+      "grad_norm": 6.09375,
       "learning_rate": 7.500000000000004e-06,
+      "loss": 0.2776,
+      "mean_token_accuracy": 0.9309542253613472,
       "num_tokens": 128629.0,
       "step": 72
     },
     {
+      "entropy": 0.953188918530941,
       "epoch": 2.21455938697318,
+      "grad_norm": 8.6875,
       "learning_rate": 7.019518852269953e-06,
+      "loss": 0.4596,
+      "mean_token_accuracy": 0.8634384647011757,
       "num_tokens": 130344.0,
       "step": 73
     },
     {
+      "entropy": 0.8518025800585747,
       "epoch": 2.2452107279693485,
+      "grad_norm": 7.46875,
       "learning_rate": 6.55019912904567e-06,
+      "loss": 0.3006,
+      "mean_token_accuracy": 0.9241785854101181,
       "num_tokens": 132152.0,
       "step": 74
     },
     {
+      "entropy": 0.8467591479420662,
       "epoch": 2.2758620689655173,
+      "grad_norm": 6.40625,
       "learning_rate": 6.092697216397478e-06,
+      "loss": 0.2682,
+      "mean_token_accuracy": 0.9179906323552132,
       "num_tokens": 134144.0,
       "step": 75
     },
     {
+      "entropy": 0.7837551906704903,
       "epoch": 2.3065134099616857,
+      "grad_norm": 7.25,
       "learning_rate": 5.647652972118998e-06,
+      "loss": 0.3422,
+      "mean_token_accuracy": 0.8964523077011108,
       "num_tokens": 136715.0,
       "step": 76
     },
     {
+      "entropy": 0.7817510291934013,
       "epoch": 2.3371647509578546,
+      "grad_norm": 7.25,
       "learning_rate": 5.2156888308281875e-06,
+      "loss": 0.2678,
+      "mean_token_accuracy": 0.9292137995362282,
       "num_tokens": 138907.0,
       "step": 77
     },
     {
+      "entropy": 0.7645558379590511,
       "epoch": 2.367816091954023,
+      "grad_norm": 7.6875,
       "learning_rate": 4.797408933436207e-06,
+      "loss": 0.2069,
+      "mean_token_accuracy": 0.9325998574495316,
       "num_tokens": 140536.0,
       "step": 78
     },
     {
+      "entropy": 0.756471686065197,
       "epoch": 2.3984674329501914,
+      "grad_norm": 8.6875,
       "learning_rate": 4.393398282201788e-06,
+      "loss": 0.2288,
+      "mean_token_accuracy": 0.924439363181591,
       "num_tokens": 142205.0,
       "step": 79
     },
     {
+      "entropy": 0.7203860953450203,
       "epoch": 2.42911877394636,
+      "grad_norm": 8.75,
       "learning_rate": 4.004221922552608e-06,
+      "loss": 0.3023,
+      "mean_token_accuracy": 0.9196523949503899,
       "num_tokens": 143937.0,
       "step": 80
     },
     {
+      "entropy": 0.7062718719244003,
       "epoch": 2.4597701149425286,
+      "grad_norm": 8.3125,
       "learning_rate": 3.630424152818203e-06,
+      "loss": 0.242,
+      "mean_token_accuracy": 0.9289174377918243,
       "num_tokens": 145867.0,
       "step": 81
     },
     {
+      "entropy": 0.7174801900982857,
       "epoch": 2.4904214559386975,
+      "grad_norm": 10.0625,
       "learning_rate": 3.272527762979553e-06,
+      "loss": 0.3277,
+      "mean_token_accuracy": 0.9081463739275932,
       "num_tokens": 147522.0,
       "step": 82
     },
     {
+      "entropy": 0.7576407790184021,
       "epoch": 2.521072796934866,
+      "grad_norm": 10.5,
       "learning_rate": 2.931033303499975e-06,
+      "loss": 0.2869,
+      "mean_token_accuracy": 0.9234072640538216,
       "num_tokens": 149154.0,
       "step": 83
     },
     {
+      "entropy": 0.6603295132517815,
       "epoch": 2.5517241379310347,
+      "grad_norm": 8.5,
       "learning_rate": 2.60641838526008e-06,
+      "loss": 0.2954,
+      "mean_token_accuracy": 0.9192768260836601,
       "num_tokens": 151443.0,
       "step": 84
     },
     {
+      "entropy": 0.7209493666887283,
       "epoch": 2.582375478927203,
+      "grad_norm": 7.625,
       "learning_rate": 2.2991370115757383e-06,
+      "loss": 0.2553,
+      "mean_token_accuracy": 0.9288515150547028,
       "num_tokens": 153346.0,
       "step": 85
     },
     {
+      "entropy": 0.7502265051007271,
       "epoch": 2.6130268199233715,
+      "grad_norm": 10.0625,
       "learning_rate": 2.0096189432334194e-06,
+      "loss": 0.2759,
+      "mean_token_accuracy": 0.9101333618164062,
       "num_tokens": 155041.0,
       "step": 86
     },
     {
+      "entropy": 0.6479271687567234,
       "epoch": 2.6436781609195403,
+      "grad_norm": 7.65625,
       "learning_rate": 1.7382690974308551e-06,
+      "loss": 0.1765,
+      "mean_token_accuracy": 0.9528548792004585,
       "num_tokens": 156508.0,
       "step": 87
     },
     {
+      "entropy": 0.686508409678936,
       "epoch": 2.6743295019157087,
+      "grad_norm": 6.5625,
       "learning_rate": 1.4854669814637145e-06,
+      "loss": 0.1907,
+      "mean_token_accuracy": 0.9471124485135078,
       "num_tokens": 158506.0,
       "step": 88
     },
     {
+      "entropy": 0.6940162889659405,
       "epoch": 2.704980842911877,
+      "grad_norm": 7.0625,
       "learning_rate": 1.2515661619503572e-06,
+      "loss": 0.2139,
+      "mean_token_accuracy": 0.9348281025886536,
       "num_tokens": 160511.0,
       "step": 89
     },
     {
+      "entropy": 0.7100252062082291,
       "epoch": 2.735632183908046,
+      "grad_norm": 9.0625,
       "learning_rate": 1.036893770336938e-06,
+      "loss": 0.2846,
+      "mean_token_accuracy": 0.9120082557201385,
       "num_tokens": 162548.0,
       "step": 90
     },
     {
+      "entropy": 0.689895510673523,
       "epoch": 2.766283524904215,
+      "grad_norm": 7.59375,
       "learning_rate": 8.417500453744864e-07,
+      "loss": 0.2794,
+      "mean_token_accuracy": 0.9187788665294647,
       "num_tokens": 164874.0,
       "step": 91
     },
     {
+      "entropy": 0.6664801873266697,
       "epoch": 2.796934865900383,
+      "grad_norm": 7.96875,
       "learning_rate": 6.664079132078881e-07,
+      "loss": 0.199,
+      "mean_token_accuracy": 0.94305020570755,
       "num_tokens": 166614.0,
       "step": 92
     },
     {
+      "entropy": 0.7356143966317177,
       "epoch": 2.8275862068965516,
+      "grad_norm": 29.25,
       "learning_rate": 5.11112605663977e-07,
+      "loss": 0.3566,
+      "mean_token_accuracy": 0.8869450762867928,
       "num_tokens": 168220.0,
       "step": 93
     },
     {
+      "entropy": 0.7260653525590897,
       "epoch": 2.8582375478927204,
+      "grad_norm": 12.0625,
       "learning_rate": 3.760813172726457e-07,
+      "loss": 0.2395,
+      "mean_token_accuracy": 0.9347701147198677,
       "num_tokens": 169540.0,
       "step": 94
     },
     {
+      "entropy": 0.6620675958693027,
       "epoch": 2.888888888888889,
+      "grad_norm": 7.3125,
       "learning_rate": 2.6150290150067593e-07,
+      "loss": 0.2358,
+      "mean_token_accuracy": 0.9333521574735641,
       "num_tokens": 171709.0,
       "step": 95
+    },
+    {
+      "entropy": 0.6657432429492474,
+      "epoch": 2.9195402298850572,
+      "grad_norm": 9.375,
+      "learning_rate": 1.6753760662307217e-07,
+      "loss": 0.2499,
+      "mean_token_accuracy": 0.9248412474989891,
+      "num_tokens": 173432.0,
+      "step": 96
+    },
+    {
+      "entropy": 0.6610175892710686,
+      "epoch": 2.950191570881226,
+      "grad_norm": 10.3125,
+      "learning_rate": 9.431685160136094e-08,
+      "loss": 0.2274,
+      "mean_token_accuracy": 0.9352346211671829,
+      "num_tokens": 174962.0,
+      "step": 97
+    },
+    {
+      "entropy": 0.6855079308152199,
+      "epoch": 2.9808429118773945,
+      "grad_norm": 9.4375,
+      "learning_rate": 4.194304228229806e-08,
+      "loss": 0.2806,
+      "mean_token_accuracy": 0.9201195910573006,
+      "num_tokens": 176611.0,
+      "step": 98
+    },
+    {
+      "entropy": 0.6942157626152039,
+      "epoch": 3.0,
+      "grad_norm": 11.0625,
+      "learning_rate": 1.0489428174020877e-08,
+      "loss": 0.1556,
+      "mean_token_accuracy": 0.9565272331237793,
+      "num_tokens": 177426.0,
+      "step": 99
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 4854658109841408.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dcb900edd003d30a9496375af3b00e493c234370e0d58063b9ebd80fb0228298
 size 6353

 version https://git-lfs.github.com/spec/v1
+oid sha256:11dc7c8092aa2b8ebf234fc84d3e707b2126e3e231f1ae373dfe72c25a33e317
 size 6353