Upload folder using huggingface_hub

Browse files

Files changed (6) hide show

adapter_model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +514 -764
training_args.bin +1 -1

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5fdb3758f29d5e94c8350c37ab504d7ff02c3cccbb8332057d66d431ef10f682
 size 161515608

 version https://git-lfs.github.com/spec/v1
+oid sha256:adbf32216f68817ac7b8e81d84ec05581ee1d4aec78db3102b8b8bfda9c3203a
 size 161515608

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1b03158d3c32281c45bae11494452aff7910950a34011e853f3d6c1c18d8651b
 size 323181259

 version https://git-lfs.github.com/spec/v1
+oid sha256:1b74bcd870dc58a45d5857957da63a7b34ce5562b9a8ed24f282d74c1daa703e
 size 323181259

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2534e434cd5abbb8f7668d3eab0549db0ef95d6a797a3efa86b712e8e32266a7
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:e5b517d1b8e2b0f837c8b00170b154961d4d989feba4326ac25583df7a55c57a
 size 14645

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f35223b4162b3f25fe602e5e4c5a2349c08c0134f11cd20a82d190f37cb0842a
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:6e3ed70b691deef80930296c31c1f2faec5c46190c3c196aae31c4481cc14ad8
 size 1465

trainer_state.json CHANGED Viewed

@@ -2,1018 +2,768 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.875912408759124,
   "eval_steps": 500,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "entropy": 2.134004071354866,
-      "epoch": 0.029197080291970802,
-      "grad_norm": 19.125,
       "learning_rate": 0.0,
-      "loss": 2.5766,
-      "mean_token_accuracy": 0.42293117567896843,
-      "num_tokens": 1699.0,
       "step": 1
     },
     {
-      "entropy": 2.1332614570856094,
-      "epoch": 0.058394160583941604,
-      "grad_norm": 15.375,
       "learning_rate": 2e-06,
-      "loss": 2.3501,
-      "mean_token_accuracy": 0.43237315863370895,
-      "num_tokens": 3890.0,
       "step": 2
     },
     {
-      "entropy": 2.3441822230815887,
-      "epoch": 0.08759124087591241,
-      "grad_norm": 22.875,
       "learning_rate": 4e-06,
-      "loss": 3.134,
-      "mean_token_accuracy": 0.3771548382937908,
-      "num_tokens": 5114.0,
       "step": 3
     },
     {
-      "entropy": 2.169568419456482,
-      "epoch": 0.11678832116788321,
-      "grad_norm": 15.0625,
       "learning_rate": 6e-06,
-      "loss": 2.2609,
-      "mean_token_accuracy": 0.4582384452223778,
-      "num_tokens": 6825.0,
       "step": 4
     },
     {
-      "entropy": 2.3993491530418396,
-      "epoch": 0.145985401459854,
-      "grad_norm": 11.5625,
       "learning_rate": 8e-06,
-      "loss": 2.2625,
-      "mean_token_accuracy": 0.44751258939504623,
-      "num_tokens": 8794.0,
       "step": 5
     },
     {
-      "entropy": 2.38617005944252,
-      "epoch": 0.17518248175182483,
-      "grad_norm": 11.0,
       "learning_rate": 9.999999999999999e-06,
-      "loss": 2.2774,
-      "mean_token_accuracy": 0.4528072811663151,
-      "num_tokens": 10473.0,
       "step": 6
     },
     {
-      "entropy": 2.17643141746521,
-      "epoch": 0.20437956204379562,
-      "grad_norm": 7.21875,
       "learning_rate": 1.2e-05,
-      "loss": 1.911,
-      "mean_token_accuracy": 0.5113650299608707,
-      "num_tokens": 12709.0,
       "step": 7
     },
     {
-      "entropy": 2.2615339010953903,
-      "epoch": 0.23357664233576642,
-      "grad_norm": 5.9375,
       "learning_rate": 1.4e-05,
-      "loss": 1.8747,
-      "mean_token_accuracy": 0.5006480813026428,
-      "num_tokens": 15657.0,
       "step": 8
     },
     {
-      "entropy": 2.416978284716606,
-      "epoch": 0.26277372262773724,
-      "grad_norm": 8.4375,
       "learning_rate": 1.6e-05,
-      "loss": 1.9924,
-      "mean_token_accuracy": 0.4901970997452736,
-      "num_tokens": 17681.0,
       "step": 9
     },
     {
-      "entropy": 2.3273025155067444,
-      "epoch": 0.291970802919708,
-      "grad_norm": 6.09375,
       "learning_rate": 1.8e-05,
-      "loss": 1.8238,
-      "mean_token_accuracy": 0.4891773872077465,
-      "num_tokens": 20159.0,
       "step": 10
     },
     {
-      "entropy": 2.295111373066902,
-      "epoch": 0.32116788321167883,
-      "grad_norm": 5.9375,
       "learning_rate": 1.9999999999999998e-05,
-      "loss": 1.8838,
-      "mean_token_accuracy": 0.528899259865284,
-      "num_tokens": 22380.0,
       "step": 11
     },
     {
-      "entropy": 2.4463636726140976,
-      "epoch": 0.35036496350364965,
-      "grad_norm": 7.28125,
       "learning_rate": 2.2e-05,
-      "loss": 2.0672,
-      "mean_token_accuracy": 0.4942050985991955,
-      "num_tokens": 23949.0,
       "step": 12
     },
     {
-      "entropy": 2.2411956042051315,
-      "epoch": 0.3795620437956204,
-      "grad_norm": 6.625,
       "learning_rate": 2.4e-05,
-      "loss": 1.7258,
-      "mean_token_accuracy": 0.5641119256615639,
-      "num_tokens": 25626.0,
       "step": 13
     },
     {
-      "entropy": 2.1571693122386932,
-      "epoch": 0.40875912408759124,
-      "grad_norm": 6.3125,
       "learning_rate": 2.6000000000000002e-05,
-      "loss": 1.7421,
-      "mean_token_accuracy": 0.5413074977695942,
-      "num_tokens": 27703.0,
       "step": 14
     },
     {
-      "entropy": 2.0649050027132034,
-      "epoch": 0.43795620437956206,
-      "grad_norm": 5.65625,
       "learning_rate": 2.8e-05,
-      "loss": 1.7653,
-      "mean_token_accuracy": 0.5364297069609165,
-      "num_tokens": 29910.0,
       "step": 15
     },
     {
-      "entropy": 2.0259645730257034,
-      "epoch": 0.46715328467153283,
-      "grad_norm": 5.5,
       "learning_rate": 3e-05,
-      "loss": 1.586,
-      "mean_token_accuracy": 0.5716114267706871,
-      "num_tokens": 32243.0,
       "step": 16
     },
     {
-      "entropy": 2.2259650826454163,
-      "epoch": 0.49635036496350365,
-      "grad_norm": 6.46875,
-      "learning_rate": 2.9990862405286438e-05,
-      "loss": 1.8815,
-      "mean_token_accuracy": 0.5339390859007835,
-      "num_tokens": 33704.0,
       "step": 17
     },
     {
-      "entropy": 2.2045857161283493,
-      "epoch": 0.5255474452554745,
-      "grad_norm": 7.0,
-      "learning_rate": 2.9963460753897364e-05,
-      "loss": 1.8033,
-      "mean_token_accuracy": 0.5426613725721836,
-      "num_tokens": 35222.0,
       "step": 18
     },
     {
-      "entropy": 2.0502880662679672,
-      "epoch": 0.5547445255474452,
-      "grad_norm": 5.625,
-      "learning_rate": 2.99178284305241e-05,
-      "loss": 1.6822,
-      "mean_token_accuracy": 0.5445077642798424,
-      "num_tokens": 37281.0,
       "step": 19
     },
     {
-      "entropy": 1.9275199472904205,
-      "epoch": 0.583941605839416,
-      "grad_norm": 5.625,
-      "learning_rate": 2.9854021031123555e-05,
-      "loss": 1.5569,
-      "mean_token_accuracy": 0.5689515694975853,
-      "num_tokens": 39208.0,
       "step": 20
     },
     {
-      "entropy": 2.1408673971891403,
-      "epoch": 0.6131386861313869,
-      "grad_norm": 6.5,
-      "learning_rate": 2.977211629518312e-05,
-      "loss": 1.8479,
-      "mean_token_accuracy": 0.5382610447704792,
-      "num_tokens": 40754.0,
       "step": 21
     },
     {
-      "entropy": 2.138097256422043,
-      "epoch": 0.6423357664233577,
-      "grad_norm": 6.03125,
-      "learning_rate": 2.9672214011007087e-05,
-      "loss": 1.7691,
-      "mean_token_accuracy": 0.5337589606642723,
-      "num_tokens": 42447.0,
       "step": 22
     },
     {
-      "entropy": 1.9584687054157257,
-      "epoch": 0.6715328467153284,
-      "grad_norm": 4.59375,
-      "learning_rate": 2.9554435894139945e-05,
-      "loss": 1.502,
-      "mean_token_accuracy": 0.5679651834070683,
-      "num_tokens": 44963.0,
       "step": 23
     },
     {
-      "entropy": 2.0382106602191925,
-      "epoch": 0.7007299270072993,
-      "grad_norm": 5.03125,
-      "learning_rate": 2.9418925439074784e-05,
-      "loss": 1.6539,
-      "mean_token_accuracy": 0.5411265380680561,
-      "num_tokens": 47138.0,
       "step": 24
     },
     {
-      "entropy": 2.0515516996383667,
-      "epoch": 0.7299270072992701,
-      "grad_norm": 5.4375,
-      "learning_rate": 2.9265847744427305e-05,
-      "loss": 1.7007,
-      "mean_token_accuracy": 0.5707135051488876,
-      "num_tokens": 49154.0,
       "step": 25
     },
     {
-      "entropy": 1.96835595369339,
-      "epoch": 0.7591240875912408,
-      "grad_norm": 4.875,
-      "learning_rate": 2.9095389311788626e-05,
-      "loss": 1.5182,
-      "mean_token_accuracy": 0.5940572991967201,
-      "num_tokens": 51009.0,
       "step": 26
     },
     {
-      "entropy": 1.9829230606555939,
-      "epoch": 0.7883211678832117,
-      "grad_norm": 4.78125,
-      "learning_rate": 2.890775781850181e-05,
-      "loss": 1.5441,
-      "mean_token_accuracy": 0.5696061700582504,
-      "num_tokens": 52866.0,
       "step": 27
     },
     {
-      "entropy": 1.9901328533887863,
-      "epoch": 0.8175182481751825,
-      "grad_norm": 4.53125,
-      "learning_rate": 2.8703181864639013e-05,
-      "loss": 1.5227,
-      "mean_token_accuracy": 0.5771616920828819,
-      "num_tokens": 55235.0,
       "step": 28
     },
     {
-      "entropy": 2.176472947001457,
-      "epoch": 0.8467153284671532,
-      "grad_norm": 7.34375,
-      "learning_rate": 2.8481910694487507e-05,
-      "loss": 1.784,
-      "mean_token_accuracy": 0.5394799076020718,
-      "num_tokens": 56468.0,
       "step": 29
     },
     {
-      "entropy": 2.0398730635643005,
-      "epoch": 0.8759124087591241,
-      "grad_norm": 5.5,
-      "learning_rate": 2.8244213892883907e-05,
-      "loss": 1.584,
-      "mean_token_accuracy": 0.564793273806572,
-      "num_tokens": 58219.0,
       "step": 30
     },
     {
-      "entropy": 1.7868350446224213,
-      "epoch": 0.9051094890510949,
-      "grad_norm": 3.71875,
-      "learning_rate": 2.7990381056766583e-05,
-      "loss": 1.4897,
-      "mean_token_accuracy": 0.5773478448390961,
-      "num_tokens": 61246.0,
       "step": 31
     },
     {
-      "entropy": 1.8927763998508453,
-      "epoch": 0.9343065693430657,
-      "grad_norm": 5.03125,
-      "learning_rate": 2.772072144234639e-05,
-      "loss": 1.4658,
-      "mean_token_accuracy": 0.5965544059872627,
-      "num_tokens": 63057.0,
       "step": 32
     },
     {
-      "entropy": 1.9243939369916916,
-      "epoch": 0.9635036496350365,
-      "grad_norm": 4.9375,
-      "learning_rate": 2.7435563588325627e-05,
-      "loss": 1.5646,
-      "mean_token_accuracy": 0.551388930529356,
-      "num_tokens": 64856.0,
       "step": 33
     },
     {
-      "entropy": 1.945557788014412,
-      "epoch": 0.9927007299270073,
-      "grad_norm": 5.34375,
-      "learning_rate": 2.7135254915624213e-05,
-      "loss": 1.6558,
-      "mean_token_accuracy": 0.5641069300472736,
-      "num_tokens": 66564.0,
       "step": 34
     },
     {
-      "entropy": 1.8289813995361328,
-      "epoch": 1.0,
-      "grad_norm": 12.5,
-      "learning_rate": 2.6820161304100828e-05,
-      "loss": 1.6743,
-      "mean_token_accuracy": 0.5590097606182098,
-      "num_tokens": 66897.0,
       "step": 35
     },
     {
-      "entropy": 1.8240835815668106,
-      "epoch": 1.0291970802919708,
-      "grad_norm": 4.0,
-      "learning_rate": 2.649066664678467e-05,
-      "loss": 1.2519,
-      "mean_token_accuracy": 0.6510025560855865,
-      "num_tokens": 69125.0,
       "step": 36
     },
     {
-      "entropy": 1.7388608753681183,
-      "epoch": 1.0583941605839415,
-      "grad_norm": 3.671875,
-      "learning_rate": 2.6147172382160913e-05,
-      "loss": 1.145,
-      "mean_token_accuracy": 0.6592915058135986,
-      "num_tokens": 71403.0,
       "step": 37
     },
     {
-      "entropy": 1.7314125299453735,
-      "epoch": 1.0875912408759123,
-      "grad_norm": 3.84375,
-      "learning_rate": 2.5790097005079766e-05,
-      "loss": 1.2177,
-      "mean_token_accuracy": 0.6403542906045914,
-      "num_tokens": 73853.0,
       "step": 38
     },
     {
-      "entropy": 1.9059295356273651,
-      "epoch": 1.1167883211678833,
-      "grad_norm": 5.09375,
-      "learning_rate": 2.541987555688496e-05,
-      "loss": 1.3537,
-      "mean_token_accuracy": 0.5938370451331139,
-      "num_tokens": 75484.0,
       "step": 39
     },
     {
-      "entropy": 1.8351815044879913,
-      "epoch": 1.145985401459854,
-      "grad_norm": 5.03125,
-      "learning_rate": 2.5036959095382875e-05,
-      "loss": 1.1891,
-      "mean_token_accuracy": 0.6363263987004757,
-      "num_tokens": 77263.0,
       "step": 40
     },
     {
-      "entropy": 1.856779396533966,
-      "epoch": 1.1751824817518248,
-      "grad_norm": 4.8125,
-      "learning_rate": 2.464181414529809e-05,
-      "loss": 1.3116,
-      "mean_token_accuracy": 0.625493511557579,
-      "num_tokens": 79113.0,
       "step": 41
     },
     {
-      "entropy": 1.7603202909231186,
-      "epoch": 1.2043795620437956,
-      "grad_norm": 4.90625,
-      "learning_rate": 2.4234922129884873e-05,
-      "loss": 1.2056,
-      "mean_token_accuracy": 0.6308283284306526,
-      "num_tokens": 80962.0,
       "step": 42
     },
     {
-      "entropy": 1.6366319358348846,
-      "epoch": 1.2335766423357664,
-      "grad_norm": 4.6875,
-      "learning_rate": 2.3816778784387097e-05,
-      "loss": 1.2438,
-      "mean_token_accuracy": 0.6533086150884628,
-      "num_tokens": 83095.0,
       "step": 43
     },
     {
-      "entropy": 1.6320330947637558,
-      "epoch": 1.2627737226277373,
-      "grad_norm": 4.1875,
-      "learning_rate": 2.3387893552061202e-05,
-      "loss": 1.1647,
-      "mean_token_accuracy": 0.6589736789464951,
-      "num_tokens": 85383.0,
       "step": 44
     },
     {
-      "entropy": 1.575496032834053,
-      "epoch": 1.2919708029197081,
-      "grad_norm": 4.65625,
-      "learning_rate": 2.2948788963498073e-05,
-      "loss": 1.1654,
-      "mean_token_accuracy": 0.6555850505828857,
-      "num_tokens": 87754.0,
       "step": 45
     },
     {
-      "entropy": 1.64286208152771,
-      "epoch": 1.3211678832116789,
-      "grad_norm": 5.8125,
-      "learning_rate": 2.25e-05,
-      "loss": 1.3359,
-      "mean_token_accuracy": 0.649970181286335,
-      "num_tokens": 89289.0,
       "step": 46
     },
     {
-      "entropy": 1.457002505660057,
-      "epoch": 1.3503649635036497,
-      "grad_norm": 4.75,
-      "learning_rate": 2.2042073441788363e-05,
-      "loss": 1.1513,
-      "mean_token_accuracy": 0.6784967109560966,
-      "num_tokens": 91666.0,
       "step": 47
     },
     {
-      "entropy": 1.567281499505043,
-      "epoch": 1.3795620437956204,
-      "grad_norm": 6.78125,
-      "learning_rate": 2.157556720183616e-05,
-      "loss": 1.212,
-      "mean_token_accuracy": 0.6601979807019234,
-      "num_tokens": 93407.0,
       "step": 48
     },
     {
-      "entropy": 1.4496354460716248,
-      "epoch": 1.4087591240875912,
-      "grad_norm": 4.90625,
-      "learning_rate": 2.1101049646137008e-05,
-      "loss": 1.074,
-      "mean_token_accuracy": 0.6734104976058006,
-      "num_tokens": 95819.0,
       "step": 49
     },
     {
-      "entropy": 1.5027115792036057,
-      "epoch": 1.437956204379562,
-      "grad_norm": 4.65625,
-      "learning_rate": 2.0619098901238684e-05,
-      "loss": 1.1059,
-      "mean_token_accuracy": 0.6857927665114403,
-      "num_tokens": 98052.0,
       "step": 50
     },
     {
-      "entropy": 1.5403490960597992,
-      "epoch": 1.4671532846715327,
-      "grad_norm": 5.75,
-      "learning_rate": 2.0130302149885033e-05,
-      "loss": 1.1573,
-      "mean_token_accuracy": 0.6808772906661034,
-      "num_tokens": 99865.0,
       "step": 51
     },
     {
-      "entropy": 1.3851112127304077,
-      "epoch": 1.4963503649635037,
-      "grad_norm": 4.3125,
-      "learning_rate": 1.963525491562421e-05,
-      "loss": 1.0986,
-      "mean_token_accuracy": 0.669769361615181,
-      "num_tokens": 102444.0,
       "step": 52
     },
     {
-      "entropy": 1.6086822748184204,
-      "epoch": 1.5255474452554745,
-      "grad_norm": 5.9375,
-      "learning_rate": 1.9134560337254986e-05,
-      "loss": 1.2058,
-      "mean_token_accuracy": 0.6342265903949738,
-      "num_tokens": 104135.0,
       "step": 53
     },
     {
-      "entropy": 1.6186174154281616,
-      "epoch": 1.5547445255474452,
-      "grad_norm": 5.75,
-      "learning_rate": 1.8628828433995013e-05,
-      "loss": 1.1878,
-      "mean_token_accuracy": 0.6471928432583809,
-      "num_tokens": 105888.0,
       "step": 54
     },
     {
-      "entropy": 1.636601522564888,
-      "epoch": 1.583941605839416,
-      "grad_norm": 6.40625,
-      "learning_rate": 1.8118675362266388e-05,
-      "loss": 1.2144,
-      "mean_token_accuracy": 0.669179767370224,
-      "num_tokens": 107324.0,
       "step": 55
     },
     {
-      "entropy": 1.6150267571210861,
-      "epoch": 1.613138686131387,
-      "grad_norm": 6.21875,
-      "learning_rate": 1.760472266500396e-05,
-      "loss": 1.2551,
-      "mean_token_accuracy": 0.6627604365348816,
-      "num_tokens": 108844.0,
       "step": 56
     },
     {
-      "entropy": 1.7444928288459778,
-      "epoch": 1.6423357664233578,
-      "grad_norm": 6.34375,
-      "learning_rate": 1.7087596514400982e-05,
-      "loss": 1.2656,
-      "mean_token_accuracy": 0.6279268711805344,
-      "num_tokens": 110263.0,
       "step": 57
     },
     {
-      "entropy": 1.5423792004585266,
-      "epoch": 1.6715328467153285,
-      "grad_norm": 5.53125,
-      "learning_rate": 1.6567926949014805e-05,
-      "loss": 1.2103,
-      "mean_token_accuracy": 0.6224785149097443,
-      "num_tokens": 112199.0,
       "step": 58
     },
     {
-      "entropy": 1.6031899452209473,
-      "epoch": 1.7007299270072993,
-      "grad_norm": 6.5,
-      "learning_rate": 1.604634710616188e-05,
-      "loss": 1.2274,
-      "mean_token_accuracy": 0.6428026333451271,
-      "num_tokens": 113911.0,
       "step": 59
     },
     {
-      "entropy": 1.7055649012327194,
-      "epoch": 1.72992700729927,
-      "grad_norm": 6.6875,
-      "learning_rate": 1.552349245053752e-05,
-      "loss": 1.2889,
-      "mean_token_accuracy": 0.6419094651937485,
-      "num_tokens": 115316.0,
       "step": 60
     },
     {
-      "entropy": 1.5212641060352325,
-      "epoch": 1.7591240875912408,
-      "grad_norm": 4.4375,
-      "learning_rate": 1.5e-05,
-      "loss": 1.0935,
-      "mean_token_accuracy": 0.6695626378059387,
-      "num_tokens": 118007.0,
       "step": 61
     },
     {
-      "entropy": 1.781775563955307,
-      "epoch": 1.7883211678832116,
-      "grad_norm": 7.0,
-      "learning_rate": 1.447650754946249e-05,
-      "loss": 1.2709,
-      "mean_token_accuracy": 0.6656767651438713,
-      "num_tokens": 119232.0,
       "step": 62
     },
     {
-      "entropy": 1.616694524884224,
-      "epoch": 1.8175182481751824,
-      "grad_norm": 6.3125,
-      "learning_rate": 1.3953652893838121e-05,
-      "loss": 1.2435,
-      "mean_token_accuracy": 0.6494908779859543,
-      "num_tokens": 120725.0,
       "step": 63
     },
     {
-      "entropy": 1.7247931063175201,
-      "epoch": 1.8467153284671531,
-      "grad_norm": 7.15625,
-      "learning_rate": 1.3432073050985201e-05,
-      "loss": 1.3701,
-      "mean_token_accuracy": 0.6305030956864357,
-      "num_tokens": 122093.0,
       "step": 64
     },
     {
-      "entropy": 1.590467780828476,
-      "epoch": 1.8759124087591241,
-      "grad_norm": 5.0,
-      "learning_rate": 1.2912403485599022e-05,
-      "loss": 1.263,
-      "mean_token_accuracy": 0.6583547666668892,
-      "num_tokens": 124333.0,
       "step": 65
     },
     {
-      "entropy": 1.6301420778036118,
-      "epoch": 1.905109489051095,
-      "grad_norm": 5.3125,
-      "learning_rate": 1.2395277334996045e-05,
-      "loss": 1.1125,
-      "mean_token_accuracy": 0.650074191391468,
-      "num_tokens": 126272.0,
       "step": 66
     },
     {
-      "entropy": 1.5050681680440903,
-      "epoch": 1.9343065693430657,
-      "grad_norm": 4.28125,
-      "learning_rate": 1.1881324637733613e-05,
-      "loss": 1.037,
-      "mean_token_accuracy": 0.6733650118112564,
-      "num_tokens": 128615.0,
       "step": 67
     },
     {
-      "entropy": 1.5582159608602524,
-      "epoch": 1.9635036496350367,
-      "grad_norm": 4.34375,
-      "learning_rate": 1.1371171566004986e-05,
-      "loss": 1.0951,
-      "mean_token_accuracy": 0.6506948918104172,
-      "num_tokens": 131279.0,
       "step": 68
     },
     {
-      "entropy": 1.6561681628227234,
-      "epoch": 1.9927007299270074,
-      "grad_norm": 5.75,
-      "learning_rate": 1.0865439662745013e-05,
-      "loss": 1.1486,
-      "mean_token_accuracy": 0.6755311414599419,
-      "num_tokens": 132847.0,
       "step": 69
     },
     {
-      "entropy": 1.4383031129837036,
-      "epoch": 2.0,
-      "grad_norm": 7.4375,
-      "learning_rate": 1.036474508437579e-05,
-      "loss": 1.1032,
-      "mean_token_accuracy": 0.6792386174201965,
-      "num_tokens": 133794.0,
       "step": 70
     },
     {
-      "entropy": 1.5033023059368134,
-      "epoch": 2.0291970802919708,
-      "grad_norm": 4.09375,
-      "learning_rate": 9.86969785011497e-06,
-      "loss": 0.8414,
-      "mean_token_accuracy": 0.7257160544395447,
-      "num_tokens": 135994.0,
       "step": 71
     },
     {
-      "entropy": 1.588482990860939,
-      "epoch": 2.0583941605839415,
-      "grad_norm": 5.4375,
-      "learning_rate": 9.380901098761319e-06,
-      "loss": 0.8667,
-      "mean_token_accuracy": 0.7469649091362953,
-      "num_tokens": 137554.0,
       "step": 72
     },
     {
-      "entropy": 1.539756417274475,
-      "epoch": 2.0875912408759123,
-      "grad_norm": 4.3125,
-      "learning_rate": 8.898950353863e-06,
-      "loss": 0.8192,
-      "mean_token_accuracy": 0.7514503225684166,
-      "num_tokens": 139542.0,
       "step": 73
     },
     {
-      "entropy": 1.5114945620298386,
-      "epoch": 2.116788321167883,
-      "grad_norm": 4.25,
-      "learning_rate": 8.424432798163838e-06,
-      "loss": 0.9041,
-      "mean_token_accuracy": 0.7257768511772156,
-      "num_tokens": 141721.0,
       "step": 74
     },
     {
-      "entropy": 1.4715029448270798,
-      "epoch": 2.145985401459854,
-      "grad_norm": 4.375,
-      "learning_rate": 7.957926558211643e-06,
-      "loss": 0.8884,
-      "mean_token_accuracy": 0.7411475032567978,
-      "num_tokens": 143837.0,
       "step": 75
-    },
-    {
-      "entropy": 1.375910922884941,
-      "epoch": 2.1751824817518246,
-      "grad_norm": 4.0625,
-      "learning_rate": 7.500000000000004e-06,
-      "loss": 0.8403,
-      "mean_token_accuracy": 0.7337475717067719,
-      "num_tokens": 146069.0,
-      "step": 76
-    },
-    {
-      "entropy": 1.530395969748497,
-      "epoch": 2.204379562043796,
-      "grad_norm": 4.8125,
-      "learning_rate": 7.051211036501928e-06,
-      "loss": 0.9023,
-      "mean_token_accuracy": 0.7458862364292145,
-      "num_tokens": 147948.0,
-      "step": 77
-    },
-    {
-      "entropy": 1.5619382560253143,
-      "epoch": 2.2335766423357666,
-      "grad_norm": 5.375,
-      "learning_rate": 6.6121064479388e-06,
-      "loss": 0.9471,
-      "mean_token_accuracy": 0.7247473746538162,
-      "num_tokens": 149664.0,
-      "step": 78
-    },
-    {
-      "entropy": 1.4002738296985626,
-      "epoch": 2.2627737226277373,
-      "grad_norm": 4.90625,
-      "learning_rate": 6.1832212156129045e-06,
-      "loss": 0.8002,
-      "mean_token_accuracy": 0.7359691336750984,
-      "num_tokens": 151422.0,
-      "step": 79
-    },
-    {
-      "entropy": 1.3783821165561676,
-      "epoch": 2.291970802919708,
-      "grad_norm": 4.875,
-      "learning_rate": 5.765077870115126e-06,
-      "loss": 0.9352,
-      "mean_token_accuracy": 0.7229901030659676,
-      "num_tokens": 153330.0,
-      "step": 80
-    },
-    {
-      "entropy": 1.3214146196842194,
-      "epoch": 2.321167883211679,
-      "grad_norm": 4.875,
-      "learning_rate": 5.3581858547019095e-06,
-      "loss": 0.7626,
-      "mean_token_accuracy": 0.7818252220749855,
-      "num_tokens": 155088.0,
-      "step": 81
-    },
-    {
-      "entropy": 1.2702767699956894,
-      "epoch": 2.3503649635036497,
-      "grad_norm": 4.375,
-      "learning_rate": 4.963040904617131e-06,
-      "loss": 0.7893,
-      "mean_token_accuracy": 0.7699355036020279,
-      "num_tokens": 157396.0,
-      "step": 82
-    },
-    {
-      "entropy": 1.397829994559288,
-      "epoch": 2.3795620437956204,
-      "grad_norm": 5.25,
-      "learning_rate": 4.58012444311504e-06,
-      "loss": 0.9191,
-      "mean_token_accuracy": 0.7331462875008583,
-      "num_tokens": 159218.0,
-      "step": 83
-    },
-    {
-      "entropy": 1.2017180174589157,
-      "epoch": 2.408759124087591,
-      "grad_norm": 3.6875,
-      "learning_rate": 4.209902994920236e-06,
-      "loss": 0.8082,
-      "mean_token_accuracy": 0.7587887346744537,
-      "num_tokens": 162386.0,
-      "step": 84
-    },
-    {
-      "entropy": 1.374891072511673,
-      "epoch": 2.437956204379562,
-      "grad_norm": 5.09375,
-      "learning_rate": 3.852827617839085e-06,
-      "loss": 0.8665,
-      "mean_token_accuracy": 0.7603413909673691,
-      "num_tokens": 164138.0,
-      "step": 85
-    },
-    {
-      "entropy": 1.3341291099786758,
-      "epoch": 2.4671532846715327,
-      "grad_norm": 4.6875,
-      "learning_rate": 3.5093333532153316e-06,
-      "loss": 0.8604,
-      "mean_token_accuracy": 0.7294721901416779,
-      "num_tokens": 166308.0,
-      "step": 86
-    },
-    {
-      "entropy": 1.3214628398418427,
-      "epoch": 2.4963503649635035,
-      "grad_norm": 5.4375,
-      "learning_rate": 3.1798386958991715e-06,
-      "loss": 0.8978,
-      "mean_token_accuracy": 0.7371588498353958,
-      "num_tokens": 168073.0,
-      "step": 87
-    },
-    {
-      "entropy": 1.358703538775444,
-      "epoch": 2.5255474452554747,
-      "grad_norm": 5.125,
-      "learning_rate": 2.86474508437579e-06,
-      "loss": 0.859,
-      "mean_token_accuracy": 0.7255095988512039,
-      "num_tokens": 169979.0,
-      "step": 88
-    },
-    {
-      "entropy": 1.258324310183525,
-      "epoch": 2.554744525547445,
-      "grad_norm": 4.15625,
-      "learning_rate": 2.564436411674376e-06,
-      "loss": 0.825,
-      "mean_token_accuracy": 0.7614458128809929,
-      "num_tokens": 172706.0,
-      "step": 89
-    },
-    {
-      "entropy": 1.329784169793129,
-      "epoch": 2.5839416058394162,
-      "grad_norm": 5.40625,
-      "learning_rate": 2.279278557653611e-06,
-      "loss": 0.8799,
-      "mean_token_accuracy": 0.7584780603647232,
-      "num_tokens": 174586.0,
-      "step": 90
-    },
-    {
-      "entropy": 1.2622641026973724,
-      "epoch": 2.613138686131387,
-      "grad_norm": 5.125,
-      "learning_rate": 2.0096189432334194e-06,
-      "loss": 0.8348,
-      "mean_token_accuracy": 0.7513260990381241,
-      "num_tokens": 176525.0,
-      "step": 91
-    },
-    {
-      "entropy": 1.2846813797950745,
-      "epoch": 2.6423357664233578,
-      "grad_norm": 5.0,
-      "learning_rate": 1.7557861071160953e-06,
-      "loss": 0.7697,
-      "mean_token_accuracy": 0.7566402554512024,
-      "num_tokens": 178535.0,
-      "step": 92
-    },
-    {
-      "entropy": 1.2429047673940659,
-      "epoch": 2.6715328467153285,
-      "grad_norm": 4.1875,
-      "learning_rate": 1.518089305512498e-06,
-      "loss": 0.8523,
-      "mean_token_accuracy": 0.7609995678067207,
-      "num_tokens": 181688.0,
-      "step": 93
-    },
-    {
-      "entropy": 1.2306764125823975,
-      "epoch": 2.7007299270072993,
-      "grad_norm": 5.6875,
-      "learning_rate": 1.2968181353609854e-06,
-      "loss": 0.795,
-      "mean_token_accuracy": 0.7538608759641647,
-      "num_tokens": 183350.0,
-      "step": 94
-    },
-    {
-      "entropy": 1.2729838192462921,
-      "epoch": 2.72992700729927,
-      "grad_norm": 5.25,
-      "learning_rate": 1.0922421814981904e-06,
-      "loss": 0.8463,
-      "mean_token_accuracy": 0.7443541586399078,
-      "num_tokens": 185369.0,
-      "step": 95
-    },
-    {
-      "entropy": 1.2911252602934837,
-      "epoch": 2.759124087591241,
-      "grad_norm": 5.125,
-      "learning_rate": 9.046106882113753e-07,
-      "loss": 0.7471,
-      "mean_token_accuracy": 0.752311646938324,
-      "num_tokens": 187493.0,
-      "step": 96
-    },
-    {
-      "entropy": 1.28748519718647,
-      "epoch": 2.7883211678832116,
-      "grad_norm": 6.4375,
-      "learning_rate": 7.341522555726971e-07,
-      "loss": 0.7536,
-      "mean_token_accuracy": 0.7757409885525703,
-      "num_tokens": 188864.0,
-      "step": 97
-    },
-    {
-      "entropy": 1.2816387563943863,
-      "epoch": 2.8175182481751824,
-      "grad_norm": 5.46875,
-      "learning_rate": 5.810745609252166e-07,
-      "loss": 0.9127,
-      "mean_token_accuracy": 0.7290580719709396,
-      "num_tokens": 190843.0,
-      "step": 98
-    },
-    {
-      "entropy": 1.4024466425180435,
-      "epoch": 2.846715328467153,
-      "grad_norm": 6.71875,
-      "learning_rate": 4.455641058600529e-07,
-      "loss": 0.9032,
-      "mean_token_accuracy": 0.7520110681653023,
-      "num_tokens": 192230.0,
-      "step": 99
-    },
-    {
-      "entropy": 1.354932889342308,
-      "epoch": 2.875912408759124,
-      "grad_norm": 6.71875,
-      "learning_rate": 3.277859889929147e-07,
-      "loss": 0.7987,
-      "mean_token_accuracy": 0.785490907728672,
-      "num_tokens": 193518.0,
-      "step": 100
     }
   ],
   "logging_steps": 1,
-  "max_steps": 105,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 3,
   "save_steps": 5,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -1027,7 +777,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5186447183892480.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 4.175182481751825,
   "eval_steps": 500,
+  "global_step": 75,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "entropy": 2.1336327642202377,
+      "epoch": 0.058394160583941604,
+      "grad_norm": 16.25,
       "learning_rate": 0.0,
+      "loss": 2.4507,
+      "mean_token_accuracy": 0.4276521671563387,
+      "num_tokens": 3890.0,
       "step": 1
     },
     {
+      "entropy": 2.222498059272766,
+      "epoch": 0.11678832116788321,
+      "grad_norm": 17.875,
       "learning_rate": 2e-06,
+      "loss": 2.6879,
+      "mean_token_accuracy": 0.4140724800527096,
+      "num_tokens": 6825.0,
       "step": 2
     },
     {
+      "entropy": 2.262238770723343,
+      "epoch": 0.17518248175182483,
+      "grad_norm": 14.25,
       "learning_rate": 4e-06,
+      "loss": 2.4973,
+      "mean_token_accuracy": 0.42698577605187893,
+      "num_tokens": 10473.0,
       "step": 3
     },
     {
+      "entropy": 2.1316296458244324,
+      "epoch": 0.23357664233576642,
+      "grad_norm": 10.0,
       "learning_rate": 6e-06,
+      "loss": 2.0863,
+      "mean_token_accuracy": 0.4788516294211149,
+      "num_tokens": 15657.0,
       "step": 4
     },
     {
+      "entropy": 2.3611446991562843,
+      "epoch": 0.291970802919708,
+      "grad_norm": 10.1875,
       "learning_rate": 8e-06,
+      "loss": 2.1751,
+      "mean_token_accuracy": 0.4456866979598999,
+      "num_tokens": 20159.0,
       "step": 5
     },
     {
+      "entropy": 2.460206426680088,
+      "epoch": 0.35036496350364965,
+      "grad_norm": 8.875,
       "learning_rate": 9.999999999999999e-06,
+      "loss": 2.2655,
+      "mean_token_accuracy": 0.4509607646614313,
+      "num_tokens": 23949.0,
       "step": 6
     },
     {
+      "entropy": 2.321817234158516,
+      "epoch": 0.40875912408759124,
+      "grad_norm": 7.125,
       "learning_rate": 1.2e-05,
+      "loss": 2.0123,
+      "mean_token_accuracy": 0.5055391453206539,
+      "num_tokens": 27703.0,
       "step": 7
     },
     {
+      "entropy": 2.2407592684030533,
+      "epoch": 0.46715328467153283,
+      "grad_norm": 5.4375,
       "learning_rate": 1.4e-05,
+      "loss": 1.8516,
+      "mean_token_accuracy": 0.5130146574229002,
+      "num_tokens": 32243.0,
       "step": 8
     },
     {
+      "entropy": 2.46332585811615,
+      "epoch": 0.5255474452554745,
+      "grad_norm": 7.09375,
       "learning_rate": 1.6e-05,
+      "loss": 2.0974,
+      "mean_token_accuracy": 0.5035313870757818,
+      "num_tokens": 35222.0,
       "step": 9
     },
     {
+      "entropy": 2.237804166972637,
+      "epoch": 0.583941605839416,
+      "grad_norm": 5.65625,
       "learning_rate": 1.8e-05,
+      "loss": 1.7838,
+      "mean_token_accuracy": 0.5259560514241457,
+      "num_tokens": 39208.0,
       "step": 10
     },
     {
+      "entropy": 2.352365091443062,
+      "epoch": 0.6423357664233577,
+      "grad_norm": 5.84375,
       "learning_rate": 1.9999999999999998e-05,
+      "loss": 2.0078,
+      "mean_token_accuracy": 0.5078456345945597,
+      "num_tokens": 42447.0,
       "step": 11
     },
     {
+      "entropy": 2.1229992732405663,
+      "epoch": 0.7007299270072993,
+      "grad_norm": 4.5625,
       "learning_rate": 2.2e-05,
+      "loss": 1.7155,
+      "mean_token_accuracy": 0.5374241229146719,
+      "num_tokens": 47138.0,
       "step": 12
     },
     {
+      "entropy": 2.121931955218315,
+      "epoch": 0.7591240875912408,
+      "grad_norm": 4.625,
       "learning_rate": 2.4e-05,
+      "loss": 1.7379,
+      "mean_token_accuracy": 0.5694513749331236,
+      "num_tokens": 51009.0,
       "step": 13
     },
     {
+      "entropy": 2.085137240588665,
+      "epoch": 0.8175182481751825,
+      "grad_norm": 4.25,
       "learning_rate": 2.6000000000000002e-05,
+      "loss": 1.6524,
+      "mean_token_accuracy": 0.5468352809548378,
+      "num_tokens": 55235.0,
       "step": 14
     },
     {
+      "entropy": 2.1976606771349907,
+      "epoch": 0.8759124087591241,
+      "grad_norm": 5.625,
       "learning_rate": 2.8e-05,
+      "loss": 1.8096,
+      "mean_token_accuracy": 0.5231170020997524,
+      "num_tokens": 58219.0,
       "step": 15
     },
     {
+      "entropy": 1.9179195016622543,
+      "epoch": 0.9343065693430657,
+      "grad_norm": 3.84375,
       "learning_rate": 3e-05,
+      "loss": 1.5974,
+      "mean_token_accuracy": 0.5759452320635319,
+      "num_tokens": 63057.0,
       "step": 16
     },
     {
+      "entropy": 2.0428223088383675,
+      "epoch": 0.9927007299270073,
+      "grad_norm": 4.53125,
+      "learning_rate": 2.9986842451482876e-05,
+      "loss": 1.7372,
+      "mean_token_accuracy": 0.5385774970054626,
+      "num_tokens": 66564.0,
       "step": 17
     },
     {
+      "entropy": 1.9300671219825745,
+      "epoch": 1.0,
+      "grad_norm": 12.9375,
+      "learning_rate": 2.9947392888742566e-05,
+      "loss": 1.7476,
+      "mean_token_accuracy": 0.5453733801841736,
+      "num_tokens": 66897.0,
       "step": 18
     },
     {
+      "entropy": 1.935000792145729,
+      "epoch": 1.0583941605839415,
+      "grad_norm": 3.484375,
+      "learning_rate": 2.988172051971717e-05,
+      "loss": 1.4249,
+      "mean_token_accuracy": 0.6101336404681206,
+      "num_tokens": 71403.0,
       "step": 19
     },
     {
+      "entropy": 2.0335680916905403,
+      "epoch": 1.1167883211678833,
+      "grad_norm": 3.84375,
+      "learning_rate": 2.9789940556057574e-05,
+      "loss": 1.5345,
+      "mean_token_accuracy": 0.5629026051610708,
+      "num_tokens": 75484.0,
       "step": 20
     },
     {
+      "entropy": 2.10165449231863,
+      "epoch": 1.1751824817518248,
+      "grad_norm": 4.0625,
+      "learning_rate": 2.9672214011007087e-05,
+      "loss": 1.4949,
+      "mean_token_accuracy": 0.5799959097057581,
+      "num_tokens": 79113.0,
       "step": 21
     },
     {
+      "entropy": 1.992341309785843,
+      "epoch": 1.2335766423357664,
+      "grad_norm": 3.59375,
+      "learning_rate": 2.9528747416929467e-05,
+      "loss": 1.4678,
+      "mean_token_accuracy": 0.5918100215494633,
+      "num_tokens": 83095.0,
       "step": 22
     },
     {
+      "entropy": 1.9140778183937073,
+      "epoch": 1.2919708029197081,
+      "grad_norm": 3.375,
+      "learning_rate": 2.9359792462981007e-05,
+      "loss": 1.4038,
+      "mean_token_accuracy": 0.6022733096033335,
+      "num_tokens": 87754.0,
       "step": 23
     },
     {
+      "entropy": 1.8838416188955307,
+      "epoch": 1.3503649635036497,
+      "grad_norm": 3.8125,
+      "learning_rate": 2.9165645553562215e-05,
+      "loss": 1.4554,
+      "mean_token_accuracy": 0.6133127138018608,
+      "num_tokens": 91666.0,
       "step": 24
     },
     {
+      "entropy": 1.816191054880619,
+      "epoch": 1.4087591240875912,
+      "grad_norm": 3.859375,
+      "learning_rate": 2.894664728832377e-05,
+      "loss": 1.3643,
+      "mean_token_accuracy": 0.6147295907139778,
+      "num_tokens": 95819.0,
       "step": 25
     },
     {
+      "entropy": 1.7681904509663582,
+      "epoch": 1.4671532846715327,
+      "grad_norm": 3.609375,
+      "learning_rate": 2.8703181864639013e-05,
+      "loss": 1.3711,
+      "mean_token_accuracy": 0.6297403201460838,
+      "num_tokens": 99865.0,
       "step": 26
     },
     {
+      "entropy": 1.7096636295318604,
+      "epoch": 1.5255474452554745,
+      "grad_norm": 3.390625,
+      "learning_rate": 2.8435676403591193e-05,
+      "loss": 1.3362,
+      "mean_token_accuracy": 0.6145001202821732,
+      "num_tokens": 104135.0,
       "step": 27
     },
     {
+      "entropy": 1.828701414167881,
+      "epoch": 1.583941605839416,
+      "grad_norm": 4.3125,
+      "learning_rate": 2.8144600200657953e-05,
+      "loss": 1.4266,
+      "mean_token_accuracy": 0.5893764644861221,
+      "num_tokens": 107324.0,
       "step": 28
     },
     {
+      "entropy": 1.8768919259309769,
+      "epoch": 1.6423357664233578,
+      "grad_norm": 4.65625,
+      "learning_rate": 2.78304639024076e-05,
+      "loss": 1.5031,
+      "mean_token_accuracy": 0.5983850117772818,
+      "num_tokens": 110263.0,
       "step": 29
     },
     {
+      "entropy": 1.7338064908981323,
+      "epoch": 1.7007299270072993,
+      "grad_norm": 4.34375,
+      "learning_rate": 2.7493818610651493e-05,
+      "loss": 1.4431,
+      "mean_token_accuracy": 0.5914898477494717,
+      "num_tokens": 113911.0,
       "step": 30
     },
     {
+      "entropy": 1.7540361359715462,
+      "epoch": 1.7591240875912408,
+      "grad_norm": 3.734375,
+      "learning_rate": 2.7135254915624213e-05,
+      "loss": 1.3489,
+      "mean_token_accuracy": 0.6010549142956734,
+      "num_tokens": 118007.0,
       "step": 31
     },
     {
+      "entropy": 1.8890240713953972,
+      "epoch": 1.8175182481751824,
+      "grad_norm": 4.65625,
+      "learning_rate": 2.6755401859887598e-05,
+      "loss": 1.4448,
+      "mean_token_accuracy": 0.6083299573510885,
+      "num_tokens": 120725.0,
       "step": 32
     },
     {
+      "entropy": 1.850830078125,
+      "epoch": 1.8759124087591241,
+      "grad_norm": 4.28125,
+      "learning_rate": 2.6354925834776346e-05,
+      "loss": 1.502,
+      "mean_token_accuracy": 0.6061263754963875,
+      "num_tokens": 124333.0,
       "step": 33
     },
     {
+      "entropy": 1.7397000417113304,
+      "epoch": 1.9343065693430657,
+      "grad_norm": 3.671875,
+      "learning_rate": 2.5934529411321174e-05,
+      "loss": 1.2539,
+      "mean_token_accuracy": 0.6317082159221172,
+      "num_tokens": 128615.0,
       "step": 34
     },
     {
+      "entropy": 1.813131682574749,
+      "epoch": 1.9927007299270074,
+      "grad_norm": 3.5625,
+      "learning_rate": 2.5494950107700482e-05,
+      "loss": 1.3284,
+      "mean_token_accuracy": 0.6140319798141718,
+      "num_tokens": 132847.0,
       "step": 35
     },
     {
+      "entropy": 1.5973615646362305,
+      "epoch": 2.0,
+      "grad_norm": 7.46875,
+      "learning_rate": 2.5036959095382875e-05,
+      "loss": 1.2697,
+      "mean_token_accuracy": 0.6285321712493896,
+      "num_tokens": 133794.0,
       "step": 36
     },
     {
+      "entropy": 1.7645720839500427,
+      "epoch": 2.0583941605839415,
+      "grad_norm": 3.859375,
+      "learning_rate": 2.4561359846230346e-05,
+      "loss": 1.0785,
+      "mean_token_accuracy": 0.6664150357246399,
+      "num_tokens": 137554.0,
       "step": 37
     },
     {
+      "entropy": 1.753688521683216,
+      "epoch": 2.116788321167883,
+      "grad_norm": 3.3125,
+      "learning_rate": 2.4068986722935625e-05,
+      "loss": 1.0716,
+      "mean_token_accuracy": 0.6744864694774151,
+      "num_tokens": 141721.0,
       "step": 38
     },
     {
+      "entropy": 1.6263050064444542,
+      "epoch": 2.1751824817518246,
+      "grad_norm": 4.3125,
+      "learning_rate": 2.356070351526648e-05,
+      "loss": 1.0687,
+      "mean_token_accuracy": 0.6837072521448135,
+      "num_tokens": 146069.0,
       "step": 39
     },
     {
+      "entropy": 1.8026663437485695,
+      "epoch": 2.2335766423357666,
+      "grad_norm": 3.84375,
+      "learning_rate": 2.303740192468495e-05,
+      "loss": 1.1566,
+      "mean_token_accuracy": 0.6734990328550339,
+      "num_tokens": 149664.0,
       "step": 40
     },
     {
+      "entropy": 1.5874073877930641,
+      "epoch": 2.291970802919708,
+      "grad_norm": 3.53125,
+      "learning_rate": 2.25e-05,
+      "loss": 1.0591,
+      "mean_token_accuracy": 0.6754884608089924,
+      "num_tokens": 153330.0,
       "step": 41
     },
     {
+      "entropy": 1.4746350944042206,
+      "epoch": 2.3503649635036497,
+      "grad_norm": 3.453125,
+      "learning_rate": 2.1949440526797928e-05,
+      "loss": 0.9312,
+      "mean_token_accuracy": 0.7215368486940861,
+      "num_tokens": 157396.0,
       "step": 42
     },
     {
+      "entropy": 1.4334233030676842,
+      "epoch": 2.408759124087591,
+      "grad_norm": 6.96875,
+      "learning_rate": 2.138668937347609e-05,
+      "loss": 0.9952,
+      "mean_token_accuracy": 0.7047883793711662,
+      "num_tokens": 162386.0,
       "step": 43
     },
     {
+      "entropy": 1.4815244674682617,
+      "epoch": 2.4671532846715327,
+      "grad_norm": 3.9375,
+      "learning_rate": 2.0812733796781544e-05,
+      "loss": 1.0847,
+      "mean_token_accuracy": 0.680337205529213,
+      "num_tokens": 166308.0,
       "step": 44
     },
     {
+      "entropy": 1.4337811917066574,
+      "epoch": 2.5255474452554747,
+      "grad_norm": 4.21875,
+      "learning_rate": 2.022858070982723e-05,
+      "loss": 1.0594,
+      "mean_token_accuracy": 0.686751551926136,
+      "num_tokens": 169979.0,
       "step": 45
     },
     {
+      "entropy": 1.380111612379551,
+      "epoch": 2.5839416058394162,
+      "grad_norm": 3.984375,
+      "learning_rate": 1.963525491562421e-05,
+      "loss": 0.9718,
+      "mean_token_accuracy": 0.7241853773593903,
+      "num_tokens": 174586.0,
       "step": 46
     },
     {
+      "entropy": 1.339597962796688,
+      "epoch": 2.6423357664233578,
+      "grad_norm": 4.0625,
+      "learning_rate": 1.9033797309228984e-05,
+      "loss": 0.9445,
+      "mean_token_accuracy": 0.7082682773470879,
+      "num_tokens": 178535.0,
       "step": 47
     },
     {
+      "entropy": 1.293665699660778,
+      "epoch": 2.7007299270072993,
+      "grad_norm": 3.765625,
+      "learning_rate": 1.8425263051659838e-05,
+      "loss": 0.9213,
+      "mean_token_accuracy": 0.7238599583506584,
+      "num_tokens": 183350.0,
       "step": 48
     },
     {
+      "entropy": 1.3446906879544258,
+      "epoch": 2.759124087591241,
+      "grad_norm": 4.46875,
+      "learning_rate": 1.781071971878587e-05,
+      "loss": 0.9652,
+      "mean_token_accuracy": 0.6951282061636448,
+      "num_tokens": 187493.0,
       "step": 49
     },
     {
+      "entropy": 1.3415213227272034,
+      "epoch": 2.8175182481751824,
+      "grad_norm": 4.8125,
+      "learning_rate": 1.7191245428436175e-05,
+      "loss": 1.0102,
+      "mean_token_accuracy": 0.7021605856716633,
+      "num_tokens": 190843.0,
       "step": 50
     },
     {
+      "entropy": 1.4499380737543106,
+      "epoch": 2.875912408759124,
+      "grad_norm": 5.71875,
+      "learning_rate": 1.6567926949014805e-05,
+      "loss": 1.0649,
+      "mean_token_accuracy": 0.7037234976887703,
+      "num_tokens": 193518.0,
       "step": 51
     },
     {
+      "entropy": 1.3929353207349777,
+      "epoch": 2.9343065693430654,
+      "grad_norm": 4.75,
+      "learning_rate": 1.5941857792939702e-05,
+      "loss": 1.0284,
+      "mean_token_accuracy": 0.6902767680585384,
+      "num_tokens": 196895.0,
       "step": 52
     },
     {
+      "entropy": 1.4459699764847755,
+      "epoch": 2.9927007299270074,
+      "grad_norm": 4.75,
+      "learning_rate": 1.5314136298250355e-05,
+      "loss": 1.013,
+      "mean_token_accuracy": 0.6965249925851822,
+      "num_tokens": 200296.0,
       "step": 53
     },
     {
+      "entropy": 1.399910032749176,
+      "epoch": 3.0,
+      "grad_norm": 13.0625,
+      "learning_rate": 1.4685863701749648e-05,
+      "loss": 1.0552,
+      "mean_token_accuracy": 0.6890038251876831,
+      "num_tokens": 200691.0,
       "step": 54
     },
     {
+      "entropy": 1.3579635098576546,
+      "epoch": 3.0583941605839415,
+      "grad_norm": 4.28125,
+      "learning_rate": 1.40581422070603e-05,
+      "loss": 0.7865,
+      "mean_token_accuracy": 0.765391580760479,
+      "num_tokens": 204197.0,
       "step": 55
     },
     {
+      "entropy": 1.411361187696457,
+      "epoch": 3.116788321167883,
+      "grad_norm": 4.21875,
+      "learning_rate": 1.3432073050985201e-05,
+      "loss": 0.7665,
+      "mean_token_accuracy": 0.7553833983838558,
+      "num_tokens": 207610.0,
       "step": 56
     },
     {
+      "entropy": 1.3223325684666634,
+      "epoch": 3.1751824817518246,
+      "grad_norm": 3.71875,
+      "learning_rate": 1.2808754571563827e-05,
+      "loss": 0.804,
+      "mean_token_accuracy": 0.7530029378831387,
+      "num_tokens": 211730.0,
       "step": 57
     },
     {
+      "entropy": 1.2704328149557114,
+      "epoch": 3.2335766423357666,
+      "grad_norm": 3.46875,
+      "learning_rate": 1.2189280281214128e-05,
+      "loss": 0.7542,
+      "mean_token_accuracy": 0.775670263916254,
+      "num_tokens": 216415.0,
       "step": 58
     },
     {
+      "entropy": 1.3555709198117256,
+      "epoch": 3.291970802919708,
+      "grad_norm": 3.9375,
+      "learning_rate": 1.1574736948340163e-05,
+      "loss": 0.7992,
+      "mean_token_accuracy": 0.7488890923559666,
+      "num_tokens": 219953.0,
       "step": 59
     },
     {
+      "entropy": 1.2632866501808167,
+      "epoch": 3.3503649635036497,
+      "grad_norm": 3.578125,
+      "learning_rate": 1.0966202690771015e-05,
+      "loss": 0.75,
+      "mean_token_accuracy": 0.7654453739523888,
+      "num_tokens": 224335.0,
       "step": 60
     },
     {
+      "entropy": 1.2773741334676743,
+      "epoch": 3.408759124087591,
+      "grad_norm": 4.125,
+      "learning_rate": 1.036474508437579e-05,
+      "loss": 0.8394,
+      "mean_token_accuracy": 0.7538279145956039,
+      "num_tokens": 228300.0,
       "step": 61
     },
     {
+      "entropy": 1.2203935906291008,
+      "epoch": 3.4671532846715327,
+      "grad_norm": 4.3125,
+      "learning_rate": 9.771419290172776e-06,
+      "loss": 0.7866,
+      "mean_token_accuracy": 0.7759390734136105,
+      "num_tokens": 231820.0,
       "step": 62
     },
     {
+      "entropy": 1.2281916178762913,
+      "epoch": 3.5255474452554747,
+      "grad_norm": 4.5,
+      "learning_rate": 9.187266203218457e-06,
+      "loss": 0.7456,
+      "mean_token_accuracy": 0.7896540127694607,
+      "num_tokens": 235502.0,
       "step": 63
     },
     {
+      "entropy": 1.1479723155498505,
+      "epoch": 3.5839416058394162,
+      "grad_norm": 3.84375,
+      "learning_rate": 8.61331062652391e-06,
+      "loss": 0.6779,
+      "mean_token_accuracy": 0.7954859808087349,
+      "num_tokens": 239847.0,
       "step": 64
     },
     {
+      "entropy": 1.227071214467287,
+      "epoch": 3.6423357664233578,
+      "grad_norm": 4.78125,
+      "learning_rate": 8.050559473202078e-06,
+      "loss": 0.7642,
+      "mean_token_accuracy": 0.7581925354897976,
+      "num_tokens": 243356.0,
       "step": 65
     },
     {
+      "entropy": 1.131257489323616,
+      "epoch": 3.7007299270072993,
+      "grad_norm": 3.5625,
+      "learning_rate": 7.500000000000004e-06,
+      "loss": 0.7819,
+      "mean_token_accuracy": 0.7654204778373241,
+      "num_tokens": 249682.0,
       "step": 66
     },
     {
+      "entropy": 1.16723557934165,
+      "epoch": 3.759124087591241,
+      "grad_norm": 4.5,
+      "learning_rate": 6.962598075315047e-06,
+      "loss": 0.6689,
+      "mean_token_accuracy": 0.783266007900238,
+      "num_tokens": 253238.0,
       "step": 67
     },
     {
+      "entropy": 1.2070689871907234,
+      "epoch": 3.8175182481751824,
+      "grad_norm": 5.1875,
+      "learning_rate": 6.439296484733526e-06,
+      "loss": 0.7421,
+      "mean_token_accuracy": 0.7796755991876125,
+      "num_tokens": 256423.0,
       "step": 68
     },
     {
+      "entropy": 1.1488405130803585,
+      "epoch": 3.875912408759124,
+      "grad_norm": 5.34375,
+      "learning_rate": 5.931013277064377e-06,
+      "loss": 0.7267,
+      "mean_token_accuracy": 0.7691169492900372,
+      "num_tokens": 259934.0,
       "step": 69
     },
     {
+      "entropy": 1.130510926246643,
+      "epoch": 3.9343065693430654,
+      "grad_norm": 5.25,
+      "learning_rate": 5.438640153769654e-06,
+      "loss": 0.7209,
+      "mean_token_accuracy": 0.7871466726064682,
+      "num_tokens": 263187.0,
       "step": 70
     },
     {
+      "entropy": 1.1477855034172535,
+      "epoch": 3.9927007299270074,
+      "grad_norm": 4.75,
+      "learning_rate": 4.963040904617131e-06,
+      "loss": 0.7762,
+      "mean_token_accuracy": 0.7656804099678993,
+      "num_tokens": 267097.0,
       "step": 71
     },
     {
+      "entropy": 1.09878408908844,
+      "epoch": 4.0,
+      "grad_norm": 12.875,
+      "learning_rate": 4.505049892299517e-06,
+      "loss": 0.7072,
+      "mean_token_accuracy": 0.7617444694042206,
+      "num_tokens": 267588.0,
       "step": 72
     },
     {
+      "entropy": 1.0318926461040974,
+      "epoch": 4.0583941605839415,
+      "grad_norm": 4.28125,
+      "learning_rate": 4.06547058867883e-06,
+      "loss": 0.5992,
+      "mean_token_accuracy": 0.8166146464645863,
+      "num_tokens": 271589.0,
       "step": 73
     },
     {
+      "entropy": 1.1504660807549953,
+      "epoch": 4.116788321167883,
+      "grad_norm": 4.78125,
+      "learning_rate": 3.645074165223656e-06,
+      "loss": 0.606,
+      "mean_token_accuracy": 0.8282722532749176,
+      "num_tokens": 274468.0,
       "step": 74
     },
     {
+      "entropy": 1.1046061255037785,
+      "epoch": 4.175182481751825,
+      "grad_norm": 3.671875,
+      "learning_rate": 3.244598140112404e-06,
+      "loss": 0.6325,
+      "mean_token_accuracy": 0.8047133162617683,
+      "num_tokens": 278830.0,
       "step": 75
     }
   ],
   "logging_steps": 1,
+  "max_steps": 90,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
   "save_steps": 5,
   "stateful_callbacks": {
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 7471994807169024.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:219c136550741cd19a46976f6919256d0586a1eb4e41646e6baa81475a2cc056
 size 6353

 version https://git-lfs.github.com/spec/v1
+oid sha256:4299c868efdf07b9f67c43aca6993615cee8602c1155c2c9e52cf027fcd29126
 size 6353