Upload folder using huggingface_hub

Browse files

Files changed (4) hide show

adapter_model.safetensors +1 -1
optimizer.pt +1 -1
trainer_state.json +362 -362
training_args.bin +1 -1

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3c6fe0fc0a353acf52d13e5f2926d7ca2a170a6650f4c15060954cca6f1d4bef
 size 161515608

 version https://git-lfs.github.com/spec/v1
+oid sha256:602f53d6959b4f46f004a4ecc196bb614c0a51b5eba000ca3d35f316695a8894
 size 161515608

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3cac0002e7c7b8c2855bd74f0f11746b0f2de66ac0a81a0709e1713f3ce142e2
 size 323181259

 version https://git-lfs.github.com/spec/v1
+oid sha256:a57114afad149c40d4f4fb59f0ff7a6cb5b55a70484d2f07b47fb05964b101fa
 size 323181259

trainer_state.json CHANGED Viewed

@@ -12,7 +12,7 @@
     {
       "entropy": 2.2323372662067413,
       "epoch": 0.03065134099616858,
-      "grad_norm": 24.0,
       "learning_rate": 0.0,
       "loss": 2.7706,
       "mean_token_accuracy": 0.41634324193000793,
@@ -22,7 +22,7 @@
     {
       "entropy": 2.174584299325943,
       "epoch": 0.06130268199233716,
-      "grad_norm": 16.125,
       "learning_rate": 2e-06,
       "loss": 2.4332,
       "mean_token_accuracy": 0.41893551871180534,
@@ -30,932 +30,932 @@
       "step": 2
     },
     {
-      "entropy": 2.026469185948372,
       "epoch": 0.09195402298850575,
-      "grad_norm": 14.0625,
       "learning_rate": 4e-06,
-      "loss": 2.335,
-      "mean_token_accuracy": 0.4408150501549244,
       "num_tokens": 5582.0,
       "step": 3
     },
     {
-      "entropy": 2.294757843017578,
       "epoch": 0.12260536398467432,
-      "grad_norm": 17.625,
       "learning_rate": 6e-06,
-      "loss": 2.458,
-      "mean_token_accuracy": 0.43590471893548965,
       "num_tokens": 7064.0,
       "step": 4
     },
     {
-      "entropy": 2.3134160190820694,
       "epoch": 0.1532567049808429,
-      "grad_norm": 11.9375,
       "learning_rate": 8e-06,
-      "loss": 2.1904,
-      "mean_token_accuracy": 0.43868962302803993,
       "num_tokens": 9091.0,
       "step": 5
     },
     {
-      "entropy": 2.4343303740024567,
       "epoch": 0.1839080459770115,
-      "grad_norm": 12.9375,
       "learning_rate": 9.999999999999999e-06,
-      "loss": 2.3987,
-      "mean_token_accuracy": 0.47084228694438934,
       "num_tokens": 10556.0,
       "step": 6
     },
     {
-      "entropy": 2.4412740767002106,
       "epoch": 0.21455938697318008,
-      "grad_norm": 10.6875,
       "learning_rate": 1.2e-05,
-      "loss": 2.2487,
-      "mean_token_accuracy": 0.472238015383482,
       "num_tokens": 12215.0,
       "step": 7
     },
     {
-      "entropy": 2.3576506674289703,
       "epoch": 0.24521072796934865,
-      "grad_norm": 9.0625,
       "learning_rate": 1.4e-05,
-      "loss": 2.0025,
-      "mean_token_accuracy": 0.5058155283331871,
       "num_tokens": 13939.0,
       "step": 8
     },
     {
-      "entropy": 2.3528400361537933,
       "epoch": 0.27586206896551724,
-      "grad_norm": 7.46875,
       "learning_rate": 1.6e-05,
-      "loss": 1.885,
-      "mean_token_accuracy": 0.4919443018734455,
       "num_tokens": 15986.0,
       "step": 9
     },
     {
-      "entropy": 2.331418916583061,
       "epoch": 0.3065134099616858,
-      "grad_norm": 7.15625,
       "learning_rate": 1.8e-05,
-      "loss": 1.8574,
-      "mean_token_accuracy": 0.5213944055140018,
       "num_tokens": 18444.0,
       "step": 10
     },
     {
-      "entropy": 2.081568643450737,
       "epoch": 0.3371647509578544,
       "grad_norm": 5.4375,
       "learning_rate": 1.9999999999999998e-05,
-      "loss": 1.6607,
-      "mean_token_accuracy": 0.5659460052847862,
       "num_tokens": 21127.0,
       "step": 11
     },
     {
-      "entropy": 2.297955021262169,
       "epoch": 0.367816091954023,
-      "grad_norm": 6.59375,
       "learning_rate": 2.2e-05,
-      "loss": 1.8978,
-      "mean_token_accuracy": 0.5127614960074425,
       "num_tokens": 23308.0,
       "step": 12
     },
     {
-      "entropy": 2.2664552181959152,
       "epoch": 0.39846743295019155,
-      "grad_norm": 6.8125,
       "learning_rate": 2.4e-05,
-      "loss": 1.9761,
-      "mean_token_accuracy": 0.5233316533267498,
       "num_tokens": 25072.0,
       "step": 13
     },
     {
-      "entropy": 2.312450557947159,
       "epoch": 0.42911877394636017,
-      "grad_norm": 7.65625,
       "learning_rate": 2.6000000000000002e-05,
-      "loss": 1.9805,
-      "mean_token_accuracy": 0.5128904804587364,
       "num_tokens": 26450.0,
       "step": 14
     },
     {
-      "entropy": 2.2872647643089294,
       "epoch": 0.45977011494252873,
-      "grad_norm": 6.90625,
       "learning_rate": 2.8e-05,
-      "loss": 1.7994,
-      "mean_token_accuracy": 0.527646865695715,
       "num_tokens": 27912.0,
       "step": 15
     },
     {
-      "entropy": 2.1604571640491486,
       "epoch": 0.4904214559386973,
       "grad_norm": 6.53125,
       "learning_rate": 3e-05,
-      "loss": 1.6737,
-      "mean_token_accuracy": 0.5715724155306816,
       "num_tokens": 29392.0,
       "step": 16
     },
     {
-      "entropy": 2.0225837230682373,
       "epoch": 0.5210727969348659,
       "grad_norm": 4.96875,
       "learning_rate": 2.998951057182598e-05,
-      "loss": 1.4747,
-      "mean_token_accuracy": 0.5897958800196648,
       "num_tokens": 31417.0,
       "step": 17
     },
     {
-      "entropy": 2.0494654029607773,
       "epoch": 0.5517241379310345,
-      "grad_norm": 6.1875,
       "learning_rate": 2.99580569577177e-05,
-      "loss": 1.7777,
-      "mean_token_accuracy": 0.5307912044227123,
       "num_tokens": 33727.0,
       "step": 18
     },
     {
-      "entropy": 1.9438972026109695,
       "epoch": 0.5823754789272031,
-      "grad_norm": 5.90625,
       "learning_rate": 2.9905683148398642e-05,
-      "loss": 1.5959,
-      "mean_token_accuracy": 0.5674299821257591,
       "num_tokens": 35836.0,
       "step": 19
     },
     {
-      "entropy": 2.017078399658203,
       "epoch": 0.6130268199233716,
-      "grad_norm": 7.375,
       "learning_rate": 2.9832462393376926e-05,
-      "loss": 1.7129,
-      "mean_token_accuracy": 0.5537029281258583,
       "num_tokens": 37639.0,
       "step": 20
     },
     {
-      "entropy": 2.1857858449220657,
       "epoch": 0.6436781609195402,
-      "grad_norm": 5.71875,
       "learning_rate": 2.9738497098499325e-05,
-      "loss": 1.7807,
-      "mean_token_accuracy": 0.5209250301122665,
       "num_tokens": 39351.0,
       "step": 21
     },
     {
-      "entropy": 1.9829543828964233,
       "epoch": 0.6743295019157088,
-      "grad_norm": 6.125,
       "learning_rate": 2.9623918682727355e-05,
-      "loss": 1.5466,
-      "mean_token_accuracy": 0.5822870768606663,
       "num_tokens": 41024.0,
       "step": 22
     },
     {
-      "entropy": 2.069172888994217,
       "epoch": 0.7049808429118773,
-      "grad_norm": 6.34375,
       "learning_rate": 2.9488887394336025e-05,
-      "loss": 1.7818,
-      "mean_token_accuracy": 0.553209200501442,
       "num_tokens": 42624.0,
       "step": 23
     },
     {
-      "entropy": 2.179490625858307,
       "epoch": 0.735632183908046,
       "grad_norm": 7.78125,
       "learning_rate": 2.9333592086792113e-05,
-      "loss": 1.9207,
-      "mean_token_accuracy": 0.5399925448000431,
       "num_tokens": 43836.0,
       "step": 24
     },
     {
-      "entropy": 2.051348105072975,
       "epoch": 0.7662835249042146,
-      "grad_norm": 5.1875,
       "learning_rate": 2.9158249954625514e-05,
-      "loss": 1.7447,
-      "mean_token_accuracy": 0.5221298187971115,
       "num_tokens": 45870.0,
       "step": 25
     },
     {
-      "entropy": 2.050755023956299,
       "epoch": 0.7969348659003831,
       "grad_norm": 5.40625,
       "learning_rate": 2.8963106229663064e-05,
-      "loss": 1.6868,
-      "mean_token_accuracy": 0.563789501786232,
       "num_tokens": 47664.0,
       "step": 26
     },
     {
-      "entropy": 2.0225460678339005,
       "epoch": 0.8275862068965517,
-      "grad_norm": 6.15625,
       "learning_rate": 2.8748433838049642e-05,
-      "loss": 1.6656,
-      "mean_token_accuracy": 0.5637699663639069,
       "num_tokens": 49646.0,
       "step": 27
     },
     {
-      "entropy": 2.0079710334539413,
       "epoch": 0.8582375478927203,
       "grad_norm": 5.28125,
       "learning_rate": 2.8514533018536286e-05,
-      "loss": 1.5144,
-      "mean_token_accuracy": 0.5907510407269001,
       "num_tokens": 51235.0,
       "step": 28
     },
     {
-      "entropy": 2.0421831011772156,
       "epoch": 0.8888888888888888,
-      "grad_norm": 5.625,
       "learning_rate": 2.8261730902569146e-05,
-      "loss": 1.6633,
-      "mean_token_accuracy": 0.5682153329253197,
       "num_tokens": 53037.0,
       "step": 29
     },
     {
-      "entropy": 2.089518904685974,
       "epoch": 0.9195402298850575,
       "grad_norm": 5.0625,
       "learning_rate": 2.7990381056766583e-05,
-      "loss": 1.6961,
-      "mean_token_accuracy": 0.5529678054153919,
       "num_tokens": 54826.0,
       "step": 30
     },
     {
-      "entropy": 2.1116303354501724,
       "epoch": 0.9501915708812261,
-      "grad_norm": 5.09375,
       "learning_rate": 2.770086298842426e-05,
-      "loss": 1.652,
-      "mean_token_accuracy": 0.5529469661414623,
       "num_tokens": 56737.0,
       "step": 31
     },
     {
-      "entropy": 2.109420418739319,
       "epoch": 0.9808429118773946,
-      "grad_norm": 6.15625,
       "learning_rate": 2.7393581614739924e-05,
-      "loss": 1.694,
-      "mean_token_accuracy": 0.5546637140214443,
       "num_tokens": 58084.0,
       "step": 32
     },
     {
-      "entropy": 1.8913073062896728,
       "epoch": 1.0,
-      "grad_norm": 7.28125,
       "learning_rate": 2.7068966696500025e-05,
-      "loss": 1.6355,
-      "mean_token_accuracy": 0.5572340369224549,
       "num_tokens": 59142.0,
       "step": 33
     },
     {
-      "entropy": 1.8269917368888855,
       "epoch": 1.0306513409961686,
-      "grad_norm": 4.625,
       "learning_rate": 2.672747223702045e-05,
-      "loss": 1.2993,
-      "mean_token_accuracy": 0.6277801990509033,
       "num_tokens": 60897.0,
       "step": 34
     },
     {
-      "entropy": 1.9859961122274399,
       "epoch": 1.0613026819923372,
-      "grad_norm": 5.625,
       "learning_rate": 2.6369575847181795e-05,
-      "loss": 1.5442,
-      "mean_token_accuracy": 0.6044492051005363,
       "num_tokens": 62325.0,
       "step": 35
     },
     {
-      "entropy": 1.8101668655872345,
       "epoch": 1.0919540229885056,
-      "grad_norm": 4.625,
       "learning_rate": 2.5995778077447393e-05,
-      "loss": 1.2377,
-      "mean_token_accuracy": 0.6392937749624252,
       "num_tokens": 64163.0,
       "step": 36
     },
     {
-      "entropy": 1.7033060044050217,
       "epoch": 1.1226053639846743,
-      "grad_norm": 4.46875,
       "learning_rate": 2.5606601717798212e-05,
-      "loss": 1.2791,
-      "mean_token_accuracy": 0.6602629125118256,
       "num_tokens": 66168.0,
       "step": 37
     },
     {
-      "entropy": 1.7478309273719788,
       "epoch": 1.1532567049808429,
-      "grad_norm": 4.40625,
       "learning_rate": 2.520259106656379e-05,
-      "loss": 1.2589,
-      "mean_token_accuracy": 0.6367502361536026,
       "num_tokens": 68398.0,
       "step": 38
     },
     {
-      "entropy": 1.7075601518154144,
       "epoch": 1.1839080459770115,
       "grad_norm": 4.78125,
       "learning_rate": 2.4784311169171818e-05,
-      "loss": 1.2696,
-      "mean_token_accuracy": 0.619562640786171,
       "num_tokens": 70548.0,
       "step": 39
     },
     {
-      "entropy": 1.6914921998977661,
       "epoch": 1.21455938697318,
-      "grad_norm": 5.125,
       "learning_rate": 2.4352347027881003e-05,
-      "loss": 1.2324,
-      "mean_token_accuracy": 0.6510230824351311,
       "num_tokens": 72463.0,
       "step": 40
     },
     {
-      "entropy": 1.5418914556503296,
       "epoch": 1.2452107279693487,
-      "grad_norm": 5.71875,
       "learning_rate": 2.3907302783602522e-05,
-      "loss": 1.1592,
-      "mean_token_accuracy": 0.6608721315860748,
       "num_tokens": 74061.0,
       "step": 41
     },
     {
-      "entropy": 1.585049256682396,
       "epoch": 1.2758620689655173,
-      "grad_norm": 4.8125,
       "learning_rate": 2.344980087095433e-05,
-      "loss": 1.2178,
-      "mean_token_accuracy": 0.6534182205796242,
       "num_tokens": 76130.0,
       "step": 42
     },
     {
-      "entropy": 1.5578415244817734,
       "epoch": 1.3065134099616857,
-      "grad_norm": 5.40625,
       "learning_rate": 2.298048114773005e-05,
-      "loss": 1.2307,
-      "mean_token_accuracy": 0.6517133414745331,
       "num_tokens": 77912.0,
       "step": 43
     },
     {
-      "entropy": 1.4642669260501862,
       "epoch": 1.3371647509578544,
-      "grad_norm": 5.28125,
       "learning_rate": 2.25e-05,
-      "loss": 1.1424,
-      "mean_token_accuracy": 0.6686440855264664,
       "num_tokens": 79873.0,
       "step": 44
     },
     {
-      "entropy": 1.5738479793071747,
       "epoch": 1.367816091954023,
-      "grad_norm": 5.25,
       "learning_rate": 2.200902942409593e-05,
-      "loss": 1.1464,
-      "mean_token_accuracy": 0.6602782011032104,
       "num_tokens": 81708.0,
       "step": 45
     },
     {
-      "entropy": 1.5143821835517883,
       "epoch": 1.3984674329501916,
-      "grad_norm": 6.03125,
       "learning_rate": 2.1508256086763372e-05,
-      "loss": 1.2378,
-      "mean_token_accuracy": 0.6555924639105797,
       "num_tokens": 83479.0,
       "step": 46
     },
     {
-      "entropy": 1.4974510818719864,
       "epoch": 1.4291187739463602,
-      "grad_norm": 6.21875,
       "learning_rate": 2.0998380364796112e-05,
-      "loss": 1.2925,
-      "mean_token_accuracy": 0.6449481919407845,
       "num_tokens": 85091.0,
       "step": 47
     },
     {
-      "entropy": 1.546600267291069,
       "epoch": 1.4597701149425286,
-      "grad_norm": 5.125,
       "learning_rate": 2.0480115365495928e-05,
-      "loss": 1.1719,
-      "mean_token_accuracy": 0.6519531160593033,
       "num_tokens": 87067.0,
       "step": 48
     },
     {
-      "entropy": 1.4868987947702408,
       "epoch": 1.4904214559386972,
-      "grad_norm": 4.625,
       "learning_rate": 1.995418592932751e-05,
-      "loss": 1.0959,
-      "mean_token_accuracy": 0.6849717572331429,
       "num_tokens": 89257.0,
       "step": 49
     },
     {
-      "entropy": 1.5329422056674957,
       "epoch": 1.5210727969348659,
-      "grad_norm": 5.625,
       "learning_rate": 1.9421327616163564e-05,
-      "loss": 1.2158,
-      "mean_token_accuracy": 0.6467685103416443,
       "num_tokens": 91129.0,
       "step": 50
     },
     {
-      "entropy": 1.5554772466421127,
       "epoch": 1.5517241379310345,
-      "grad_norm": 5.15625,
       "learning_rate": 1.888228567653781e-05,
-      "loss": 1.1291,
-      "mean_token_accuracy": 0.6766190454363823,
       "num_tokens": 93217.0,
       "step": 51
     },
     {
-      "entropy": 1.5629148334264755,
       "epoch": 1.582375478927203,
-      "grad_norm": 5.71875,
       "learning_rate": 1.8337814009344716e-05,
-      "loss": 1.1132,
-      "mean_token_accuracy": 0.6620798110961914,
       "num_tokens": 94882.0,
       "step": 52
     },
     {
-      "entropy": 1.6230137348175049,
       "epoch": 1.6130268199233715,
-      "grad_norm": 6.46875,
       "learning_rate": 1.778867410744372e-05,
-      "loss": 1.1935,
-      "mean_token_accuracy": 0.6662464067339897,
       "num_tokens": 96226.0,
       "step": 53
     },
     {
-      "entropy": 1.5616475045681,
       "epoch": 1.6436781609195403,
-      "grad_norm": 5.78125,
       "learning_rate": 1.7235633992642615e-05,
-      "loss": 1.1494,
-      "mean_token_accuracy": 0.6327598392963409,
       "num_tokens": 98064.0,
       "step": 54
     },
     {
-      "entropy": 1.6592390835285187,
       "epoch": 1.6743295019157087,
-      "grad_norm": 5.25,
       "learning_rate": 1.667946714154962e-05,
-      "loss": 1.2152,
-      "mean_token_accuracy": 0.6306749582290649,
       "num_tokens": 99875.0,
       "step": 55
     },
     {
-      "entropy": 1.454154759645462,
       "epoch": 1.7049808429118773,
-      "grad_norm": 4.65625,
       "learning_rate": 1.6120951403796367e-05,
-      "loss": 1.1444,
-      "mean_token_accuracy": 0.653047151863575,
       "num_tokens": 102303.0,
       "step": 56
     },
     {
-      "entropy": 1.556449756026268,
       "epoch": 1.735632183908046,
-      "grad_norm": 5.96875,
       "learning_rate": 1.5560867914144887e-05,
-      "loss": 1.1629,
-      "mean_token_accuracy": 0.6586132422089577,
       "num_tokens": 103806.0,
       "step": 57
     },
     {
-      "entropy": 1.625523403286934,
       "epoch": 1.7662835249042146,
-      "grad_norm": 7.09375,
       "learning_rate": 1.5e-05,
-      "loss": 1.2231,
-      "mean_token_accuracy": 0.6647503152489662,
       "num_tokens": 105012.0,
       "step": 58
     },
     {
-      "entropy": 1.6887281984090805,
       "epoch": 1.7969348659003832,
-      "grad_norm": 6.40625,
       "learning_rate": 1.4439132085855117e-05,
-      "loss": 1.2619,
-      "mean_token_accuracy": 0.6570713892579079,
       "num_tokens": 106373.0,
       "step": 59
     },
     {
-      "entropy": 1.637197270989418,
       "epoch": 1.8275862068965516,
-      "grad_norm": 5.84375,
       "learning_rate": 1.3879048596203637e-05,
-      "loss": 1.1806,
-      "mean_token_accuracy": 0.6695754155516624,
       "num_tokens": 107938.0,
       "step": 60
     },
     {
-      "entropy": 1.5931589007377625,
       "epoch": 1.8582375478927204,
-      "grad_norm": 6.0,
       "learning_rate": 1.3320532858450382e-05,
-      "loss": 1.1908,
-      "mean_token_accuracy": 0.6473727226257324,
       "num_tokens": 109587.0,
       "step": 61
     },
     {
-      "entropy": 1.6761258989572525,
       "epoch": 1.8888888888888888,
-      "grad_norm": 6.59375,
       "learning_rate": 1.2764366007357382e-05,
-      "loss": 1.4479,
-      "mean_token_accuracy": 0.6152776852250099,
       "num_tokens": 111253.0,
       "step": 62
     },
     {
-      "entropy": 1.6198187619447708,
       "epoch": 1.9195402298850575,
-      "grad_norm": 6.09375,
       "learning_rate": 1.2211325892556282e-05,
-      "loss": 1.2462,
-      "mean_token_accuracy": 0.6710881665349007,
       "num_tokens": 112833.0,
       "step": 63
     },
     {
-      "entropy": 1.5342242866754532,
       "epoch": 1.950191570881226,
-      "grad_norm": 5.75,
       "learning_rate": 1.1662185990655285e-05,
-      "loss": 1.2428,
-      "mean_token_accuracy": 0.6555797532200813,
       "num_tokens": 114573.0,
       "step": 64
     },
     {
-      "entropy": 1.5250054597854614,
       "epoch": 1.9808429118773945,
-      "grad_norm": 4.90625,
       "learning_rate": 1.1117714323462188e-05,
-      "loss": 1.1106,
-      "mean_token_accuracy": 0.6406564339995384,
       "num_tokens": 116981.0,
       "step": 65
     },
     {
-      "entropy": 1.5915982723236084,
       "epoch": 2.0,
-      "grad_norm": 9.25,
       "learning_rate": 1.0578672383836437e-05,
-      "loss": 1.3903,
-      "mean_token_accuracy": 0.6222738027572632,
       "num_tokens": 118284.0,
       "step": 66
     },
     {
-      "entropy": 1.6206194460391998,
       "epoch": 2.0306513409961684,
-      "grad_norm": 5.8125,
       "learning_rate": 1.0045814070672498e-05,
-      "loss": 0.9269,
-      "mean_token_accuracy": 0.7339452728629112,
       "num_tokens": 119663.0,
       "step": 67
     },
     {
-      "entropy": 1.520051747560501,
       "epoch": 2.0613026819923372,
-      "grad_norm": 4.625,
       "learning_rate": 9.519884634504074e-06,
-      "loss": 0.8334,
-      "mean_token_accuracy": 0.7491423934698105,
       "num_tokens": 121476.0,
       "step": 68
     },
     {
-      "entropy": 1.5426668524742126,
       "epoch": 2.0919540229885056,
-      "grad_norm": 4.25,
       "learning_rate": 9.001619635203889e-06,
-      "loss": 0.8431,
-      "mean_token_accuracy": 0.7333525344729424,
       "num_tokens": 123792.0,
       "step": 69
     },
     {
-      "entropy": 1.5813151746988297,
       "epoch": 2.1226053639846745,
       "grad_norm": 5.25,
       "learning_rate": 8.491743913236629e-06,
-      "loss": 0.8621,
-      "mean_token_accuracy": 0.7509580850601196,
       "num_tokens": 125329.0,
       "step": 70
     },
     {
-      "entropy": 1.5605921745300293,
       "epoch": 2.153256704980843,
       "grad_norm": 5.5,
       "learning_rate": 7.99097057590407e-06,
-      "loss": 0.825,
-      "mean_token_accuracy": 0.7649728059768677,
       "num_tokens": 126654.0,
       "step": 71
     },
     {
-      "entropy": 1.404028445482254,
       "epoch": 2.1839080459770113,
-      "grad_norm": 4.65625,
       "learning_rate": 7.500000000000004e-06,
-      "loss": 0.8113,
-      "mean_token_accuracy": 0.7664826065301895,
       "num_tokens": 128629.0,
       "step": 72
     },
     {
-      "entropy": 1.4577097594738007,
       "epoch": 2.21455938697318,
-      "grad_norm": 5.53125,
       "learning_rate": 7.019518852269953e-06,
-      "loss": 1.0503,
-      "mean_token_accuracy": 0.7050014063715935,
       "num_tokens": 130344.0,
       "step": 73
     },
     {
-      "entropy": 1.4058507531881332,
       "epoch": 2.2452107279693485,
-      "grad_norm": 5.03125,
       "learning_rate": 6.55019912904567e-06,
-      "loss": 0.8932,
-      "mean_token_accuracy": 0.7476209998130798,
       "num_tokens": 132152.0,
       "step": 74
     },
     {
-      "entropy": 1.4188005179166794,
       "epoch": 2.2758620689655173,
-      "grad_norm": 4.5625,
       "learning_rate": 6.092697216397478e-06,
-      "loss": 0.8157,
-      "mean_token_accuracy": 0.7511886954307556,
       "num_tokens": 134144.0,
       "step": 75
     },
     {
-      "entropy": 1.332677274942398,
       "epoch": 2.3065134099616857,
-      "grad_norm": 4.34375,
       "learning_rate": 5.647652972118998e-06,
-      "loss": 0.9148,
-      "mean_token_accuracy": 0.7313786372542381,
       "num_tokens": 136715.0,
       "step": 76
     },
     {
-      "entropy": 1.3922066241502762,
       "epoch": 2.3371647509578546,
-      "grad_norm": 4.625,
       "learning_rate": 5.2156888308281875e-06,
-      "loss": 0.8858,
-      "mean_token_accuracy": 0.7430698126554489,
       "num_tokens": 138907.0,
       "step": 77
     },
     {
-      "entropy": 1.3953599333763123,
       "epoch": 2.367816091954023,
-      "grad_norm": 5.0625,
       "learning_rate": 4.797408933436207e-06,
-      "loss": 0.812,
-      "mean_token_accuracy": 0.7497159391641617,
       "num_tokens": 140536.0,
       "step": 78
     },
     {
-      "entropy": 1.3784821927547455,
       "epoch": 2.3984674329501914,
-      "grad_norm": 5.6875,
       "learning_rate": 4.393398282201788e-06,
-      "loss": 0.9021,
-      "mean_token_accuracy": 0.7352318316698074,
       "num_tokens": 142205.0,
       "step": 79
     },
     {
-      "entropy": 1.3571110516786575,
       "epoch": 2.42911877394636,
-      "grad_norm": 5.46875,
       "learning_rate": 4.004221922552608e-06,
-      "loss": 0.8427,
-      "mean_token_accuracy": 0.7509503439068794,
       "num_tokens": 143937.0,
       "step": 80
     },
     {
-      "entropy": 1.342074140906334,
       "epoch": 2.4597701149425286,
-      "grad_norm": 5.125,
       "learning_rate": 3.630424152818203e-06,
-      "loss": 0.8727,
-      "mean_token_accuracy": 0.7591300755739212,
       "num_tokens": 145867.0,
       "step": 81
     },
     {
-      "entropy": 1.3443543463945389,
       "epoch": 2.4904214559386975,
-      "grad_norm": 5.6875,
       "learning_rate": 3.272527762979553e-06,
-      "loss": 0.92,
-      "mean_token_accuracy": 0.7423544898629189,
       "num_tokens": 147522.0,
       "step": 82
     },
     {
-      "entropy": 1.4216418862342834,
       "epoch": 2.521072796934866,
       "grad_norm": 6.0625,
       "learning_rate": 2.931033303499975e-06,
-      "loss": 0.946,
-      "mean_token_accuracy": 0.7276971638202667,
       "num_tokens": 149154.0,
       "step": 83
     },
     {
-      "entropy": 1.2710229381918907,
       "epoch": 2.5517241379310347,
-      "grad_norm": 4.84375,
       "learning_rate": 2.60641838526008e-06,
-      "loss": 0.868,
-      "mean_token_accuracy": 0.7580988109111786,
       "num_tokens": 151443.0,
       "step": 84
     },
     {
-      "entropy": 1.3590690642595291,
       "epoch": 2.582375478927203,
       "grad_norm": 5.21875,
       "learning_rate": 2.2991370115757383e-06,
-      "loss": 0.8524,
-      "mean_token_accuracy": 0.7542793154716492,
       "num_tokens": 153346.0,
       "step": 85
     },
     {
-      "entropy": 1.3945435881614685,
       "epoch": 2.6130268199233715,
-      "grad_norm": 7.4375,
       "learning_rate": 2.0096189432334194e-06,
-      "loss": 0.8715,
-      "mean_token_accuracy": 0.7236102521419525,
       "num_tokens": 155041.0,
       "step": 86
     },
     {
-      "entropy": 1.2569653242826462,
       "epoch": 2.6436781609195403,
-      "grad_norm": 5.71875,
       "learning_rate": 1.7382690974308551e-06,
-      "loss": 0.7554,
-      "mean_token_accuracy": 0.7710509598255157,
       "num_tokens": 156508.0,
       "step": 87
     },
     {
-      "entropy": 1.3096674382686615,
       "epoch": 2.6743295019157087,
-      "grad_norm": 5.1875,
       "learning_rate": 1.4854669814637145e-06,
-      "loss": 0.8363,
-      "mean_token_accuracy": 0.7428526133298874,
       "num_tokens": 158506.0,
       "step": 88
     },
     {
-      "entropy": 1.3830756843090057,
       "epoch": 2.704980842911877,
-      "grad_norm": 5.0,
       "learning_rate": 1.2515661619503572e-06,
-      "loss": 0.8451,
-      "mean_token_accuracy": 0.7292191162705421,
       "num_tokens": 160511.0,
       "step": 89
     },
     {
-      "entropy": 1.3252490162849426,
       "epoch": 2.735632183908046,
-      "grad_norm": 5.15625,
       "learning_rate": 1.036893770336938e-06,
-      "loss": 0.877,
-      "mean_token_accuracy": 0.7445427924394608,
       "num_tokens": 162548.0,
       "step": 90
     },
     {
-      "entropy": 1.290112927556038,
       "epoch": 2.766283524904215,
-      "grad_norm": 4.59375,
       "learning_rate": 8.417500453744864e-07,
-      "loss": 0.8187,
-      "mean_token_accuracy": 0.7387886121869087,
       "num_tokens": 164874.0,
       "step": 91
     },
     {
-      "entropy": 1.28690767288208,
       "epoch": 2.796934865900383,
-      "grad_norm": 5.6875,
       "learning_rate": 6.664079132078881e-07,
-      "loss": 0.832,
-      "mean_token_accuracy": 0.7535636648535728,
       "num_tokens": 166614.0,
       "step": 92
     },
     {
-      "entropy": 1.3516953140497208,
       "epoch": 2.8275862068965516,
-      "grad_norm": 6.46875,
       "learning_rate": 5.11112605663977e-07,
-      "loss": 0.9553,
-      "mean_token_accuracy": 0.7194050028920174,
       "num_tokens": 168220.0,
       "step": 93
     },
     {
-      "entropy": 1.3391648083925247,
       "epoch": 2.8582375478927204,
-      "grad_norm": 6.9375,
       "learning_rate": 3.760813172726457e-07,
-      "loss": 0.8756,
-      "mean_token_accuracy": 0.7469412162899971,
       "num_tokens": 169540.0,
       "step": 94
     },
     {
-      "entropy": 1.256810650229454,
       "epoch": 2.888888888888889,
-      "grad_norm": 4.71875,
       "learning_rate": 2.6150290150067593e-07,
-      "loss": 0.7591,
-      "mean_token_accuracy": 0.7443727105855942,
       "num_tokens": 171709.0,
       "step": 95
     }

     {
       "entropy": 2.2323372662067413,
       "epoch": 0.03065134099616858,
+      "grad_norm": 23.625,
       "learning_rate": 0.0,
       "loss": 2.7706,
       "mean_token_accuracy": 0.41634324193000793,
     {
       "entropy": 2.174584299325943,
       "epoch": 0.06130268199233716,
+      "grad_norm": 15.9375,
       "learning_rate": 2e-06,
       "loss": 2.4332,
       "mean_token_accuracy": 0.41893551871180534,
       "step": 2
     },
     {
+      "entropy": 2.02590711414814,
       "epoch": 0.09195402298850575,
+      "grad_norm": 13.875,
       "learning_rate": 4e-06,
+      "loss": 2.3311,
+      "mean_token_accuracy": 0.44238732755184174,
       "num_tokens": 5582.0,
       "step": 3
     },
     {
+      "entropy": 2.293337270617485,
       "epoch": 0.12260536398467432,
+      "grad_norm": 17.5,
       "learning_rate": 6e-06,
+      "loss": 2.4635,
+      "mean_token_accuracy": 0.4375271461904049,
       "num_tokens": 7064.0,
       "step": 4
     },
     {
+      "entropy": 2.307544246315956,
       "epoch": 0.1532567049808429,
+      "grad_norm": 11.875,
       "learning_rate": 8e-06,
+      "loss": 2.1979,
+      "mean_token_accuracy": 0.43325819820165634,
       "num_tokens": 9091.0,
       "step": 5
     },
     {
+      "entropy": 2.4334808588027954,
       "epoch": 0.1839080459770115,
+      "grad_norm": 12.8125,
       "learning_rate": 9.999999999999999e-06,
+      "loss": 2.4082,
+      "mean_token_accuracy": 0.46957090869545937,
       "num_tokens": 10556.0,
       "step": 6
     },
     {
+      "entropy": 2.4482616782188416,
       "epoch": 0.21455938697318008,
+      "grad_norm": 10.5625,
       "learning_rate": 1.2e-05,
+      "loss": 2.2519,
+      "mean_token_accuracy": 0.4758397154510021,
       "num_tokens": 12215.0,
       "step": 7
     },
     {
+      "entropy": 2.358666628599167,
       "epoch": 0.24521072796934865,
+      "grad_norm": 8.8125,
       "learning_rate": 1.4e-05,
+      "loss": 2.0026,
+      "mean_token_accuracy": 0.5035362914204597,
       "num_tokens": 13939.0,
       "step": 8
     },
     {
+      "entropy": 2.3532307744026184,
       "epoch": 0.27586206896551724,
+      "grad_norm": 7.1875,
       "learning_rate": 1.6e-05,
+      "loss": 1.886,
+      "mean_token_accuracy": 0.49147794023156166,
       "num_tokens": 15986.0,
       "step": 9
     },
     {
+      "entropy": 2.328258216381073,
       "epoch": 0.3065134099616858,
+      "grad_norm": 7.0625,
       "learning_rate": 1.8e-05,
+      "loss": 1.8628,
+      "mean_token_accuracy": 0.5151920653879642,
       "num_tokens": 18444.0,
       "step": 10
     },
     {
+      "entropy": 2.0767437368631363,
       "epoch": 0.3371647509578544,
       "grad_norm": 5.4375,
       "learning_rate": 1.9999999999999998e-05,
+      "loss": 1.6635,
+      "mean_token_accuracy": 0.5702134519815445,
       "num_tokens": 21127.0,
       "step": 11
     },
     {
+      "entropy": 2.2949997633695602,
       "epoch": 0.367816091954023,
+      "grad_norm": 6.53125,
       "learning_rate": 2.2e-05,
+      "loss": 1.9033,
+      "mean_token_accuracy": 0.5190943852066994,
       "num_tokens": 23308.0,
       "step": 12
     },
     {
+      "entropy": 2.2641966193914413,
       "epoch": 0.39846743295019155,
+      "grad_norm": 6.65625,
       "learning_rate": 2.4e-05,
+      "loss": 1.9755,
+      "mean_token_accuracy": 0.5264540836215019,
       "num_tokens": 25072.0,
       "step": 13
     },
     {
+      "entropy": 2.3164361864328384,
       "epoch": 0.42911877394636017,
+      "grad_norm": 7.90625,
       "learning_rate": 2.6000000000000002e-05,
+      "loss": 1.9846,
+      "mean_token_accuracy": 0.5071298070251942,
       "num_tokens": 26450.0,
       "step": 14
     },
     {
+      "entropy": 2.2884700149297714,
       "epoch": 0.45977011494252873,
+      "grad_norm": 6.875,
       "learning_rate": 2.8e-05,
+      "loss": 1.8003,
+      "mean_token_accuracy": 0.5303994193673134,
       "num_tokens": 27912.0,
       "step": 15
     },
     {
+      "entropy": 2.163148954510689,
       "epoch": 0.4904214559386973,
       "grad_norm": 6.53125,
       "learning_rate": 3e-05,
+      "loss": 1.6794,
+      "mean_token_accuracy": 0.5747136920690536,
       "num_tokens": 29392.0,
       "step": 16
     },
     {
+      "entropy": 2.030226394534111,
       "epoch": 0.5210727969348659,
       "grad_norm": 4.96875,
       "learning_rate": 2.998951057182598e-05,
+      "loss": 1.4781,
+      "mean_token_accuracy": 0.5864466205239296,
       "num_tokens": 31417.0,
       "step": 17
     },
     {
+      "entropy": 2.046441972255707,
       "epoch": 0.5517241379310345,
+      "grad_norm": 6.09375,
       "learning_rate": 2.99580569577177e-05,
+      "loss": 1.7775,
+      "mean_token_accuracy": 0.531848881393671,
       "num_tokens": 33727.0,
       "step": 18
     },
     {
+      "entropy": 1.947427824139595,
       "epoch": 0.5823754789272031,
+      "grad_norm": 5.78125,
       "learning_rate": 2.9905683148398642e-05,
+      "loss": 1.5924,
+      "mean_token_accuracy": 0.5740942284464836,
       "num_tokens": 35836.0,
       "step": 19
     },
     {
+      "entropy": 2.018353298306465,
       "epoch": 0.6130268199233716,
+      "grad_norm": 5.96875,
       "learning_rate": 2.9832462393376926e-05,
+      "loss": 1.7183,
+      "mean_token_accuracy": 0.5531399250030518,
       "num_tokens": 37639.0,
       "step": 20
     },
     {
+      "entropy": 2.198324888944626,
       "epoch": 0.6436781609195402,
+      "grad_norm": 5.75,
       "learning_rate": 2.9738497098499325e-05,
+      "loss": 1.7776,
+      "mean_token_accuracy": 0.5184755437076092,
       "num_tokens": 39351.0,
       "step": 21
     },
     {
+      "entropy": 1.9849777817726135,
       "epoch": 0.6743295019157088,
+      "grad_norm": 6.09375,
       "learning_rate": 2.9623918682727355e-05,
+      "loss": 1.5472,
+      "mean_token_accuracy": 0.5781424902379513,
       "num_tokens": 41024.0,
       "step": 22
     },
     {
+      "entropy": 2.0799703299999237,
       "epoch": 0.7049808429118773,
+      "grad_norm": 6.0625,
       "learning_rate": 2.9488887394336025e-05,
+      "loss": 1.7815,
+      "mean_token_accuracy": 0.5519590191543102,
       "num_tokens": 42624.0,
       "step": 23
     },
     {
+      "entropy": 2.188886523246765,
       "epoch": 0.735632183908046,
       "grad_norm": 7.78125,
       "learning_rate": 2.9333592086792113e-05,
+      "loss": 1.9212,
+      "mean_token_accuracy": 0.5380603447556496,
       "num_tokens": 43836.0,
       "step": 24
     },
     {
+      "entropy": 2.061448335647583,
       "epoch": 0.7662835249042146,
+      "grad_norm": 5.21875,
       "learning_rate": 2.9158249954625514e-05,
+      "loss": 1.7393,
+      "mean_token_accuracy": 0.5270493216812611,
       "num_tokens": 45870.0,
       "step": 25
     },
     {
+      "entropy": 2.048309415578842,
       "epoch": 0.7969348659003831,
       "grad_norm": 5.40625,
       "learning_rate": 2.8963106229663064e-05,
+      "loss": 1.6848,
+      "mean_token_accuracy": 0.5622207410633564,
       "num_tokens": 47664.0,
       "step": 26
     },
     {
+      "entropy": 2.029194623231888,
       "epoch": 0.8275862068965517,
+      "grad_norm": 5.125,
       "learning_rate": 2.8748433838049642e-05,
+      "loss": 1.6591,
+      "mean_token_accuracy": 0.5621702149510384,
       "num_tokens": 49646.0,
       "step": 27
     },
     {
+      "entropy": 2.010026901960373,
       "epoch": 0.8582375478927203,
       "grad_norm": 5.28125,
       "learning_rate": 2.8514533018536286e-05,
+      "loss": 1.5141,
+      "mean_token_accuracy": 0.5880535058677197,
       "num_tokens": 51235.0,
       "step": 28
     },
     {
+      "entropy": 2.0415484458208084,
       "epoch": 0.8888888888888888,
+      "grad_norm": 5.5,
       "learning_rate": 2.8261730902569146e-05,
+      "loss": 1.6637,
+      "mean_token_accuracy": 0.5668029375374317,
       "num_tokens": 53037.0,
       "step": 29
     },
     {
+      "entropy": 2.0857083946466446,
       "epoch": 0.9195402298850575,
       "grad_norm": 5.0625,
       "learning_rate": 2.7990381056766583e-05,
+      "loss": 1.6959,
+      "mean_token_accuracy": 0.5493744164705276,
       "num_tokens": 54826.0,
       "step": 30
     },
     {
+      "entropy": 2.112009719014168,
       "epoch": 0.9501915708812261,
+      "grad_norm": 5.40625,
       "learning_rate": 2.770086298842426e-05,
+      "loss": 1.6559,
+      "mean_token_accuracy": 0.5552288331091404,
       "num_tokens": 56737.0,
       "step": 31
     },
     {
+      "entropy": 2.1103257089853287,
       "epoch": 0.9808429118773946,
+      "grad_norm": 6.21875,
       "learning_rate": 2.7393581614739924e-05,
+      "loss": 1.6919,
+      "mean_token_accuracy": 0.5538047850131989,
       "num_tokens": 58084.0,
       "step": 32
     },
     {
+      "entropy": 1.8903157711029053,
       "epoch": 1.0,
+      "grad_norm": 7.21875,
       "learning_rate": 2.7068966696500025e-05,
+      "loss": 1.6264,
+      "mean_token_accuracy": 0.5663587927818299,
       "num_tokens": 59142.0,
       "step": 33
     },
     {
+      "entropy": 1.831245243549347,
       "epoch": 1.0306513409961686,
+      "grad_norm": 4.5625,
       "learning_rate": 2.672747223702045e-05,
+      "loss": 1.3045,
+      "mean_token_accuracy": 0.6326133832335472,
       "num_tokens": 60897.0,
       "step": 34
     },
     {
+      "entropy": 1.9981429725885391,
       "epoch": 1.0613026819923372,
+      "grad_norm": 5.59375,
       "learning_rate": 2.6369575847181795e-05,
+      "loss": 1.5418,
+      "mean_token_accuracy": 0.6115933358669281,
       "num_tokens": 62325.0,
       "step": 35
     },
     {
+      "entropy": 1.8222165703773499,
       "epoch": 1.0919540229885056,
+      "grad_norm": 4.59375,
       "learning_rate": 2.5995778077447393e-05,
+      "loss": 1.2274,
+      "mean_token_accuracy": 0.6454463005065918,
       "num_tokens": 64163.0,
       "step": 36
     },
     {
+      "entropy": 1.7093443274497986,
       "epoch": 1.1226053639846743,
+      "grad_norm": 4.4375,
       "learning_rate": 2.5606601717798212e-05,
+      "loss": 1.2805,
+      "mean_token_accuracy": 0.6579162031412125,
       "num_tokens": 66168.0,
       "step": 37
     },
     {
+      "entropy": 1.74972003698349,
       "epoch": 1.1532567049808429,
+      "grad_norm": 4.34375,
       "learning_rate": 2.520259106656379e-05,
+      "loss": 1.2566,
+      "mean_token_accuracy": 0.6366828829050064,
       "num_tokens": 68398.0,
       "step": 38
     },
     {
+      "entropy": 1.7153682857751846,
       "epoch": 1.1839080459770115,
       "grad_norm": 4.78125,
       "learning_rate": 2.4784311169171818e-05,
+      "loss": 1.2717,
+      "mean_token_accuracy": 0.6223325058817863,
       "num_tokens": 70548.0,
       "step": 39
     },
     {
+      "entropy": 1.7037858068943024,
       "epoch": 1.21455938697318,
+      "grad_norm": 5.15625,
       "learning_rate": 2.4352347027881003e-05,
+      "loss": 1.2255,
+      "mean_token_accuracy": 0.6531995758414268,
       "num_tokens": 72463.0,
       "step": 40
     },
     {
+      "entropy": 1.5526579767465591,
       "epoch": 1.2452107279693487,
+      "grad_norm": 5.6875,
       "learning_rate": 2.3907302783602522e-05,
+      "loss": 1.1533,
+      "mean_token_accuracy": 0.662347637116909,
       "num_tokens": 74061.0,
       "step": 41
     },
     {
+      "entropy": 1.5910945385694504,
       "epoch": 1.2758620689655173,
+      "grad_norm": 4.78125,
       "learning_rate": 2.344980087095433e-05,
+      "loss": 1.2152,
+      "mean_token_accuracy": 0.6524857208132744,
       "num_tokens": 76130.0,
       "step": 42
     },
     {
+      "entropy": 1.5662062019109726,
       "epoch": 1.3065134099616857,
+      "grad_norm": 5.46875,
       "learning_rate": 2.298048114773005e-05,
+      "loss": 1.2326,
+      "mean_token_accuracy": 0.6478348523378372,
       "num_tokens": 77912.0,
       "step": 43
     },
     {
+      "entropy": 1.471334233880043,
       "epoch": 1.3371647509578544,
+      "grad_norm": 4.875,
       "learning_rate": 2.25e-05,
+      "loss": 1.1379,
+      "mean_token_accuracy": 0.6691200658679008,
       "num_tokens": 79873.0,
       "step": 44
     },
     {
+      "entropy": 1.586159959435463,
       "epoch": 1.367816091954023,
+      "grad_norm": 5.28125,
       "learning_rate": 2.200902942409593e-05,
+      "loss": 1.1442,
+      "mean_token_accuracy": 0.6521164402365685,
       "num_tokens": 81708.0,
       "step": 45
     },
     {
+      "entropy": 1.5281111598014832,
       "epoch": 1.3984674329501916,
+      "grad_norm": 6.125,
       "learning_rate": 2.1508256086763372e-05,
+      "loss": 1.2369,
+      "mean_token_accuracy": 0.6489557102322578,
       "num_tokens": 83479.0,
       "step": 46
     },
     {
+      "entropy": 1.5045715868473053,
       "epoch": 1.4291187739463602,
+      "grad_norm": 6.15625,
       "learning_rate": 2.0998380364796112e-05,
+      "loss": 1.2949,
+      "mean_token_accuracy": 0.6465602889657021,
       "num_tokens": 85091.0,
       "step": 47
     },
     {
+      "entropy": 1.5538268089294434,
       "epoch": 1.4597701149425286,
+      "grad_norm": 5.09375,
       "learning_rate": 2.0480115365495928e-05,
+      "loss": 1.1747,
+      "mean_token_accuracy": 0.6478204801678658,
       "num_tokens": 87067.0,
       "step": 48
     },
     {
+      "entropy": 1.492392674088478,
       "epoch": 1.4904214559386972,
+      "grad_norm": 4.71875,
       "learning_rate": 1.995418592932751e-05,
+      "loss": 1.0862,
+      "mean_token_accuracy": 0.693995900452137,
       "num_tokens": 89257.0,
       "step": 49
     },
     {
+      "entropy": 1.540455773472786,
       "epoch": 1.5210727969348659,
+      "grad_norm": 5.53125,
       "learning_rate": 1.9421327616163564e-05,
+      "loss": 1.2151,
+      "mean_token_accuracy": 0.654072530567646,
       "num_tokens": 91129.0,
       "step": 50
     },
     {
+      "entropy": 1.5558712631464005,
       "epoch": 1.5517241379310345,
+      "grad_norm": 5.21875,
       "learning_rate": 1.888228567653781e-05,
+      "loss": 1.1343,
+      "mean_token_accuracy": 0.6754168346524239,
       "num_tokens": 93217.0,
       "step": 51
     },
     {
+      "entropy": 1.5656412094831467,
       "epoch": 1.582375478927203,
+      "grad_norm": 8.375,
       "learning_rate": 1.8337814009344716e-05,
+      "loss": 1.1019,
+      "mean_token_accuracy": 0.6633822396397591,
       "num_tokens": 94882.0,
       "step": 52
     },
     {
+      "entropy": 1.6264984011650085,
       "epoch": 1.6130268199233715,
+      "grad_norm": 6.5,
       "learning_rate": 1.778867410744372e-05,
+      "loss": 1.1993,
+      "mean_token_accuracy": 0.6627216190099716,
       "num_tokens": 96226.0,
       "step": 53
     },
     {
+      "entropy": 1.5609679520130157,
       "epoch": 1.6436781609195403,
+      "grad_norm": 5.71875,
       "learning_rate": 1.7235633992642615e-05,
+      "loss": 1.1445,
+      "mean_token_accuracy": 0.6396612226963043,
       "num_tokens": 98064.0,
       "step": 54
     },
     {
+      "entropy": 1.6555797308683395,
       "epoch": 1.6743295019157087,
+      "grad_norm": 5.21875,
       "learning_rate": 1.667946714154962e-05,
+      "loss": 1.1914,
+      "mean_token_accuracy": 0.630947545170784,
       "num_tokens": 99875.0,
       "step": 55
     },
     {
+      "entropy": 1.4573774337768555,
       "epoch": 1.7049808429118773,
+      "grad_norm": 4.59375,
       "learning_rate": 1.6120951403796367e-05,
+      "loss": 1.1325,
+      "mean_token_accuracy": 0.6682965606451035,
       "num_tokens": 102303.0,
       "step": 56
     },
     {
+      "entropy": 1.559302657842636,
       "epoch": 1.735632183908046,
+      "grad_norm": 5.9375,
       "learning_rate": 1.5560867914144887e-05,
+      "loss": 1.1645,
+      "mean_token_accuracy": 0.6583909243345261,
       "num_tokens": 103806.0,
       "step": 57
     },
     {
+      "entropy": 1.6225543022155762,
       "epoch": 1.7662835249042146,
+      "grad_norm": 7.1875,
       "learning_rate": 1.5e-05,
+      "loss": 1.2239,
+      "mean_token_accuracy": 0.666826568543911,
       "num_tokens": 105012.0,
       "step": 58
     },
     {
+      "entropy": 1.6973845958709717,
       "epoch": 1.7969348659003832,
+      "grad_norm": 6.3125,
       "learning_rate": 1.4439132085855117e-05,
+      "loss": 1.2516,
+      "mean_token_accuracy": 0.6574011594057083,
       "num_tokens": 106373.0,
       "step": 59
     },
     {
+      "entropy": 1.630146011710167,
       "epoch": 1.8275862068965516,
+      "grad_norm": 5.78125,
       "learning_rate": 1.3879048596203637e-05,
+      "loss": 1.1719,
+      "mean_token_accuracy": 0.6703185066580772,
       "num_tokens": 107938.0,
       "step": 60
     },
     {
+      "entropy": 1.5937796980142593,
       "epoch": 1.8582375478927204,
+      "grad_norm": 5.8125,
       "learning_rate": 1.3320532858450382e-05,
+      "loss": 1.1739,
+      "mean_token_accuracy": 0.6567527502775192,
       "num_tokens": 109587.0,
       "step": 61
     },
     {
+      "entropy": 1.673499509692192,
       "epoch": 1.8888888888888888,
+      "grad_norm": 6.625,
       "learning_rate": 1.2764366007357382e-05,
+      "loss": 1.4405,
+      "mean_token_accuracy": 0.6155448481440544,
       "num_tokens": 111253.0,
       "step": 62
     },
     {
+      "entropy": 1.61783929169178,
       "epoch": 1.9195402298850575,
+      "grad_norm": 6.125,
       "learning_rate": 1.2211325892556282e-05,
+      "loss": 1.2447,
+      "mean_token_accuracy": 0.6791554242372513,
       "num_tokens": 112833.0,
       "step": 63
     },
     {
+      "entropy": 1.5331860035657883,
       "epoch": 1.950191570881226,
+      "grad_norm": 6.25,
       "learning_rate": 1.1662185990655285e-05,
+      "loss": 1.2378,
+      "mean_token_accuracy": 0.6611459106206894,
       "num_tokens": 114573.0,
       "step": 64
     },
     {
+      "entropy": 1.5267712771892548,
       "epoch": 1.9808429118773945,
+      "grad_norm": 4.9375,
       "learning_rate": 1.1117714323462188e-05,
+      "loss": 1.105,
+      "mean_token_accuracy": 0.6428326666355133,
       "num_tokens": 116981.0,
       "step": 65
     },
     {
+      "entropy": 1.596066379547119,
       "epoch": 2.0,
+      "grad_norm": 7.21875,
       "learning_rate": 1.0578672383836437e-05,
+      "loss": 1.3919,
+      "mean_token_accuracy": 0.6277154445648193,
       "num_tokens": 118284.0,
       "step": 66
     },
     {
+      "entropy": 1.6225826889276505,
       "epoch": 2.0306513409961684,
+      "grad_norm": 5.78125,
       "learning_rate": 1.0045814070672498e-05,
+      "loss": 0.934,
+      "mean_token_accuracy": 0.7343822047114372,
       "num_tokens": 119663.0,
       "step": 67
     },
     {
+      "entropy": 1.5247658640146255,
       "epoch": 2.0613026819923372,
+      "grad_norm": 4.5625,
       "learning_rate": 9.519884634504074e-06,
+      "loss": 0.8369,
+      "mean_token_accuracy": 0.7519923225045204,
       "num_tokens": 121476.0,
       "step": 68
     },
     {
+      "entropy": 1.5478522330522537,
       "epoch": 2.0919540229885056,
+      "grad_norm": 4.1875,
       "learning_rate": 9.001619635203889e-06,
+      "loss": 0.84,
+      "mean_token_accuracy": 0.7427392601966858,
       "num_tokens": 123792.0,
       "step": 69
     },
     {
+      "entropy": 1.5817518830299377,
       "epoch": 2.1226053639846745,
       "grad_norm": 5.25,
       "learning_rate": 8.491743913236629e-06,
+      "loss": 0.8532,
+      "mean_token_accuracy": 0.7553950697183609,
       "num_tokens": 125329.0,
       "step": 70
     },
     {
+      "entropy": 1.5682816207408905,
       "epoch": 2.153256704980843,
       "grad_norm": 5.5,
       "learning_rate": 7.99097057590407e-06,
+      "loss": 0.8284,
+      "mean_token_accuracy": 0.7582268938422203,
       "num_tokens": 126654.0,
       "step": 71
     },
     {
+      "entropy": 1.4128143042325974,
       "epoch": 2.1839080459770113,
+      "grad_norm": 4.625,
       "learning_rate": 7.500000000000004e-06,
+      "loss": 0.8072,
+      "mean_token_accuracy": 0.766459122300148,
       "num_tokens": 128629.0,
       "step": 72
     },
     {
+      "entropy": 1.4567322432994843,
       "epoch": 2.21455938697318,
+      "grad_norm": 5.46875,
       "learning_rate": 7.019518852269953e-06,
+      "loss": 1.0488,
+      "mean_token_accuracy": 0.7072227671742439,
       "num_tokens": 130344.0,
       "step": 73
     },
     {
+      "entropy": 1.4166576564311981,
       "epoch": 2.2452107279693485,
+      "grad_norm": 4.96875,
       "learning_rate": 6.55019912904567e-06,
+      "loss": 0.9092,
+      "mean_token_accuracy": 0.7404436245560646,
       "num_tokens": 132152.0,
       "step": 74
     },
     {
+      "entropy": 1.4273284822702408,
       "epoch": 2.2758620689655173,
+      "grad_norm": 4.5,
       "learning_rate": 6.092697216397478e-06,
+      "loss": 0.8233,
+      "mean_token_accuracy": 0.7407987862825394,
       "num_tokens": 134144.0,
       "step": 75
     },
     {
+      "entropy": 1.3403969407081604,
       "epoch": 2.3065134099616857,
+      "grad_norm": 4.3125,
       "learning_rate": 5.647652972118998e-06,
+      "loss": 0.924,
+      "mean_token_accuracy": 0.7229798063635826,
       "num_tokens": 136715.0,
       "step": 76
     },
     {
+      "entropy": 1.4036429971456528,
       "epoch": 2.3371647509578546,
+      "grad_norm": 4.5625,
       "learning_rate": 5.2156888308281875e-06,
+      "loss": 0.89,
+      "mean_token_accuracy": 0.7286327704787254,
       "num_tokens": 138907.0,
       "step": 77
     },
     {
+      "entropy": 1.397742137312889,
       "epoch": 2.367816091954023,
+      "grad_norm": 4.96875,
       "learning_rate": 4.797408933436207e-06,
+      "loss": 0.7942,
+      "mean_token_accuracy": 0.7485231980681419,
       "num_tokens": 140536.0,
       "step": 78
     },
     {
+      "entropy": 1.386961117386818,
       "epoch": 2.3984674329501914,
+      "grad_norm": 5.65625,
       "learning_rate": 4.393398282201788e-06,
+      "loss": 0.9061,
+      "mean_token_accuracy": 0.7447740957140923,
       "num_tokens": 142205.0,
       "step": 79
     },
     {
+      "entropy": 1.3736444562673569,
       "epoch": 2.42911877394636,
+      "grad_norm": 5.5,
       "learning_rate": 4.004221922552608e-06,
+      "loss": 0.8485,
+      "mean_token_accuracy": 0.7546191215515137,
       "num_tokens": 143937.0,
       "step": 80
     },
     {
+      "entropy": 1.3484344482421875,
       "epoch": 2.4597701149425286,
+      "grad_norm": 5.15625,
       "learning_rate": 3.630424152818203e-06,
+      "loss": 0.8728,
+      "mean_token_accuracy": 0.7577220499515533,
       "num_tokens": 145867.0,
       "step": 81
     },
     {
+      "entropy": 1.3517859131097794,
       "epoch": 2.4904214559386975,
+      "grad_norm": 5.625,
       "learning_rate": 3.272527762979553e-06,
+      "loss": 0.917,
+      "mean_token_accuracy": 0.7402152791619301,
       "num_tokens": 147522.0,
       "step": 82
     },
     {
+      "entropy": 1.427451640367508,
       "epoch": 2.521072796934866,
       "grad_norm": 6.0625,
       "learning_rate": 2.931033303499975e-06,
+      "loss": 0.9471,
+      "mean_token_accuracy": 0.7306742072105408,
       "num_tokens": 149154.0,
       "step": 83
     },
     {
+      "entropy": 1.2776079773902893,
       "epoch": 2.5517241379310347,
+      "grad_norm": 4.75,
       "learning_rate": 2.60641838526008e-06,
+      "loss": 0.8647,
+      "mean_token_accuracy": 0.7684408649802208,
       "num_tokens": 151443.0,
       "step": 84
     },
     {
+      "entropy": 1.3705534487962723,
       "epoch": 2.582375478927203,
       "grad_norm": 5.21875,
       "learning_rate": 2.2991370115757383e-06,
+      "loss": 0.8636,
+      "mean_token_accuracy": 0.7471385598182678,
       "num_tokens": 153346.0,
       "step": 85
     },
     {
+      "entropy": 1.4074051082134247,
       "epoch": 2.6130268199233715,
+      "grad_norm": 5.59375,
       "learning_rate": 2.0096189432334194e-06,
+      "loss": 0.874,
+      "mean_token_accuracy": 0.7286683171987534,
       "num_tokens": 155041.0,
       "step": 86
     },
     {
+      "entropy": 1.2744528949260712,
       "epoch": 2.6436781609195403,
+      "grad_norm": 5.65625,
       "learning_rate": 1.7382690974308551e-06,
+      "loss": 0.7612,
+      "mean_token_accuracy": 0.768292061984539,
       "num_tokens": 156508.0,
       "step": 87
     },
     {
+      "entropy": 1.322000876069069,
       "epoch": 2.6743295019157087,
+      "grad_norm": 5.28125,
       "learning_rate": 1.4854669814637145e-06,
+      "loss": 0.8423,
+      "mean_token_accuracy": 0.7500675544142723,
       "num_tokens": 158506.0,
       "step": 88
     },
     {
+      "entropy": 1.3921757936477661,
       "epoch": 2.704980842911877,
+      "grad_norm": 4.90625,
       "learning_rate": 1.2515661619503572e-06,
+      "loss": 0.8484,
+      "mean_token_accuracy": 0.7282446771860123,
       "num_tokens": 160511.0,
       "step": 89
     },
     {
+      "entropy": 1.3347049802541733,
       "epoch": 2.735632183908046,
+      "grad_norm": 5.0625,
       "learning_rate": 1.036893770336938e-06,
+      "loss": 0.8751,
+      "mean_token_accuracy": 0.7406959384679794,
       "num_tokens": 162548.0,
       "step": 90
     },
     {
+      "entropy": 1.296308308839798,
       "epoch": 2.766283524904215,
+      "grad_norm": 4.78125,
       "learning_rate": 8.417500453744864e-07,
+      "loss": 0.818,
+      "mean_token_accuracy": 0.7431169748306274,
       "num_tokens": 164874.0,
       "step": 91
     },
     {
+      "entropy": 1.296522632241249,
       "epoch": 2.796934865900383,
+      "grad_norm": 8.3125,
       "learning_rate": 6.664079132078881e-07,
+      "loss": 0.8333,
+      "mean_token_accuracy": 0.7412382811307907,
       "num_tokens": 166614.0,
       "step": 92
     },
     {
+      "entropy": 1.3617160469293594,
       "epoch": 2.8275862068965516,
+      "grad_norm": 6.25,
       "learning_rate": 5.11112605663977e-07,
+      "loss": 0.9403,
+      "mean_token_accuracy": 0.728195421397686,
       "num_tokens": 168220.0,
       "step": 93
     },
     {
+      "entropy": 1.3486039191484451,
       "epoch": 2.8582375478927204,
+      "grad_norm": 6.8125,
       "learning_rate": 3.760813172726457e-07,
+      "loss": 0.8643,
+      "mean_token_accuracy": 0.7479279190301895,
       "num_tokens": 169540.0,
       "step": 94
     },
     {
+      "entropy": 1.2711477279663086,
       "epoch": 2.888888888888889,
+      "grad_norm": 4.65625,
       "learning_rate": 2.6150290150067593e-07,
+      "loss": 0.766,
+      "mean_token_accuracy": 0.7430502995848656,
       "num_tokens": 171709.0,
       "step": 95
     }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:28a22a0d804c1fd72a92439f81a35c0aabfe6c7861fb91d64ea135d1b443db6e
 size 6353

 version https://git-lfs.github.com/spec/v1
+oid sha256:dcb900edd003d30a9496375af3b00e493c234370e0d58063b9ebd80fb0228298
 size 6353