{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 2.0,
  "eval_steps": 500,
  "global_step": 1198,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "entropy": 2.376227322220802,
      "epoch": 0.01670843776106934,
      "grad_norm": 23.182296752929688,
      "learning_rate": 1.5e-06,
      "loss": 2.4729,
      "mean_token_accuracy": 0.5330174341797829,
      "num_tokens": 23968.0,
      "step": 10
    },
    {
      "entropy": 2.4090343087911608,
      "epoch": 0.03341687552213868,
      "grad_norm": 16.90180778503418,
      "learning_rate": 4e-06,
      "loss": 2.2456,
      "mean_token_accuracy": 0.546089893579483,
      "num_tokens": 50061.0,
      "step": 20
    },
    {
      "entropy": 2.3292118519544602,
      "epoch": 0.05012531328320802,
      "grad_norm": 7.097179889678955,
      "learning_rate": 6.5000000000000004e-06,
      "loss": 2.0194,
      "mean_token_accuracy": 0.5704705387353897,
      "num_tokens": 77221.0,
      "step": 30
    },
    {
      "entropy": 2.38493994474411,
      "epoch": 0.06683375104427736,
      "grad_norm": 3.9334213733673096,
      "learning_rate": 9e-06,
      "loss": 2.091,
      "mean_token_accuracy": 0.5746636532247067,
      "num_tokens": 102592.0,
      "step": 40
    },
    {
      "entropy": 2.4236884146928785,
      "epoch": 0.0835421888053467,
      "grad_norm": 2.742833375930786,
      "learning_rate": 1.1500000000000002e-05,
      "loss": 1.9327,
      "mean_token_accuracy": 0.5654355354607106,
      "num_tokens": 130876.0,
      "step": 50
    },
    {
      "entropy": 2.4756928414106367,
      "epoch": 0.10025062656641603,
      "grad_norm": 4.295400142669678,
      "learning_rate": 1.4e-05,
      "loss": 2.0381,
      "mean_token_accuracy": 0.5688402287662029,
      "num_tokens": 155526.0,
      "step": 60
    },
    {
      "entropy": 2.422525143623352,
      "epoch": 0.11695906432748537,
      "grad_norm": 37.36378479003906,
      "learning_rate": 1.65e-05,
      "loss": 1.9249,
      "mean_token_accuracy": 0.5765560433268547,
      "num_tokens": 181754.0,
      "step": 70
    },
    {
      "entropy": 2.3750332206487657,
      "epoch": 0.1336675020885547,
      "grad_norm": 53.244632720947266,
      "learning_rate": 1.9e-05,
      "loss": 1.7852,
      "mean_token_accuracy": 0.5806652165949344,
      "num_tokens": 208156.0,
      "step": 80
    },
    {
      "entropy": 2.1606528967618943,
      "epoch": 0.15037593984962405,
      "grad_norm": 1.9780453443527222,
      "learning_rate": 2.15e-05,
      "loss": 1.74,
      "mean_token_accuracy": 0.595666554570198,
      "num_tokens": 236321.0,
      "step": 90
    },
    {
      "entropy": 2.1004574805498124,
      "epoch": 0.1670843776106934,
      "grad_norm": 2.5225274562835693,
      "learning_rate": 2.4e-05,
      "loss": 1.7544,
      "mean_token_accuracy": 0.5997186966240406,
      "num_tokens": 263316.0,
      "step": 100
    },
    {
      "entropy": 2.0930860340595245,
      "epoch": 0.18379281537176273,
      "grad_norm": 2.0412206649780273,
      "learning_rate": 2.65e-05,
      "loss": 1.6994,
      "mean_token_accuracy": 0.6029496222734452,
      "num_tokens": 289555.0,
      "step": 110
    },
    {
      "entropy": 2.0005944788455965,
      "epoch": 0.20050125313283207,
      "grad_norm": 5.798661231994629,
      "learning_rate": 2.9e-05,
      "loss": 1.5928,
      "mean_token_accuracy": 0.6268587596714497,
      "num_tokens": 322035.0,
      "step": 120
    },
    {
      "entropy": 2.1824300229549407,
      "epoch": 0.2172096908939014,
      "grad_norm": 2.135401964187622,
      "learning_rate": 2.999770694261986e-05,
      "loss": 1.7705,
      "mean_token_accuracy": 0.5905720897018909,
      "num_tokens": 343574.0,
      "step": 130
    },
    {
      "entropy": 2.317758610844612,
      "epoch": 0.23391812865497075,
      "grad_norm": 4.436051368713379,
      "learning_rate": 2.9983696353001538e-05,
      "loss": 1.8244,
      "mean_token_accuracy": 0.578718575835228,
      "num_tokens": 367065.0,
      "step": 140
    },
    {
      "entropy": 2.0938976377248766,
      "epoch": 0.2506265664160401,
      "grad_norm": 1.6219489574432373,
      "learning_rate": 2.995696097848732e-05,
      "loss": 1.6849,
      "mean_token_accuracy": 0.6061625145375729,
      "num_tokens": 395337.0,
      "step": 150
    },
    {
      "entropy": 2.05442219376564,
      "epoch": 0.2673350041771094,
      "grad_norm": 1.6669152975082397,
      "learning_rate": 2.9917523523881268e-05,
      "loss": 1.7082,
      "mean_token_accuracy": 0.6042715333402157,
      "num_tokens": 420868.0,
      "step": 160
    },
    {
      "entropy": 2.032812547683716,
      "epoch": 0.28404344193817876,
      "grad_norm": 1.9019651412963867,
      "learning_rate": 2.9865417481127877e-05,
      "loss": 1.546,
      "mean_token_accuracy": 0.6138139866292477,
      "num_tokens": 451944.0,
      "step": 170
    },
    {
      "entropy": 2.0105547934770582,
      "epoch": 0.3007518796992481,
      "grad_norm": 1.7808424234390259,
      "learning_rate": 2.9800687100869334e-05,
      "loss": 1.5909,
      "mean_token_accuracy": 0.6109806254506112,
      "num_tokens": 482345.0,
      "step": 180
    },
    {
      "entropy": 2.0666785687208176,
      "epoch": 0.31746031746031744,
      "grad_norm": 1.7441576719284058,
      "learning_rate": 2.972338735486598e-05,
      "loss": 1.6263,
      "mean_token_accuracy": 0.6088879898190498,
      "num_tokens": 508164.0,
      "step": 190
    },
    {
      "entropy": 2.0136130273342134,
      "epoch": 0.3341687552213868,
      "grad_norm": 1.8193825483322144,
      "learning_rate": 2.9633583889312e-05,
      "loss": 1.6149,
      "mean_token_accuracy": 0.619242499768734,
      "num_tokens": 536345.0,
      "step": 200
    },
    {
      "entropy": 2.0101848542690277,
      "epoch": 0.3508771929824561,
      "grad_norm": 1.11763596534729,
      "learning_rate": 2.9531352969085914e-05,
      "loss": 1.5869,
      "mean_token_accuracy": 0.6176401123404502,
      "num_tokens": 563157.0,
      "step": 210
    },
    {
      "entropy": 1.9853627145290376,
      "epoch": 0.36758563074352546,
      "grad_norm": 2.025529384613037,
      "learning_rate": 2.9416781412983223e-05,
      "loss": 1.6008,
      "mean_token_accuracy": 0.6206148102879524,
      "num_tokens": 590929.0,
      "step": 220
    },
    {
      "entropy": 2.108823761343956,
      "epoch": 0.3842940685045948,
      "grad_norm": 1.4173170328140259,
      "learning_rate": 2.9289966519986258e-05,
      "loss": 1.6553,
      "mean_token_accuracy": 0.598318774998188,
      "num_tokens": 615814.0,
      "step": 230
    },
    {
      "entropy": 2.0000301033258436,
      "epoch": 0.40100250626566414,
      "grad_norm": 2.162895679473877,
      "learning_rate": 2.9151015986633762e-05,
      "loss": 1.6305,
      "mean_token_accuracy": 0.6174192741513252,
      "num_tokens": 643303.0,
      "step": 240
    },
    {
      "entropy": 2.0013814836740496,
      "epoch": 0.4177109440267335,
      "grad_norm": 3.5182316303253174,
      "learning_rate": 2.90000478155605e-05,
      "loss": 1.5884,
      "mean_token_accuracy": 0.615642835944891,
      "num_tokens": 670279.0,
      "step": 250
    },
    {
      "entropy": 2.061664643883705,
      "epoch": 0.4344193817878028,
      "grad_norm": 2.530327558517456,
      "learning_rate": 2.883719021528444e-05,
      "loss": 1.7341,
      "mean_token_accuracy": 0.6077517293393612,
      "num_tokens": 695006.0,
      "step": 260
    },
    {
      "entropy": 2.0266662567853926,
      "epoch": 0.45112781954887216,
      "grad_norm": 2.2248501777648926,
      "learning_rate": 2.8662581491326686e-05,
      "loss": 1.5991,
      "mean_token_accuracy": 0.6176492936909199,
      "num_tokens": 720926.0,
      "step": 270
    },
    {
      "entropy": 1.998877900838852,
      "epoch": 0.4678362573099415,
      "grad_norm": 1.6995679140090942,
      "learning_rate": 2.847636992875661e-05,
      "loss": 1.5343,
      "mean_token_accuracy": 0.6100999519228936,
      "num_tokens": 753552.0,
      "step": 280
    },
    {
      "entropy": 2.0063836723566055,
      "epoch": 0.48454469507101083,
      "grad_norm": 1.5225791931152344,
      "learning_rate": 2.827871366626197e-05,
      "loss": 1.6512,
      "mean_token_accuracy": 0.6144520066678524,
      "num_tokens": 776650.0,
      "step": 290
    },
    {
      "entropy": 1.9781533569097518,
      "epoch": 0.5012531328320802,
      "grad_norm": 1.590501070022583,
      "learning_rate": 2.806978056185084e-05,
      "loss": 1.6408,
      "mean_token_accuracy": 0.6150619685649872,
      "num_tokens": 801816.0,
      "step": 300
    },
    {
      "entropy": 1.9714119344949723,
      "epoch": 0.5179615705931495,
      "grad_norm": 2.535109519958496,
      "learning_rate": 2.7849748050299578e-05,
      "loss": 1.603,
      "mean_token_accuracy": 0.6225824594497681,
      "num_tokens": 826564.0,
      "step": 310
    },
    {
      "entropy": 1.94197179377079,
      "epoch": 0.5346700083542189,
      "grad_norm": 1.5610677003860474,
      "learning_rate": 2.7618802992467718e-05,
      "loss": 1.5703,
      "mean_token_accuracy": 0.6192868888378144,
      "num_tokens": 855007.0,
      "step": 320
    },
    {
      "entropy": 1.9983945518732071,
      "epoch": 0.5513784461152882,
      "grad_norm": 1.7279447317123413,
      "learning_rate": 2.7377141516607896e-05,
      "loss": 1.5837,
      "mean_token_accuracy": 0.6141151934862137,
      "num_tokens": 881616.0,
      "step": 330
    },
    {
      "entropy": 1.8347389072179794,
      "epoch": 0.5680868838763575,
      "grad_norm": 1.3221409320831299,
      "learning_rate": 2.712496885180547e-05,
      "loss": 1.4675,
      "mean_token_accuracy": 0.6429531842470169,
      "num_tokens": 913148.0,
      "step": 340
    },
    {
      "entropy": 1.8934204697608947,
      "epoch": 0.5847953216374269,
      "grad_norm": 1.4465378522872925,
      "learning_rate": 2.686249915368938e-05,
      "loss": 1.4669,
      "mean_token_accuracy": 0.6286376528441906,
      "num_tokens": 944937.0,
      "step": 350
    },
    {
      "entropy": 1.9060048371553422,
      "epoch": 0.6015037593984962,
      "grad_norm": 1.6246923208236694,
      "learning_rate": 2.658995532256217e-05,
      "loss": 1.5736,
      "mean_token_accuracy": 0.622390191257,
      "num_tokens": 974558.0,
      "step": 360
    },
    {
      "entropy": 2.025865262746811,
      "epoch": 0.6182121971595655,
      "grad_norm": 1.2998696565628052,
      "learning_rate": 2.6307568814103658e-05,
      "loss": 1.6277,
      "mean_token_accuracy": 0.6089055955410003,
      "num_tokens": 1001232.0,
      "step": 370
    },
    {
      "entropy": 1.9043485343456268,
      "epoch": 0.6349206349206349,
      "grad_norm": 1.7911604642868042,
      "learning_rate": 2.6015579442809094e-05,
      "loss": 1.5542,
      "mean_token_accuracy": 0.6255838416516781,
      "num_tokens": 1029679.0,
      "step": 380
    },
    {
      "entropy": 2.0594927102327345,
      "epoch": 0.6516290726817042,
      "grad_norm": 1.6075160503387451,
      "learning_rate": 2.5714235178328554e-05,
      "loss": 1.664,
      "mean_token_accuracy": 0.608974926173687,
      "num_tokens": 1053040.0,
      "step": 390
    },
    {
      "entropy": 2.034518975019455,
      "epoch": 0.6683375104427736,
      "grad_norm": 3.4272360801696777,
      "learning_rate": 2.540379193488072e-05,
      "loss": 1.7209,
      "mean_token_accuracy": 0.6031469151377677,
      "num_tokens": 1075141.0,
      "step": 400
    },
    {
      "entropy": 2.0515862941741942,
      "epoch": 0.6850459482038429,
      "grad_norm": 1.2661142349243164,
      "learning_rate": 2.5084513353919753e-05,
      "loss": 1.6599,
      "mean_token_accuracy": 0.6064547099173069,
      "num_tokens": 1097768.0,
      "step": 410
    },
    {
      "entropy": 1.9067467480897904,
      "epoch": 0.7017543859649122,
      "grad_norm": 2.2614035606384277,
      "learning_rate": 2.4756670580239894e-05,
      "loss": 1.5424,
      "mean_token_accuracy": 0.6350538037717343,
      "num_tokens": 1125706.0,
      "step": 420
    },
    {
      "entropy": 2.103572541475296,
      "epoch": 0.7184628237259816,
      "grad_norm": 2.4501664638519287,
      "learning_rate": 2.4420542031707905e-05,
      "loss": 1.703,
      "mean_token_accuracy": 0.6036252595484257,
      "num_tokens": 1147357.0,
      "step": 430
    },
    {
      "entropy": 2.072985142469406,
      "epoch": 0.7351712614870509,
      "grad_norm": 1.8719037771224976,
      "learning_rate": 2.4076413162818904e-05,
      "loss": 1.6609,
      "mean_token_accuracy": 0.606941219419241,
      "num_tokens": 1170179.0,
      "step": 440
    },
    {
      "entropy": 2.022436353564262,
      "epoch": 0.7518796992481203,
      "grad_norm": 2.076544761657715,
      "learning_rate": 2.3724576222276405e-05,
      "loss": 1.7007,
      "mean_token_accuracy": 0.6098736897110939,
      "num_tokens": 1196284.0,
      "step": 450
    },
    {
      "entropy": 2.1311296701431273,
      "epoch": 0.7685881370091896,
      "grad_norm": 2.9471235275268555,
      "learning_rate": 2.3365330004802443e-05,
      "loss": 1.7893,
      "mean_token_accuracy": 0.5961334474384785,
      "num_tokens": 1217358.0,
      "step": 460
    },
    {
      "entropy": 1.9371352732181548,
      "epoch": 0.7852965747702589,
      "grad_norm": 1.4203218221664429,
      "learning_rate": 2.2998979597388526e-05,
      "loss": 1.608,
      "mean_token_accuracy": 0.6184874981641769,
      "num_tokens": 1243374.0,
      "step": 470
    },
    {
      "entropy": 2.0747445046901705,
      "epoch": 0.8020050125313283,
      "grad_norm": 2.2124152183532715,
      "learning_rate": 2.262583612020294e-05,
      "loss": 1.6711,
      "mean_token_accuracy": 0.6062519766390324,
      "num_tokens": 1267314.0,
      "step": 480
    },
    {
      "entropy": 1.7878674179315568,
      "epoch": 0.8187134502923976,
      "grad_norm": 1.3049612045288086,
      "learning_rate": 2.224621646237442e-05,
      "loss": 1.4722,
      "mean_token_accuracy": 0.6389728732407093,
      "num_tokens": 1296917.0,
      "step": 490
    },
    {
      "entropy": 1.925000047683716,
      "epoch": 0.835421888053467,
      "grad_norm": 1.4271504878997803,
      "learning_rate": 2.1860443012876574e-05,
      "loss": 1.6114,
      "mean_token_accuracy": 0.616053618490696,
      "num_tokens": 1322826.0,
      "step": 500
    },
    {
      "entropy": 2.0017556965351107,
      "epoch": 0.8521303258145363,
      "grad_norm": 1.6036300659179688,
      "learning_rate": 2.146884338674161e-05,
      "loss": 1.5247,
      "mean_token_accuracy": 0.6218138873577118,
      "num_tokens": 1349542.0,
      "step": 510
    },
    {
      "entropy": 1.995826429128647,
      "epoch": 0.8688387635756056,
      "grad_norm": 1.979646921157837,
      "learning_rate": 2.1071750146835906e-05,
      "loss": 1.5882,
      "mean_token_accuracy": 0.6175018042325974,
      "num_tokens": 1375550.0,
      "step": 520
    },
    {
      "entropy": 1.918816116452217,
      "epoch": 0.885547201336675,
      "grad_norm": 1.531023383140564,
      "learning_rate": 2.06695005214336e-05,
      "loss": 1.5158,
      "mean_token_accuracy": 0.6258822798728942,
      "num_tokens": 1401535.0,
      "step": 530
    },
    {
      "entropy": 1.918640747666359,
      "epoch": 0.9022556390977443,
      "grad_norm": 1.6574758291244507,
      "learning_rate": 2.026243611782818e-05,
      "loss": 1.4805,
      "mean_token_accuracy": 0.6370069451630116,
      "num_tokens": 1430094.0,
      "step": 540
    },
    {
      "entropy": 2.0166410475969316,
      "epoch": 0.9189640768588136,
      "grad_norm": 2.085106372833252,
      "learning_rate": 1.9850902632225228e-05,
      "loss": 1.6067,
      "mean_token_accuracy": 0.613443473726511,
      "num_tokens": 1453767.0,
      "step": 550
    },
    {
      "entropy": 1.9751090347766875,
      "epoch": 0.935672514619883,
      "grad_norm": 1.5619549751281738,
      "learning_rate": 1.9435249556162633e-05,
      "loss": 1.5186,
      "mean_token_accuracy": 0.6245452538132668,
      "num_tokens": 1479122.0,
      "step": 560
    },
    {
      "entropy": 2.0289832055568695,
      "epoch": 0.9523809523809523,
      "grad_norm": 1.9765042066574097,
      "learning_rate": 1.9015829879707705e-05,
      "loss": 1.635,
      "mean_token_accuracy": 0.6078214071691036,
      "num_tokens": 1502393.0,
      "step": 570
    },
    {
      "entropy": 2.0707653611898422,
      "epoch": 0.9690893901420217,
      "grad_norm": 2.33292293548584,
      "learning_rate": 1.8592999791683163e-05,
      "loss": 1.7044,
      "mean_token_accuracy": 0.5983508452773094,
      "num_tokens": 1528688.0,
      "step": 580
    },
    {
      "entropy": 1.830039870738983,
      "epoch": 0.985797827903091,
      "grad_norm": 1.7089521884918213,
      "learning_rate": 1.8167118377176626e-05,
      "loss": 1.4488,
      "mean_token_accuracy": 0.6382713422179223,
      "num_tokens": 1559267.0,
      "step": 590
    },
    {
      "entropy": 2.093587511464169,
      "epoch": 1.001670843776107,
      "grad_norm": 1.8502051830291748,
      "learning_rate": 1.7738547312590426e-05,
      "loss": 1.6569,
      "mean_token_accuracy": 0.6035293050502476,
      "num_tokens": 1579777.0,
      "step": 600
    },
    {
      "entropy": 1.986822435259819,
      "epoch": 1.0183792815371762,
      "grad_norm": 1.8095533847808838,
      "learning_rate": 1.7307650558490842e-05,
      "loss": 1.5196,
      "mean_token_accuracy": 0.624878978729248,
      "num_tokens": 1603371.0,
      "step": 610
    },
    {
      "entropy": 1.8720842987298965,
      "epoch": 1.0350877192982457,
      "grad_norm": 1.418859601020813,
      "learning_rate": 1.687479405051745e-05,
      "loss": 1.4617,
      "mean_token_accuracy": 0.6376385740935803,
      "num_tokens": 1629671.0,
      "step": 620
    },
    {
      "entropy": 1.9420676857233048,
      "epoch": 1.0517961570593148,
      "grad_norm": 1.9264510869979858,
      "learning_rate": 1.6440345388615225e-05,
      "loss": 1.5184,
      "mean_token_accuracy": 0.6275502189993858,
      "num_tokens": 1654665.0,
      "step": 630
    },
    {
      "entropy": 1.877267986536026,
      "epoch": 1.0685045948203844,
      "grad_norm": 1.5752804279327393,
      "learning_rate": 1.6004673524853184e-05,
      "loss": 1.4846,
      "mean_token_accuracy": 0.6406380534172058,
      "num_tokens": 1681208.0,
      "step": 640
    },
    {
      "entropy": 1.7192733228206634,
      "epoch": 1.0852130325814535,
      "grad_norm": 1.8777337074279785,
      "learning_rate": 1.5568148450094788e-05,
      "loss": 1.3596,
      "mean_token_accuracy": 0.6518337815999985,
      "num_tokens": 1711943.0,
      "step": 650
    },
    {
      "entropy": 1.8170194894075393,
      "epoch": 1.101921470342523,
      "grad_norm": 1.324455738067627,
      "learning_rate": 1.5131140879786162e-05,
      "loss": 1.3627,
      "mean_token_accuracy": 0.6482401996850967,
      "num_tokens": 1744406.0,
      "step": 660
    },
    {
      "entropy": 1.9752755105495452,
      "epoch": 1.1186299081035922,
      "grad_norm": 1.697969913482666,
      "learning_rate": 1.4694021939128925e-05,
      "loss": 1.6435,
      "mean_token_accuracy": 0.6173132970929146,
      "num_tokens": 1763684.0,
      "step": 670
    },
    {
      "entropy": 1.810714191198349,
      "epoch": 1.1353383458646618,
      "grad_norm": 1.6863676309585571,
      "learning_rate": 1.4257162847905073e-05,
      "loss": 1.4572,
      "mean_token_accuracy": 0.6450446091592312,
      "num_tokens": 1790387.0,
      "step": 680
    },
    {
      "entropy": 1.7295511305332183,
      "epoch": 1.1520467836257309,
      "grad_norm": 1.8147404193878174,
      "learning_rate": 1.3820934605221554e-05,
      "loss": 1.4375,
      "mean_token_accuracy": 0.656483718752861,
      "num_tokens": 1818936.0,
      "step": 690
    },
    {
      "entropy": 1.876406043767929,
      "epoch": 1.1687552213868004,
      "grad_norm": 1.4509400129318237,
      "learning_rate": 1.3385707674442212e-05,
      "loss": 1.5038,
      "mean_token_accuracy": 0.6330045036971569,
      "num_tokens": 1844285.0,
      "step": 700
    },
    {
      "entropy": 1.7754180505871773,
      "epoch": 1.1854636591478696,
      "grad_norm": 1.8553998470306396,
      "learning_rate": 1.295185166857471e-05,
      "loss": 1.3342,
      "mean_token_accuracy": 0.6631456315517426,
      "num_tokens": 1872386.0,
      "step": 710
    },
    {
      "entropy": 1.8854310810565948,
      "epoch": 1.2021720969089391,
      "grad_norm": 1.9020118713378906,
      "learning_rate": 1.2519735036379654e-05,
      "loss": 1.5075,
      "mean_token_accuracy": 0.6296862445771694,
      "num_tokens": 1898136.0,
      "step": 720
    },
    {
      "entropy": 1.8075116664171218,
      "epoch": 1.2188805346700082,
      "grad_norm": 1.4228155612945557,
      "learning_rate": 1.2089724749468383e-05,
      "loss": 1.475,
      "mean_token_accuracy": 0.63388437256217,
      "num_tokens": 1926755.0,
      "step": 730
    },
    {
      "entropy": 1.9176389634609223,
      "epoch": 1.2355889724310778,
      "grad_norm": 1.4030358791351318,
      "learning_rate": 1.1662185990655285e-05,
      "loss": 1.4261,
      "mean_token_accuracy": 0.6366409629583358,
      "num_tokens": 1954094.0,
      "step": 740
    },
    {
      "entropy": 1.9318130016326904,
      "epoch": 1.252297410192147,
      "grad_norm": 2.5528788566589355,
      "learning_rate": 1.1237481843829162e-05,
      "loss": 1.637,
      "mean_token_accuracy": 0.6269572585821152,
      "num_tokens": 1977028.0,
      "step": 750
    },
    {
      "entropy": 1.8894671678543091,
      "epoch": 1.2690058479532165,
      "grad_norm": 1.5508147478103638,
      "learning_rate": 1.0815972985607149e-05,
      "loss": 1.5153,
      "mean_token_accuracy": 0.6365115389227867,
      "num_tokens": 2000096.0,
      "step": 760
    },
    {
      "entropy": 1.9068289607763291,
      "epoch": 1.2857142857142856,
      "grad_norm": 1.2476104497909546,
      "learning_rate": 1.0398017379032955e-05,
      "loss": 1.5797,
      "mean_token_accuracy": 0.6310160294175148,
      "num_tokens": 2024669.0,
      "step": 770
    },
    {
      "entropy": 1.7813611298799514,
      "epoch": 1.3024227234753551,
      "grad_norm": 2.0824921131134033,
      "learning_rate": 9.983969969579616e-06,
      "loss": 1.4656,
      "mean_token_accuracy": 0.6474256098270417,
      "num_tokens": 2051877.0,
      "step": 780
    },
    {
      "entropy": 1.8404263019561768,
      "epoch": 1.3191311612364243,
      "grad_norm": 1.2777612209320068,
      "learning_rate": 9.574182383714839e-06,
      "loss": 1.4355,
      "mean_token_accuracy": 0.6538358055055141,
      "num_tokens": 2079905.0,
      "step": 790
    },
    {
      "entropy": 1.8420085251331328,
      "epoch": 1.3358395989974938,
      "grad_norm": 1.2849156856536865,
      "learning_rate": 9.169002630285063e-06,
      "loss": 1.4413,
      "mean_token_accuracy": 0.6362872712314129,
      "num_tokens": 2109705.0,
      "step": 800
    },
    {
      "entropy": 1.9093056112527846,
      "epoch": 1.352548036758563,
      "grad_norm": 1.3787521123886108,
      "learning_rate": 8.768774804971705e-06,
      "loss": 1.4332,
      "mean_token_accuracy": 0.646092452853918,
      "num_tokens": 2136002.0,
      "step": 810
    },
    {
      "entropy": 1.8188541814684869,
      "epoch": 1.3692564745196325,
      "grad_norm": 1.9946447610855103,
      "learning_rate": 8.37383879807061e-06,
      "loss": 1.4213,
      "mean_token_accuracy": 0.6514127373695373,
      "num_tokens": 2162939.0,
      "step": 820
    },
    {
      "entropy": 1.767152488231659,
      "epoch": 1.3859649122807016,
      "grad_norm": 2.6128296852111816,
      "learning_rate": 7.98453000584296e-06,
      "loss": 1.4077,
      "mean_token_accuracy": 0.6433039925992489,
      "num_tokens": 2192868.0,
      "step": 830
    },
    {
      "entropy": 1.8834378957748412,
      "epoch": 1.4026733500417712,
      "grad_norm": 2.5565028190612793,
      "learning_rate": 7.601179045682659e-06,
      "loss": 1.4508,
      "mean_token_accuracy": 0.6357239708304405,
      "num_tokens": 2220574.0,
      "step": 840
    },
    {
      "entropy": 1.8659739628434182,
      "epoch": 1.4193817878028403,
      "grad_norm": 1.6156526803970337,
      "learning_rate": 7.2241114753421245e-06,
      "loss": 1.4151,
      "mean_token_accuracy": 0.6440570905804635,
      "num_tokens": 2247980.0,
      "step": 850
    },
    {
      "entropy": 2.0131053000688555,
      "epoch": 1.4360902255639099,
      "grad_norm": 1.5411407947540283,
      "learning_rate": 6.853647516454978e-06,
      "loss": 1.7022,
      "mean_token_accuracy": 0.6108858585357666,
      "num_tokens": 2271288.0,
      "step": 860
    },
    {
      "entropy": 1.9804413557052611,
      "epoch": 1.452798663324979,
      "grad_norm": 1.2808128595352173,
      "learning_rate": 6.490101782590357e-06,
      "loss": 1.502,
      "mean_token_accuracy": 0.6262324623763561,
      "num_tokens": 2297295.0,
      "step": 870
    },
    {
      "entropy": 1.7805092990398408,
      "epoch": 1.4695071010860485,
      "grad_norm": 1.404811978340149,
      "learning_rate": 6.133783012069853e-06,
      "loss": 1.3104,
      "mean_token_accuracy": 0.6503325693309308,
      "num_tokens": 2325314.0,
      "step": 880
    },
    {
      "entropy": 1.8354784041643142,
      "epoch": 1.4862155388471177,
      "grad_norm": 1.467010736465454,
      "learning_rate": 5.784993805773946e-06,
      "loss": 1.4201,
      "mean_token_accuracy": 0.6422530055046082,
      "num_tokens": 2353565.0,
      "step": 890
    },
    {
      "entropy": 1.9021347552537917,
      "epoch": 1.5029239766081872,
      "grad_norm": 1.5276216268539429,
      "learning_rate": 5.44403037016061e-06,
      "loss": 1.5201,
      "mean_token_accuracy": 0.6460477262735367,
      "num_tokens": 2375717.0,
      "step": 900
    },
    {
      "entropy": 1.8378847867250443,
      "epoch": 1.5196324143692563,
      "grad_norm": 1.413011908531189,
      "learning_rate": 5.11118226571434e-06,
      "loss": 1.4236,
      "mean_token_accuracy": 0.6440291911363601,
      "num_tokens": 2404483.0,
      "step": 910
    },
    {
      "entropy": 1.8757817566394805,
      "epoch": 1.536340852130326,
      "grad_norm": 1.5251425504684448,
      "learning_rate": 4.786732161039234e-06,
      "loss": 1.5295,
      "mean_token_accuracy": 0.6261114202439785,
      "num_tokens": 2431919.0,
      "step": 920
    },
    {
      "entropy": 1.8587533831596375,
      "epoch": 1.553049289891395,
      "grad_norm": 1.647172451019287,
      "learning_rate": 4.470955592804871e-06,
      "loss": 1.3916,
      "mean_token_accuracy": 0.6414183430373669,
      "num_tokens": 2461737.0,
      "step": 930
    },
    {
      "entropy": 1.8832595944404602,
      "epoch": 1.5697577276524646,
      "grad_norm": 2.1904146671295166,
      "learning_rate": 4.164120731749072e-06,
      "loss": 1.5253,
      "mean_token_accuracy": 0.63388307467103,
      "num_tokens": 2484053.0,
      "step": 940
    },
    {
      "entropy": 1.9385288596153258,
      "epoch": 1.5864661654135337,
      "grad_norm": 1.4704978466033936,
      "learning_rate": 3.866488154935951e-06,
      "loss": 1.544,
      "mean_token_accuracy": 0.6218141697347164,
      "num_tokens": 2509336.0,
      "step": 950
    },
    {
      "entropy": 1.92947296500206,
      "epoch": 1.6031746031746033,
      "grad_norm": 2.599453926086426,
      "learning_rate": 3.5783106244629837e-06,
      "loss": 1.4998,
      "mean_token_accuracy": 0.6333407089114189,
      "num_tokens": 2534725.0,
      "step": 960
    },
    {
      "entropy": 1.7914826542139053,
      "epoch": 1.6198830409356724,
      "grad_norm": 1.3860251903533936,
      "learning_rate": 3.299832872804765e-06,
      "loss": 1.4052,
      "mean_token_accuracy": 0.6594420954585075,
      "num_tokens": 2561604.0,
      "step": 970
    },
    {
      "entropy": 1.9076363742351532,
      "epoch": 1.636591478696742,
      "grad_norm": 1.7287890911102295,
      "learning_rate": 3.0312913949759196e-06,
      "loss": 1.4772,
      "mean_token_accuracy": 0.6380034938454628,
      "num_tokens": 2586962.0,
      "step": 980
    },
    {
      "entropy": 1.897977489233017,
      "epoch": 1.653299916457811,
      "grad_norm": 1.6165651082992554,
      "learning_rate": 2.77291424768959e-06,
      "loss": 1.4259,
      "mean_token_accuracy": 0.6349127419292927,
      "num_tokens": 2614128.0,
      "step": 990
    },
    {
      "entropy": 1.9598186224699021,
      "epoch": 1.6700083542188806,
      "grad_norm": 2.7245564460754395,
      "learning_rate": 2.5249208556820908e-06,
      "loss": 1.5447,
      "mean_token_accuracy": 0.6180414237082005,
      "num_tokens": 2638378.0,
      "step": 1000
    },
    {
      "entropy": 1.8438974112272262,
      "epoch": 1.6867167919799497,
      "grad_norm": 1.519782543182373,
      "learning_rate": 2.287521825368189e-06,
      "loss": 1.4452,
      "mean_token_accuracy": 0.6378182969987393,
      "num_tokens": 2667006.0,
      "step": 1010
    },
    {
      "entropy": 1.8624888569116593,
      "epoch": 1.7034252297410193,
      "grad_norm": 1.3807040452957153,
      "learning_rate": 2.060918765985288e-06,
      "loss": 1.4039,
      "mean_token_accuracy": 0.6466488510370254,
      "num_tokens": 2694457.0,
      "step": 1020
    },
    {
      "entropy": 1.752406159043312,
      "epoch": 1.7201336675020884,
      "grad_norm": 1.9477757215499878,
      "learning_rate": 1.8453041183783953e-06,
      "loss": 1.3724,
      "mean_token_accuracy": 0.6649182379245758,
      "num_tokens": 2721514.0,
      "step": 1030
    },
    {
      "entropy": 1.867113146185875,
      "epoch": 1.736842105263158,
      "grad_norm": 1.5146008729934692,
      "learning_rate": 1.6408609915712397e-06,
      "loss": 1.4912,
      "mean_token_accuracy": 0.6285726055502892,
      "num_tokens": 2749941.0,
      "step": 1040
    },
    {
      "entropy": 1.881867691874504,
      "epoch": 1.753550543024227,
      "grad_norm": 1.1970162391662598,
      "learning_rate": 1.447763007262431e-06,
      "loss": 1.4274,
      "mean_token_accuracy": 0.6479133352637291,
      "num_tokens": 2774956.0,
      "step": 1050
    },
    {
      "entropy": 1.8124820232391357,
      "epoch": 1.7702589807852966,
      "grad_norm": 1.135063886642456,
      "learning_rate": 1.2661741523785637e-06,
      "loss": 1.3427,
      "mean_token_accuracy": 0.6474431194365025,
      "num_tokens": 2805317.0,
      "step": 1060
    },
    {
      "entropy": 1.9482445955276488,
      "epoch": 1.7869674185463658,
      "grad_norm": 1.608454942703247,
      "learning_rate": 1.0962486398096755e-06,
      "loss": 1.5699,
      "mean_token_accuracy": 0.6215325608849526,
      "num_tokens": 2832036.0,
      "step": 1070
    },
    {
      "entropy": 1.945644235610962,
      "epoch": 1.8036758563074353,
      "grad_norm": 2.766500949859619,
      "learning_rate": 9.381307774451348e-07,
      "loss": 1.5286,
      "mean_token_accuracy": 0.6369006544351578,
      "num_tokens": 2855743.0,
      "step": 1080
    },
    {
      "entropy": 1.8863470137119294,
      "epoch": 1.8203842940685044,
      "grad_norm": 1.3567376136779785,
      "learning_rate": 7.919548456213516e-07,
      "loss": 1.5037,
      "mean_token_accuracy": 0.6256943866610527,
      "num_tokens": 2881629.0,
      "step": 1090
    },
    {
      "entropy": 1.7123635321855546,
      "epoch": 1.837092731829574,
      "grad_norm": 1.452407956123352,
      "learning_rate": 6.578449830852279e-07,
      "loss": 1.4047,
      "mean_token_accuracy": 0.65928635597229,
      "num_tokens": 2908678.0,
      "step": 1100
    },
    {
      "entropy": 1.8440750926733016,
      "epoch": 1.8538011695906431,
      "grad_norm": 1.331641435623169,
      "learning_rate": 5.359150815703629e-07,
      "loss": 1.4408,
      "mean_token_accuracy": 0.6417556688189506,
      "num_tokens": 2937408.0,
      "step": 1110
    },
    {
      "entropy": 1.919699600338936,
      "epoch": 1.8705096073517127,
      "grad_norm": 1.5076831579208374,
      "learning_rate": 4.2626868907536034e-07,
      "loss": 1.4585,
      "mean_token_accuracy": 0.6399278536438942,
      "num_tokens": 2962447.0,
      "step": 1120
    },
    {
      "entropy": 1.8350076168775558,
      "epoch": 1.8872180451127818,
      "grad_norm": 1.707216739654541,
      "learning_rate": 3.289989219265466e-07,
      "loss": 1.4885,
      "mean_token_accuracy": 0.6428370043635369,
      "num_tokens": 2987461.0,
      "step": 1130
    },
    {
      "entropy": 1.8436865717172624,
      "epoch": 1.9039264828738514,
      "grad_norm": 2.3200364112854004,
      "learning_rate": 2.441883856996513e-07,
      "loss": 1.5211,
      "mean_token_accuracy": 0.640003713965416,
      "num_tokens": 3011483.0,
      "step": 1140
    },
    {
      "entropy": 1.8367240995168685,
      "epoch": 1.9206349206349205,
      "grad_norm": 1.7375178337097168,
      "learning_rate": 1.719091050676902e-07,
      "loss": 1.4348,
      "mean_token_accuracy": 0.644163503497839,
      "num_tokens": 3038564.0,
      "step": 1150
    },
    {
      "entropy": 1.9745660215616225,
      "epoch": 1.93734335839599,
      "grad_norm": 1.5831917524337769,
      "learning_rate": 1.1222246263458469e-07,
      "loss": 1.6556,
      "mean_token_accuracy": 0.6158465214073658,
      "num_tokens": 3059313.0,
      "step": 1160
    },
    {
      "entropy": 1.8914725601673126,
      "epoch": 1.9540517961570592,
      "grad_norm": 1.6992645263671875,
      "learning_rate": 6.517914680646386e-08,
      "loss": 1.39,
      "mean_token_accuracy": 0.6418868929147721,
      "num_tokens": 3084800.0,
      "step": 1170
    },
    {
      "entropy": 1.8038861930370331,
      "epoch": 1.9707602339181287,
      "grad_norm": 1.4963058233261108,
      "learning_rate": 3.081910874495497e-08,
      "loss": 1.3698,
      "mean_token_accuracy": 0.6503725171089172,
      "num_tokens": 3113883.0,
      "step": 1180
    },
    {
      "entropy": 1.8201948583126069,
      "epoch": 1.9874686716791978,
      "grad_norm": 2.040982723236084,
      "learning_rate": 9.171528438959852e-09,
      "loss": 1.4156,
      "mean_token_accuracy": 0.6591305956244469,
      "num_tokens": 3138912.0,
      "step": 1190
    }
  ],
  "logging_steps": 10,
  "max_steps": 1198,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 2,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1.4514045996918374e+17,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}