{
  "best_global_step": 6000,
  "best_metric": 0.95930004,
  "best_model_checkpoint": "/user/yutianyu/Duplex_Finetune/output/4B_LLaVA_SFT/zero3_0dot6B_LLaVA_SFT_nopacking/v0-20251202-145343/checkpoint-6000",
  "epoch": 1.4081488957213604,
  "eval_steps": 100,
  "global_step": 6000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0002347032177811158,
      "grad_norm": 19.127729366517716,
      "learning_rate": 4e-09,
      "loss": 1.9448599815368652,
      "num_input_tokens_seen": 197295,
      "step": 1,
      "token_acc": 0.5819854991634132
    },
    {
      "epoch": 0.002347032177811158,
      "grad_norm": 16.494659300395906,
      "learning_rate": 4e-08,
      "loss": 1.92243406507704,
      "num_input_tokens_seen": 2020272,
      "step": 10,
      "token_acc": 0.5839277085360667
    },
    {
      "epoch": 0.004694064355622316,
      "grad_norm": 22.126428554674575,
      "learning_rate": 8e-08,
      "loss": 1.916154670715332,
      "num_input_tokens_seen": 4084884,
      "step": 20,
      "token_acc": 0.5835957997637319
    },
    {
      "epoch": 0.007041096533433474,
      "grad_norm": 12.603610772661288,
      "learning_rate": 1.2e-07,
      "loss": 1.8856426239013673,
      "num_input_tokens_seen": 6056667,
      "step": 30,
      "token_acc": 0.584776074988841
    },
    {
      "epoch": 0.009388128711244632,
      "grad_norm": 10.779646193701467,
      "learning_rate": 1.6e-07,
      "loss": 1.8353569030761718,
      "num_input_tokens_seen": 8091435,
      "step": 40,
      "token_acc": 0.5897754631538845
    },
    {
      "epoch": 0.011735160889055789,
      "grad_norm": 136.86547531489668,
      "learning_rate": 2e-07,
      "loss": 1.721211051940918,
      "num_input_tokens_seen": 10091673,
      "step": 50,
      "token_acc": 0.6031858358236022
    },
    {
      "epoch": 0.014082193066866948,
      "grad_norm": 5.080233785680673,
      "learning_rate": 2.4e-07,
      "loss": 1.6145668029785156,
      "num_input_tokens_seen": 12099135,
      "step": 60,
      "token_acc": 0.6209089567372474
    },
    {
      "epoch": 0.016429225244678103,
      "grad_norm": 12.207422981911558,
      "learning_rate": 2.8e-07,
      "loss": 1.5414657592773438,
      "num_input_tokens_seen": 14135250,
      "step": 70,
      "token_acc": 0.6310852754061408
    },
    {
      "epoch": 0.018776257422489263,
      "grad_norm": 8.118283422146021,
      "learning_rate": 3.2e-07,
      "loss": 1.528026008605957,
      "num_input_tokens_seen": 16200873,
      "step": 80,
      "token_acc": 0.6382918453943185
    },
    {
      "epoch": 0.02112328960030042,
      "grad_norm": 3.47292239362735,
      "learning_rate": 3.6e-07,
      "loss": 1.4715272903442382,
      "num_input_tokens_seen": 18177258,
      "step": 90,
      "token_acc": 0.6432060553309527
    },
    {
      "epoch": 0.023470321778111577,
      "grad_norm": 2.2332542577632526,
      "learning_rate": 4e-07,
      "loss": 1.4491453170776367,
      "num_input_tokens_seen": 20161581,
      "step": 100,
      "token_acc": 0.6477376652924822
    },
    {
      "epoch": 0.023470321778111577,
      "eval_loss": 1.4709749221801758,
      "eval_runtime": 33.2583,
      "eval_samples_per_second": 30.068,
      "eval_steps_per_second": 1.263,
      "eval_token_acc": 0.6456822326354424,
      "num_input_tokens_seen": 20161581,
      "step": 100
    },
    {
      "epoch": 0.025817353955922735,
      "grad_norm": 1.9112779247166412,
      "learning_rate": 4.3999999999999997e-07,
      "loss": 1.4166399002075196,
      "num_input_tokens_seen": 22179654,
      "step": 110,
      "token_acc": 0.6549487213586689
    },
    {
      "epoch": 0.028164386133733895,
      "grad_norm": 1.897077748827419,
      "learning_rate": 4.8e-07,
      "loss": 1.3960003852844238,
      "num_input_tokens_seen": 24157263,
      "step": 120,
      "token_acc": 0.6563052255139141
    },
    {
      "epoch": 0.030511418311545052,
      "grad_norm": 2.063047689522777,
      "learning_rate": 5.2e-07,
      "loss": 1.373966884613037,
      "num_input_tokens_seen": 26112051,
      "step": 130,
      "token_acc": 0.6609459618615088
    },
    {
      "epoch": 0.032858450489356206,
      "grad_norm": 6.453024686764437,
      "learning_rate": 5.6e-07,
      "loss": 1.3647557258605958,
      "num_input_tokens_seen": 28133607,
      "step": 140,
      "token_acc": 0.6628235998176535
    },
    {
      "epoch": 0.035205482667167366,
      "grad_norm": 1.9586538878052986,
      "learning_rate": 6e-07,
      "loss": 1.394300651550293,
      "num_input_tokens_seen": 30182052,
      "step": 150,
      "token_acc": 0.6566977644780848
    },
    {
      "epoch": 0.03755251484497853,
      "grad_norm": 4.663911418765899,
      "learning_rate": 6.4e-07,
      "loss": 1.3559602737426757,
      "num_input_tokens_seen": 32177622,
      "step": 160,
      "token_acc": 0.6647926044470018
    },
    {
      "epoch": 0.03989954702278968,
      "grad_norm": 2.649130437820903,
      "learning_rate": 6.800000000000001e-07,
      "loss": 1.320611572265625,
      "num_input_tokens_seen": 34150332,
      "step": 170,
      "token_acc": 0.671068499517214
    },
    {
      "epoch": 0.04224657920060084,
      "grad_norm": 1.988272208775732,
      "learning_rate": 7.2e-07,
      "loss": 1.3357341766357422,
      "num_input_tokens_seen": 36129600,
      "step": 180,
      "token_acc": 0.6666514308426074
    },
    {
      "epoch": 0.044593611378412,
      "grad_norm": 2.089282254202976,
      "learning_rate": 7.599999999999999e-07,
      "loss": 1.3014695167541503,
      "num_input_tokens_seen": 38143260,
      "step": 190,
      "token_acc": 0.6714680103247839
    },
    {
      "epoch": 0.046940643556223155,
      "grad_norm": 1.6962028687120758,
      "learning_rate": 8e-07,
      "loss": 1.316438865661621,
      "num_input_tokens_seen": 40117473,
      "step": 200,
      "token_acc": 0.6719479705996623
    },
    {
      "epoch": 0.046940643556223155,
      "eval_loss": 1.3232439756393433,
      "eval_runtime": 32.4409,
      "eval_samples_per_second": 30.825,
      "eval_steps_per_second": 1.295,
      "eval_token_acc": 0.6714895778029132,
      "num_input_tokens_seen": 40117473,
      "step": 200
    },
    {
      "epoch": 0.049287675734034316,
      "grad_norm": 2.7375989158006453,
      "learning_rate": 8.399999999999999e-07,
      "loss": 1.2971059799194335,
      "num_input_tokens_seen": 42051432,
      "step": 210,
      "token_acc": 0.6724870727708412
    },
    {
      "epoch": 0.05163470791184547,
      "grad_norm": 1.8333521024827166,
      "learning_rate": 8.799999999999999e-07,
      "loss": 1.251258945465088,
      "num_input_tokens_seen": 44060409,
      "step": 220,
      "token_acc": 0.6825975678761506
    },
    {
      "epoch": 0.05398174008965663,
      "grad_norm": 1.7067135742590114,
      "learning_rate": 9.2e-07,
      "loss": 1.2541748046875,
      "num_input_tokens_seen": 46140576,
      "step": 230,
      "token_acc": 0.6838314298998598
    },
    {
      "epoch": 0.05632877226746779,
      "grad_norm": 2.117007115532979,
      "learning_rate": 9.6e-07,
      "loss": 1.2801358222961425,
      "num_input_tokens_seen": 48218463,
      "step": 240,
      "token_acc": 0.6776609031540706
    },
    {
      "epoch": 0.058675804445278944,
      "grad_norm": 1.9477588029675073,
      "learning_rate": 1e-06,
      "loss": 1.272374153137207,
      "num_input_tokens_seen": 50212704,
      "step": 250,
      "token_acc": 0.6784600688499179
    },
    {
      "epoch": 0.061022836623090104,
      "grad_norm": 2.0653725127756495,
      "learning_rate": 1.04e-06,
      "loss": 1.2390222549438477,
      "num_input_tokens_seen": 52210065,
      "step": 260,
      "token_acc": 0.6846190216694448
    },
    {
      "epoch": 0.06336986880090126,
      "grad_norm": 1.6368439315898582,
      "learning_rate": 1.08e-06,
      "loss": 1.2289260864257812,
      "num_input_tokens_seen": 54287394,
      "step": 270,
      "token_acc": 0.6870453172664521
    },
    {
      "epoch": 0.06571690097871241,
      "grad_norm": 1.8897694890455825,
      "learning_rate": 1.12e-06,
      "loss": 1.2016170501708985,
      "num_input_tokens_seen": 56286087,
      "step": 280,
      "token_acc": 0.6947360302493355
    },
    {
      "epoch": 0.06806393315652358,
      "grad_norm": 4.191924245995845,
      "learning_rate": 1.16e-06,
      "loss": 1.2314638137817382,
      "num_input_tokens_seen": 58259631,
      "step": 290,
      "token_acc": 0.6869124082650091
    },
    {
      "epoch": 0.07041096533433473,
      "grad_norm": 2.010449522588459,
      "learning_rate": 1.2e-06,
      "loss": 1.2306774139404297,
      "num_input_tokens_seen": 60262377,
      "step": 300,
      "token_acc": 0.6861436424474188
    },
    {
      "epoch": 0.07041096533433473,
      "eval_loss": 1.253986120223999,
      "eval_runtime": 32.5346,
      "eval_samples_per_second": 30.737,
      "eval_steps_per_second": 1.291,
      "eval_token_acc": 0.6843470834006602,
      "num_input_tokens_seen": 60262377,
      "step": 300
    },
    {
      "epoch": 0.07275799751214589,
      "grad_norm": 1.6903068952734268,
      "learning_rate": 1.24e-06,
      "loss": 1.2244423866271972,
      "num_input_tokens_seen": 62257881,
      "step": 310,
      "token_acc": 0.6906986736484506
    },
    {
      "epoch": 0.07510502968995705,
      "grad_norm": 2.00802423495143,
      "learning_rate": 1.28e-06,
      "loss": 1.2204778671264649,
      "num_input_tokens_seen": 64218216,
      "step": 320,
      "token_acc": 0.6881087345222366
    },
    {
      "epoch": 0.07745206186776821,
      "grad_norm": 2.136483656358153,
      "learning_rate": 1.32e-06,
      "loss": 1.1911478996276856,
      "num_input_tokens_seen": 66217860,
      "step": 330,
      "token_acc": 0.6964124357320138
    },
    {
      "epoch": 0.07979909404557936,
      "grad_norm": 1.7796738858497867,
      "learning_rate": 1.3600000000000001e-06,
      "loss": 1.195077896118164,
      "num_input_tokens_seen": 68222130,
      "step": 340,
      "token_acc": 0.6935684789950294
    },
    {
      "epoch": 0.08214612622339053,
      "grad_norm": 1.7117012000365959,
      "learning_rate": 1.4e-06,
      "loss": 1.2089216232299804,
      "num_input_tokens_seen": 70209570,
      "step": 350,
      "token_acc": 0.6915523828674844
    },
    {
      "epoch": 0.08449315840120168,
      "grad_norm": 1.928181461412703,
      "learning_rate": 1.44e-06,
      "loss": 1.195500946044922,
      "num_input_tokens_seen": 72228831,
      "step": 360,
      "token_acc": 0.6958758115748244
    },
    {
      "epoch": 0.08684019057901284,
      "grad_norm": 2.016364423213612,
      "learning_rate": 1.48e-06,
      "loss": 1.1975667953491211,
      "num_input_tokens_seen": 74280357,
      "step": 370,
      "token_acc": 0.6944993196346585
    },
    {
      "epoch": 0.089187222756824,
      "grad_norm": 1.9269783210667364,
      "learning_rate": 1.5199999999999998e-06,
      "loss": 1.196579933166504,
      "num_input_tokens_seen": 76255509,
      "step": 380,
      "token_acc": 0.693136319725866
    },
    {
      "epoch": 0.09153425493463516,
      "grad_norm": 2.276495563257121,
      "learning_rate": 1.5599999999999999e-06,
      "loss": 1.1727699279785155,
      "num_input_tokens_seen": 78216720,
      "step": 390,
      "token_acc": 0.6980378317334839
    },
    {
      "epoch": 0.09388128711244631,
      "grad_norm": 2.665827226302004,
      "learning_rate": 1.6e-06,
      "loss": 1.2070913314819336,
      "num_input_tokens_seen": 80187780,
      "step": 400,
      "token_acc": 0.6931723081009408
    },
    {
      "epoch": 0.09388128711244631,
      "eval_loss": 1.210001826286316,
      "eval_runtime": 32.311,
      "eval_samples_per_second": 30.949,
      "eval_steps_per_second": 1.3,
      "eval_token_acc": 0.693446596338958,
      "num_input_tokens_seen": 80187780,
      "step": 400
    },
    {
      "epoch": 0.09622831929025746,
      "grad_norm": 1.8020869110136488,
      "learning_rate": 1.6399999999999998e-06,
      "loss": 1.1979689598083496,
      "num_input_tokens_seen": 82253211,
      "step": 410,
      "token_acc": 0.6943290418797176
    },
    {
      "epoch": 0.09857535146806863,
      "grad_norm": 1.613339482743251,
      "learning_rate": 1.6799999999999998e-06,
      "loss": 1.1750219345092774,
      "num_input_tokens_seen": 84275082,
      "step": 420,
      "token_acc": 0.6988580180720491
    },
    {
      "epoch": 0.10092238364587978,
      "grad_norm": 2.0225577242890402,
      "learning_rate": 1.7199999999999998e-06,
      "loss": 1.160631275177002,
      "num_input_tokens_seen": 86256174,
      "step": 430,
      "token_acc": 0.7049912003932076
    },
    {
      "epoch": 0.10326941582369094,
      "grad_norm": 2.0588425205195047,
      "learning_rate": 1.7599999999999999e-06,
      "loss": 1.155072021484375,
      "num_input_tokens_seen": 88191771,
      "step": 440,
      "token_acc": 0.7027978727051616
    },
    {
      "epoch": 0.1056164480015021,
      "grad_norm": 1.750652589288128,
      "learning_rate": 1.8e-06,
      "loss": 1.1657937049865723,
      "num_input_tokens_seen": 90280068,
      "step": 450,
      "token_acc": 0.70126095038482
    },
    {
      "epoch": 0.10796348017931326,
      "grad_norm": 1.6965579041737329,
      "learning_rate": 1.84e-06,
      "loss": 1.1403490066528321,
      "num_input_tokens_seen": 92282058,
      "step": 460,
      "token_acc": 0.7044917775975158
    },
    {
      "epoch": 0.11031051235712441,
      "grad_norm": 1.8743542107195483,
      "learning_rate": 1.8799999999999998e-06,
      "loss": 1.1614572525024414,
      "num_input_tokens_seen": 94268343,
      "step": 470,
      "token_acc": 0.7024686011260286
    },
    {
      "epoch": 0.11265754453493558,
      "grad_norm": 2.2378848353450693,
      "learning_rate": 1.92e-06,
      "loss": 1.1589451789855958,
      "num_input_tokens_seen": 96220941,
      "step": 480,
      "token_acc": 0.7040593029694393
    },
    {
      "epoch": 0.11500457671274673,
      "grad_norm": 1.7219641168340587,
      "learning_rate": 1.96e-06,
      "loss": 1.139027214050293,
      "num_input_tokens_seen": 98234790,
      "step": 490,
      "token_acc": 0.7069929196641098
    },
    {
      "epoch": 0.11735160889055789,
      "grad_norm": 1.7720161431115489,
      "learning_rate": 2e-06,
      "loss": 1.1347829818725585,
      "num_input_tokens_seen": 100243815,
      "step": 500,
      "token_acc": 0.7060081282908567
    },
    {
      "epoch": 0.11735160889055789,
      "eval_loss": 1.1757478713989258,
      "eval_runtime": 32.3883,
      "eval_samples_per_second": 30.875,
      "eval_steps_per_second": 1.297,
      "eval_token_acc": 0.7003347106484153,
      "num_input_tokens_seen": 100243815,
      "step": 500
    },
    {
      "epoch": 0.11969864106836904,
      "grad_norm": 1.8210047186952776,
      "learning_rate": 1.9999912270311373e-06,
      "loss": 1.1792086601257323,
      "num_input_tokens_seen": 102249078,
      "step": 510,
      "token_acc": 0.698590893627688
    },
    {
      "epoch": 0.12204567324618021,
      "grad_norm": 1.8609755736841171,
      "learning_rate": 1.999964908278481e-06,
      "loss": 1.1209921836853027,
      "num_input_tokens_seen": 104220897,
      "step": 520,
      "token_acc": 0.7090112628579576
    },
    {
      "epoch": 0.12439270542399136,
      "grad_norm": 2.1446809333226584,
      "learning_rate": 1.9999210442038163e-06,
      "loss": 1.1469528198242187,
      "num_input_tokens_seen": 106234191,
      "step": 530,
      "token_acc": 0.703947954006619
    },
    {
      "epoch": 0.12673973760180252,
      "grad_norm": 2.046893089210468,
      "learning_rate": 1.9998596355767802e-06,
      "loss": 1.1571426391601562,
      "num_input_tokens_seen": 108272712,
      "step": 540,
      "token_acc": 0.7027365001081043
    },
    {
      "epoch": 0.12908676977961367,
      "grad_norm": 1.8591189017227578,
      "learning_rate": 1.999780683474845e-06,
      "loss": 1.1333347320556642,
      "num_input_tokens_seen": 110241915,
      "step": 550,
      "token_acc": 0.7072802072223069
    },
    {
      "epoch": 0.13143380195742482,
      "grad_norm": 1.6591451063058131,
      "learning_rate": 1.9996841892832997e-06,
      "loss": 1.1434220314025878,
      "num_input_tokens_seen": 112166943,
      "step": 560,
      "token_acc": 0.7056084295682411
    },
    {
      "epoch": 0.133780834135236,
      "grad_norm": 2.020864993257282,
      "learning_rate": 1.999570154695225e-06,
      "loss": 1.1571636199951172,
      "num_input_tokens_seen": 114151494,
      "step": 570,
      "token_acc": 0.7044949720967205
    },
    {
      "epoch": 0.13612786631304716,
      "grad_norm": 2.064129107439252,
      "learning_rate": 1.9994385817114644e-06,
      "loss": 1.1311494827270507,
      "num_input_tokens_seen": 116169552,
      "step": 580,
      "token_acc": 0.7063148017463998
    },
    {
      "epoch": 0.1384748984908583,
      "grad_norm": 2.0906868028581798,
      "learning_rate": 1.999289472640589e-06,
      "loss": 1.1150264739990234,
      "num_input_tokens_seen": 118161789,
      "step": 590,
      "token_acc": 0.7104190105422314
    },
    {
      "epoch": 0.14082193066866946,
      "grad_norm": 1.783399118737723,
      "learning_rate": 1.999122830098858e-06,
      "loss": 1.14277925491333,
      "num_input_tokens_seen": 120188337,
      "step": 600,
      "token_acc": 0.7054239286277058
    },
    {
      "epoch": 0.14082193066866946,
      "eval_loss": 1.150290846824646,
      "eval_runtime": 32.9507,
      "eval_samples_per_second": 30.348,
      "eval_steps_per_second": 1.275,
      "eval_token_acc": 0.7054176958057293,
      "num_input_tokens_seen": 120188337,
      "step": 600
    },
    {
      "epoch": 0.14316896284648062,
      "grad_norm": 2.087850842021689,
      "learning_rate": 1.998938657010171e-06,
      "loss": 1.1017154693603515,
      "num_input_tokens_seen": 122187903,
      "step": 610,
      "token_acc": 0.7150525542709177
    },
    {
      "epoch": 0.14551599502429177,
      "grad_norm": 1.941074004275762,
      "learning_rate": 1.9987369566060176e-06,
      "loss": 1.0946624755859375,
      "num_input_tokens_seen": 124171368,
      "step": 620,
      "token_acc": 0.7163183324905894
    },
    {
      "epoch": 0.14786302720210295,
      "grad_norm": 2.176865017774056,
      "learning_rate": 1.9985177324254197e-06,
      "loss": 1.1165874481201172,
      "num_input_tokens_seen": 126183993,
      "step": 630,
      "token_acc": 0.7110827727359269
    },
    {
      "epoch": 0.1502100593799141,
      "grad_norm": 1.7953820815140804,
      "learning_rate": 1.998280988314872e-06,
      "loss": 1.1424741744995117,
      "num_input_tokens_seen": 128176863,
      "step": 640,
      "token_acc": 0.7053827925519703
    },
    {
      "epoch": 0.15255709155772526,
      "grad_norm": 1.8929944794579523,
      "learning_rate": 1.9980267284282714e-06,
      "loss": 1.1028331756591796,
      "num_input_tokens_seen": 130125408,
      "step": 650,
      "token_acc": 0.7125094339622642
    },
    {
      "epoch": 0.15490412373553641,
      "grad_norm": 1.691459310367227,
      "learning_rate": 1.9977549572268466e-06,
      "loss": 1.107553482055664,
      "num_input_tokens_seen": 132065343,
      "step": 660,
      "token_acc": 0.7138998256484975
    },
    {
      "epoch": 0.15725115591334757,
      "grad_norm": 2.1233419395787556,
      "learning_rate": 1.9974656794790772e-06,
      "loss": 1.1101640701293944,
      "num_input_tokens_seen": 134090148,
      "step": 670,
      "token_acc": 0.713199782361379
    },
    {
      "epoch": 0.15959818809115872,
      "grad_norm": 1.7559578625602645,
      "learning_rate": 1.997158900260614e-06,
      "loss": 1.1094940185546875,
      "num_input_tokens_seen": 136112988,
      "step": 680,
      "token_acc": 0.7122396887639626
    },
    {
      "epoch": 0.16194522026896987,
      "grad_norm": 1.7829226146649233,
      "learning_rate": 1.9968346249541846e-06,
      "loss": 1.117540168762207,
      "num_input_tokens_seen": 138058629,
      "step": 690,
      "token_acc": 0.7106555900807559
    },
    {
      "epoch": 0.16429225244678106,
      "grad_norm": 2.1483315176659166,
      "learning_rate": 1.9964928592495045e-06,
      "loss": 1.0879833221435546,
      "num_input_tokens_seen": 140078598,
      "step": 700,
      "token_acc": 0.7166827394425921
    },
    {
      "epoch": 0.16429225244678106,
      "eval_loss": 1.1313835382461548,
      "eval_runtime": 32.334,
      "eval_samples_per_second": 30.927,
      "eval_steps_per_second": 1.299,
      "eval_token_acc": 0.7089033032478474,
      "num_input_tokens_seen": 140078598,
      "step": 700
    },
    {
      "epoch": 0.1666392846245922,
      "grad_norm": 1.867471314482214,
      "learning_rate": 1.9961336091431724e-06,
      "loss": 1.1190789222717286,
      "num_input_tokens_seen": 142099659,
      "step": 710,
      "token_acc": 0.712375749359721
    },
    {
      "epoch": 0.16898631680240336,
      "grad_norm": 1.9022337846097856,
      "learning_rate": 1.995756880938569e-06,
      "loss": 1.0825121879577637,
      "num_input_tokens_seen": 144092310,
      "step": 720,
      "token_acc": 0.7172525783126845
    },
    {
      "epoch": 0.17133334898021452,
      "grad_norm": 1.9984437173736713,
      "learning_rate": 1.9953626812457438e-06,
      "loss": 1.095411491394043,
      "num_input_tokens_seen": 146064039,
      "step": 730,
      "token_acc": 0.714463713054313
    },
    {
      "epoch": 0.17368038115802567,
      "grad_norm": 2.1447202509234304,
      "learning_rate": 1.9949510169813e-06,
      "loss": 1.1152179718017579,
      "num_input_tokens_seen": 148112049,
      "step": 740,
      "token_acc": 0.712060909164676
    },
    {
      "epoch": 0.17602741333583682,
      "grad_norm": 1.6936993245361356,
      "learning_rate": 1.994521895368273e-06,
      "loss": 1.0852348327636718,
      "num_input_tokens_seen": 150133974,
      "step": 750,
      "token_acc": 0.7162799236018076
    },
    {
      "epoch": 0.178374445513648,
      "grad_norm": 2.352601598144833,
      "learning_rate": 1.9940753239360045e-06,
      "loss": 1.1107561111450195,
      "num_input_tokens_seen": 152099280,
      "step": 760,
      "token_acc": 0.7127718906860011
    },
    {
      "epoch": 0.18072147769145916,
      "grad_norm": 1.84112693117569,
      "learning_rate": 1.9936113105200084e-06,
      "loss": 1.110912036895752,
      "num_input_tokens_seen": 154146792,
      "step": 770,
      "token_acc": 0.7112778436268925
    },
    {
      "epoch": 0.1830685098692703,
      "grad_norm": 2.3592228692729367,
      "learning_rate": 1.9931298632618353e-06,
      "loss": 1.127957820892334,
      "num_input_tokens_seen": 156087093,
      "step": 780,
      "token_acc": 0.7073941119432238
    },
    {
      "epoch": 0.18541554204708147,
      "grad_norm": 1.8453081635946817,
      "learning_rate": 1.9926309906089288e-06,
      "loss": 1.0826932907104492,
      "num_input_tokens_seen": 158083548,
      "step": 790,
      "token_acc": 0.7176969639197369
    },
    {
      "epoch": 0.18776257422489262,
      "grad_norm": 1.6598465812647105,
      "learning_rate": 1.9921147013144777e-06,
      "loss": 1.097795295715332,
      "num_input_tokens_seen": 160083087,
      "step": 800,
      "token_acc": 0.712001722391892
    },
    {
      "epoch": 0.18776257422489262,
      "eval_loss": 1.1155238151550293,
      "eval_runtime": 32.4633,
      "eval_samples_per_second": 30.804,
      "eval_steps_per_second": 1.294,
      "eval_token_acc": 0.712074975185245,
      "num_input_tokens_seen": 160083087,
      "step": 800
    },
    {
      "epoch": 0.19010960640270377,
      "grad_norm": 2.345143984991418,
      "learning_rate": 1.9915810044372615e-06,
      "loss": 1.0773065567016602,
      "num_input_tokens_seen": 162043827,
      "step": 810,
      "token_acc": 0.7185854363462685
    },
    {
      "epoch": 0.19245663858051493,
      "grad_norm": 1.6218625881025774,
      "learning_rate": 1.991029909341493e-06,
      "loss": 1.1322909355163575,
      "num_input_tokens_seen": 164065197,
      "step": 820,
      "token_acc": 0.7112101172756877
    },
    {
      "epoch": 0.1948036707583261,
      "grad_norm": 3.4128089423104204,
      "learning_rate": 1.990461425696651e-06,
      "loss": 1.1018625259399415,
      "num_input_tokens_seen": 166095825,
      "step": 830,
      "token_acc": 0.7132049834650468
    },
    {
      "epoch": 0.19715070293613726,
      "grad_norm": 3.8983014033715273,
      "learning_rate": 1.9898755634773155e-06,
      "loss": 1.092278289794922,
      "num_input_tokens_seen": 168127596,
      "step": 840,
      "token_acc": 0.7165934113928826
    },
    {
      "epoch": 0.19949773511394842,
      "grad_norm": 1.7080322418933676,
      "learning_rate": 1.9892723329629885e-06,
      "loss": 1.0770910263061524,
      "num_input_tokens_seen": 170112078,
      "step": 850,
      "token_acc": 0.7174151496405977
    },
    {
      "epoch": 0.20184476729175957,
      "grad_norm": 1.6399516756726806,
      "learning_rate": 1.988651744737914e-06,
      "loss": 1.119683837890625,
      "num_input_tokens_seen": 172089120,
      "step": 860,
      "token_acc": 0.7093057553740301
    },
    {
      "epoch": 0.20419179946957072,
      "grad_norm": 1.9211847623415963,
      "learning_rate": 1.988013809690895e-06,
      "loss": 1.0811002731323243,
      "num_input_tokens_seen": 174102978,
      "step": 870,
      "token_acc": 0.7170278749197704
    },
    {
      "epoch": 0.20653883164738188,
      "grad_norm": 1.7860065176012982,
      "learning_rate": 1.9873585390151003e-06,
      "loss": 1.0824663162231445,
      "num_input_tokens_seen": 176106354,
      "step": 880,
      "token_acc": 0.7187242752799151
    },
    {
      "epoch": 0.20888586382519303,
      "grad_norm": 6.212586622472415,
      "learning_rate": 1.986685944207868e-06,
      "loss": 1.0738523483276368,
      "num_input_tokens_seen": 178098096,
      "step": 890,
      "token_acc": 0.7199481706694962
    },
    {
      "epoch": 0.2112328960030042,
      "grad_norm": 1.7634279436109257,
      "learning_rate": 1.985996037070505e-06,
      "loss": 1.0606145858764648,
      "num_input_tokens_seen": 180140916,
      "step": 900,
      "token_acc": 0.7212711540534449
    },
    {
      "epoch": 0.2112328960030042,
      "eval_loss": 1.102053165435791,
      "eval_runtime": 32.763,
      "eval_samples_per_second": 30.522,
      "eval_steps_per_second": 1.282,
      "eval_token_acc": 0.7141986565407077,
      "num_input_tokens_seen": 180140916,
      "step": 900
    },
    {
      "epoch": 0.21357992818081536,
      "grad_norm": 1.927927016491826,
      "learning_rate": 1.9852888297080784e-06,
      "loss": 1.0789798736572265,
      "num_input_tokens_seen": 182134725,
      "step": 910,
      "token_acc": 0.7180467099845159
    },
    {
      "epoch": 0.21592696035862652,
      "grad_norm": 1.633422631466873,
      "learning_rate": 1.9845643345292055e-06,
      "loss": 1.075742530822754,
      "num_input_tokens_seen": 184161738,
      "step": 920,
      "token_acc": 0.719577260000721
    },
    {
      "epoch": 0.21827399253643767,
      "grad_norm": 1.763375240928624,
      "learning_rate": 1.9838225642458328e-06,
      "loss": 1.0633999824523925,
      "num_input_tokens_seen": 186250896,
      "step": 930,
      "token_acc": 0.7216072711554525
    },
    {
      "epoch": 0.22062102471424883,
      "grad_norm": 1.578730561244102,
      "learning_rate": 1.9830635318730153e-06,
      "loss": 1.0807870864868163,
      "num_input_tokens_seen": 188240646,
      "step": 940,
      "token_acc": 0.719998073905838
    },
    {
      "epoch": 0.22296805689205998,
      "grad_norm": 1.9778473417464,
      "learning_rate": 1.9822872507286887e-06,
      "loss": 1.0958086013793946,
      "num_input_tokens_seen": 190240614,
      "step": 950,
      "token_acc": 0.715133457837701
    },
    {
      "epoch": 0.22531508906987116,
      "grad_norm": 1.7070736536906375,
      "learning_rate": 1.9814937344334326e-06,
      "loss": 1.083117961883545,
      "num_input_tokens_seen": 192202005,
      "step": 960,
      "token_acc": 0.718299042165819
    },
    {
      "epoch": 0.22766212124768231,
      "grad_norm": 1.6694843702106625,
      "learning_rate": 1.9806829969102353e-06,
      "loss": 1.0489460945129394,
      "num_input_tokens_seen": 194152464,
      "step": 970,
      "token_acc": 0.7243972802430247
    },
    {
      "epoch": 0.23000915342549347,
      "grad_norm": 1.6802225185406368,
      "learning_rate": 1.9798550523842466e-06,
      "loss": 1.055472183227539,
      "num_input_tokens_seen": 196146252,
      "step": 980,
      "token_acc": 0.7222500499869107
    },
    {
      "epoch": 0.23235618560330462,
      "grad_norm": 1.586112316988885,
      "learning_rate": 1.9790099153825295e-06,
      "loss": 1.0688490867614746,
      "num_input_tokens_seen": 198216198,
      "step": 990,
      "token_acc": 0.721910041723649
    },
    {
      "epoch": 0.23470321778111577,
      "grad_norm": 1.9657681362344652,
      "learning_rate": 1.9781476007338054e-06,
      "loss": 1.0997188568115235,
      "num_input_tokens_seen": 200266242,
      "step": 1000,
      "token_acc": 0.7134316006040672
    },
    {
      "epoch": 0.23470321778111577,
      "eval_loss": 1.0927079916000366,
      "eval_runtime": 32.3958,
      "eval_samples_per_second": 30.868,
      "eval_steps_per_second": 1.296,
      "eval_token_acc": 0.7168070912490478,
      "num_input_tokens_seen": 200266242,
      "step": 1000
    },
    {
      "epoch": 0.23705024995892693,
      "grad_norm": 2.279451886611171,
      "learning_rate": 1.9772681235681933e-06,
      "loss": 1.0306278228759767,
      "num_input_tokens_seen": 202268343,
      "step": 1010,
      "token_acc": 0.7296832940863017
    },
    {
      "epoch": 0.23939728213673808,
      "grad_norm": 1.7883291650438458,
      "learning_rate": 1.976371499316945e-06,
      "loss": 1.0757831573486327,
      "num_input_tokens_seen": 204289632,
      "step": 1020,
      "token_acc": 0.7182072037465692
    },
    {
      "epoch": 0.24174431431454926,
      "grad_norm": 1.8342347796963645,
      "learning_rate": 1.975457743712173e-06,
      "loss": 1.0590785980224608,
      "num_input_tokens_seen": 206327745,
      "step": 1030,
      "token_acc": 0.7225627285705905
    },
    {
      "epoch": 0.24409134649236042,
      "grad_norm": 1.762378045102792,
      "learning_rate": 1.974526872786577e-06,
      "loss": 1.0789016723632812,
      "num_input_tokens_seen": 208322556,
      "step": 1040,
      "token_acc": 0.7185882266690018
    },
    {
      "epoch": 0.24643837867017157,
      "grad_norm": 1.7642619697840807,
      "learning_rate": 1.97357890287316e-06,
      "loss": 1.090459442138672,
      "num_input_tokens_seen": 210345396,
      "step": 1050,
      "token_acc": 0.715633342030789
    },
    {
      "epoch": 0.24878541084798272,
      "grad_norm": 1.8062010829609079,
      "learning_rate": 1.9726138506049433e-06,
      "loss": 1.0327832221984863,
      "num_input_tokens_seen": 212289177,
      "step": 1060,
      "token_acc": 0.728890125802145
    },
    {
      "epoch": 0.2511324430257939,
      "grad_norm": 1.6741852997103905,
      "learning_rate": 1.971631732914674e-06,
      "loss": 1.0438125610351563,
      "num_input_tokens_seen": 214294110,
      "step": 1070,
      "token_acc": 0.7274771422710105
    },
    {
      "epoch": 0.25347947520360503,
      "grad_norm": 1.8889183202576878,
      "learning_rate": 1.970632567034527e-06,
      "loss": 1.0874737739562987,
      "num_input_tokens_seen": 216250632,
      "step": 1080,
      "token_acc": 0.7169543090609345
    },
    {
      "epoch": 0.2558265073814162,
      "grad_norm": 1.768581214259287,
      "learning_rate": 1.9696163704958057e-06,
      "loss": 1.0529390335083009,
      "num_input_tokens_seen": 218235084,
      "step": 1090,
      "token_acc": 0.7233062911737727
    },
    {
      "epoch": 0.25817353955922734,
      "grad_norm": 1.6728742294003298,
      "learning_rate": 1.968583161128631e-06,
      "loss": 1.0434741973876953,
      "num_input_tokens_seen": 220250775,
      "step": 1100,
      "token_acc": 0.72555486645587
    },
    {
      "epoch": 0.25817353955922734,
      "eval_loss": 1.0830632448196411,
      "eval_runtime": 32.7745,
      "eval_samples_per_second": 30.512,
      "eval_steps_per_second": 1.281,
      "eval_token_acc": 0.7187414879619584,
      "num_input_tokens_seen": 220250775,
      "step": 1100
    },
    {
      "epoch": 0.2605205717370385,
      "grad_norm": 3.5179698506650827,
      "learning_rate": 1.9675329570616295e-06,
      "loss": 1.036564826965332,
      "num_input_tokens_seen": 222248643,
      "step": 1110,
      "token_acc": 0.7253935790918138
    },
    {
      "epoch": 0.26286760391484965,
      "grad_norm": 1.7194590974245725,
      "learning_rate": 1.9664657767216175e-06,
      "loss": 1.034214401245117,
      "num_input_tokens_seen": 224176074,
      "step": 1120,
      "token_acc": 0.731699968385116
    },
    {
      "epoch": 0.2652146360926608,
      "grad_norm": 1.6151699401355315,
      "learning_rate": 1.9653816388332737e-06,
      "loss": 1.0186534881591798,
      "num_input_tokens_seen": 226256241,
      "step": 1130,
      "token_acc": 0.729031512194937
    },
    {
      "epoch": 0.267561668270472,
      "grad_norm": 1.915048663566233,
      "learning_rate": 1.9642805624188146e-06,
      "loss": 1.0460872650146484,
      "num_input_tokens_seen": 228227991,
      "step": 1140,
      "token_acc": 0.7245494456551131
    },
    {
      "epoch": 0.26990870044828313,
      "grad_norm": 2.3808335250565387,
      "learning_rate": 1.963162566797658e-06,
      "loss": 1.0558183670043946,
      "num_input_tokens_seen": 230254347,
      "step": 1150,
      "token_acc": 0.7232573802936575
    },
    {
      "epoch": 0.2722557326260943,
      "grad_norm": 1.7367289249419906,
      "learning_rate": 1.962027671586086e-06,
      "loss": 1.050713062286377,
      "num_input_tokens_seen": 232285218,
      "step": 1160,
      "token_acc": 0.7248766799700481
    },
    {
      "epoch": 0.27460276480390544,
      "grad_norm": 1.8903258230442381,
      "learning_rate": 1.9608758966968984e-06,
      "loss": 1.0442859649658203,
      "num_input_tokens_seen": 234350787,
      "step": 1170,
      "token_acc": 0.7246446168983565
    },
    {
      "epoch": 0.2769497969817166,
      "grad_norm": 2.0858660720659064,
      "learning_rate": 1.959707262339067e-06,
      "loss": 1.0628435134887695,
      "num_input_tokens_seen": 236401623,
      "step": 1180,
      "token_acc": 0.7223079815551465
    },
    {
      "epoch": 0.2792968291595278,
      "grad_norm": 2.977405059549,
      "learning_rate": 1.9585217890173757e-06,
      "loss": 1.0738126754760742,
      "num_input_tokens_seen": 238361190,
      "step": 1190,
      "token_acc": 0.7190871093733786
    },
    {
      "epoch": 0.28164386133733893,
      "grad_norm": 2.283563309099777,
      "learning_rate": 1.957319497532067e-06,
      "loss": 1.0180787086486816,
      "num_input_tokens_seen": 240437730,
      "step": 1200,
      "token_acc": 0.7330017297652685
    },
    {
      "epoch": 0.28164386133733893,
      "eval_loss": 1.0745400190353394,
      "eval_runtime": 32.4066,
      "eval_samples_per_second": 30.858,
      "eval_steps_per_second": 1.296,
      "eval_token_acc": 0.7201588144317999,
      "num_input_tokens_seen": 240437730,
      "step": 1200
    },
    {
      "epoch": 0.2839908935151501,
      "grad_norm": 1.9270515119564795,
      "learning_rate": 1.956100408978472e-06,
      "loss": 1.0345954895019531,
      "num_input_tokens_seen": 242382708,
      "step": 1210,
      "token_acc": 0.7277172037115998
    },
    {
      "epoch": 0.28633792569296124,
      "grad_norm": 1.5733358413499778,
      "learning_rate": 1.954864544746643e-06,
      "loss": 1.0476463317871094,
      "num_input_tokens_seen": 244350303,
      "step": 1220,
      "token_acc": 0.7255343803753794
    },
    {
      "epoch": 0.2886849578707724,
      "grad_norm": 2.0867528996051345,
      "learning_rate": 1.9536119265209757e-06,
      "loss": 1.0576335906982421,
      "num_input_tokens_seen": 246334116,
      "step": 1230,
      "token_acc": 0.7241534895699202
    },
    {
      "epoch": 0.29103199004858354,
      "grad_norm": 1.587056177259835,
      "learning_rate": 1.952342576279833e-06,
      "loss": 1.0451471328735351,
      "num_input_tokens_seen": 248362662,
      "step": 1240,
      "token_acc": 0.7264873056477157
    },
    {
      "epoch": 0.2933790222263947,
      "grad_norm": 3.147776681472526,
      "learning_rate": 1.9510565162951534e-06,
      "loss": 1.0531164169311524,
      "num_input_tokens_seen": 250326474,
      "step": 1250,
      "token_acc": 0.7241427379495411
    },
    {
      "epoch": 0.2957260544042059,
      "grad_norm": 1.677213988705626,
      "learning_rate": 1.9497537691320667e-06,
      "loss": 1.0469918251037598,
      "num_input_tokens_seen": 252382641,
      "step": 1260,
      "token_acc": 0.7247498649880667
    },
    {
      "epoch": 0.29807308658201703,
      "grad_norm": 3.244921913867558,
      "learning_rate": 1.9484343576484934e-06,
      "loss": 1.0731307983398437,
      "num_input_tokens_seen": 254380842,
      "step": 1270,
      "token_acc": 0.7198529707146587
    },
    {
      "epoch": 0.3004201187598282,
      "grad_norm": 2.2715118534896424,
      "learning_rate": 1.9470983049947442e-06,
      "loss": 1.0327179908752442,
      "num_input_tokens_seen": 256367745,
      "step": 1280,
      "token_acc": 0.7273322442040123
    },
    {
      "epoch": 0.30276715093763934,
      "grad_norm": 2.388511262608066,
      "learning_rate": 1.9457456346131168e-06,
      "loss": 1.0295280456542968,
      "num_input_tokens_seen": 258362418,
      "step": 1290,
      "token_acc": 0.7289352257814815
    },
    {
      "epoch": 0.3051141831154505,
      "grad_norm": 2.284896449465709,
      "learning_rate": 1.944376370237481e-06,
      "loss": 1.0356334686279296,
      "num_input_tokens_seen": 260389752,
      "step": 1300,
      "token_acc": 0.7264502277424404
    },
    {
      "epoch": 0.3051141831154505,
      "eval_loss": 1.0682131052017212,
      "eval_runtime": 32.3728,
      "eval_samples_per_second": 30.89,
      "eval_steps_per_second": 1.297,
      "eval_token_acc": 0.7214607234366704,
      "num_input_tokens_seen": 260389752,
      "step": 1300
    },
    {
      "epoch": 0.30746121529326165,
      "grad_norm": 1.8462096822584517,
      "learning_rate": 1.9429905358928646e-06,
      "loss": 1.0431997299194335,
      "num_input_tokens_seen": 262425369,
      "step": 1310,
      "token_acc": 0.7247579875646393
    },
    {
      "epoch": 0.30980824747107283,
      "grad_norm": 2.7288254092061286,
      "learning_rate": 1.94158815589503e-06,
      "loss": 1.03179931640625,
      "num_input_tokens_seen": 264478839,
      "step": 1320,
      "token_acc": 0.7273030599423818
    },
    {
      "epoch": 0.312155279648884,
      "grad_norm": 2.0483013477422563,
      "learning_rate": 1.9401692548500502e-06,
      "loss": 1.0194345474243165,
      "num_input_tokens_seen": 266467188,
      "step": 1330,
      "token_acc": 0.7318709842049548
    },
    {
      "epoch": 0.31450231182669514,
      "grad_norm": 3.607937481626218,
      "learning_rate": 1.938733857653874e-06,
      "loss": 1.0359786987304687,
      "num_input_tokens_seen": 268553511,
      "step": 1340,
      "token_acc": 0.7270260288085842
    },
    {
      "epoch": 0.3168493440045063,
      "grad_norm": 2.2908695328416244,
      "learning_rate": 1.9372819894918914e-06,
      "loss": 1.005875015258789,
      "num_input_tokens_seen": 270556128,
      "step": 1350,
      "token_acc": 0.733425647272143
    },
    {
      "epoch": 0.31919637618231744,
      "grad_norm": 2.2530826851795576,
      "learning_rate": 1.935813675838491e-06,
      "loss": 1.0363348007202149,
      "num_input_tokens_seen": 272585331,
      "step": 1360,
      "token_acc": 0.7270068150894993
    },
    {
      "epoch": 0.3215434083601286,
      "grad_norm": 1.6599911510535466,
      "learning_rate": 1.934328942456612e-06,
      "loss": 0.9922657012939453,
      "num_input_tokens_seen": 274625832,
      "step": 1370,
      "token_acc": 0.7369969482933556
    },
    {
      "epoch": 0.32389044053793975,
      "grad_norm": 1.6571812543491504,
      "learning_rate": 1.9328278153972946e-06,
      "loss": 1.0838043212890625,
      "num_input_tokens_seen": 276646638,
      "step": 1380,
      "token_acc": 0.7254781164111181
    },
    {
      "epoch": 0.32623747271575093,
      "grad_norm": 1.7846961468797993,
      "learning_rate": 1.9313103209992204e-06,
      "loss": 1.0071705818176269,
      "num_input_tokens_seen": 278652339,
      "step": 1390,
      "token_acc": 0.733368638373526
    },
    {
      "epoch": 0.3285845048935621,
      "grad_norm": 2.1490918049490717,
      "learning_rate": 1.929776485888251e-06,
      "loss": 1.0504549026489258,
      "num_input_tokens_seen": 280677636,
      "step": 1400,
      "token_acc": 0.72332943463746
    },
    {
      "epoch": 0.3285845048935621,
      "eval_loss": 1.061837077140808,
      "eval_runtime": 32.7164,
      "eval_samples_per_second": 30.566,
      "eval_steps_per_second": 1.284,
      "eval_token_acc": 0.7231458184252441,
      "num_input_tokens_seen": 280677636,
      "step": 1400
    },
    {
      "epoch": 0.33093153707137324,
      "grad_norm": 1.776580604562134,
      "learning_rate": 1.928226336976963e-06,
      "loss": 1.0266141891479492,
      "num_input_tokens_seen": 282669069,
      "step": 1410,
      "token_acc": 0.7291277131940492
    },
    {
      "epoch": 0.3332785692491844,
      "grad_norm": 8.438214405501748,
      "learning_rate": 1.926659901464172e-06,
      "loss": 1.0292797088623047,
      "num_input_tokens_seen": 284659779,
      "step": 1420,
      "token_acc": 0.7288078819771109
    },
    {
      "epoch": 0.33562560142699555,
      "grad_norm": 2.252060217551861,
      "learning_rate": 1.925077206834458e-06,
      "loss": 1.0228628158569335,
      "num_input_tokens_seen": 286673274,
      "step": 1430,
      "token_acc": 0.7280252171611444
    },
    {
      "epoch": 0.3379726336048067,
      "grad_norm": 1.4651418770258904,
      "learning_rate": 1.923478280857682e-06,
      "loss": 1.0042032241821288,
      "num_input_tokens_seen": 288677157,
      "step": 1440,
      "token_acc": 0.7343410272213868
    },
    {
      "epoch": 0.34031966578261785,
      "grad_norm": 1.6827171089675037,
      "learning_rate": 1.9218631515885003e-06,
      "loss": 1.0294583320617676,
      "num_input_tokens_seen": 290678706,
      "step": 1450,
      "token_acc": 0.7304443621152334
    },
    {
      "epoch": 0.34266669796042903,
      "grad_norm": 1.7341043440646111,
      "learning_rate": 1.9202318473658702e-06,
      "loss": 0.9965463638305664,
      "num_input_tokens_seen": 292647750,
      "step": 1460,
      "token_acc": 0.736443122122828
    },
    {
      "epoch": 0.3450137301382402,
      "grad_norm": 1.706569258628379,
      "learning_rate": 1.918584396812554e-06,
      "loss": 1.0162506103515625,
      "num_input_tokens_seen": 294701517,
      "step": 1470,
      "token_acc": 0.7316330245383567
    },
    {
      "epoch": 0.34736076231605134,
      "grad_norm": 1.6208113959472872,
      "learning_rate": 1.9169208288346163e-06,
      "loss": 1.0112849235534669,
      "num_input_tokens_seen": 296720586,
      "step": 1480,
      "token_acc": 0.732423183545091
    },
    {
      "epoch": 0.3497077944938625,
      "grad_norm": 1.7865465491021926,
      "learning_rate": 1.9152411726209172e-06,
      "loss": 1.0156356811523437,
      "num_input_tokens_seen": 298684938,
      "step": 1490,
      "token_acc": 0.7308413793103449
    },
    {
      "epoch": 0.35205482667167365,
      "grad_norm": 2.059441241693384,
      "learning_rate": 1.9135454576426007e-06,
      "loss": 1.0275184631347656,
      "num_input_tokens_seen": 300684201,
      "step": 1500,
      "token_acc": 0.730526369912453
    },
    {
      "epoch": 0.35205482667167365,
      "eval_loss": 1.0552641153335571,
      "eval_runtime": 32.4705,
      "eval_samples_per_second": 30.797,
      "eval_steps_per_second": 1.293,
      "eval_token_acc": 0.72383370651647,
      "num_input_tokens_seen": 300684201,
      "step": 1500
    },
    {
      "epoch": 0.35440185884948483,
      "grad_norm": 2.3565377610515594,
      "learning_rate": 1.9118337136525756e-06,
      "loss": 1.0185004234313966,
      "num_input_tokens_seen": 302704359,
      "step": 1510,
      "token_acc": 0.7304355716162425
    },
    {
      "epoch": 0.356748891027296,
      "grad_norm": 14.877826986152865,
      "learning_rate": 1.9101059706849955e-06,
      "loss": 1.019582176208496,
      "num_input_tokens_seen": 304651629,
      "step": 1520,
      "token_acc": 0.731234582403383
    },
    {
      "epoch": 0.35909592320510714,
      "grad_norm": 2.879334483584151,
      "learning_rate": 1.908362259054731e-06,
      "loss": 1.0251285552978515,
      "num_input_tokens_seen": 306641097,
      "step": 1530,
      "token_acc": 0.7294201685316217
    },
    {
      "epoch": 0.3614429553829183,
      "grad_norm": 1.7887355243868148,
      "learning_rate": 1.9066026093568377e-06,
      "loss": 1.0157214164733888,
      "num_input_tokens_seen": 308660178,
      "step": 1540,
      "token_acc": 0.7307293262997984
    },
    {
      "epoch": 0.36378998756072944,
      "grad_norm": 1.867513936920377,
      "learning_rate": 1.9048270524660196e-06,
      "loss": 1.0161379814147948,
      "num_input_tokens_seen": 310777926,
      "step": 1550,
      "token_acc": 0.7304925609175636
    },
    {
      "epoch": 0.3661370197385406,
      "grad_norm": 6.302806843132354,
      "learning_rate": 1.9030356195360873e-06,
      "loss": 0.9866199493408203,
      "num_input_tokens_seen": 312788916,
      "step": 1560,
      "token_acc": 0.7381302995035983
    },
    {
      "epoch": 0.36848405191635175,
      "grad_norm": 1.8930345198459555,
      "learning_rate": 1.9012283419994113e-06,
      "loss": 1.0311415672302247,
      "num_input_tokens_seen": 314814855,
      "step": 1570,
      "token_acc": 0.7291705656140012
    },
    {
      "epoch": 0.37083108409416293,
      "grad_norm": 2.3487824750816646,
      "learning_rate": 1.899405251566371e-06,
      "loss": 1.0350725173950195,
      "num_input_tokens_seen": 316867344,
      "step": 1580,
      "token_acc": 0.7278371704934657
    },
    {
      "epoch": 0.3731781162719741,
      "grad_norm": 2.0782965598493917,
      "learning_rate": 1.8975663802247975e-06,
      "loss": 1.0283987998962403,
      "num_input_tokens_seen": 318871404,
      "step": 1590,
      "token_acc": 0.7280485561890748
    },
    {
      "epoch": 0.37552514844978524,
      "grad_norm": 2.8179476770543546,
      "learning_rate": 1.8957117602394128e-06,
      "loss": 1.027695655822754,
      "num_input_tokens_seen": 320871228,
      "step": 1600,
      "token_acc": 0.7284322929815703
    },
    {
      "epoch": 0.37552514844978524,
      "eval_loss": 1.0503556728363037,
      "eval_runtime": 32.4119,
      "eval_samples_per_second": 30.853,
      "eval_steps_per_second": 1.296,
      "eval_token_acc": 0.7255742018882297,
      "num_input_tokens_seen": 320871228,
      "step": 1600
    },
    {
      "epoch": 0.3778721806275964,
      "grad_norm": 2.240496844348581,
      "learning_rate": 1.8938414241512637e-06,
      "loss": 1.0263992309570313,
      "num_input_tokens_seen": 322930128,
      "step": 1610,
      "token_acc": 0.731757208141934
    },
    {
      "epoch": 0.38021921280540755,
      "grad_norm": 3.896191708778685,
      "learning_rate": 1.8919554047771507e-06,
      "loss": 1.0006643295288087,
      "num_input_tokens_seen": 324982575,
      "step": 1620,
      "token_acc": 0.732137966433454
    },
    {
      "epoch": 0.38256624498321873,
      "grad_norm": 1.7935819973243883,
      "learning_rate": 1.8900537352090523e-06,
      "loss": 0.9882081985473633,
      "num_input_tokens_seen": 326990898,
      "step": 1630,
      "token_acc": 0.7385387731711782
    },
    {
      "epoch": 0.38491327716102985,
      "grad_norm": 3.1640907355889496,
      "learning_rate": 1.8881364488135445e-06,
      "loss": 1.0018336296081543,
      "num_input_tokens_seen": 329033799,
      "step": 1640,
      "token_acc": 0.7350213182627736
    },
    {
      "epoch": 0.38726030933884104,
      "grad_norm": 5.630791095478135,
      "learning_rate": 1.8862035792312146e-06,
      "loss": 0.9879220962524414,
      "num_input_tokens_seen": 331067478,
      "step": 1650,
      "token_acc": 0.736295696568692
    },
    {
      "epoch": 0.3896073415166522,
      "grad_norm": 1.5905696004173981,
      "learning_rate": 1.8842551603760723e-06,
      "loss": 1.004323387145996,
      "num_input_tokens_seen": 333089880,
      "step": 1660,
      "token_acc": 0.7334599037600028
    },
    {
      "epoch": 0.39195437369446334,
      "grad_norm": 43.2007654518171,
      "learning_rate": 1.8822912264349532e-06,
      "loss": 1.0126733779907227,
      "num_input_tokens_seen": 335093103,
      "step": 1670,
      "token_acc": 0.7332479964381122
    },
    {
      "epoch": 0.3943014058722745,
      "grad_norm": 1.6733459020369337,
      "learning_rate": 1.8803118118669202e-06,
      "loss": 1.0368854522705078,
      "num_input_tokens_seen": 337115598,
      "step": 1680,
      "token_acc": 0.7274540217150455
    },
    {
      "epoch": 0.39664843805008565,
      "grad_norm": 1.9876180817181506,
      "learning_rate": 1.8783169514026577e-06,
      "loss": 1.0030999183654785,
      "num_input_tokens_seen": 339154959,
      "step": 1690,
      "token_acc": 0.7345074320050601
    },
    {
      "epoch": 0.39899547022789683,
      "grad_norm": 1.842434463603931,
      "learning_rate": 1.8763066800438634e-06,
      "loss": 0.9946871757507324,
      "num_input_tokens_seen": 341186700,
      "step": 1700,
      "token_acc": 0.7359575477937458
    },
    {
      "epoch": 0.39899547022789683,
      "eval_loss": 1.0446056127548218,
      "eval_runtime": 33.305,
      "eval_samples_per_second": 30.026,
      "eval_steps_per_second": 1.261,
      "eval_token_acc": 0.7265437085939844,
      "num_input_tokens_seen": 341186700,
      "step": 1700
    },
    {
      "epoch": 0.40134250240570796,
      "grad_norm": 1.9481089599377517,
      "learning_rate": 1.8742810330626335e-06,
      "loss": 1.0056350708007813,
      "num_input_tokens_seen": 343197345,
      "step": 1710,
      "token_acc": 0.7343789679900354
    },
    {
      "epoch": 0.40368953458351914,
      "grad_norm": 1.8925573831015579,
      "learning_rate": 1.8722400460008437e-06,
      "loss": 1.0299295425415038,
      "num_input_tokens_seen": 345220860,
      "step": 1720,
      "token_acc": 0.727836675491576
    },
    {
      "epoch": 0.4060365667613303,
      "grad_norm": 1.568094384198171,
      "learning_rate": 1.8701837546695256e-06,
      "loss": 1.011802864074707,
      "num_input_tokens_seen": 347269032,
      "step": 1730,
      "token_acc": 0.731503068944188
    },
    {
      "epoch": 0.40838359893914145,
      "grad_norm": 4.690102343755759,
      "learning_rate": 1.8681121951482393e-06,
      "loss": 1.0340707778930665,
      "num_input_tokens_seen": 349265856,
      "step": 1740,
      "token_acc": 0.7287572174652813
    },
    {
      "epoch": 0.4107306311169526,
      "grad_norm": 2.0732894110715776,
      "learning_rate": 1.8660254037844386e-06,
      "loss": 1.0054452896118165,
      "num_input_tokens_seen": 351220833,
      "step": 1750,
      "token_acc": 0.7349583487050085
    },
    {
      "epoch": 0.41307766329476375,
      "grad_norm": 4.563573246901434,
      "learning_rate": 1.863923417192835e-06,
      "loss": 0.9984481811523438,
      "num_input_tokens_seen": 353217660,
      "step": 1760,
      "token_acc": 0.7346953872236972
    },
    {
      "epoch": 0.41542469547257493,
      "grad_norm": 1.8182323815552697,
      "learning_rate": 1.861806272254755e-06,
      "loss": 1.0026565551757813,
      "num_input_tokens_seen": 355231713,
      "step": 1770,
      "token_acc": 0.734238520256768
    },
    {
      "epoch": 0.41777172765038606,
      "grad_norm": 2.3723528968369867,
      "learning_rate": 1.859674006117491e-06,
      "loss": 0.9838489532470703,
      "num_input_tokens_seen": 357318357,
      "step": 1780,
      "token_acc": 0.7385274102305481
    },
    {
      "epoch": 0.42011875982819724,
      "grad_norm": 2.413365084744393,
      "learning_rate": 1.8575266561936522e-06,
      "loss": 1.0196653366088868,
      "num_input_tokens_seen": 359351646,
      "step": 1790,
      "token_acc": 0.730992332131187
    },
    {
      "epoch": 0.4224657920060084,
      "grad_norm": 7.914722238930336,
      "learning_rate": 1.8553642601605066e-06,
      "loss": 0.9948186874389648,
      "num_input_tokens_seen": 361303284,
      "step": 1800,
      "token_acc": 0.7360711800377772
    },
    {
      "epoch": 0.4224657920060084,
      "eval_loss": 1.038891315460205,
      "eval_runtime": 32.4449,
      "eval_samples_per_second": 30.821,
      "eval_steps_per_second": 1.295,
      "eval_token_acc": 0.7277024999422913,
      "num_input_tokens_seen": 361303284,
      "step": 1800
    },
    {
      "epoch": 0.42481282418381955,
      "grad_norm": 1.7384957796876852,
      "learning_rate": 1.8531868559593203e-06,
      "loss": 1.0075714111328125,
      "num_input_tokens_seen": 363290772,
      "step": 1810,
      "token_acc": 0.7332521267838883
    },
    {
      "epoch": 0.42715985636163073,
      "grad_norm": 1.73396216177198,
      "learning_rate": 1.850994481794692e-06,
      "loss": 1.018679428100586,
      "num_input_tokens_seen": 365299026,
      "step": 1820,
      "token_acc": 0.7299744624828494
    },
    {
      "epoch": 0.42950688853944186,
      "grad_norm": 1.859054699772832,
      "learning_rate": 1.8487871761338819e-06,
      "loss": 0.9975422859191895,
      "num_input_tokens_seen": 367342086,
      "step": 1830,
      "token_acc": 0.735841141099147
    },
    {
      "epoch": 0.43185392071725304,
      "grad_norm": 1.6167732458245692,
      "learning_rate": 1.8465649777061376e-06,
      "loss": 1.0366539001464843,
      "num_input_tokens_seen": 369276633,
      "step": 1840,
      "token_acc": 0.7277804414793901
    },
    {
      "epoch": 0.4342009528950642,
      "grad_norm": 2.534040309718505,
      "learning_rate": 1.844327925502015e-06,
      "loss": 1.0096059799194337,
      "num_input_tokens_seen": 371265615,
      "step": 1850,
      "token_acc": 0.7326266219047257
    },
    {
      "epoch": 0.43654798507287534,
      "grad_norm": 1.9228862468394357,
      "learning_rate": 1.8420760587726921e-06,
      "loss": 1.0271913528442382,
      "num_input_tokens_seen": 373272270,
      "step": 1860,
      "token_acc": 0.7302226164565024
    },
    {
      "epoch": 0.4388950172506865,
      "grad_norm": 1.5025282734361622,
      "learning_rate": 1.8398094170292829e-06,
      "loss": 1.0059158325195312,
      "num_input_tokens_seen": 375279099,
      "step": 1870,
      "token_acc": 0.7330154465542768
    },
    {
      "epoch": 0.44124204942849765,
      "grad_norm": 4.754818039721933,
      "learning_rate": 1.8375280400421418e-06,
      "loss": 0.9967041969299316,
      "num_input_tokens_seen": 377223396,
      "step": 1880,
      "token_acc": 0.7358239778762203
    },
    {
      "epoch": 0.44358908160630883,
      "grad_norm": 1.691685468916323,
      "learning_rate": 1.8352319678401674e-06,
      "loss": 0.999173927307129,
      "num_input_tokens_seen": 379235661,
      "step": 1890,
      "token_acc": 0.7347835016672305
    },
    {
      "epoch": 0.44593611378411996,
      "grad_norm": 1.7737231328640157,
      "learning_rate": 1.8329212407100993e-06,
      "loss": 0.9919824600219727,
      "num_input_tokens_seen": 381243486,
      "step": 1900,
      "token_acc": 0.7371798315515523
    },
    {
      "epoch": 0.44593611378411996,
      "eval_loss": 1.0355346202850342,
      "eval_runtime": 32.2582,
      "eval_samples_per_second": 31.0,
      "eval_steps_per_second": 1.302,
      "eval_token_acc": 0.7281641698021745,
      "num_input_tokens_seen": 381243486,
      "step": 1900
    },
    {
      "epoch": 0.44828314596193114,
      "grad_norm": 2.5554510353139115,
      "learning_rate": 1.8305958991958126e-06,
      "loss": 0.9984329223632813,
      "num_input_tokens_seen": 383266650,
      "step": 1910,
      "token_acc": 0.7348018362631924
    },
    {
      "epoch": 0.4506301781397423,
      "grad_norm": 3.4304227222936854,
      "learning_rate": 1.8282559840976042e-06,
      "loss": 0.9989996910095215,
      "num_input_tokens_seen": 385198056,
      "step": 1920,
      "token_acc": 0.7340237302248127
    },
    {
      "epoch": 0.45297721031755345,
      "grad_norm": 1.8203825695395843,
      "learning_rate": 1.8259015364714785e-06,
      "loss": 1.005854892730713,
      "num_input_tokens_seen": 387174645,
      "step": 1930,
      "token_acc": 0.7344124724323412
    },
    {
      "epoch": 0.45532424249536463,
      "grad_norm": 2.3790186216357387,
      "learning_rate": 1.8235325976284273e-06,
      "loss": 1.0130582809448243,
      "num_input_tokens_seen": 389123001,
      "step": 1940,
      "token_acc": 0.7329481871636396
    },
    {
      "epoch": 0.45767127467317575,
      "grad_norm": 2.2702679233421366,
      "learning_rate": 1.821149209133704e-06,
      "loss": 1.0077364921569825,
      "num_input_tokens_seen": 391185051,
      "step": 1950,
      "token_acc": 0.7325617754275695
    },
    {
      "epoch": 0.46001830685098694,
      "grad_norm": 1.7113606013198168,
      "learning_rate": 1.8187514128060944e-06,
      "loss": 1.0020957946777345,
      "num_input_tokens_seen": 393232749,
      "step": 1960,
      "token_acc": 0.7342212411181741
    },
    {
      "epoch": 0.46236533902879806,
      "grad_norm": 2.0134995821074524,
      "learning_rate": 1.816339250717184e-06,
      "loss": 0.9884714126586914,
      "num_input_tokens_seen": 395240403,
      "step": 1970,
      "token_acc": 0.7366033551966206
    },
    {
      "epoch": 0.46471237120660924,
      "grad_norm": 3.624673089989278,
      "learning_rate": 1.8139127651906181e-06,
      "loss": 1.0036752700805665,
      "num_input_tokens_seen": 397222695,
      "step": 1980,
      "token_acc": 0.7327492557949239
    },
    {
      "epoch": 0.4670594033844204,
      "grad_norm": 12.741541567504669,
      "learning_rate": 1.811471998801361e-06,
      "loss": 1.0088150024414062,
      "num_input_tokens_seen": 399265515,
      "step": 1990,
      "token_acc": 0.7318671375057033
    },
    {
      "epoch": 0.46940643556223155,
      "grad_norm": 1.9147316254240543,
      "learning_rate": 1.8090169943749474e-06,
      "loss": 1.0098794937133788,
      "num_input_tokens_seen": 401254572,
      "step": 2000,
      "token_acc": 0.7348985741915172
    },
    {
      "epoch": 0.46940643556223155,
      "eval_loss": 1.0299264192581177,
      "eval_runtime": 32.8145,
      "eval_samples_per_second": 30.474,
      "eval_steps_per_second": 1.28,
      "eval_token_acc": 0.7290736594261443,
      "num_input_tokens_seen": 401254572,
      "step": 2000
    },
    {
      "epoch": 0.47175346774004273,
      "grad_norm": 1.8961444721894498,
      "learning_rate": 1.8065477949867325e-06,
      "loss": 1.016146469116211,
      "num_input_tokens_seen": 403296912,
      "step": 2010,
      "token_acc": 0.7310783889798314
    },
    {
      "epoch": 0.47410049991785386,
      "grad_norm": 1.5674703012341533,
      "learning_rate": 1.8040644439611345e-06,
      "loss": 1.0078514099121094,
      "num_input_tokens_seen": 405292185,
      "step": 2020,
      "token_acc": 0.7319825043230597
    },
    {
      "epoch": 0.47644753209566504,
      "grad_norm": 1.9494898023759353,
      "learning_rate": 1.8015669848708766e-06,
      "loss": 1.0296178817749024,
      "num_input_tokens_seen": 407303625,
      "step": 2030,
      "token_acc": 0.7293832613834421
    },
    {
      "epoch": 0.47879456427347616,
      "grad_norm": 10.968015568038117,
      "learning_rate": 1.7990554615362197e-06,
      "loss": 0.9932464599609375,
      "num_input_tokens_seen": 409284657,
      "step": 2040,
      "token_acc": 0.7361576877608628
    },
    {
      "epoch": 0.48114159645128735,
      "grad_norm": 1.5634395112041464,
      "learning_rate": 1.7965299180241961e-06,
      "loss": 0.9930622100830078,
      "num_input_tokens_seen": 411350526,
      "step": 2050,
      "token_acc": 0.7371341064431953
    },
    {
      "epoch": 0.4834886286290985,
      "grad_norm": 4.940871877481185,
      "learning_rate": 1.7939903986478354e-06,
      "loss": 0.9968077659606933,
      "num_input_tokens_seen": 413329158,
      "step": 2060,
      "token_acc": 0.7364979106166089
    },
    {
      "epoch": 0.48583566080690965,
      "grad_norm": 1.6357352710651227,
      "learning_rate": 1.7914369479653857e-06,
      "loss": 1.0207565307617188,
      "num_input_tokens_seen": 415301217,
      "step": 2070,
      "token_acc": 0.7303749705838948
    },
    {
      "epoch": 0.48818269298472083,
      "grad_norm": 2.246788650609953,
      "learning_rate": 1.788869610779534e-06,
      "loss": 1.00274658203125,
      "num_input_tokens_seen": 417261702,
      "step": 2080,
      "token_acc": 0.7341963767701447
    },
    {
      "epoch": 0.49052972516253196,
      "grad_norm": 1.56745308904305,
      "learning_rate": 1.7862884321366187e-06,
      "loss": 1.0060449600219727,
      "num_input_tokens_seen": 419262057,
      "step": 2090,
      "token_acc": 0.7324562018430577
    },
    {
      "epoch": 0.49287675734034314,
      "grad_norm": 1.7117337983013203,
      "learning_rate": 1.7836934573258397e-06,
      "loss": 0.9900275230407715,
      "num_input_tokens_seen": 421246710,
      "step": 2100,
      "token_acc": 0.7372878593403012
    },
    {
      "epoch": 0.49287675734034314,
      "eval_loss": 1.027020812034607,
      "eval_runtime": 32.799,
      "eval_samples_per_second": 30.489,
      "eval_steps_per_second": 1.281,
      "eval_token_acc": 0.7296553634495971,
      "num_input_tokens_seen": 421246710,
      "step": 2100
    },
    {
      "epoch": 0.49522378951815427,
      "grad_norm": 1.5242891687227014,
      "learning_rate": 1.781084731878463e-06,
      "loss": 0.9901479721069336,
      "num_input_tokens_seen": 423187323,
      "step": 2110,
      "token_acc": 0.7374922148637526
    },
    {
      "epoch": 0.49757082169596545,
      "grad_norm": 2.148393307418336,
      "learning_rate": 1.7784623015670235e-06,
      "loss": 0.9794765472412109,
      "num_input_tokens_seen": 425214681,
      "step": 2120,
      "token_acc": 0.7396016635749383
    },
    {
      "epoch": 0.49991785387377663,
      "grad_norm": 1.6777795098531292,
      "learning_rate": 1.7758262124045194e-06,
      "loss": 1.0104660987854004,
      "num_input_tokens_seen": 427125735,
      "step": 2130,
      "token_acc": 0.7328506355953969
    },
    {
      "epoch": 0.5022648860515878,
      "grad_norm": 1.8399011401453165,
      "learning_rate": 1.7731765106436071e-06,
      "loss": 0.9876059532165528,
      "num_input_tokens_seen": 429143655,
      "step": 2140,
      "token_acc": 0.7383790968301517
    },
    {
      "epoch": 0.5046119182293989,
      "grad_norm": 3.2054794139242047,
      "learning_rate": 1.7705132427757892e-06,
      "loss": 1.003396987915039,
      "num_input_tokens_seen": 431161200,
      "step": 2150,
      "token_acc": 0.7355545283928578
    },
    {
      "epoch": 0.5069589504072101,
      "grad_norm": 1.5550880678151673,
      "learning_rate": 1.7678364555305976e-06,
      "loss": 0.9901845932006836,
      "num_input_tokens_seen": 433164327,
      "step": 2160,
      "token_acc": 0.7361521188091766
    },
    {
      "epoch": 0.5093059825850212,
      "grad_norm": 2.416552637489239,
      "learning_rate": 1.7651461958747741e-06,
      "loss": 1.0047142028808593,
      "num_input_tokens_seen": 435216456,
      "step": 2170,
      "token_acc": 0.733555096342685
    },
    {
      "epoch": 0.5116530147628324,
      "grad_norm": 2.387719191103811,
      "learning_rate": 1.7624425110114479e-06,
      "loss": 1.0148651123046875,
      "num_input_tokens_seen": 437206023,
      "step": 2180,
      "token_acc": 0.7325390238452453
    },
    {
      "epoch": 0.5140000469406436,
      "grad_norm": 1.481562163308891,
      "learning_rate": 1.7597254483793048e-06,
      "loss": 0.9734397888183594,
      "num_input_tokens_seen": 439163631,
      "step": 2190,
      "token_acc": 0.7413863843737306
    },
    {
      "epoch": 0.5163470791184547,
      "grad_norm": 7.115442308152491,
      "learning_rate": 1.7569950556517563e-06,
      "loss": 1.019681167602539,
      "num_input_tokens_seen": 441170622,
      "step": 2200,
      "token_acc": 0.7295540569410798
    },
    {
      "epoch": 0.5163470791184547,
      "eval_loss": 1.0215942859649658,
      "eval_runtime": 32.4901,
      "eval_samples_per_second": 30.779,
      "eval_steps_per_second": 1.293,
      "eval_token_acc": 0.7315389764779207,
      "num_input_tokens_seen": 441170622,
      "step": 2200
    },
    {
      "epoch": 0.5186941112962659,
      "grad_norm": 1.6355732837542087,
      "learning_rate": 1.7542513807361037e-06,
      "loss": 1.0146623611450196,
      "num_input_tokens_seen": 443157417,
      "step": 2210,
      "token_acc": 0.7331868122856259
    },
    {
      "epoch": 0.521041143474077,
      "grad_norm": 1.5373557972963237,
      "learning_rate": 1.7514944717726961e-06,
      "loss": 0.996919822692871,
      "num_input_tokens_seen": 445115421,
      "step": 2220,
      "token_acc": 0.7370941300202442
    },
    {
      "epoch": 0.5233881756518882,
      "grad_norm": 3.095727021967102,
      "learning_rate": 1.748724377134086e-06,
      "loss": 1.008862018585205,
      "num_input_tokens_seen": 447113430,
      "step": 2230,
      "token_acc": 0.7321047500353728
    },
    {
      "epoch": 0.5257352078296993,
      "grad_norm": 1.6318669740450855,
      "learning_rate": 1.7459411454241822e-06,
      "loss": 1.0091367721557618,
      "num_input_tokens_seen": 449067504,
      "step": 2240,
      "token_acc": 0.7306417201986045
    },
    {
      "epoch": 0.5280822400075105,
      "grad_norm": 1.8958429005632293,
      "learning_rate": 1.743144825477394e-06,
      "loss": 0.9806262016296386,
      "num_input_tokens_seen": 451028514,
      "step": 2250,
      "token_acc": 0.7392674057301928
    },
    {
      "epoch": 0.5304292721853217,
      "grad_norm": 1.8300311325163234,
      "learning_rate": 1.740335466357778e-06,
      "loss": 0.9876058578491211,
      "num_input_tokens_seen": 453088446,
      "step": 2260,
      "token_acc": 0.7375388829110828
    },
    {
      "epoch": 0.5327763043631328,
      "grad_norm": 1.6283939332628163,
      "learning_rate": 1.737513117358174e-06,
      "loss": 1.0128792762756347,
      "num_input_tokens_seen": 455064009,
      "step": 2270,
      "token_acc": 0.7309403491726847
    },
    {
      "epoch": 0.535123336540944,
      "grad_norm": 1.7443727538000593,
      "learning_rate": 1.7346778279993416e-06,
      "loss": 1.0167512893676758,
      "num_input_tokens_seen": 457049565,
      "step": 2280,
      "token_acc": 0.7327466353251444
    },
    {
      "epoch": 0.5374703687187551,
      "grad_norm": 2.318872931178241,
      "learning_rate": 1.731829648029091e-06,
      "loss": 0.9633228302001953,
      "num_input_tokens_seen": 459050343,
      "step": 2290,
      "token_acc": 0.7410114142684382
    },
    {
      "epoch": 0.5398174008965663,
      "grad_norm": 1.5210715736947538,
      "learning_rate": 1.7289686274214115e-06,
      "loss": 0.9929851531982422,
      "num_input_tokens_seen": 461049750,
      "step": 2300,
      "token_acc": 0.7357508251313404
    },
    {
      "epoch": 0.5398174008965663,
      "eval_loss": 1.0185507535934448,
      "eval_runtime": 32.6195,
      "eval_samples_per_second": 30.657,
      "eval_steps_per_second": 1.288,
      "eval_token_acc": 0.731474342697537,
      "num_input_tokens_seen": 461049750,
      "step": 2300
    },
    {
      "epoch": 0.5421644330743774,
      "grad_norm": 1.5749401648234354,
      "learning_rate": 1.7260948163755917e-06,
      "loss": 0.9968940734863281,
      "num_input_tokens_seen": 462989622,
      "step": 2310,
      "token_acc": 0.7375997849195517
    },
    {
      "epoch": 0.5445114652521886,
      "grad_norm": 2.5312095421318928,
      "learning_rate": 1.723208265315342e-06,
      "loss": 0.9779894828796387,
      "num_input_tokens_seen": 465006357,
      "step": 2320,
      "token_acc": 0.7394803638714152
    },
    {
      "epoch": 0.5468584974299998,
      "grad_norm": 3.2822780472953803,
      "learning_rate": 1.720309024887907e-06,
      "loss": 1.0032640457153321,
      "num_input_tokens_seen": 467017005,
      "step": 2330,
      "token_acc": 0.7345803640542331
    },
    {
      "epoch": 0.5492055296078109,
      "grad_norm": 1.6687009392941055,
      "learning_rate": 1.7173971459631787e-06,
      "loss": 1.0077280044555663,
      "num_input_tokens_seen": 468979461,
      "step": 2340,
      "token_acc": 0.7342930917761522
    },
    {
      "epoch": 0.5515525617856221,
      "grad_norm": 11.650174621954747,
      "learning_rate": 1.7144726796328032e-06,
      "loss": 0.9968754768371582,
      "num_input_tokens_seen": 470994735,
      "step": 2350,
      "token_acc": 0.734416431505073
    },
    {
      "epoch": 0.5538995939634332,
      "grad_norm": 2.599642616517287,
      "learning_rate": 1.7115356772092855e-06,
      "loss": 1.0374162673950196,
      "num_input_tokens_seen": 472979052,
      "step": 2360,
      "token_acc": 0.7287551723023211
    },
    {
      "epoch": 0.5562466261412444,
      "grad_norm": 2.7538705299088453,
      "learning_rate": 1.7085861902250862e-06,
      "loss": 1.0119436264038086,
      "num_input_tokens_seen": 475016298,
      "step": 2370,
      "token_acc": 0.7321991702851346
    },
    {
      "epoch": 0.5585936583190556,
      "grad_norm": 2.3397709495881682,
      "learning_rate": 1.7056242704317208e-06,
      "loss": 0.9402626991271973,
      "num_input_tokens_seen": 477109281,
      "step": 2380,
      "token_acc": 0.7490173941732094
    },
    {
      "epoch": 0.5609406904968667,
      "grad_norm": 1.879207656038821,
      "learning_rate": 1.7026499697988492e-06,
      "loss": 0.9886844635009766,
      "num_input_tokens_seen": 479146713,
      "step": 2390,
      "token_acc": 0.7365850879725937
    },
    {
      "epoch": 0.5632877226746779,
      "grad_norm": 1.9704873763682087,
      "learning_rate": 1.6996633405133653e-06,
      "loss": 0.9943101882934571,
      "num_input_tokens_seen": 481102911,
      "step": 2400,
      "token_acc": 0.7366662244187203
    },
    {
      "epoch": 0.5632877226746779,
      "eval_loss": 1.015251636505127,
      "eval_runtime": 32.7961,
      "eval_samples_per_second": 30.491,
      "eval_steps_per_second": 1.281,
      "eval_token_acc": 0.7320929803097804,
      "num_input_tokens_seen": 481102911,
      "step": 2400
    },
    {
      "epoch": 0.565634754852489,
      "grad_norm": 1.6632244132905207,
      "learning_rate": 1.6966644349784808e-06,
      "loss": 0.9883607864379883,
      "num_input_tokens_seen": 483084549,
      "step": 2410,
      "token_acc": 0.7358879192027988
    },
    {
      "epoch": 0.5679817870303002,
      "grad_norm": 1.5330248452956106,
      "learning_rate": 1.6936533058128049e-06,
      "loss": 1.0042284965515136,
      "num_input_tokens_seen": 485112228,
      "step": 2420,
      "token_acc": 0.7344426514994169
    },
    {
      "epoch": 0.5703288192081113,
      "grad_norm": 2.5405918981273867,
      "learning_rate": 1.6906300058494227e-06,
      "loss": 0.9880990982055664,
      "num_input_tokens_seen": 487123020,
      "step": 2430,
      "token_acc": 0.7372175131700104
    },
    {
      "epoch": 0.5726758513859225,
      "grad_norm": 3.9012975042201297,
      "learning_rate": 1.6875945881349673e-06,
      "loss": 0.9801074981689453,
      "num_input_tokens_seen": 489120441,
      "step": 2440,
      "token_acc": 0.7381837376558823
    },
    {
      "epoch": 0.5750228835637337,
      "grad_norm": 1.6637494968221076,
      "learning_rate": 1.6845471059286886e-06,
      "loss": 1.0021610260009766,
      "num_input_tokens_seen": 491066049,
      "step": 2450,
      "token_acc": 0.7346050699774175
    },
    {
      "epoch": 0.5773699157415448,
      "grad_norm": 1.652438429477013,
      "learning_rate": 1.6814876127015198e-06,
      "loss": 0.9841398239135742,
      "num_input_tokens_seen": 493112928,
      "step": 2460,
      "token_acc": 0.7378321905180247
    },
    {
      "epoch": 0.579716947919356,
      "grad_norm": 3.543309593586376,
      "learning_rate": 1.678416162135138e-06,
      "loss": 0.979088020324707,
      "num_input_tokens_seen": 495119139,
      "step": 2470,
      "token_acc": 0.7399358154268393
    },
    {
      "epoch": 0.5820639800971671,
      "grad_norm": 2.893410134875752,
      "learning_rate": 1.6753328081210244e-06,
      "loss": 0.9998300552368165,
      "num_input_tokens_seen": 497115090,
      "step": 2480,
      "token_acc": 0.7359860001129023
    },
    {
      "epoch": 0.5844110122749783,
      "grad_norm": 1.9583144196315403,
      "learning_rate": 1.6722376047595161e-06,
      "loss": 0.9970391273498536,
      "num_input_tokens_seen": 499168851,
      "step": 2490,
      "token_acc": 0.7355328073638283
    },
    {
      "epoch": 0.5867580444527895,
      "grad_norm": 5.903330257525673,
      "learning_rate": 1.669130606358858e-06,
      "loss": 1.0149246215820313,
      "num_input_tokens_seen": 501138603,
      "step": 2500,
      "token_acc": 0.7320385426697377
    },
    {
      "epoch": 0.5867580444527895,
      "eval_loss": 1.0123026371002197,
      "eval_runtime": 32.7432,
      "eval_samples_per_second": 30.541,
      "eval_steps_per_second": 1.283,
      "eval_token_acc": 0.7328916691673784,
      "num_input_tokens_seen": 501138603,
      "step": 2500
    },
    {
      "epoch": 0.5891050766306006,
      "grad_norm": 1.919536213839018,
      "learning_rate": 1.6660118674342515e-06,
      "loss": 0.9900060653686523,
      "num_input_tokens_seen": 503184900,
      "step": 2510,
      "token_acc": 0.7371078337925816
    },
    {
      "epoch": 0.5914521088084118,
      "grad_norm": 3.4511789649891966,
      "learning_rate": 1.6628814427068952e-06,
      "loss": 0.9589821815490722,
      "num_input_tokens_seen": 505223106,
      "step": 2520,
      "token_acc": 0.7453759303446423
    },
    {
      "epoch": 0.5937991409862229,
      "grad_norm": 3.9395749071950554,
      "learning_rate": 1.6597393871030261e-06,
      "loss": 0.9944395065307617,
      "num_input_tokens_seen": 507246369,
      "step": 2530,
      "token_acc": 0.7347724854980832
    },
    {
      "epoch": 0.5961461731640341,
      "grad_norm": 1.5397013326592903,
      "learning_rate": 1.6565857557529564e-06,
      "loss": 0.9756797790527344,
      "num_input_tokens_seen": 509308893,
      "step": 2540,
      "token_acc": 0.7391703562324037
    },
    {
      "epoch": 0.5984932053418452,
      "grad_norm": 1.7526411604347196,
      "learning_rate": 1.6534206039901055e-06,
      "loss": 0.9834499359130859,
      "num_input_tokens_seen": 511244184,
      "step": 2550,
      "token_acc": 0.7380458487339893
    },
    {
      "epoch": 0.6008402375196564,
      "grad_norm": 2.2921640319260024,
      "learning_rate": 1.6502439873500286e-06,
      "loss": 1.0054790496826171,
      "num_input_tokens_seen": 513290352,
      "step": 2560,
      "token_acc": 0.734738491502126
    },
    {
      "epoch": 0.6031872696974675,
      "grad_norm": 1.9064014496743276,
      "learning_rate": 1.6470559615694445e-06,
      "loss": 0.9771562576293945,
      "num_input_tokens_seen": 515276862,
      "step": 2570,
      "token_acc": 0.7392910978769869
    },
    {
      "epoch": 0.6055343018752787,
      "grad_norm": 2.0609613172670764,
      "learning_rate": 1.6438565825852537e-06,
      "loss": 0.9563516616821289,
      "num_input_tokens_seen": 517288296,
      "step": 2580,
      "token_acc": 0.744728798321846
    },
    {
      "epoch": 0.6078813340530899,
      "grad_norm": 1.7302019611107595,
      "learning_rate": 1.6406459065335614e-06,
      "loss": 0.9771955490112305,
      "num_input_tokens_seen": 519254622,
      "step": 2590,
      "token_acc": 0.740443198920546
    },
    {
      "epoch": 0.610228366230901,
      "grad_norm": 1.8178684355141148,
      "learning_rate": 1.6374239897486897e-06,
      "loss": 0.9703773498535156,
      "num_input_tokens_seen": 521236017,
      "step": 2600,
      "token_acc": 0.7407382220106489
    },
    {
      "epoch": 0.610228366230901,
      "eval_loss": 1.0093790292739868,
      "eval_runtime": 32.6088,
      "eval_samples_per_second": 30.667,
      "eval_steps_per_second": 1.288,
      "eval_token_acc": 0.7333256388356686,
      "num_input_tokens_seen": 521236017,
      "step": 2600
    },
    {
      "epoch": 0.6125753984087122,
      "grad_norm": 1.8585384534519827,
      "learning_rate": 1.6341908887621894e-06,
      "loss": 0.9817310333251953,
      "num_input_tokens_seen": 523212513,
      "step": 2610,
      "token_acc": 0.738175322879972
    },
    {
      "epoch": 0.6149224305865233,
      "grad_norm": 2.4244702161030625,
      "learning_rate": 1.6309466603018495e-06,
      "loss": 0.9609703063964844,
      "num_input_tokens_seen": 525216327,
      "step": 2620,
      "token_acc": 0.7439178110371839
    },
    {
      "epoch": 0.6172694627643345,
      "grad_norm": 1.638774547412265,
      "learning_rate": 1.6276913612907004e-06,
      "loss": 0.9597613334655761,
      "num_input_tokens_seen": 527198007,
      "step": 2630,
      "token_acc": 0.7433998992304688
    },
    {
      "epoch": 0.6196164949421457,
      "grad_norm": 1.8052959287052057,
      "learning_rate": 1.6244250488460155e-06,
      "loss": 0.9595340728759766,
      "num_input_tokens_seen": 529328826,
      "step": 2640,
      "token_acc": 0.7424487405247924
    },
    {
      "epoch": 0.6219635271199568,
      "grad_norm": 2.9059084324443987,
      "learning_rate": 1.6211477802783102e-06,
      "loss": 0.9733432769775391,
      "num_input_tokens_seen": 531353727,
      "step": 2650,
      "token_acc": 0.7391637709236651
    },
    {
      "epoch": 0.624310559297768,
      "grad_norm": 2.4613981471794117,
      "learning_rate": 1.6178596130903343e-06,
      "loss": 0.9548052787780762,
      "num_input_tokens_seen": 533357184,
      "step": 2660,
      "token_acc": 0.7445567764998143
    },
    {
      "epoch": 0.6266575914755791,
      "grad_norm": 1.959126642555864,
      "learning_rate": 1.6145606049760642e-06,
      "loss": 0.9767616271972657,
      "num_input_tokens_seen": 535321791,
      "step": 2670,
      "token_acc": 0.7381060525928277
    },
    {
      "epoch": 0.6290046236533903,
      "grad_norm": 1.5308332739370312,
      "learning_rate": 1.6112508138196917e-06,
      "loss": 0.9835859298706054,
      "num_input_tokens_seen": 537364758,
      "step": 2680,
      "token_acc": 0.7381528449040924
    },
    {
      "epoch": 0.6313516558312015,
      "grad_norm": 1.8506281977228691,
      "learning_rate": 1.6079302976946053e-06,
      "loss": 0.9697771072387695,
      "num_input_tokens_seen": 539423991,
      "step": 2690,
      "token_acc": 0.7428583040298499
    },
    {
      "epoch": 0.6336986880090126,
      "grad_norm": 2.143447146073978,
      "learning_rate": 1.604599114862375e-06,
      "loss": 0.9710499763488769,
      "num_input_tokens_seen": 541385301,
      "step": 2700,
      "token_acc": 0.7437010271608948
    },
    {
      "epoch": 0.6336986880090126,
      "eval_loss": 1.006402611732483,
      "eval_runtime": 32.4804,
      "eval_samples_per_second": 30.788,
      "eval_steps_per_second": 1.293,
      "eval_token_acc": 0.7333256388356686,
      "num_input_tokens_seen": 541385301,
      "step": 2700
    },
    {
      "epoch": 0.6360457201868238,
      "grad_norm": 1.6759371033254091,
      "learning_rate": 1.6012573237717265e-06,
      "loss": 0.9557651519775391,
      "num_input_tokens_seen": 543498738,
      "step": 2710,
      "token_acc": 0.744166114013349
    },
    {
      "epoch": 0.6383927523646349,
      "grad_norm": 1.8250942426916423,
      "learning_rate": 1.5979049830575188e-06,
      "loss": 0.9645903587341309,
      "num_input_tokens_seen": 545489775,
      "step": 2720,
      "token_acc": 0.7429352817436318
    },
    {
      "epoch": 0.6407397845424461,
      "grad_norm": 1.9217599973801651,
      "learning_rate": 1.5945421515397134e-06,
      "loss": 0.9858356475830078,
      "num_input_tokens_seen": 547577721,
      "step": 2730,
      "token_acc": 0.7375185153736568
    },
    {
      "epoch": 0.6430868167202572,
      "grad_norm": 1.7809745721720633,
      "learning_rate": 1.591168888222342e-06,
      "loss": 0.9513526916503906,
      "num_input_tokens_seen": 549624339,
      "step": 2740,
      "token_acc": 0.745696874109412
    },
    {
      "epoch": 0.6454338488980684,
      "grad_norm": 4.185287393591199,
      "learning_rate": 1.587785252292473e-06,
      "loss": 1.0034643173217774,
      "num_input_tokens_seen": 551637576,
      "step": 2750,
      "token_acc": 0.7338386568669174
    },
    {
      "epoch": 0.6477808810758795,
      "grad_norm": 1.5787917866107477,
      "learning_rate": 1.584391303119172e-06,
      "loss": 0.9657976150512695,
      "num_input_tokens_seen": 553630620,
      "step": 2760,
      "token_acc": 0.7424132245973986
    },
    {
      "epoch": 0.6501279132536907,
      "grad_norm": 1.6169135735671403,
      "learning_rate": 1.58098710025246e-06,
      "loss": 0.976175594329834,
      "num_input_tokens_seen": 555634122,
      "step": 2770,
      "token_acc": 0.7385256195920764
    },
    {
      "epoch": 0.6524749454315019,
      "grad_norm": 2.786090764996497,
      "learning_rate": 1.5775727034222674e-06,
      "loss": 1.0152118682861329,
      "num_input_tokens_seen": 557567646,
      "step": 2780,
      "token_acc": 0.7318658065576464
    },
    {
      "epoch": 0.654821977609313,
      "grad_norm": 2.3429135221710142,
      "learning_rate": 1.5741481725373898e-06,
      "loss": 0.9660276412963867,
      "num_input_tokens_seen": 559612812,
      "step": 2790,
      "token_acc": 0.7423686792009822
    },
    {
      "epoch": 0.6571690097871242,
      "grad_norm": 2.066607274894778,
      "learning_rate": 1.5707135676844319e-06,
      "loss": 0.9577510833740235,
      "num_input_tokens_seen": 561582108,
      "step": 2800,
      "token_acc": 0.7451270299890406
    },
    {
      "epoch": 0.6571690097871242,
      "eval_loss": 1.0031476020812988,
      "eval_runtime": 32.6219,
      "eval_samples_per_second": 30.654,
      "eval_steps_per_second": 1.287,
      "eval_token_acc": 0.7348629994690796,
      "num_input_tokens_seen": 561582108,
      "step": 2800
    },
    {
      "epoch": 0.6595160419649353,
      "grad_norm": 2.6635168105713385,
      "learning_rate": 1.5672689491267565e-06,
      "loss": 0.9600403785705567,
      "num_input_tokens_seen": 563559690,
      "step": 2810,
      "token_acc": 0.7428777482846697
    },
    {
      "epoch": 0.6618630741427465,
      "grad_norm": 1.7450802216902526,
      "learning_rate": 1.5638143773034266e-06,
      "loss": 0.9954195022583008,
      "num_input_tokens_seen": 565524792,
      "step": 2820,
      "token_acc": 0.7348587056347071
    },
    {
      "epoch": 0.6642101063205577,
      "grad_norm": 1.8754649742088336,
      "learning_rate": 1.5603499128281444e-06,
      "loss": 0.969937515258789,
      "num_input_tokens_seen": 567451971,
      "step": 2830,
      "token_acc": 0.7414208823996457
    },
    {
      "epoch": 0.6665571384983688,
      "grad_norm": 1.5835197058667514,
      "learning_rate": 1.556875616488188e-06,
      "loss": 0.969327163696289,
      "num_input_tokens_seen": 569462406,
      "step": 2840,
      "token_acc": 0.7401524628156212
    },
    {
      "epoch": 0.66890417067618,
      "grad_norm": 2.6099644468289567,
      "learning_rate": 1.553391549243344e-06,
      "loss": 0.9504291534423828,
      "num_input_tokens_seen": 571500279,
      "step": 2850,
      "token_acc": 0.7466074001336113
    },
    {
      "epoch": 0.6712512028539911,
      "grad_norm": 2.482803714476407,
      "learning_rate": 1.54989777222484e-06,
      "loss": 0.9784445762634277,
      "num_input_tokens_seen": 573509781,
      "step": 2860,
      "token_acc": 0.7380322581926356
    },
    {
      "epoch": 0.6735982350318023,
      "grad_norm": 3.1626495400003227,
      "learning_rate": 1.546394346734269e-06,
      "loss": 0.9782054901123047,
      "num_input_tokens_seen": 575490657,
      "step": 2870,
      "token_acc": 0.7396435152006547
    },
    {
      "epoch": 0.6759452672096135,
      "grad_norm": 1.8352007570418352,
      "learning_rate": 1.5428813342425175e-06,
      "loss": 0.9893608093261719,
      "num_input_tokens_seen": 577443624,
      "step": 2880,
      "token_acc": 0.7371560289894273
    },
    {
      "epoch": 0.6782922993874246,
      "grad_norm": 11.589107012378998,
      "learning_rate": 1.5393587963886834e-06,
      "loss": 0.9795863151550293,
      "num_input_tokens_seen": 579501576,
      "step": 2890,
      "token_acc": 0.738575752796563
    },
    {
      "epoch": 0.6806393315652357,
      "grad_norm": 2.3582930414965713,
      "learning_rate": 1.5358267949789964e-06,
      "loss": 0.986695671081543,
      "num_input_tokens_seen": 581445867,
      "step": 2900,
      "token_acc": 0.7377336684807478
    },
    {
      "epoch": 0.6806393315652357,
      "eval_loss": 1.0008372068405151,
      "eval_runtime": 32.2631,
      "eval_samples_per_second": 30.995,
      "eval_steps_per_second": 1.302,
      "eval_token_acc": 0.7351584681794049,
      "num_input_tokens_seen": 581445867,
      "step": 2900
    },
    {
      "epoch": 0.6829863637430469,
      "grad_norm": 1.8683225729956336,
      "learning_rate": 1.532285391985734e-06,
      "loss": 0.9824249267578125,
      "num_input_tokens_seen": 583473981,
      "step": 2910,
      "token_acc": 0.7386771656575185
    },
    {
      "epoch": 0.6853333959208581,
      "grad_norm": 1.9051084978341761,
      "learning_rate": 1.5287346495461316e-06,
      "loss": 0.9780803680419922,
      "num_input_tokens_seen": 585488343,
      "step": 2920,
      "token_acc": 0.7386755390868261
    },
    {
      "epoch": 0.6876804280986692,
      "grad_norm": 1.7526173635768003,
      "learning_rate": 1.5251746299612958e-06,
      "loss": 0.9556564331054688,
      "num_input_tokens_seen": 587536749,
      "step": 2930,
      "token_acc": 0.7437935964230544
    },
    {
      "epoch": 0.6900274602764804,
      "grad_norm": 1.908495061384156,
      "learning_rate": 1.5216053956951078e-06,
      "loss": 0.9559732437133789,
      "num_input_tokens_seen": 589505883,
      "step": 2940,
      "token_acc": 0.7442760675515612
    },
    {
      "epoch": 0.6923744924542915,
      "grad_norm": 1.682313702090843,
      "learning_rate": 1.5180270093731302e-06,
      "loss": 0.9883411407470704,
      "num_input_tokens_seen": 591496815,
      "step": 2950,
      "token_acc": 0.7374446310537534
    },
    {
      "epoch": 0.6947215246321027,
      "grad_norm": 1.6223526724021116,
      "learning_rate": 1.5144395337815063e-06,
      "loss": 0.9544116973876953,
      "num_input_tokens_seen": 593483805,
      "step": 2960,
      "token_acc": 0.7434431431260328
    },
    {
      "epoch": 0.6970685568099139,
      "grad_norm": 3.3044227000595106,
      "learning_rate": 1.5108430318658599e-06,
      "loss": 0.9596687316894531,
      "num_input_tokens_seen": 595472802,
      "step": 2970,
      "token_acc": 0.7425995483387807
    },
    {
      "epoch": 0.699415588987725,
      "grad_norm": 1.9946238986715072,
      "learning_rate": 1.507237566730189e-06,
      "loss": 0.9447664260864258,
      "num_input_tokens_seen": 597458052,
      "step": 2980,
      "token_acc": 0.7471448055436924
    },
    {
      "epoch": 0.7017626211655362,
      "grad_norm": 1.9985767739510494,
      "learning_rate": 1.5036232016357608e-06,
      "loss": 0.9753869056701661,
      "num_input_tokens_seen": 599511099,
      "step": 2990,
      "token_acc": 0.7407295913625692
    },
    {
      "epoch": 0.7041096533433473,
      "grad_norm": 1.7848206984050603,
      "learning_rate": 1.5e-06,
      "loss": 0.9929049491882325,
      "num_input_tokens_seen": 601494039,
      "step": 3000,
      "token_acc": 0.733967886177249
    },
    {
      "epoch": 0.7041096533433473,
      "eval_loss": 0.9992188215255737,
      "eval_runtime": 32.8388,
      "eval_samples_per_second": 30.452,
      "eval_steps_per_second": 1.279,
      "eval_token_acc": 0.7353292860275616,
      "num_input_tokens_seen": 601494039,
      "step": 3000
    },
    {
      "epoch": 0.7064566855211585,
      "grad_norm": 1.5971312735806535,
      "learning_rate": 1.4963680253953767e-06,
      "loss": 0.9550104141235352,
      "num_input_tokens_seen": 603479547,
      "step": 3010,
      "token_acc": 0.7457036074683664
    },
    {
      "epoch": 0.7088037176989697,
      "grad_norm": 1.7733615613171219,
      "learning_rate": 1.4927273415482915e-06,
      "loss": 0.9737858772277832,
      "num_input_tokens_seen": 605442297,
      "step": 3020,
      "token_acc": 0.7412765006450565
    },
    {
      "epoch": 0.7111507498767808,
      "grad_norm": 6.926370874803529,
      "learning_rate": 1.4890780123379563e-06,
      "loss": 0.9665937423706055,
      "num_input_tokens_seen": 607477695,
      "step": 3030,
      "token_acc": 0.7405696365107176
    },
    {
      "epoch": 0.713497782054592,
      "grad_norm": 1.6484833491764401,
      "learning_rate": 1.485420101795274e-06,
      "loss": 0.95927734375,
      "num_input_tokens_seen": 609444318,
      "step": 3040,
      "token_acc": 0.7442635774417046
    },
    {
      "epoch": 0.7158448142324031,
      "grad_norm": 2.0360741208385913,
      "learning_rate": 1.4817536741017151e-06,
      "loss": 0.9595672607421875,
      "num_input_tokens_seen": 611390574,
      "step": 3050,
      "token_acc": 0.743094030233154
    },
    {
      "epoch": 0.7181918464102143,
      "grad_norm": 1.6990138073052663,
      "learning_rate": 1.4780787935881923e-06,
      "loss": 0.9530370712280274,
      "num_input_tokens_seen": 613394736,
      "step": 3060,
      "token_acc": 0.7442468822691946
    },
    {
      "epoch": 0.7205388785880255,
      "grad_norm": 1.7762074096620095,
      "learning_rate": 1.474395524733929e-06,
      "loss": 0.9581127166748047,
      "num_input_tokens_seen": 615392505,
      "step": 3070,
      "token_acc": 0.7441699918818188
    },
    {
      "epoch": 0.7228859107658366,
      "grad_norm": 2.463738917765937,
      "learning_rate": 1.4707039321653328e-06,
      "loss": 0.9451935768127442,
      "num_input_tokens_seen": 617397957,
      "step": 3080,
      "token_acc": 0.7463462899737582
    },
    {
      "epoch": 0.7252329429436477,
      "grad_norm": 1.5266790692018193,
      "learning_rate": 1.4670040806548554e-06,
      "loss": 0.9604751586914062,
      "num_input_tokens_seen": 619431237,
      "step": 3090,
      "token_acc": 0.743774946972139
    },
    {
      "epoch": 0.7275799751214589,
      "grad_norm": 2.3079209032431858,
      "learning_rate": 1.4632960351198617e-06,
      "loss": 0.958247184753418,
      "num_input_tokens_seen": 621429906,
      "step": 3100,
      "token_acc": 0.7430188770047043
    },
    {
      "epoch": 0.7275799751214589,
      "eval_loss": 0.9967913031578064,
      "eval_runtime": 32.9622,
      "eval_samples_per_second": 30.338,
      "eval_steps_per_second": 1.274,
      "eval_token_acc": 0.7358602063664273,
      "num_input_tokens_seen": 621429906,
      "step": 3100
    },
    {
      "epoch": 0.7299270072992701,
      "grad_norm": 1.9140433022488452,
      "learning_rate": 1.459579860621488e-06,
      "loss": 0.9593525886535644,
      "num_input_tokens_seen": 623425752,
      "step": 3110,
      "token_acc": 0.7432277726301421
    },
    {
      "epoch": 0.7322740394770813,
      "grad_norm": 1.8212366585882274,
      "learning_rate": 1.4558556223635e-06,
      "loss": 0.9617977142333984,
      "num_input_tokens_seen": 625420740,
      "step": 3120,
      "token_acc": 0.742332781810841
    },
    {
      "epoch": 0.7346210716548924,
      "grad_norm": 1.81167215973652,
      "learning_rate": 1.4521233856911506e-06,
      "loss": 0.958807373046875,
      "num_input_tokens_seen": 627481314,
      "step": 3130,
      "token_acc": 0.7424123292987752
    },
    {
      "epoch": 0.7369681038327035,
      "grad_norm": 2.3831847210640373,
      "learning_rate": 1.4483832160900325e-06,
      "loss": 0.9585672378540039,
      "num_input_tokens_seen": 629442897,
      "step": 3140,
      "token_acc": 0.7439413187403806
    },
    {
      "epoch": 0.7393151360105147,
      "grad_norm": 2.043229737472813,
      "learning_rate": 1.4446351791849273e-06,
      "loss": 0.9544695854187012,
      "num_input_tokens_seen": 631432200,
      "step": 3150,
      "token_acc": 0.7442476653043495
    },
    {
      "epoch": 0.7416621681883259,
      "grad_norm": 4.811000207072732,
      "learning_rate": 1.4408793407386585e-06,
      "loss": 0.9843364715576172,
      "num_input_tokens_seen": 633445356,
      "step": 3160,
      "token_acc": 0.7394687633144498
    },
    {
      "epoch": 0.744009200366137,
      "grad_norm": 2.4106731528164027,
      "learning_rate": 1.4371157666509327e-06,
      "loss": 0.9410341262817383,
      "num_input_tokens_seen": 635526396,
      "step": 3170,
      "token_acc": 0.7483812367179011
    },
    {
      "epoch": 0.7463562325439482,
      "grad_norm": 1.7671356519717534,
      "learning_rate": 1.4333445229571873e-06,
      "loss": 0.9693818092346191,
      "num_input_tokens_seen": 637512357,
      "step": 3180,
      "token_acc": 0.7406820079650566
    },
    {
      "epoch": 0.7487032647217593,
      "grad_norm": 7.649772673674551,
      "learning_rate": 1.429565675827428e-06,
      "loss": 0.9459026336669922,
      "num_input_tokens_seen": 639512292,
      "step": 3190,
      "token_acc": 0.7462010482209617
    },
    {
      "epoch": 0.7510502968995705,
      "grad_norm": 1.8216992633152906,
      "learning_rate": 1.4257792915650725e-06,
      "loss": 0.9720870971679687,
      "num_input_tokens_seen": 641562030,
      "step": 3200,
      "token_acc": 0.7415353056114234
    },
    {
      "epoch": 0.7510502968995705,
      "eval_loss": 0.9943264722824097,
      "eval_runtime": 32.5126,
      "eval_samples_per_second": 30.757,
      "eval_steps_per_second": 1.292,
      "eval_token_acc": 0.7364419103898802,
      "num_input_tokens_seen": 641562030,
      "step": 3200
    },
    {
      "epoch": 0.7533973290773817,
      "grad_norm": 2.5481168225977733,
      "learning_rate": 1.421985436605783e-06,
      "loss": 0.9607316970825195,
      "num_input_tokens_seen": 643584060,
      "step": 3210,
      "token_acc": 0.7432411531496256
    },
    {
      "epoch": 0.7557443612551928,
      "grad_norm": 2.118059690668745,
      "learning_rate": 1.4181841775163012e-06,
      "loss": 0.9484768867492676,
      "num_input_tokens_seen": 645607389,
      "step": 3220,
      "token_acc": 0.7466806535620841
    },
    {
      "epoch": 0.7580913934330039,
      "grad_norm": 1.536905846651224,
      "learning_rate": 1.4143755809932843e-06,
      "loss": 0.9712394714355469,
      "num_input_tokens_seen": 647631456,
      "step": 3230,
      "token_acc": 0.7404885747138855
    },
    {
      "epoch": 0.7604384256108151,
      "grad_norm": 2.4582256619795935,
      "learning_rate": 1.4105597138621279e-06,
      "loss": 0.9821660041809082,
      "num_input_tokens_seen": 649623648,
      "step": 3240,
      "token_acc": 0.7392644424148588
    },
    {
      "epoch": 0.7627854577886263,
      "grad_norm": 1.726231353540505,
      "learning_rate": 1.4067366430758004e-06,
      "loss": 0.9590049743652344,
      "num_input_tokens_seen": 651641892,
      "step": 3250,
      "token_acc": 0.7437141846756814
    },
    {
      "epoch": 0.7651324899664375,
      "grad_norm": 1.922673635746528,
      "learning_rate": 1.4029064357136626e-06,
      "loss": 0.9750150680541992,
      "num_input_tokens_seen": 653604150,
      "step": 3260,
      "token_acc": 0.7414191376968158
    },
    {
      "epoch": 0.7674795221442486,
      "grad_norm": 1.6204247475263307,
      "learning_rate": 1.3990691589802952e-06,
      "loss": 0.9551026344299316,
      "num_input_tokens_seen": 655600902,
      "step": 3270,
      "token_acc": 0.7445325970386258
    },
    {
      "epoch": 0.7698265543220597,
      "grad_norm": 1.4635122389462327,
      "learning_rate": 1.3952248802043165e-06,
      "loss": 0.9669751167297364,
      "num_input_tokens_seen": 657608466,
      "step": 3280,
      "token_acc": 0.7429139464814524
    },
    {
      "epoch": 0.7721735864998709,
      "grad_norm": 8.22536747363378,
      "learning_rate": 1.3913736668372024e-06,
      "loss": 0.9439043045043946,
      "num_input_tokens_seen": 659654619,
      "step": 3290,
      "token_acc": 0.7456336900472631
    },
    {
      "epoch": 0.7745206186776821,
      "grad_norm": 9.543988869279518,
      "learning_rate": 1.3875155864521028e-06,
      "loss": 0.9564947128295899,
      "num_input_tokens_seen": 661688691,
      "step": 3300,
      "token_acc": 0.7438499491922926
    },
    {
      "epoch": 0.7745206186776821,
      "eval_loss": 0.9920927882194519,
      "eval_runtime": 32.5499,
      "eval_samples_per_second": 30.722,
      "eval_steps_per_second": 1.29,
      "eval_token_acc": 0.7375683848479953,
      "num_input_tokens_seen": 661688691,
      "step": 3300
    },
    {
      "epoch": 0.7768676508554933,
      "grad_norm": 1.6682984595331,
      "learning_rate": 1.3836507067426564e-06,
      "loss": 0.9715993881225586,
      "num_input_tokens_seen": 663716223,
      "step": 3310,
      "token_acc": 0.7398505776738471
    },
    {
      "epoch": 0.7792146830333044,
      "grad_norm": 1.4995458445383936,
      "learning_rate": 1.379779095521801e-06,
      "loss": 0.9635456085205079,
      "num_input_tokens_seen": 665680179,
      "step": 3320,
      "token_acc": 0.7437482270495307
    },
    {
      "epoch": 0.7815617152111155,
      "grad_norm": 2.9414382856417665,
      "learning_rate": 1.3759008207205866e-06,
      "loss": 0.955263328552246,
      "num_input_tokens_seen": 667683303,
      "step": 3330,
      "token_acc": 0.7446334146072263
    },
    {
      "epoch": 0.7839087473889267,
      "grad_norm": 2.4991760245357852,
      "learning_rate": 1.3720159503869814e-06,
      "loss": 0.9503087997436523,
      "num_input_tokens_seen": 669640779,
      "step": 3340,
      "token_acc": 0.7461391567718691
    },
    {
      "epoch": 0.7862557795667379,
      "grad_norm": 1.6816037590987798,
      "learning_rate": 1.3681245526846781e-06,
      "loss": 0.9773989677429199,
      "num_input_tokens_seen": 671655801,
      "step": 3350,
      "token_acc": 0.7381824953149948
    },
    {
      "epoch": 0.788602811744549,
      "grad_norm": 13.867129183446435,
      "learning_rate": 1.3642266958918981e-06,
      "loss": 0.9606409072875977,
      "num_input_tokens_seen": 673618887,
      "step": 3360,
      "token_acc": 0.7444690515700922
    },
    {
      "epoch": 0.7909498439223602,
      "grad_norm": 1.68642281844996,
      "learning_rate": 1.3603224484001947e-06,
      "loss": 0.9683753967285156,
      "num_input_tokens_seen": 675600486,
      "step": 3370,
      "token_acc": 0.7418183604302765
    },
    {
      "epoch": 0.7932968761001713,
      "grad_norm": 3.6876372609830947,
      "learning_rate": 1.3564118787132506e-06,
      "loss": 0.9690577507019043,
      "num_input_tokens_seen": 677573577,
      "step": 3380,
      "token_acc": 0.7409562127336359
    },
    {
      "epoch": 0.7956439082779825,
      "grad_norm": 2.195994268899717,
      "learning_rate": 1.3524950554456784e-06,
      "loss": 0.9620229721069335,
      "num_input_tokens_seen": 679562811,
      "step": 3390,
      "token_acc": 0.7450269148735509
    },
    {
      "epoch": 0.7979909404557937,
      "grad_norm": 1.66370232482538,
      "learning_rate": 1.3485720473218152e-06,
      "loss": 0.9747153282165527,
      "num_input_tokens_seen": 681515289,
      "step": 3400,
      "token_acc": 0.7406435118536351
    },
    {
      "epoch": 0.7979909404557937,
      "eval_loss": 0.989876389503479,
      "eval_runtime": 32.5612,
      "eval_samples_per_second": 30.711,
      "eval_steps_per_second": 1.29,
      "eval_token_acc": 0.7377299692989543,
      "num_input_tokens_seen": 681515289,
      "step": 3400
    },
    {
      "epoch": 0.8003379726336048,
      "grad_norm": 7.5891295742929765,
      "learning_rate": 1.344642923174517e-06,
      "loss": 0.9531444549560547,
      "num_input_tokens_seen": 683512767,
      "step": 3410,
      "token_acc": 0.743843269116981
    },
    {
      "epoch": 0.8026850048114159,
      "grad_norm": 2.227763312783814,
      "learning_rate": 1.3407077519439517e-06,
      "loss": 0.9736311912536622,
      "num_input_tokens_seen": 685506138,
      "step": 3420,
      "token_acc": 0.7399243439837672
    },
    {
      "epoch": 0.8050320369892271,
      "grad_norm": 2.113082381566505,
      "learning_rate": 1.3367666026763882e-06,
      "loss": 0.9282070159912109,
      "num_input_tokens_seen": 687553683,
      "step": 3430,
      "token_acc": 0.7491222650322436
    },
    {
      "epoch": 0.8073790691670383,
      "grad_norm": 2.6528881128590505,
      "learning_rate": 1.3328195445229867e-06,
      "loss": 0.9803478240966796,
      "num_input_tokens_seen": 689471004,
      "step": 3440,
      "token_acc": 0.7387909473555786
    },
    {
      "epoch": 0.8097261013448495,
      "grad_norm": 1.9793103853657699,
      "learning_rate": 1.3288666467385831e-06,
      "loss": 0.9667415618896484,
      "num_input_tokens_seen": 691496667,
      "step": 3450,
      "token_acc": 0.7424123423266975
    },
    {
      "epoch": 0.8120731335226606,
      "grad_norm": 1.7709247958435497,
      "learning_rate": 1.3249079786804764e-06,
      "loss": 0.9529176712036133,
      "num_input_tokens_seen": 693546759,
      "step": 3460,
      "token_acc": 0.7441175099271877
    },
    {
      "epoch": 0.8144201657004717,
      "grad_norm": 1.5610954433541373,
      "learning_rate": 1.3209436098072093e-06,
      "loss": 0.9164794921875,
      "num_input_tokens_seen": 695642895,
      "step": 3470,
      "token_acc": 0.7535160611124015
    },
    {
      "epoch": 0.8167671978782829,
      "grad_norm": 5.4874386973622675,
      "learning_rate": 1.3169736096773518e-06,
      "loss": 0.9681709289550782,
      "num_input_tokens_seen": 697628748,
      "step": 3480,
      "token_acc": 0.7417104783717662
    },
    {
      "epoch": 0.8191142300560941,
      "grad_norm": 1.5904173197084162,
      "learning_rate": 1.3129980479482781e-06,
      "loss": 0.9423411369323731,
      "num_input_tokens_seen": 699612816,
      "step": 3490,
      "token_acc": 0.7463674068222216
    },
    {
      "epoch": 0.8214612622339053,
      "grad_norm": 2.5766852327480185,
      "learning_rate": 1.3090169943749473e-06,
      "loss": 0.9422481536865235,
      "num_input_tokens_seen": 701681886,
      "step": 3500,
      "token_acc": 0.746677911017143
    },
    {
      "epoch": 0.8214612622339053,
      "eval_loss": 0.9871490597724915,
      "eval_runtime": 32.4224,
      "eval_samples_per_second": 30.843,
      "eval_steps_per_second": 1.295,
      "eval_token_acc": 0.738205489254634,
      "num_input_tokens_seen": 701681886,
      "step": 3500
    },
    {
      "epoch": 0.8238082944117164,
      "grad_norm": 1.6839398965190602,
      "learning_rate": 1.3050305188086776e-06,
      "loss": 0.9780057907104492,
      "num_input_tokens_seen": 703749471,
      "step": 3510,
      "token_acc": 0.7461169628181562
    },
    {
      "epoch": 0.8261553265895275,
      "grad_norm": 1.6472063314918655,
      "learning_rate": 1.3010386911959206e-06,
      "loss": 0.9228075981140137,
      "num_input_tokens_seen": 705742899,
      "step": 3520,
      "token_acc": 0.750938660857144
    },
    {
      "epoch": 0.8285023587673387,
      "grad_norm": 2.0632172614206934,
      "learning_rate": 1.2970415815770348e-06,
      "loss": 0.9639385223388672,
      "num_input_tokens_seen": 707763786,
      "step": 3530,
      "token_acc": 0.7435530770762796
    },
    {
      "epoch": 0.8308493909451499,
      "grad_norm": 1.9277876571318946,
      "learning_rate": 1.2930392600850572e-06,
      "loss": 0.9361279487609864,
      "num_input_tokens_seen": 709803774,
      "step": 3540,
      "token_acc": 0.7479319140358494
    },
    {
      "epoch": 0.833196423122961,
      "grad_norm": 1.7198703719511412,
      "learning_rate": 1.2890317969444716e-06,
      "loss": 0.9535655975341797,
      "num_input_tokens_seen": 711862587,
      "step": 3550,
      "token_acc": 0.7448029965128141
    },
    {
      "epoch": 0.8355434553007721,
      "grad_norm": 2.212450916967764,
      "learning_rate": 1.285019262469976e-06,
      "loss": 0.9320892333984375,
      "num_input_tokens_seen": 713902905,
      "step": 3560,
      "token_acc": 0.7496303953267546
    },
    {
      "epoch": 0.8378904874785833,
      "grad_norm": 1.9712068144466057,
      "learning_rate": 1.281001727065251e-06,
      "loss": 0.9570484161376953,
      "num_input_tokens_seen": 715896024,
      "step": 3570,
      "token_acc": 0.7434224760474031
    },
    {
      "epoch": 0.8402375196563945,
      "grad_norm": 10.730434108038908,
      "learning_rate": 1.2769792612217224e-06,
      "loss": 0.9570381164550781,
      "num_input_tokens_seen": 717863472,
      "step": 3580,
      "token_acc": 0.7445581595776979
    },
    {
      "epoch": 0.8425845518342057,
      "grad_norm": 3.30727503447712,
      "learning_rate": 1.2729519355173253e-06,
      "loss": 0.9440830230712891,
      "num_input_tokens_seen": 719863371,
      "step": 3590,
      "token_acc": 0.7474822302083397
    },
    {
      "epoch": 0.8449315840120168,
      "grad_norm": 3.713841498382935,
      "learning_rate": 1.2689198206152656e-06,
      "loss": 0.9532724380493164,
      "num_input_tokens_seen": 721831113,
      "step": 3600,
      "token_acc": 0.7449260731906336
    },
    {
      "epoch": 0.8449315840120168,
      "eval_loss": 0.9854407906532288,
      "eval_runtime": 32.7136,
      "eval_samples_per_second": 30.568,
      "eval_steps_per_second": 1.284,
      "eval_token_acc": 0.738343990212599,
      "num_input_tokens_seen": 721831113,
      "step": 3600
    },
    {
      "epoch": 0.8472786161898279,
      "grad_norm": 2.0589116386432122,
      "learning_rate": 1.2648829872627807e-06,
      "loss": 0.9483745574951172,
      "num_input_tokens_seen": 723825324,
      "step": 3610,
      "token_acc": 0.745855639432676
    },
    {
      "epoch": 0.8496256483676391,
      "grad_norm": 2.2896157925507143,
      "learning_rate": 1.2608415062898969e-06,
      "loss": 0.9875471115112304,
      "num_input_tokens_seen": 725824848,
      "step": 3620,
      "token_acc": 0.736929354012106
    },
    {
      "epoch": 0.8519726805454503,
      "grad_norm": 1.8359922545608438,
      "learning_rate": 1.2567954486081878e-06,
      "loss": 0.9514982223510742,
      "num_input_tokens_seen": 727830747,
      "step": 3630,
      "token_acc": 0.7452454133152131
    },
    {
      "epoch": 0.8543197127232615,
      "grad_norm": 3.153372907954943,
      "learning_rate": 1.2527448852095292e-06,
      "loss": 0.9558559417724609,
      "num_input_tokens_seen": 729852828,
      "step": 3640,
      "token_acc": 0.7435630305059377
    },
    {
      "epoch": 0.8566667449010726,
      "grad_norm": 3.2189620482043386,
      "learning_rate": 1.2486898871648551e-06,
      "loss": 0.9721113204956054,
      "num_input_tokens_seen": 731850777,
      "step": 3650,
      "token_acc": 0.7411079350146542
    },
    {
      "epoch": 0.8590137770788837,
      "grad_norm": 3.3099093175401872,
      "learning_rate": 1.2446305256229072e-06,
      "loss": 0.9803009986877441,
      "num_input_tokens_seen": 733814010,
      "step": 3660,
      "token_acc": 0.7365633927510155
    },
    {
      "epoch": 0.8613608092566949,
      "grad_norm": 1.5270344015944395,
      "learning_rate": 1.2405668718089917e-06,
      "loss": 0.9435177803039551,
      "num_input_tokens_seen": 735837123,
      "step": 3670,
      "token_acc": 0.746749139522123
    },
    {
      "epoch": 0.8637078414345061,
      "grad_norm": 5.787047190916268,
      "learning_rate": 1.2364989970237248e-06,
      "loss": 0.956524658203125,
      "num_input_tokens_seen": 737845806,
      "step": 3680,
      "token_acc": 0.7443589079040083
    },
    {
      "epoch": 0.8660548736123173,
      "grad_norm": 8.359169785563331,
      "learning_rate": 1.232426972641784e-06,
      "loss": 0.9011870384216308,
      "num_input_tokens_seen": 739830486,
      "step": 3690,
      "token_acc": 0.75567660422689
    },
    {
      "epoch": 0.8684019057901284,
      "grad_norm": 1.5845135247364173,
      "learning_rate": 1.2283508701106558e-06,
      "loss": 0.9817106246948242,
      "num_input_tokens_seen": 741791226,
      "step": 3700,
      "token_acc": 0.7385339271890049
    },
    {
      "epoch": 0.8684019057901284,
      "eval_loss": 0.983921468257904,
      "eval_runtime": 32.7463,
      "eval_samples_per_second": 30.538,
      "eval_steps_per_second": 1.283,
      "eval_token_acc": 0.7384963412663604,
      "num_input_tokens_seen": 741791226,
      "step": 3700
    },
    {
      "epoch": 0.8707489379679395,
      "grad_norm": 2.3840469812175087,
      "learning_rate": 1.224270760949381e-06,
      "loss": 0.9575783729553222,
      "num_input_tokens_seen": 743787261,
      "step": 3710,
      "token_acc": 0.7436981812982442
    },
    {
      "epoch": 0.8730959701457507,
      "grad_norm": 1.947777089028747,
      "learning_rate": 1.2201867167473015e-06,
      "loss": 0.9696456909179687,
      "num_input_tokens_seen": 745796382,
      "step": 3720,
      "token_acc": 0.7412485623553386
    },
    {
      "epoch": 0.8754430023235619,
      "grad_norm": 1.755420766932852,
      "learning_rate": 1.2160988091628022e-06,
      "loss": 0.9615589141845703,
      "num_input_tokens_seen": 747780156,
      "step": 3730,
      "token_acc": 0.7427405478352258
    },
    {
      "epoch": 0.877790034501373,
      "grad_norm": 1.5327100981263035,
      "learning_rate": 1.2120071099220547e-06,
      "loss": 0.9285150527954101,
      "num_input_tokens_seen": 749739183,
      "step": 3740,
      "token_acc": 0.7498815184287402
    },
    {
      "epoch": 0.8801370666791841,
      "grad_norm": 1.797316309204294,
      "learning_rate": 1.207911690817759e-06,
      "loss": 0.9365687370300293,
      "num_input_tokens_seen": 751694550,
      "step": 3750,
      "token_acc": 0.747152564554286
    },
    {
      "epoch": 0.8824840988569953,
      "grad_norm": 3.689781286827284,
      "learning_rate": 1.2038126237078849e-06,
      "loss": 0.953128433227539,
      "num_input_tokens_seen": 753712974,
      "step": 3760,
      "token_acc": 0.7452915604974099
    },
    {
      "epoch": 0.8848311310348065,
      "grad_norm": 1.7805781440802038,
      "learning_rate": 1.1997099805144068e-06,
      "loss": 0.9508394241333008,
      "num_input_tokens_seen": 755748069,
      "step": 3770,
      "token_acc": 0.7452503865456881
    },
    {
      "epoch": 0.8871781632126177,
      "grad_norm": 1.6166917326261805,
      "learning_rate": 1.195603833222048e-06,
      "loss": 0.9421730995178222,
      "num_input_tokens_seen": 757732731,
      "step": 3780,
      "token_acc": 0.746435002974226
    },
    {
      "epoch": 0.8895251953904288,
      "grad_norm": 2.7425269690357057,
      "learning_rate": 1.191494253877013e-06,
      "loss": 0.9745880126953125,
      "num_input_tokens_seen": 759774399,
      "step": 3790,
      "token_acc": 0.7450119697550278
    },
    {
      "epoch": 0.8918722275682399,
      "grad_norm": 1.6146982833566892,
      "learning_rate": 1.1873813145857248e-06,
      "loss": 0.9547751426696778,
      "num_input_tokens_seen": 761780385,
      "step": 3800,
      "token_acc": 0.7437249909057839
    },
    {
      "epoch": 0.8918722275682399,
      "eval_loss": 0.9822799563407898,
      "eval_runtime": 32.7794,
      "eval_samples_per_second": 30.507,
      "eval_steps_per_second": 1.281,
      "eval_token_acc": 0.738865677154267,
      "num_input_tokens_seen": 761780385,
      "step": 3800
    },
    {
      "epoch": 0.8942192597460511,
      "grad_norm": 8.557612907531114,
      "learning_rate": 1.1832650875135597e-06,
      "loss": 0.9583858489990235,
      "num_input_tokens_seen": 763769655,
      "step": 3810,
      "token_acc": 0.7431487370276885
    },
    {
      "epoch": 0.8965662919238623,
      "grad_norm": 1.5077356512025262,
      "learning_rate": 1.1791456448835825e-06,
      "loss": 0.9206510543823242,
      "num_input_tokens_seen": 765823593,
      "step": 3820,
      "token_acc": 0.7506628223950441
    },
    {
      "epoch": 0.8989133241016735,
      "grad_norm": 1.5006830716992956,
      "learning_rate": 1.175023058975276e-06,
      "loss": 0.9615950584411621,
      "num_input_tokens_seen": 767831079,
      "step": 3830,
      "token_acc": 0.7423029397870712
    },
    {
      "epoch": 0.9012603562794846,
      "grad_norm": 1.6769633570300284,
      "learning_rate": 1.1708974021232767e-06,
      "loss": 0.9534446716308593,
      "num_input_tokens_seen": 769798548,
      "step": 3840,
      "token_acc": 0.7445747944292532
    },
    {
      "epoch": 0.9036073884572957,
      "grad_norm": 1.759779515088976,
      "learning_rate": 1.1667687467161023e-06,
      "loss": 0.9459953308105469,
      "num_input_tokens_seen": 771774078,
      "step": 3850,
      "token_acc": 0.744865905394826
    },
    {
      "epoch": 0.9059544206351069,
      "grad_norm": 1.6599709517731647,
      "learning_rate": 1.1626371651948836e-06,
      "loss": 0.9330622673034668,
      "num_input_tokens_seen": 773817642,
      "step": 3860,
      "token_acc": 0.7481679393835271
    },
    {
      "epoch": 0.9083014528129181,
      "grad_norm": 1.6573686376498213,
      "learning_rate": 1.158502730052093e-06,
      "loss": 0.943012809753418,
      "num_input_tokens_seen": 775877070,
      "step": 3870,
      "token_acc": 0.7472794230837547
    },
    {
      "epoch": 0.9106484849907293,
      "grad_norm": 2.4726992986853444,
      "learning_rate": 1.1543655138302713e-06,
      "loss": 0.9866430282592773,
      "num_input_tokens_seen": 777904599,
      "step": 3880,
      "token_acc": 0.7372872068022087
    },
    {
      "epoch": 0.9129955171685403,
      "grad_norm": 1.7326340330977308,
      "learning_rate": 1.150225589120757e-06,
      "loss": 0.9427039146423339,
      "num_input_tokens_seen": 779960793,
      "step": 3890,
      "token_acc": 0.7463757958063197
    },
    {
      "epoch": 0.9153425493463515,
      "grad_norm": 1.634253822545075,
      "learning_rate": 1.1460830285624116e-06,
      "loss": 0.9683923721313477,
      "num_input_tokens_seen": 782008791,
      "step": 3900,
      "token_acc": 0.741813429536215
    },
    {
      "epoch": 0.9153425493463515,
      "eval_loss": 0.97979736328125,
      "eval_runtime": 32.457,
      "eval_samples_per_second": 30.81,
      "eval_steps_per_second": 1.294,
      "eval_token_acc": 0.739553565245493,
      "num_input_tokens_seen": 782008791,
      "step": 3900
    },
    {
      "epoch": 0.9176895815241627,
      "grad_norm": 5.153362224558377,
      "learning_rate": 1.1419379048403444e-06,
      "loss": 0.9662550926208496,
      "num_input_tokens_seen": 784016886,
      "step": 3910,
      "token_acc": 0.7420221405659442
    },
    {
      "epoch": 0.9200366137019739,
      "grad_norm": 1.9857737502868835,
      "learning_rate": 1.137790290684638e-06,
      "loss": 0.9286038398742675,
      "num_input_tokens_seen": 786018876,
      "step": 3920,
      "token_acc": 0.7495468248085001
    },
    {
      "epoch": 0.922383645879785,
      "grad_norm": 1.842562371990634,
      "learning_rate": 1.1336402588690725e-06,
      "loss": 0.9483222007751465,
      "num_input_tokens_seen": 788055180,
      "step": 3930,
      "token_acc": 0.7456087098512761
    },
    {
      "epoch": 0.9247306780575961,
      "grad_norm": 1.928971592873294,
      "learning_rate": 1.1294878822098467e-06,
      "loss": 0.9480892181396484,
      "num_input_tokens_seen": 790110096,
      "step": 3940,
      "token_acc": 0.7468523363829526
    },
    {
      "epoch": 0.9270777102354073,
      "grad_norm": 1.6567939468576487,
      "learning_rate": 1.1253332335643042e-06,
      "loss": 0.947171974182129,
      "num_input_tokens_seen": 792098733,
      "step": 3950,
      "token_acc": 0.7463428498622995
    },
    {
      "epoch": 0.9294247424132185,
      "grad_norm": 2.382881124913188,
      "learning_rate": 1.1211763858296505e-06,
      "loss": 0.9341253280639649,
      "num_input_tokens_seen": 794107374,
      "step": 3960,
      "token_acc": 0.749001431982777
    },
    {
      "epoch": 0.9317717745910297,
      "grad_norm": 2.385202785146866,
      "learning_rate": 1.1170174119416775e-06,
      "loss": 0.9605335235595703,
      "num_input_tokens_seen": 796145907,
      "step": 3970,
      "token_acc": 0.7420721101207574
    },
    {
      "epoch": 0.9341188067688408,
      "grad_norm": 1.6538910226354369,
      "learning_rate": 1.1128563848734815e-06,
      "loss": 0.904339599609375,
      "num_input_tokens_seen": 798189987,
      "step": 3980,
      "token_acc": 0.7552502219081598
    },
    {
      "epoch": 0.9364658389466519,
      "grad_norm": 2.1083368115488206,
      "learning_rate": 1.108693377634185e-06,
      "loss": 0.9489521980285645,
      "num_input_tokens_seen": 800197461,
      "step": 3990,
      "token_acc": 0.7454285509759317
    },
    {
      "epoch": 0.9388128711244631,
      "grad_norm": 1.9940124977981624,
      "learning_rate": 1.1045284632676535e-06,
      "loss": 0.9406743049621582,
      "num_input_tokens_seen": 802174746,
      "step": 4000,
      "token_acc": 0.7459721976990789
    },
    {
      "epoch": 0.9388128711244631,
      "eval_loss": 0.9778164029121399,
      "eval_runtime": 32.5943,
      "eval_samples_per_second": 30.68,
      "eval_steps_per_second": 1.289,
      "eval_token_acc": 0.7396274324230743,
      "num_input_tokens_seen": 802174746,
      "step": 4000
    },
    {
      "epoch": 0.9411599033022743,
      "grad_norm": 1.869832978916969,
      "learning_rate": 1.1003617148512149e-06,
      "loss": 0.9346565246582031,
      "num_input_tokens_seen": 804141819,
      "step": 4010,
      "token_acc": 0.7472374245472837
    },
    {
      "epoch": 0.9435069354800855,
      "grad_norm": 2.364187676148168,
      "learning_rate": 1.0961932054943776e-06,
      "loss": 0.9504963874816894,
      "num_input_tokens_seen": 806092293,
      "step": 4020,
      "token_acc": 0.7476745370464685
    },
    {
      "epoch": 0.9458539676578966,
      "grad_norm": 1.7457815556862932,
      "learning_rate": 1.0920230083375472e-06,
      "loss": 0.9478288650512695,
      "num_input_tokens_seen": 808096725,
      "step": 4030,
      "token_acc": 0.7461893605967633
    },
    {
      "epoch": 0.9482009998357077,
      "grad_norm": 1.7540758806187229,
      "learning_rate": 1.0878511965507434e-06,
      "loss": 0.9289562225341796,
      "num_input_tokens_seen": 810119691,
      "step": 4040,
      "token_acc": 0.7498504598729057
    },
    {
      "epoch": 0.9505480320135189,
      "grad_norm": 5.524603084757776,
      "learning_rate": 1.0836778433323157e-06,
      "loss": 0.9280494689941406,
      "num_input_tokens_seen": 812173641,
      "step": 4050,
      "token_acc": 0.7489092478671032
    },
    {
      "epoch": 0.9528950641913301,
      "grad_norm": 2.2610221290856205,
      "learning_rate": 1.0795030219076598e-06,
      "loss": 0.9323202133178711,
      "num_input_tokens_seen": 814155057,
      "step": 4060,
      "token_acc": 0.7484355792832109
    },
    {
      "epoch": 0.9552420963691413,
      "grad_norm": 1.7453803466041382,
      "learning_rate": 1.0753268055279328e-06,
      "loss": 0.9361183166503906,
      "num_input_tokens_seen": 816203571,
      "step": 4070,
      "token_acc": 0.7480308978092947
    },
    {
      "epoch": 0.9575891285469523,
      "grad_norm": 3.200843146499252,
      "learning_rate": 1.071149267468767e-06,
      "loss": 0.9665923118591309,
      "num_input_tokens_seen": 818255160,
      "step": 4080,
      "token_acc": 0.7428710890766919
    },
    {
      "epoch": 0.9599361607247635,
      "grad_norm": 2.769528286877977,
      "learning_rate": 1.066970481028985e-06,
      "loss": 0.9312915802001953,
      "num_input_tokens_seen": 820210017,
      "step": 4090,
      "token_acc": 0.7505294435331026
    },
    {
      "epoch": 0.9622831929025747,
      "grad_norm": 3.5116532009374186,
      "learning_rate": 1.0627905195293135e-06,
      "loss": 0.9360153198242187,
      "num_input_tokens_seen": 822213030,
      "step": 4100,
      "token_acc": 0.7485829324512936
    },
    {
      "epoch": 0.9622831929025747,
      "eval_loss": 0.9762653112411499,
      "eval_runtime": 32.7782,
      "eval_samples_per_second": 30.508,
      "eval_steps_per_second": 1.281,
      "eval_token_acc": 0.7401121857759516,
      "num_input_tokens_seen": 822213030,
      "step": 4100
    },
    {
      "epoch": 0.9646302250803859,
      "grad_norm": 5.045367081523594,
      "learning_rate": 1.0586094563110963e-06,
      "loss": 0.9286471366882324,
      "num_input_tokens_seen": 824216382,
      "step": 4110,
      "token_acc": 0.7514687934606761
    },
    {
      "epoch": 0.966977257258197,
      "grad_norm": 2.1231322680588756,
      "learning_rate": 1.054427364735009e-06,
      "loss": 0.9417591094970703,
      "num_input_tokens_seen": 826177221,
      "step": 4120,
      "token_acc": 0.746542864029784
    },
    {
      "epoch": 0.9693242894360081,
      "grad_norm": 1.5051650791104427,
      "learning_rate": 1.0502443181797696e-06,
      "loss": 0.9733121871948243,
      "num_input_tokens_seen": 828212934,
      "step": 4130,
      "token_acc": 0.7397737060065835
    },
    {
      "epoch": 0.9716713216138193,
      "grad_norm": 1.9170280031638867,
      "learning_rate": 1.0460603900408523e-06,
      "loss": 0.9613967895507812,
      "num_input_tokens_seen": 830208120,
      "step": 4140,
      "token_acc": 0.7418330397530002
    },
    {
      "epoch": 0.9740183537916305,
      "grad_norm": 2.477727800782275,
      "learning_rate": 1.0418756537291995e-06,
      "loss": 0.920326042175293,
      "num_input_tokens_seen": 832205229,
      "step": 4150,
      "token_acc": 0.7535178501070156
    },
    {
      "epoch": 0.9763653859694417,
      "grad_norm": 1.544900641515008,
      "learning_rate": 1.0376901826699347e-06,
      "loss": 0.9237567901611328,
      "num_input_tokens_seen": 834138633,
      "step": 4160,
      "token_acc": 0.7496954091824597
    },
    {
      "epoch": 0.9787124181472528,
      "grad_norm": 1.6877147081648456,
      "learning_rate": 1.0335040503010715e-06,
      "loss": 0.9391614913940429,
      "num_input_tokens_seen": 836153739,
      "step": 4170,
      "token_acc": 0.7479080675786391
    },
    {
      "epoch": 0.9810594503250639,
      "grad_norm": 2.055524057953317,
      "learning_rate": 1.0293173300722284e-06,
      "loss": 0.9410205841064453,
      "num_input_tokens_seen": 838071294,
      "step": 4180,
      "token_acc": 0.747964305973199
    },
    {
      "epoch": 0.9834064825028751,
      "grad_norm": 1.9825443022012719,
      "learning_rate": 1.0251300954433374e-06,
      "loss": 0.9293361663818359,
      "num_input_tokens_seen": 840082950,
      "step": 4190,
      "token_acc": 0.7505939412855415
    },
    {
      "epoch": 0.9857535146806863,
      "grad_norm": 1.6517348379687422,
      "learning_rate": 1.020942419883357e-06,
      "loss": 0.9549247741699218,
      "num_input_tokens_seen": 842083761,
      "step": 4200,
      "token_acc": 0.7446830629715671
    },
    {
      "epoch": 0.9857535146806863,
      "eval_loss": 0.9754964709281921,
      "eval_runtime": 32.4547,
      "eval_samples_per_second": 30.812,
      "eval_steps_per_second": 1.294,
      "eval_token_acc": 0.7408277740587705,
      "num_input_tokens_seen": 842083761,
      "step": 4200
    },
    {
      "epoch": 0.9881005468584975,
      "grad_norm": 1.7669813904614138,
      "learning_rate": 1.0167543768689815e-06,
      "loss": 0.9350774765014649,
      "num_input_tokens_seen": 844080483,
      "step": 4210,
      "token_acc": 0.7474908930171247
    },
    {
      "epoch": 0.9904475790363085,
      "grad_norm": 1.9977363833715536,
      "learning_rate": 1.0125660398833527e-06,
      "loss": 0.9390117645263671,
      "num_input_tokens_seen": 846069951,
      "step": 4220,
      "token_acc": 0.7463500450267371
    },
    {
      "epoch": 0.9927946112141197,
      "grad_norm": 1.6725983628184662,
      "learning_rate": 1.0083774824147707e-06,
      "loss": 0.946631908416748,
      "num_input_tokens_seen": 848098152,
      "step": 4230,
      "token_acc": 0.7457750693945103
    },
    {
      "epoch": 0.9951416433919309,
      "grad_norm": 1.7247846754251406,
      "learning_rate": 1.004188777955404e-06,
      "loss": 0.9343754768371582,
      "num_input_tokens_seen": 850113609,
      "step": 4240,
      "token_acc": 0.7490662455788695
    },
    {
      "epoch": 0.9974886755697421,
      "grad_norm": 2.0830434897072894,
      "learning_rate": 1e-06,
      "loss": 0.9314743041992187,
      "num_input_tokens_seen": 852105906,
      "step": 4250,
      "token_acc": 0.749313829578074
    },
    {
      "epoch": 0.9998357077475533,
      "grad_norm": 1.814610722365582,
      "learning_rate": 9.958112220445962e-07,
      "loss": 0.9592094421386719,
      "num_input_tokens_seen": 854098311,
      "step": 4260,
      "token_acc": 0.7431068897769029
    },
    {
      "epoch": 1.00211232896003,
      "grad_norm": 1.5113637229667725,
      "learning_rate": 9.916225175852293e-07,
      "loss": 0.894398307800293,
      "num_input_tokens_seen": 856086594,
      "step": 4270,
      "token_acc": 0.7580048741904789
    },
    {
      "epoch": 1.0044593611378412,
      "grad_norm": 4.446393040487181,
      "learning_rate": 9.874339601166472e-07,
      "loss": 0.9135477066040039,
      "num_input_tokens_seen": 858108198,
      "step": 4280,
      "token_acc": 0.7531681304263087
    },
    {
      "epoch": 1.0068063933156524,
      "grad_norm": 1.9208454193735196,
      "learning_rate": 9.832456231310188e-07,
      "loss": 0.9318746566772461,
      "num_input_tokens_seen": 860120775,
      "step": 4290,
      "token_acc": 0.747537408902533
    },
    {
      "epoch": 1.0091534254934635,
      "grad_norm": 1.5928331203409287,
      "learning_rate": 9.790575801166431e-07,
      "loss": 0.9145861625671386,
      "num_input_tokens_seen": 862143132,
      "step": 4300,
      "token_acc": 0.7532685063928213
    },
    {
      "epoch": 1.0091534254934635,
      "eval_loss": 0.9742150902748108,
      "eval_runtime": 32.578,
      "eval_samples_per_second": 30.696,
      "eval_steps_per_second": 1.289,
      "eval_token_acc": 0.7412802105214561,
      "num_input_tokens_seen": 862143132,
      "step": 4300
    },
    {
      "epoch": 1.0115004576712747,
      "grad_norm": 2.2199758281219837,
      "learning_rate": 9.748699045566625e-07,
      "loss": 0.9037257194519043,
      "num_input_tokens_seen": 864130884,
      "step": 4310,
      "token_acc": 0.7554067579469933
    },
    {
      "epoch": 1.013847489849086,
      "grad_norm": 2.5403224399288926,
      "learning_rate": 9.706826699277717e-07,
      "loss": 0.8928478240966797,
      "num_input_tokens_seen": 866146368,
      "step": 4320,
      "token_acc": 0.7571011279244853
    },
    {
      "epoch": 1.016194522026897,
      "grad_norm": 1.6880663111795373,
      "learning_rate": 9.664959496989284e-07,
      "loss": 0.8799491882324219,
      "num_input_tokens_seen": 868132068,
      "step": 4330,
      "token_acc": 0.7608739162744612
    },
    {
      "epoch": 1.018541554204708,
      "grad_norm": 1.9603998555475624,
      "learning_rate": 9.623098173300653e-07,
      "loss": 0.9061168670654297,
      "num_input_tokens_seen": 870168408,
      "step": 4340,
      "token_acc": 0.7558231445173181
    },
    {
      "epoch": 1.0208885863825192,
      "grad_norm": 2.052768381078441,
      "learning_rate": 9.581243462708005e-07,
      "loss": 0.891018009185791,
      "num_input_tokens_seen": 872101149,
      "step": 4350,
      "token_acc": 0.7599988872462524
    },
    {
      "epoch": 1.0232356185603304,
      "grad_norm": 1.514439023769519,
      "learning_rate": 9.539396099591476e-07,
      "loss": 0.9129314422607422,
      "num_input_tokens_seen": 874087335,
      "step": 4360,
      "token_acc": 0.7564216192481887
    },
    {
      "epoch": 1.0255826507381416,
      "grad_norm": 1.8673183879809325,
      "learning_rate": 9.497556818202304e-07,
      "loss": 0.9109779357910156,
      "num_input_tokens_seen": 876059952,
      "step": 4370,
      "token_acc": 0.7535195830085737
    },
    {
      "epoch": 1.0279296829159528,
      "grad_norm": 6.147575681746076,
      "learning_rate": 9.45572635264991e-07,
      "loss": 0.9013278961181641,
      "num_input_tokens_seen": 878124633,
      "step": 4380,
      "token_acc": 0.756046360357164
    },
    {
      "epoch": 1.030276715093764,
      "grad_norm": 3.3826066958331045,
      "learning_rate": 9.413905436889033e-07,
      "loss": 0.8935451507568359,
      "num_input_tokens_seen": 880109727,
      "step": 4390,
      "token_acc": 0.7567750980510352
    },
    {
      "epoch": 1.0326237472715751,
      "grad_norm": 2.791787214417096,
      "learning_rate": 9.372094804706866e-07,
      "loss": 0.9111810684204101,
      "num_input_tokens_seen": 882111045,
      "step": 4400,
      "token_acc": 0.7554985194799139
    },
    {
      "epoch": 1.0326237472715751,
      "eval_loss": 0.9730333685874939,
      "eval_runtime": 32.4657,
      "eval_samples_per_second": 30.802,
      "eval_steps_per_second": 1.294,
      "eval_token_acc": 0.7414048613836246,
      "num_input_tokens_seen": 882111045,
      "step": 4400
    },
    {
      "epoch": 1.0349707794493863,
      "grad_norm": 1.927568219024905,
      "learning_rate": 9.330295189710151e-07,
      "loss": 0.9100271224975586,
      "num_input_tokens_seen": 884198595,
      "step": 4410,
      "token_acc": 0.7540011119241447
    },
    {
      "epoch": 1.0373178116271975,
      "grad_norm": 2.5062754907489797,
      "learning_rate": 9.288507325312334e-07,
      "loss": 0.8903081893920899,
      "num_input_tokens_seen": 886152855,
      "step": 4420,
      "token_acc": 0.7574611181168558
    },
    {
      "epoch": 1.0396648438050087,
      "grad_norm": 1.9923532749108916,
      "learning_rate": 9.246731944720674e-07,
      "loss": 0.9105890274047852,
      "num_input_tokens_seen": 888141444,
      "step": 4430,
      "token_acc": 0.7539804724713297
    },
    {
      "epoch": 1.0420118759828196,
      "grad_norm": 1.8502910487817004,
      "learning_rate": 9.204969780923403e-07,
      "loss": 0.9087862968444824,
      "num_input_tokens_seen": 890115771,
      "step": 4440,
      "token_acc": 0.7559308727674652
    },
    {
      "epoch": 1.0443589081606308,
      "grad_norm": 5.223223230980478,
      "learning_rate": 9.163221566676847e-07,
      "loss": 0.9071809768676757,
      "num_input_tokens_seen": 892098426,
      "step": 4450,
      "token_acc": 0.7547434701771973
    },
    {
      "epoch": 1.046705940338442,
      "grad_norm": 1.5951294272531664,
      "learning_rate": 9.121488034492568e-07,
      "loss": 0.9115602493286132,
      "num_input_tokens_seen": 894150594,
      "step": 4460,
      "token_acc": 0.7560878381891606
    },
    {
      "epoch": 1.0490529725162532,
      "grad_norm": 24.227203178087926,
      "learning_rate": 9.079769916624529e-07,
      "loss": 0.8929647445678711,
      "num_input_tokens_seen": 896182068,
      "step": 4470,
      "token_acc": 0.7569376280966494
    },
    {
      "epoch": 1.0514000046940644,
      "grad_norm": 4.446148288911931,
      "learning_rate": 9.038067945056227e-07,
      "loss": 0.8845357894897461,
      "num_input_tokens_seen": 898144740,
      "step": 4480,
      "token_acc": 0.7596217335121099
    },
    {
      "epoch": 1.0537470368718755,
      "grad_norm": 2.33113822520666,
      "learning_rate": 8.996382851487849e-07,
      "loss": 0.9204854011535645,
      "num_input_tokens_seen": 900153033,
      "step": 4490,
      "token_acc": 0.7531009457228544
    },
    {
      "epoch": 1.0560940690496867,
      "grad_norm": 1.6705258835681585,
      "learning_rate": 8.954715367323466e-07,
      "loss": 0.9108184814453125,
      "num_input_tokens_seen": 902159874,
      "step": 4500,
      "token_acc": 0.7534851198704926
    },
    {
      "epoch": 1.0560940690496867,
      "eval_loss": 0.9722611308097839,
      "eval_runtime": 32.6343,
      "eval_samples_per_second": 30.643,
      "eval_steps_per_second": 1.287,
      "eval_token_acc": 0.7414879619584035,
      "num_input_tokens_seen": 902159874,
      "step": 4500
    },
    {
      "epoch": 1.058441101227498,
      "grad_norm": 1.814968079519632,
      "learning_rate": 8.91306622365815e-07,
      "loss": 0.9042104721069336,
      "num_input_tokens_seen": 904127259,
      "step": 4510,
      "token_acc": 0.7549473429720114
    },
    {
      "epoch": 1.060788133405309,
      "grad_norm": 1.9598731265622114,
      "learning_rate": 8.871436151265182e-07,
      "loss": 0.9021028518676758,
      "num_input_tokens_seen": 906131709,
      "step": 4520,
      "token_acc": 0.7555155495065009
    },
    {
      "epoch": 1.06313516558312,
      "grad_norm": 3.5546689619235106,
      "learning_rate": 8.829825880583226e-07,
      "loss": 0.8736377716064453,
      "num_input_tokens_seen": 908144946,
      "step": 4530,
      "token_acc": 0.7615734862488263
    },
    {
      "epoch": 1.0654821977609312,
      "grad_norm": 3.1846241923818295,
      "learning_rate": 8.788236141703497e-07,
      "loss": 0.9034311294555664,
      "num_input_tokens_seen": 910148658,
      "step": 4540,
      "token_acc": 0.7564678744009387
    },
    {
      "epoch": 1.0678292299387424,
      "grad_norm": 2.027265382942688,
      "learning_rate": 8.746667664356955e-07,
      "loss": 0.9266244888305664,
      "num_input_tokens_seen": 912148779,
      "step": 4550,
      "token_acc": 0.7503857571491999
    },
    {
      "epoch": 1.0701762621165536,
      "grad_norm": 1.7499276338815972,
      "learning_rate": 8.705121177901531e-07,
      "loss": 0.900362205505371,
      "num_input_tokens_seen": 914157060,
      "step": 4560,
      "token_acc": 0.757182167972395
    },
    {
      "epoch": 1.0725232942943648,
      "grad_norm": 2.8471968306459092,
      "learning_rate": 8.663597411309278e-07,
      "loss": 0.8963720321655273,
      "num_input_tokens_seen": 916145403,
      "step": 4570,
      "token_acc": 0.7560617462222132
    },
    {
      "epoch": 1.074870326472176,
      "grad_norm": 1.6540494435074347,
      "learning_rate": 8.62209709315362e-07,
      "loss": 0.9004743576049805,
      "num_input_tokens_seen": 918115113,
      "step": 4580,
      "token_acc": 0.7545025247249607
    },
    {
      "epoch": 1.0772173586499871,
      "grad_norm": 2.057030263327695,
      "learning_rate": 8.580620951596556e-07,
      "loss": 0.9495843887329102,
      "num_input_tokens_seen": 920159124,
      "step": 4590,
      "token_acc": 0.7448036906164115
    },
    {
      "epoch": 1.0795643908277983,
      "grad_norm": 1.7066770272878358,
      "learning_rate": 8.539169714375885e-07,
      "loss": 0.9105659484863281,
      "num_input_tokens_seen": 922121547,
      "step": 4600,
      "token_acc": 0.7536738054675078
    },
    {
      "epoch": 1.0795643908277983,
      "eval_loss": 0.9716529250144958,
      "eval_runtime": 32.5395,
      "eval_samples_per_second": 30.732,
      "eval_steps_per_second": 1.291,
      "eval_token_acc": 0.7416818632995544,
      "num_input_tokens_seen": 922121547,
      "step": 4600
    },
    {
      "epoch": 1.0819114230056095,
      "grad_norm": 1.9597668178542205,
      "learning_rate": 8.497744108792429e-07,
      "loss": 0.8963167190551757,
      "num_input_tokens_seen": 924093546,
      "step": 4610,
      "token_acc": 0.7577693693987556
    },
    {
      "epoch": 1.0842584551834205,
      "grad_norm": 1.477104530901047,
      "learning_rate": 8.456344861697287e-07,
      "loss": 0.9177652359008789,
      "num_input_tokens_seen": 926103639,
      "step": 4620,
      "token_acc": 0.7516901953627176
    },
    {
      "epoch": 1.0866054873612316,
      "grad_norm": 1.8830008370086135,
      "learning_rate": 8.414972699479075e-07,
      "loss": 0.9002264022827149,
      "num_input_tokens_seen": 928135683,
      "step": 4630,
      "token_acc": 0.7559382042427807
    },
    {
      "epoch": 1.0889525195390428,
      "grad_norm": 3.016423460140028,
      "learning_rate": 8.373628348051163e-07,
      "loss": 0.8956707000732422,
      "num_input_tokens_seen": 930127536,
      "step": 4640,
      "token_acc": 0.7571149500895269
    },
    {
      "epoch": 1.091299551716854,
      "grad_norm": 1.57022279289949,
      "learning_rate": 8.332312532838978e-07,
      "loss": 0.9269239425659179,
      "num_input_tokens_seen": 932125299,
      "step": 4650,
      "token_acc": 0.7517471473920727
    },
    {
      "epoch": 1.0936465838946652,
      "grad_norm": 3.5134027190857435,
      "learning_rate": 8.291025978767234e-07,
      "loss": 0.9176504135131835,
      "num_input_tokens_seen": 934168311,
      "step": 4660,
      "token_acc": 0.7548118730939853
    },
    {
      "epoch": 1.0959936160724764,
      "grad_norm": 2.5211326313148623,
      "learning_rate": 8.249769410247238e-07,
      "loss": 0.9234855651855469,
      "num_input_tokens_seen": 936133608,
      "step": 4670,
      "token_acc": 0.7515400792838399
    },
    {
      "epoch": 1.0983406482502875,
      "grad_norm": 2.572125880008109,
      "learning_rate": 8.208543551164177e-07,
      "loss": 0.8986695289611817,
      "num_input_tokens_seen": 938147853,
      "step": 4680,
      "token_acc": 0.7556977694823225
    },
    {
      "epoch": 1.1006876804280987,
      "grad_norm": 2.988789824663344,
      "learning_rate": 8.167349124864404e-07,
      "loss": 0.9072399139404297,
      "num_input_tokens_seen": 940144569,
      "step": 4690,
      "token_acc": 0.7530836929897347
    },
    {
      "epoch": 1.10303471260591,
      "grad_norm": 1.6468695088048304,
      "learning_rate": 8.126186854142751e-07,
      "loss": 0.9020254135131835,
      "num_input_tokens_seen": 942165525,
      "step": 4700,
      "token_acc": 0.7548501978958501
    },
    {
      "epoch": 1.10303471260591,
      "eval_loss": 0.9701104164123535,
      "eval_runtime": 33.0994,
      "eval_samples_per_second": 30.212,
      "eval_steps_per_second": 1.269,
      "eval_token_acc": 0.7415941460261767,
      "num_input_tokens_seen": 942165525,
      "step": 4700
    },
    {
      "epoch": 1.105381744783721,
      "grad_norm": 1.6564712470148706,
      "learning_rate": 8.08505746122987e-07,
      "loss": 0.8915030479431152,
      "num_input_tokens_seen": 944177469,
      "step": 4710,
      "token_acc": 0.7565814201146365
    },
    {
      "epoch": 1.107728776961532,
      "grad_norm": 2.791755191613104,
      "learning_rate": 8.043961667779518e-07,
      "loss": 0.9122766494750977,
      "num_input_tokens_seen": 946234932,
      "step": 4720,
      "token_acc": 0.7535114631778791
    },
    {
      "epoch": 1.1100758091393432,
      "grad_norm": 1.6738087861309878,
      "learning_rate": 8.002900194855931e-07,
      "loss": 0.9000448226928711,
      "num_input_tokens_seen": 948228513,
      "step": 4730,
      "token_acc": 0.7559363093706895
    },
    {
      "epoch": 1.1124228413171544,
      "grad_norm": 1.5535937671654965,
      "learning_rate": 7.961873762921151e-07,
      "loss": 0.9070523262023926,
      "num_input_tokens_seen": 950332011,
      "step": 4740,
      "token_acc": 0.7553185494918014
    },
    {
      "epoch": 1.1147698734949656,
      "grad_norm": 2.301542689211403,
      "learning_rate": 7.920883091822408e-07,
      "loss": 0.90597505569458,
      "num_input_tokens_seen": 952319049,
      "step": 4750,
      "token_acc": 0.7548275049458286
    },
    {
      "epoch": 1.1171169056727768,
      "grad_norm": 1.7473797104994677,
      "learning_rate": 7.879928900779455e-07,
      "loss": 0.9030384063720703,
      "num_input_tokens_seen": 954299892,
      "step": 4760,
      "token_acc": 0.756532667257456
    },
    {
      "epoch": 1.119463937850588,
      "grad_norm": 2.558847573037429,
      "learning_rate": 7.839011908371979e-07,
      "loss": 0.9100503921508789,
      "num_input_tokens_seen": 956318847,
      "step": 4770,
      "token_acc": 0.7527636165796845
    },
    {
      "epoch": 1.1218109700283991,
      "grad_norm": 1.9894868553546619,
      "learning_rate": 7.798132832526985e-07,
      "loss": 0.8903913497924805,
      "num_input_tokens_seen": 958308174,
      "step": 4780,
      "token_acc": 0.7594328320061341
    },
    {
      "epoch": 1.1241580022062103,
      "grad_norm": 1.9090250979917347,
      "learning_rate": 7.757292390506189e-07,
      "loss": 0.9077445983886718,
      "num_input_tokens_seen": 960311976,
      "step": 4790,
      "token_acc": 0.7563037639640341
    },
    {
      "epoch": 1.1265050343840215,
      "grad_norm": 1.5195604142033567,
      "learning_rate": 7.716491298893441e-07,
      "loss": 0.9030027389526367,
      "num_input_tokens_seen": 962312673,
      "step": 4800,
      "token_acc": 0.7546611261686987
    },
    {
      "epoch": 1.1265050343840215,
      "eval_loss": 0.9690244197845459,
      "eval_runtime": 32.6363,
      "eval_samples_per_second": 30.641,
      "eval_steps_per_second": 1.287,
      "eval_token_acc": 0.7421065995706471,
      "num_input_tokens_seen": 962312673,
      "step": 4800
    },
    {
      "epoch": 1.1288520665618327,
      "grad_norm": 7.06114138514342,
      "learning_rate": 7.675730273582159e-07,
      "loss": 0.9238859176635742,
      "num_input_tokens_seen": 964266690,
      "step": 4810,
      "token_acc": 0.7510988303005139
    },
    {
      "epoch": 1.1311990987396436,
      "grad_norm": 1.9887377640273287,
      "learning_rate": 7.635010029762755e-07,
      "loss": 0.893895149230957,
      "num_input_tokens_seen": 966243534,
      "step": 4820,
      "token_acc": 0.7578514127725531
    },
    {
      "epoch": 1.1335461309174548,
      "grad_norm": 2.8072244352137545,
      "learning_rate": 7.594331281910081e-07,
      "loss": 0.8709514617919922,
      "num_input_tokens_seen": 968205627,
      "step": 4830,
      "token_acc": 0.7630826790971541
    },
    {
      "epoch": 1.135893163095266,
      "grad_norm": 1.5697632247100872,
      "learning_rate": 7.553694743770927e-07,
      "loss": 0.8988607406616211,
      "num_input_tokens_seen": 970177137,
      "step": 4840,
      "token_acc": 0.7561233380663482
    },
    {
      "epoch": 1.1382401952730772,
      "grad_norm": 2.446099829583827,
      "learning_rate": 7.513101128351453e-07,
      "loss": 0.9138158798217774,
      "num_input_tokens_seen": 972139821,
      "step": 4850,
      "token_acc": 0.7539762326169406
    },
    {
      "epoch": 1.1405872274508884,
      "grad_norm": 2.2189495017577103,
      "learning_rate": 7.472551147904707e-07,
      "loss": 0.9274373054504395,
      "num_input_tokens_seen": 974155848,
      "step": 4860,
      "token_acc": 0.750778398745103
    },
    {
      "epoch": 1.1429342596286995,
      "grad_norm": 1.4873269538334397,
      "learning_rate": 7.432045513918122e-07,
      "loss": 0.8865886688232422,
      "num_input_tokens_seen": 976121469,
      "step": 4870,
      "token_acc": 0.7581827865316892
    },
    {
      "epoch": 1.1452812918065107,
      "grad_norm": 1.7178629684971727,
      "learning_rate": 7.391584937101033e-07,
      "loss": 0.9193226814270019,
      "num_input_tokens_seen": 978125502,
      "step": 4880,
      "token_acc": 0.7524842758549445
    },
    {
      "epoch": 1.147628323984322,
      "grad_norm": 1.7659656442538727,
      "learning_rate": 7.351170127372191e-07,
      "loss": 0.8870782852172852,
      "num_input_tokens_seen": 980151348,
      "step": 4890,
      "token_acc": 0.7591273127875505
    },
    {
      "epoch": 1.149975356162133,
      "grad_norm": 2.512190986249406,
      "learning_rate": 7.310801793847343e-07,
      "loss": 0.9009071350097656,
      "num_input_tokens_seen": 982116819,
      "step": 4900,
      "token_acc": 0.7555736532655332
    },
    {
      "epoch": 1.149975356162133,
      "eval_loss": 0.967960000038147,
      "eval_runtime": 33.0751,
      "eval_samples_per_second": 30.234,
      "eval_steps_per_second": 1.27,
      "eval_token_acc": 0.7421296830636412,
      "num_input_tokens_seen": 982116819,
      "step": 4900
    },
    {
      "epoch": 1.152322388339944,
      "grad_norm": 1.6304789397632498,
      "learning_rate": 7.270480644826749e-07,
      "loss": 0.9345785140991211,
      "num_input_tokens_seen": 984113586,
      "step": 4910,
      "token_acc": 0.7481138414862325
    },
    {
      "epoch": 1.1546694205177552,
      "grad_norm": 1.6773663128682315,
      "learning_rate": 7.230207387782776e-07,
      "loss": 0.9058225631713868,
      "num_input_tokens_seen": 986134590,
      "step": 4920,
      "token_acc": 0.7572044267504292
    },
    {
      "epoch": 1.1570164526955664,
      "grad_norm": 2.467806440031501,
      "learning_rate": 7.18998272934749e-07,
      "loss": 0.905792236328125,
      "num_input_tokens_seen": 988128006,
      "step": 4930,
      "token_acc": 0.7552128911554362
    },
    {
      "epoch": 1.1593634848733776,
      "grad_norm": 2.3456217936104613,
      "learning_rate": 7.149807375300238e-07,
      "loss": 0.8924792289733887,
      "num_input_tokens_seen": 990097689,
      "step": 4940,
      "token_acc": 0.7572508060847032
    },
    {
      "epoch": 1.1617105170511888,
      "grad_norm": 2.059131762842591,
      "learning_rate": 7.109682030555282e-07,
      "loss": 0.8982337951660156,
      "num_input_tokens_seen": 992129379,
      "step": 4950,
      "token_acc": 0.7551930966690015
    },
    {
      "epoch": 1.164057549229,
      "grad_norm": 2.9573480896222772,
      "learning_rate": 7.069607399149426e-07,
      "loss": 0.8968988418579101,
      "num_input_tokens_seen": 994140366,
      "step": 4960,
      "token_acc": 0.7568408887934138
    },
    {
      "epoch": 1.1664045814068111,
      "grad_norm": 1.7230957488152536,
      "learning_rate": 7.029584184229652e-07,
      "loss": 0.909503173828125,
      "num_input_tokens_seen": 996159930,
      "step": 4970,
      "token_acc": 0.7549473717210192
    },
    {
      "epoch": 1.1687516135846223,
      "grad_norm": 1.7012209659002009,
      "learning_rate": 6.989613088040795e-07,
      "loss": 0.8788484573364258,
      "num_input_tokens_seen": 998200734,
      "step": 4980,
      "token_acc": 0.7586579539038453
    },
    {
      "epoch": 1.1710986457624335,
      "grad_norm": 1.592891016055058,
      "learning_rate": 6.949694811913225e-07,
      "loss": 0.9113107681274414,
      "num_input_tokens_seen": 1000131159,
      "step": 4990,
      "token_acc": 0.7557149987259054
    },
    {
      "epoch": 1.1734456779402445,
      "grad_norm": 5.935924197471871,
      "learning_rate": 6.909830056250526e-07,
      "loss": 0.900279426574707,
      "num_input_tokens_seen": 1002152949,
      "step": 5000,
      "token_acc": 0.7555415584180373
    },
    {
      "epoch": 1.1734456779402445,
      "eval_loss": 0.9671830534934998,
      "eval_runtime": 33.371,
      "eval_samples_per_second": 29.966,
      "eval_steps_per_second": 1.259,
      "eval_token_acc": 0.7425636527319314,
      "num_input_tokens_seen": 1002152949,
      "step": 5000
    },
    {
      "epoch": 1.1757927101180556,
      "grad_norm": 2.200894548140831,
      "learning_rate": 6.870019520517217e-07,
      "loss": 0.8960202217102051,
      "num_input_tokens_seen": 1004157984,
      "step": 5010,
      "token_acc": 0.7569971090628078
    },
    {
      "epoch": 1.1781397422958668,
      "grad_norm": 1.566572723585561,
      "learning_rate": 6.830263903226482e-07,
      "loss": 0.9069774627685547,
      "num_input_tokens_seen": 1006144677,
      "step": 5020,
      "token_acc": 0.7552951138157661
    },
    {
      "epoch": 1.180486774473678,
      "grad_norm": 2.012794050429991,
      "learning_rate": 6.790563901927906e-07,
      "loss": 0.903378677368164,
      "num_input_tokens_seen": 1008183480,
      "step": 5030,
      "token_acc": 0.7542571237096386
    },
    {
      "epoch": 1.1828338066514892,
      "grad_norm": 2.6190444654182663,
      "learning_rate": 6.750920213195237e-07,
      "loss": 0.9192432403564453,
      "num_input_tokens_seen": 1010200815,
      "step": 5040,
      "token_acc": 0.752674829722257
    },
    {
      "epoch": 1.1851808388293004,
      "grad_norm": 1.876294751139499,
      "learning_rate": 6.711333532614167e-07,
      "loss": 0.8876149177551269,
      "num_input_tokens_seen": 1012244334,
      "step": 5050,
      "token_acc": 0.7581334816982072
    },
    {
      "epoch": 1.1875278710071115,
      "grad_norm": 3.023714292115771,
      "learning_rate": 6.671804554770134e-07,
      "loss": 0.9129764556884765,
      "num_input_tokens_seen": 1014307173,
      "step": 5060,
      "token_acc": 0.7553209579424762
    },
    {
      "epoch": 1.1898749031849227,
      "grad_norm": 1.9132860678026469,
      "learning_rate": 6.63233397323612e-07,
      "loss": 0.9299371719360352,
      "num_input_tokens_seen": 1016348544,
      "step": 5070,
      "token_acc": 0.7510845945047212
    },
    {
      "epoch": 1.192221935362734,
      "grad_norm": 1.7646493320200434,
      "learning_rate": 6.592922480560483e-07,
      "loss": 0.8976167678833008,
      "num_input_tokens_seen": 1018332171,
      "step": 5080,
      "token_acc": 0.7562631418499035
    },
    {
      "epoch": 1.1945689675405449,
      "grad_norm": 1.6538220495495426,
      "learning_rate": 6.55357076825483e-07,
      "loss": 0.9083082199096679,
      "num_input_tokens_seen": 1020317589,
      "step": 5090,
      "token_acc": 0.7535232253620915
    },
    {
      "epoch": 1.196915999718356,
      "grad_norm": 1.8373787795166967,
      "learning_rate": 6.51427952678185e-07,
      "loss": 0.897801399230957,
      "num_input_tokens_seen": 1022291424,
      "step": 5100,
      "token_acc": 0.7568812436238018
    },
    {
      "epoch": 1.196915999718356,
      "eval_loss": 0.965643048286438,
      "eval_runtime": 32.457,
      "eval_samples_per_second": 30.81,
      "eval_steps_per_second": 1.294,
      "eval_token_acc": 0.7426790701969022,
      "num_input_tokens_seen": 1022291424,
      "step": 5100
    },
    {
      "epoch": 1.1992630318961672,
      "grad_norm": 1.6643922341831798,
      "learning_rate": 6.475049445543214e-07,
      "loss": 0.8832623481750488,
      "num_input_tokens_seen": 1024326642,
      "step": 5110,
      "token_acc": 0.7609418407772097
    },
    {
      "epoch": 1.2016100640739784,
      "grad_norm": 2.8760528519429527,
      "learning_rate": 6.435881212867493e-07,
      "loss": 0.8896665573120117,
      "num_input_tokens_seen": 1026358665,
      "step": 5120,
      "token_acc": 0.7582770940849544
    },
    {
      "epoch": 1.2039570962517896,
      "grad_norm": 2.002315720555266,
      "learning_rate": 6.396775515998054e-07,
      "loss": 0.9143696784973144,
      "num_input_tokens_seen": 1028363571,
      "step": 5130,
      "token_acc": 0.7524985799614379
    },
    {
      "epoch": 1.2063041284296008,
      "grad_norm": 2.371576045666034,
      "learning_rate": 6.357733041081017e-07,
      "loss": 0.9304786682128906,
      "num_input_tokens_seen": 1030342941,
      "step": 5140,
      "token_acc": 0.7486818472638695
    },
    {
      "epoch": 1.208651160607412,
      "grad_norm": 2.346943055260075,
      "learning_rate": 6.31875447315322e-07,
      "loss": 0.9241456031799317,
      "num_input_tokens_seen": 1032378225,
      "step": 5150,
      "token_acc": 0.7510933676127989
    },
    {
      "epoch": 1.2109981927852231,
      "grad_norm": 2.231488980986392,
      "learning_rate": 6.279840496130188e-07,
      "loss": 0.9039559364318848,
      "num_input_tokens_seen": 1034346864,
      "step": 5160,
      "token_acc": 0.7524411349410404
    },
    {
      "epoch": 1.2133452249630343,
      "grad_norm": 1.9646213179831136,
      "learning_rate": 6.240991792794133e-07,
      "loss": 0.9074276924133301,
      "num_input_tokens_seen": 1036368729,
      "step": 5170,
      "token_acc": 0.7546195549754318
    },
    {
      "epoch": 1.2156922571408453,
      "grad_norm": 1.722457316805155,
      "learning_rate": 6.202209044781989e-07,
      "loss": 0.8936328887939453,
      "num_input_tokens_seen": 1038356424,
      "step": 5180,
      "token_acc": 0.7567584358948151
    },
    {
      "epoch": 1.2180392893186567,
      "grad_norm": 3.480235780891435,
      "learning_rate": 6.163492932573438e-07,
      "loss": 0.8924088478088379,
      "num_input_tokens_seen": 1040404614,
      "step": 5190,
      "token_acc": 0.759963029202667
    },
    {
      "epoch": 1.2203863214964676,
      "grad_norm": 3.7980987371120305,
      "learning_rate": 6.124844135478971e-07,
      "loss": 0.9037540435791016,
      "num_input_tokens_seen": 1042409814,
      "step": 5200,
      "token_acc": 0.7544269749931005
    },
    {
      "epoch": 1.2203863214964676,
      "eval_loss": 0.9651933908462524,
      "eval_runtime": 32.4721,
      "eval_samples_per_second": 30.796,
      "eval_steps_per_second": 1.293,
      "eval_token_acc": 0.7432146072343667,
      "num_input_tokens_seen": 1042409814,
      "step": 5200
    },
    {
      "epoch": 1.2227333536742788,
      "grad_norm": 2.0301844609252324,
      "learning_rate": 6.086263331627975e-07,
      "loss": 0.8960711479187011,
      "num_input_tokens_seen": 1044474747,
      "step": 5210,
      "token_acc": 0.7566766133085695
    },
    {
      "epoch": 1.22508038585209,
      "grad_norm": 2.006861134477907,
      "learning_rate": 6.047751197956838e-07,
      "loss": 0.8874652862548829,
      "num_input_tokens_seen": 1046542701,
      "step": 5220,
      "token_acc": 0.7577207817130738
    },
    {
      "epoch": 1.2274274180299012,
      "grad_norm": 1.64084154179337,
      "learning_rate": 6.009308410197047e-07,
      "loss": 0.9375964164733886,
      "num_input_tokens_seen": 1048531923,
      "step": 5230,
      "token_acc": 0.7477447658832623
    },
    {
      "epoch": 1.2297744502077124,
      "grad_norm": 2.376806108677906,
      "learning_rate": 5.970935642863374e-07,
      "loss": 0.9305553436279297,
      "num_input_tokens_seen": 1050497172,
      "step": 5240,
      "token_acc": 0.7477491309741687
    },
    {
      "epoch": 1.2321214823855235,
      "grad_norm": 2.0017133938943603,
      "learning_rate": 5.932633569241999e-07,
      "loss": 0.9117889404296875,
      "num_input_tokens_seen": 1052489067,
      "step": 5250,
      "token_acc": 0.7528568241041047
    },
    {
      "epoch": 1.2344685145633347,
      "grad_norm": 1.676786348660199,
      "learning_rate": 5.89440286137872e-07,
      "loss": 0.9003104209899903,
      "num_input_tokens_seen": 1054479834,
      "step": 5260,
      "token_acc": 0.7555148409000024
    },
    {
      "epoch": 1.236815546741146,
      "grad_norm": 3.0440164850905087,
      "learning_rate": 5.856244190067159e-07,
      "loss": 0.9047473907470703,
      "num_input_tokens_seen": 1056426330,
      "step": 5270,
      "token_acc": 0.755049574664931
    },
    {
      "epoch": 1.239162578918957,
      "grad_norm": 2.869133561984615,
      "learning_rate": 5.818158224836987e-07,
      "loss": 0.9154601097106934,
      "num_input_tokens_seen": 1058453490,
      "step": 5280,
      "token_acc": 0.7520037800567009
    },
    {
      "epoch": 1.241509611096768,
      "grad_norm": 3.801710317044165,
      "learning_rate": 5.780145633942173e-07,
      "loss": 0.9164340972900391,
      "num_input_tokens_seen": 1060486977,
      "step": 5290,
      "token_acc": 0.752695566601707
    },
    {
      "epoch": 1.2438566432745792,
      "grad_norm": 2.741349679065458,
      "learning_rate": 5.742207084349273e-07,
      "loss": 0.871244239807129,
      "num_input_tokens_seen": 1062507609,
      "step": 5300,
      "token_acc": 0.7623417495900512
    },
    {
      "epoch": 1.2438566432745792,
      "eval_loss": 0.9639586210250854,
      "eval_runtime": 32.2213,
      "eval_samples_per_second": 31.035,
      "eval_steps_per_second": 1.303,
      "eval_token_acc": 0.7430853396735994,
      "num_input_tokens_seen": 1062507609,
      "step": 5300
    },
    {
      "epoch": 1.2462036754523904,
      "grad_norm": 2.0632482933314273,
      "learning_rate": 5.704343241725719e-07,
      "loss": 0.902606201171875,
      "num_input_tokens_seen": 1064565387,
      "step": 5310,
      "token_acc": 0.7573666940890565
    },
    {
      "epoch": 1.2485507076302016,
      "grad_norm": 2.5206259888398805,
      "learning_rate": 5.666554770428128e-07,
      "loss": 0.8999618530273438,
      "num_input_tokens_seen": 1066547697,
      "step": 5320,
      "token_acc": 0.7568080644124454
    },
    {
      "epoch": 1.2508977398080128,
      "grad_norm": 2.5949843975238664,
      "learning_rate": 5.628842333490673e-07,
      "loss": 0.9164423942565918,
      "num_input_tokens_seen": 1068581145,
      "step": 5330,
      "token_acc": 0.7550268878909339
    },
    {
      "epoch": 1.253244771985824,
      "grad_norm": 4.036566885568054,
      "learning_rate": 5.591206592613416e-07,
      "loss": 0.905246353149414,
      "num_input_tokens_seen": 1070601372,
      "step": 5340,
      "token_acc": 0.7552413610147676
    },
    {
      "epoch": 1.2555918041636351,
      "grad_norm": 5.474286064221549,
      "learning_rate": 5.553648208150728e-07,
      "loss": 0.8880559921264648,
      "num_input_tokens_seen": 1072560906,
      "step": 5350,
      "token_acc": 0.7592060617200068
    },
    {
      "epoch": 1.2579388363414463,
      "grad_norm": 1.7453040114014564,
      "learning_rate": 5.51616783909968e-07,
      "loss": 0.9003293991088868,
      "num_input_tokens_seen": 1074501144,
      "step": 5360,
      "token_acc": 0.7574462673279918
    },
    {
      "epoch": 1.2602858685192575,
      "grad_norm": 2.437893460638386,
      "learning_rate": 5.478766143088491e-07,
      "loss": 0.8865642547607422,
      "num_input_tokens_seen": 1076535018,
      "step": 5370,
      "token_acc": 0.7606810169616077
    },
    {
      "epoch": 1.2626329006970685,
      "grad_norm": 1.8609894370837823,
      "learning_rate": 5.441443776365002e-07,
      "loss": 0.8910144805908203,
      "num_input_tokens_seen": 1078579935,
      "step": 5380,
      "token_acc": 0.7576510815314375
    },
    {
      "epoch": 1.2649799328748796,
      "grad_norm": 2.6436944735193184,
      "learning_rate": 5.404201393785122e-07,
      "loss": 0.8772344589233398,
      "num_input_tokens_seen": 1080564321,
      "step": 5390,
      "token_acc": 0.7608925444457297
    },
    {
      "epoch": 1.2673269650526908,
      "grad_norm": 2.992758801643484,
      "learning_rate": 5.367039648801385e-07,
      "loss": 0.9159189224243164,
      "num_input_tokens_seen": 1082533953,
      "step": 5400,
      "token_acc": 0.7533061633594679
    },
    {
      "epoch": 1.2673269650526908,
      "eval_loss": 0.9630009531974792,
      "eval_runtime": 32.5066,
      "eval_samples_per_second": 30.763,
      "eval_steps_per_second": 1.292,
      "eval_token_acc": 0.7429468387156345,
      "num_input_tokens_seen": 1082533953,
      "step": 5400
    },
    {
      "epoch": 1.269673997230502,
      "grad_norm": 2.692503141737527,
      "learning_rate": 5.329959193451448e-07,
      "loss": 0.8941567420959473,
      "num_input_tokens_seen": 1084574751,
      "step": 5410,
      "token_acc": 0.7571006112607204
    },
    {
      "epoch": 1.2720210294083132,
      "grad_norm": 1.5669484406824739,
      "learning_rate": 5.292960678346674e-07,
      "loss": 0.8758008003234863,
      "num_input_tokens_seen": 1086604491,
      "step": 5420,
      "token_acc": 0.7609121373438931
    },
    {
      "epoch": 1.2743680615861244,
      "grad_norm": 2.7196923900884538,
      "learning_rate": 5.256044752660709e-07,
      "loss": 0.8903736114501953,
      "num_input_tokens_seen": 1088619414,
      "step": 5430,
      "token_acc": 0.7592087326109695
    },
    {
      "epoch": 1.2767150937639355,
      "grad_norm": 3.3252231876281044,
      "learning_rate": 5.219212064118078e-07,
      "loss": 0.8977795600891113,
      "num_input_tokens_seen": 1090588407,
      "step": 5440,
      "token_acc": 0.7549231473500579
    },
    {
      "epoch": 1.2790621259417467,
      "grad_norm": 2.7540341423324115,
      "learning_rate": 5.182463258982846e-07,
      "loss": 0.9006612777709961,
      "num_input_tokens_seen": 1092638625,
      "step": 5450,
      "token_acc": 0.7552658524098589
    },
    {
      "epoch": 1.281409158119558,
      "grad_norm": 3.5072503422513153,
      "learning_rate": 5.14579898204726e-07,
      "loss": 0.907337760925293,
      "num_input_tokens_seen": 1094630577,
      "step": 5460,
      "token_acc": 0.7542059011906609
    },
    {
      "epoch": 1.2837561902973689,
      "grad_norm": 5.240311266290964,
      "learning_rate": 5.109219876620441e-07,
      "loss": 0.8758956909179687,
      "num_input_tokens_seen": 1096660965,
      "step": 5470,
      "token_acc": 0.7625046517718082
    },
    {
      "epoch": 1.28610322247518,
      "grad_norm": 3.910915359433382,
      "learning_rate": 5.072726584517085e-07,
      "loss": 0.8722602844238281,
      "num_input_tokens_seen": 1098640854,
      "step": 5480,
      "token_acc": 0.7603257317050821
    },
    {
      "epoch": 1.2884502546529912,
      "grad_norm": 1.6770275314193752,
      "learning_rate": 5.036319746046231e-07,
      "loss": 0.8983705520629883,
      "num_input_tokens_seen": 1100637150,
      "step": 5490,
      "token_acc": 0.7550046700338503
    },
    {
      "epoch": 1.2907972868308024,
      "grad_norm": 2.5881524894297745,
      "learning_rate": 5.000000000000002e-07,
      "loss": 0.894923210144043,
      "num_input_tokens_seen": 1102652097,
      "step": 5500,
      "token_acc": 0.7564139373070671
    },
    {
      "epoch": 1.2907972868308024,
      "eval_loss": 0.9622647762298584,
      "eval_runtime": 32.3358,
      "eval_samples_per_second": 30.925,
      "eval_steps_per_second": 1.299,
      "eval_token_acc": 0.7433207913021398,
      "num_input_tokens_seen": 1102652097,
      "step": 5500
    },
    {
      "epoch": 1.2931443190086136,
      "grad_norm": 2.4458432348948125,
      "learning_rate": 4.963767983642391e-07,
      "loss": 0.9156219482421875,
      "num_input_tokens_seen": 1104675948,
      "step": 5510,
      "token_acc": 0.7537255650881494
    },
    {
      "epoch": 1.2954913511864248,
      "grad_norm": 1.6909965435703207,
      "learning_rate": 4.927624332698109e-07,
      "loss": 0.8871401786804199,
      "num_input_tokens_seen": 1106680473,
      "step": 5520,
      "token_acc": 0.7581608722152928
    },
    {
      "epoch": 1.297838383364236,
      "grad_norm": 2.752441639954046,
      "learning_rate": 4.891569681341402e-07,
      "loss": 0.8774595260620117,
      "num_input_tokens_seen": 1108675587,
      "step": 5530,
      "token_acc": 0.7608597953994441
    },
    {
      "epoch": 1.3001854155420471,
      "grad_norm": 4.312103259940411,
      "learning_rate": 4.855604662184934e-07,
      "loss": 0.94571533203125,
      "num_input_tokens_seen": 1110676452,
      "step": 5540,
      "token_acc": 0.7557507607034466
    },
    {
      "epoch": 1.3025324477198583,
      "grad_norm": 15.655690028463368,
      "learning_rate": 4.819729906268699e-07,
      "loss": 0.906065559387207,
      "num_input_tokens_seen": 1112710338,
      "step": 5550,
      "token_acc": 0.7553128935752625
    },
    {
      "epoch": 1.3048794798976693,
      "grad_norm": 4.05493729865088,
      "learning_rate": 4.783946043048922e-07,
      "loss": 0.8648593902587891,
      "num_input_tokens_seen": 1114786149,
      "step": 5560,
      "token_acc": 0.763232807351506
    },
    {
      "epoch": 1.3072265120754807,
      "grad_norm": 18.132742646186717,
      "learning_rate": 4.748253700387042e-07,
      "loss": 0.9057920455932618,
      "num_input_tokens_seen": 1116792414,
      "step": 5570,
      "token_acc": 0.7558468058389578
    },
    {
      "epoch": 1.3095735442532916,
      "grad_norm": 4.473293823942013,
      "learning_rate": 4.712653504538683e-07,
      "loss": 0.9168581008911133,
      "num_input_tokens_seen": 1118755668,
      "step": 5580,
      "token_acc": 0.7533578569509507
    },
    {
      "epoch": 1.3119205764311028,
      "grad_norm": 1.8718331058830788,
      "learning_rate": 4.677146080142663e-07,
      "loss": 0.8930509567260743,
      "num_input_tokens_seen": 1120786350,
      "step": 5590,
      "token_acc": 0.7578146339884224
    },
    {
      "epoch": 1.314267608608914,
      "grad_norm": 3.8006137217544853,
      "learning_rate": 4.641732050210031e-07,
      "loss": 0.8965305328369141,
      "num_input_tokens_seen": 1122830253,
      "step": 5600,
      "token_acc": 0.757193734996655
    },
    {
      "epoch": 1.314267608608914,
      "eval_loss": 0.9616973996162415,
      "eval_runtime": 32.7101,
      "eval_samples_per_second": 30.572,
      "eval_steps_per_second": 1.284,
      "eval_token_acc": 0.7441794972415225,
      "num_input_tokens_seen": 1122830253,
      "step": 5600
    },
    {
      "epoch": 1.3166146407867252,
      "grad_norm": 2.1310327327750103,
      "learning_rate": 4.6064120361131654e-07,
      "loss": 0.8685415267944336,
      "num_input_tokens_seen": 1124770431,
      "step": 5610,
      "token_acc": 0.7614362220849722
    },
    {
      "epoch": 1.3189616729645364,
      "grad_norm": 5.594205953222117,
      "learning_rate": 4.571186657574827e-07,
      "loss": 0.8749109268188476,
      "num_input_tokens_seen": 1126803909,
      "step": 5620,
      "token_acc": 0.7609511594419571
    },
    {
      "epoch": 1.3213087051423476,
      "grad_norm": 1.4907604209575505,
      "learning_rate": 4.5360565326573097e-07,
      "loss": 0.8923271179199219,
      "num_input_tokens_seen": 1128846693,
      "step": 5630,
      "token_acc": 0.7566236892264636
    },
    {
      "epoch": 1.3236557373201587,
      "grad_norm": 1.6487071255049761,
      "learning_rate": 4.5010222777516016e-07,
      "loss": 0.8908859252929687,
      "num_input_tokens_seen": 1130851539,
      "step": 5640,
      "token_acc": 0.7570941516923059
    },
    {
      "epoch": 1.3260027694979697,
      "grad_norm": 3.588061851379213,
      "learning_rate": 4.46608450756656e-07,
      "loss": 0.8966587066650391,
      "num_input_tokens_seen": 1132815081,
      "step": 5650,
      "token_acc": 0.7556865728413845
    },
    {
      "epoch": 1.328349801675781,
      "grad_norm": 1.8146830930493871,
      "learning_rate": 4.431243835118124e-07,
      "loss": 0.8989040374755859,
      "num_input_tokens_seen": 1134802443,
      "step": 5660,
      "token_acc": 0.7558611844953211
    },
    {
      "epoch": 1.330696833853592,
      "grad_norm": 1.549860770891768,
      "learning_rate": 4.3965008717185546e-07,
      "loss": 0.9029041290283203,
      "num_input_tokens_seen": 1136825982,
      "step": 5670,
      "token_acc": 0.7547953414140695
    },
    {
      "epoch": 1.3330438660314032,
      "grad_norm": 8.564808279417944,
      "learning_rate": 4.361856226965732e-07,
      "loss": 0.9094319343566895,
      "num_input_tokens_seen": 1138844418,
      "step": 5680,
      "token_acc": 0.7534089471178856
    },
    {
      "epoch": 1.3353908982092144,
      "grad_norm": 2.4122342846590117,
      "learning_rate": 4.327310508732437e-07,
      "loss": 0.9330079078674316,
      "num_input_tokens_seen": 1140865437,
      "step": 5690,
      "token_acc": 0.7480073371962428
    },
    {
      "epoch": 1.3377379303870256,
      "grad_norm": 2.222842201988777,
      "learning_rate": 4.292864323155684e-07,
      "loss": 0.9154201507568359,
      "num_input_tokens_seen": 1142840739,
      "step": 5700,
      "token_acc": 0.7531476710355994
    },
    {
      "epoch": 1.3377379303870256,
      "eval_loss": 0.9612286686897278,
      "eval_runtime": 32.3029,
      "eval_samples_per_second": 30.957,
      "eval_steps_per_second": 1.3,
      "eval_token_acc": 0.7439994459961682,
      "num_input_tokens_seen": 1142840739,
      "step": 5700
    },
    {
      "epoch": 1.3400849625648368,
      "grad_norm": 1.810955978874136,
      "learning_rate": 4.258518274626103e-07,
      "loss": 0.8730932235717773,
      "num_input_tokens_seen": 1144886610,
      "step": 5710,
      "token_acc": 0.763370671624448
    },
    {
      "epoch": 1.342431994742648,
      "grad_norm": 4.997305168302919,
      "learning_rate": 4.224272965777326e-07,
      "loss": 0.8956947326660156,
      "num_input_tokens_seen": 1146863130,
      "step": 5720,
      "token_acc": 0.756512774681123
    },
    {
      "epoch": 1.3447790269204591,
      "grad_norm": 1.7714657210450584,
      "learning_rate": 4.1901289974754017e-07,
      "loss": 0.9034318923950195,
      "num_input_tokens_seen": 1148825958,
      "step": 5730,
      "token_acc": 0.7528903974023187
    },
    {
      "epoch": 1.34712605909827,
      "grad_norm": 1.7970727143535203,
      "learning_rate": 4.15608696880828e-07,
      "loss": 0.9018034934997559,
      "num_input_tokens_seen": 1150869660,
      "step": 5740,
      "token_acc": 0.7552370910083663
    },
    {
      "epoch": 1.3494730912760815,
      "grad_norm": 2.3962942580845765,
      "learning_rate": 4.1221474770752696e-07,
      "loss": 0.8888204574584961,
      "num_input_tokens_seen": 1152904527,
      "step": 5750,
      "token_acc": 0.7579487303127656
    },
    {
      "epoch": 1.3518201234538925,
      "grad_norm": 4.2459307299089355,
      "learning_rate": 4.0883111177765793e-07,
      "loss": 0.882927131652832,
      "num_input_tokens_seen": 1154856621,
      "step": 5760,
      "token_acc": 0.760532270444878
    },
    {
      "epoch": 1.3541671556317036,
      "grad_norm": 8.805122520612176,
      "learning_rate": 4.05457848460287e-07,
      "loss": 0.8931197166442871,
      "num_input_tokens_seen": 1156841811,
      "step": 5770,
      "token_acc": 0.7581117296199616
    },
    {
      "epoch": 1.3565141878095148,
      "grad_norm": 1.8029745033128655,
      "learning_rate": 4.020950169424815e-07,
      "loss": 0.8755680084228515,
      "num_input_tokens_seen": 1158825375,
      "step": 5780,
      "token_acc": 0.7617876391236407
    },
    {
      "epoch": 1.358861219987326,
      "grad_norm": 2.3214932218170348,
      "learning_rate": 3.9874267622827326e-07,
      "loss": 0.8934176445007325,
      "num_input_tokens_seen": 1160840175,
      "step": 5790,
      "token_acc": 0.7589212683515132
    },
    {
      "epoch": 1.3612082521651372,
      "grad_norm": 2.3985162877965873,
      "learning_rate": 3.9540088513762516e-07,
      "loss": 0.8847217559814453,
      "num_input_tokens_seen": 1162829856,
      "step": 5800,
      "token_acc": 0.7612809344881545
    },
    {
      "epoch": 1.3612082521651372,
      "eval_loss": 0.9602800607681274,
      "eval_runtime": 32.5062,
      "eval_samples_per_second": 30.763,
      "eval_steps_per_second": 1.292,
      "eval_token_acc": 0.7438470949424066,
      "num_input_tokens_seen": 1162829856,
      "step": 5800
    },
    {
      "epoch": 1.3635552843429484,
      "grad_norm": 2.0010713169478738,
      "learning_rate": 3.9206970230539484e-07,
      "loss": 0.8922606468200683,
      "num_input_tokens_seen": 1164855291,
      "step": 5810,
      "token_acc": 0.7569838860463012
    },
    {
      "epoch": 1.3659023165207596,
      "grad_norm": 3.272109870466011,
      "learning_rate": 3.887491861803085e-07,
      "loss": 0.9000480651855469,
      "num_input_tokens_seen": 1166861097,
      "step": 5820,
      "token_acc": 0.7566891172207229
    },
    {
      "epoch": 1.3682493486985707,
      "grad_norm": 1.544077325900252,
      "learning_rate": 3.8543939502393553e-07,
      "loss": 0.8689347267150879,
      "num_input_tokens_seen": 1168887147,
      "step": 5830,
      "token_acc": 0.7627186945780682
    },
    {
      "epoch": 1.370596380876382,
      "grad_norm": 2.103440792541161,
      "learning_rate": 3.8214038690966577e-07,
      "loss": 0.8851211547851563,
      "num_input_tokens_seen": 1170981615,
      "step": 5840,
      "token_acc": 0.7597759262487763
    },
    {
      "epoch": 1.3729434130541929,
      "grad_norm": 1.7677876308306728,
      "learning_rate": 3.788522197216897e-07,
      "loss": 0.9024602890014648,
      "num_input_tokens_seen": 1172878617,
      "step": 5850,
      "token_acc": 0.7557560328803166
    },
    {
      "epoch": 1.375290445232004,
      "grad_norm": 1.9402726241839798,
      "learning_rate": 3.7557495115398443e-07,
      "loss": 0.9134780883789062,
      "num_input_tokens_seen": 1174893015,
      "step": 5860,
      "token_acc": 0.753564070544764
    },
    {
      "epoch": 1.3776374774098152,
      "grad_norm": 1.72330146825218,
      "learning_rate": 3.7230863870929963e-07,
      "loss": 0.8972689628601074,
      "num_input_tokens_seen": 1176936135,
      "step": 5870,
      "token_acc": 0.7560207487897523
    },
    {
      "epoch": 1.3799845095876264,
      "grad_norm": 1.8072698773269937,
      "learning_rate": 3.690533396981503e-07,
      "loss": 0.8984692573547364,
      "num_input_tokens_seen": 1178895693,
      "step": 5880,
      "token_acc": 0.756615972827414
    },
    {
      "epoch": 1.3823315417654376,
      "grad_norm": 2.0171801198061714,
      "learning_rate": 3.6580911123781056e-07,
      "loss": 0.8955293655395508,
      "num_input_tokens_seen": 1180888149,
      "step": 5890,
      "token_acc": 0.75720176277118
    },
    {
      "epoch": 1.3846785739432488,
      "grad_norm": 1.5526432676933917,
      "learning_rate": 3.625760102513102e-07,
      "loss": 0.8883472442626953,
      "num_input_tokens_seen": 1182949920,
      "step": 5900,
      "token_acc": 0.7599701073124605
    },
    {
      "epoch": 1.3846785739432488,
      "eval_loss": 0.9595866799354553,
      "eval_runtime": 32.1786,
      "eval_samples_per_second": 31.077,
      "eval_steps_per_second": 1.305,
      "eval_token_acc": 0.7442902980078946,
      "num_input_tokens_seen": 1182949920,
      "step": 5900
    },
    {
      "epoch": 1.38702560612106,
      "grad_norm": 7.97384438350482,
      "learning_rate": 3.593540934664383e-07,
      "loss": 0.889987564086914,
      "num_input_tokens_seen": 1184970120,
      "step": 5910,
      "token_acc": 0.758863473503418
    },
    {
      "epoch": 1.3893726382988711,
      "grad_norm": 1.537068043139113,
      "learning_rate": 3.561434174147463e-07,
      "loss": 0.911767578125,
      "num_input_tokens_seen": 1186953870,
      "step": 5920,
      "token_acc": 0.7535046522800585
    },
    {
      "epoch": 1.3917196704766823,
      "grad_norm": 2.792916091074644,
      "learning_rate": 3.5294403843055597e-07,
      "loss": 0.8944547653198243,
      "num_input_tokens_seen": 1188957102,
      "step": 5930,
      "token_acc": 0.7568861383047926
    },
    {
      "epoch": 1.3940667026544933,
      "grad_norm": 2.5956068773284557,
      "learning_rate": 3.497560126499709e-07,
      "loss": 0.8902932167053222,
      "num_input_tokens_seen": 1190999568,
      "step": 5940,
      "token_acc": 0.7563681534101937
    },
    {
      "epoch": 1.3964137348323047,
      "grad_norm": 1.606752628432743,
      "learning_rate": 3.465793960098945e-07,
      "loss": 0.8962507247924805,
      "num_input_tokens_seen": 1193049609,
      "step": 5950,
      "token_acc": 0.7568774963666619
    },
    {
      "epoch": 1.3987607670101156,
      "grad_norm": 3.201548177908894,
      "learning_rate": 3.434142442470437e-07,
      "loss": 0.8878293037414551,
      "num_input_tokens_seen": 1195126131,
      "step": 5960,
      "token_acc": 0.7593972961018481
    },
    {
      "epoch": 1.4011077991879268,
      "grad_norm": 2.0402971482769034,
      "learning_rate": 3.4026061289697396e-07,
      "loss": 0.8985117912292481,
      "num_input_tokens_seen": 1197179763,
      "step": 5970,
      "token_acc": 0.7568663489501413
    },
    {
      "epoch": 1.403454831365738,
      "grad_norm": 2.0743463496848085,
      "learning_rate": 3.371185572931048e-07,
      "loss": 0.9137758255004883,
      "num_input_tokens_seen": 1199156916,
      "step": 5980,
      "token_acc": 0.7521096549123137
    },
    {
      "epoch": 1.4058018635435492,
      "grad_norm": 1.908781885304316,
      "learning_rate": 3.3398813256574843e-07,
      "loss": 0.8940442085266114,
      "num_input_tokens_seen": 1201161525,
      "step": 5990,
      "token_acc": 0.7591090088367569
    },
    {
      "epoch": 1.4081488957213604,
      "grad_norm": 1.8574032864901908,
      "learning_rate": 3.308693936411421e-07,
      "loss": 0.8737678527832031,
      "num_input_tokens_seen": 1203195084,
      "step": 6000,
      "token_acc": 0.7614718846052603
    },
    {
      "epoch": 1.4081488957213604,
      "eval_loss": 0.9593000411987305,
      "eval_runtime": 32.4448,
      "eval_samples_per_second": 30.822,
      "eval_steps_per_second": 1.295,
      "eval_token_acc": 0.7439671291059763,
      "num_input_tokens_seen": 1203195084,
      "step": 6000
    }
  ],
  "logging_steps": 10,
  "max_steps": 8000,
  "num_input_tokens_seen": 1203195084,
  "num_train_epochs": 2,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 1.3956677446926336e+16,
  "train_batch_size": 3,
  "trial_name": null,
  "trial_params": null
}