{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 3.0,
  "eval_steps": 500,
  "global_step": 255,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.011764705882352941,
      "grad_norm": 3.6131326491907996,
      "learning_rate": 9.090909090909091e-07,
      "loss": 0.7929452061653137,
      "num_input_tokens_seen": 0,
      "step": 1
    },
    {
      "epoch": 0.023529411764705882,
      "grad_norm": 3.9380904690801763,
      "learning_rate": 1.8181818181818183e-06,
      "loss": 0.8463644981384277,
      "num_input_tokens_seen": 0,
      "step": 2
    },
    {
      "epoch": 0.03529411764705882,
      "grad_norm": 3.5075707953425375,
      "learning_rate": 2.7272727272727272e-06,
      "loss": 0.7615697383880615,
      "num_input_tokens_seen": 0,
      "step": 3
    },
    {
      "epoch": 0.047058823529411764,
      "grad_norm": 3.568991966465913,
      "learning_rate": 3.6363636363636366e-06,
      "loss": 0.7781215906143188,
      "num_input_tokens_seen": 0,
      "step": 4
    },
    {
      "epoch": 0.058823529411764705,
      "grad_norm": 3.6216549878210613,
      "learning_rate": 4.5454545454545455e-06,
      "loss": 0.8030836582183838,
      "num_input_tokens_seen": 0,
      "step": 5
    },
    {
      "epoch": 0.07058823529411765,
      "grad_norm": 3.0788368926498566,
      "learning_rate": 5.4545454545454545e-06,
      "loss": 0.7026812434196472,
      "num_input_tokens_seen": 0,
      "step": 6
    },
    {
      "epoch": 0.08235294117647059,
      "grad_norm": 3.1470952265114955,
      "learning_rate": 6.363636363636364e-06,
      "loss": 0.7064052224159241,
      "num_input_tokens_seen": 0,
      "step": 7
    },
    {
      "epoch": 0.09411764705882353,
      "grad_norm": 2.1537924186137105,
      "learning_rate": 7.272727272727273e-06,
      "loss": 0.5964475274085999,
      "num_input_tokens_seen": 0,
      "step": 8
    },
    {
      "epoch": 0.10588235294117647,
      "grad_norm": 2.1368649029511326,
      "learning_rate": 8.181818181818183e-06,
      "loss": 0.6179602146148682,
      "num_input_tokens_seen": 0,
      "step": 9
    },
    {
      "epoch": 0.11764705882352941,
      "grad_norm": 1.981711432431228,
      "learning_rate": 9.090909090909091e-06,
      "loss": 0.5555359125137329,
      "num_input_tokens_seen": 0,
      "step": 10
    },
    {
      "epoch": 0.12941176470588237,
      "grad_norm": 1.559928530743653,
      "learning_rate": 1e-05,
      "loss": 0.5162748694419861,
      "num_input_tokens_seen": 0,
      "step": 11
    },
    {
      "epoch": 0.1411764705882353,
      "grad_norm": 1.4191567801273215,
      "learning_rate": 1.0909090909090909e-05,
      "loss": 0.4931896924972534,
      "num_input_tokens_seen": 0,
      "step": 12
    },
    {
      "epoch": 0.15294117647058825,
      "grad_norm": 1.2550232555964334,
      "learning_rate": 1.181818181818182e-05,
      "loss": 0.5178971886634827,
      "num_input_tokens_seen": 0,
      "step": 13
    },
    {
      "epoch": 0.16470588235294117,
      "grad_norm": 1.5353572118512469,
      "learning_rate": 1.2727272727272728e-05,
      "loss": 0.4872450530529022,
      "num_input_tokens_seen": 0,
      "step": 14
    },
    {
      "epoch": 0.17647058823529413,
      "grad_norm": 1.3077407975869617,
      "learning_rate": 1.3636363636363637e-05,
      "loss": 0.4353964030742645,
      "num_input_tokens_seen": 0,
      "step": 15
    },
    {
      "epoch": 0.18823529411764706,
      "grad_norm": 1.2379322286899677,
      "learning_rate": 1.4545454545454546e-05,
      "loss": 0.4468710124492645,
      "num_input_tokens_seen": 0,
      "step": 16
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.9822538115083431,
      "learning_rate": 1.5454545454545454e-05,
      "loss": 0.4612148106098175,
      "num_input_tokens_seen": 0,
      "step": 17
    },
    {
      "epoch": 0.21176470588235294,
      "grad_norm": 1.019398009956526,
      "learning_rate": 1.6363636363636366e-05,
      "loss": 0.4416177570819855,
      "num_input_tokens_seen": 0,
      "step": 18
    },
    {
      "epoch": 0.2235294117647059,
      "grad_norm": 0.6811851291872145,
      "learning_rate": 1.7272727272727274e-05,
      "loss": 0.4400823712348938,
      "num_input_tokens_seen": 0,
      "step": 19
    },
    {
      "epoch": 0.23529411764705882,
      "grad_norm": 0.5706281411245361,
      "learning_rate": 1.8181818181818182e-05,
      "loss": 0.407284140586853,
      "num_input_tokens_seen": 0,
      "step": 20
    },
    {
      "epoch": 0.24705882352941178,
      "grad_norm": 0.5144726641840578,
      "learning_rate": 1.9090909090909094e-05,
      "loss": 0.40131646394729614,
      "num_input_tokens_seen": 0,
      "step": 21
    },
    {
      "epoch": 0.25882352941176473,
      "grad_norm": 0.5271151443718087,
      "learning_rate": 2e-05,
      "loss": 0.3690889775753021,
      "num_input_tokens_seen": 0,
      "step": 22
    },
    {
      "epoch": 0.27058823529411763,
      "grad_norm": 0.46867880268180473,
      "learning_rate": 1.999969615124717e-05,
      "loss": 0.38862237334251404,
      "num_input_tokens_seen": 0,
      "step": 23
    },
    {
      "epoch": 0.2823529411764706,
      "grad_norm": 0.44956811034445643,
      "learning_rate": 1.9998784623453477e-05,
      "loss": 0.38012465834617615,
      "num_input_tokens_seen": 0,
      "step": 24
    },
    {
      "epoch": 0.29411764705882354,
      "grad_norm": 0.3973152538462978,
      "learning_rate": 1.9997265472012247e-05,
      "loss": 0.3671787679195404,
      "num_input_tokens_seen": 0,
      "step": 25
    },
    {
      "epoch": 0.3058823529411765,
      "grad_norm": 0.44092842775695007,
      "learning_rate": 1.999513878924193e-05,
      "loss": 0.40712660551071167,
      "num_input_tokens_seen": 0,
      "step": 26
    },
    {
      "epoch": 0.3176470588235294,
      "grad_norm": 0.48371948306233614,
      "learning_rate": 1.9992404704380513e-05,
      "loss": 0.37348443269729614,
      "num_input_tokens_seen": 0,
      "step": 27
    },
    {
      "epoch": 0.32941176470588235,
      "grad_norm": 0.3835238779084052,
      "learning_rate": 1.9989063383577644e-05,
      "loss": 0.36719316244125366,
      "num_input_tokens_seen": 0,
      "step": 28
    },
    {
      "epoch": 0.3411764705882353,
      "grad_norm": 0.4114683262445794,
      "learning_rate": 1.9985115029884556e-05,
      "loss": 0.3744957447052002,
      "num_input_tokens_seen": 0,
      "step": 29
    },
    {
      "epoch": 0.35294117647058826,
      "grad_norm": 0.3926833772366512,
      "learning_rate": 1.9980559883241723e-05,
      "loss": 0.36837196350097656,
      "num_input_tokens_seen": 0,
      "step": 30
    },
    {
      "epoch": 0.36470588235294116,
      "grad_norm": 0.34510721456392296,
      "learning_rate": 1.9975398220464268e-05,
      "loss": 0.35771483182907104,
      "num_input_tokens_seen": 0,
      "step": 31
    },
    {
      "epoch": 0.3764705882352941,
      "grad_norm": 0.2906065104717026,
      "learning_rate": 1.996963035522515e-05,
      "loss": 0.3718343675136566,
      "num_input_tokens_seen": 0,
      "step": 32
    },
    {
      "epoch": 0.38823529411764707,
      "grad_norm": 0.28680989428590703,
      "learning_rate": 1.99632566380361e-05,
      "loss": 0.35502949357032776,
      "num_input_tokens_seen": 0,
      "step": 33
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.36479584489715183,
      "learning_rate": 1.995627745622632e-05,
      "loss": 0.3561074733734131,
      "num_input_tokens_seen": 0,
      "step": 34
    },
    {
      "epoch": 0.4117647058823529,
      "grad_norm": 0.3233890688969203,
      "learning_rate": 1.994869323391895e-05,
      "loss": 0.36625605821609497,
      "num_input_tokens_seen": 0,
      "step": 35
    },
    {
      "epoch": 0.4235294117647059,
      "grad_norm": 0.3014081868844546,
      "learning_rate": 1.9940504432005293e-05,
      "loss": 0.32261648774147034,
      "num_input_tokens_seen": 0,
      "step": 36
    },
    {
      "epoch": 0.43529411764705883,
      "grad_norm": 0.29988977041893033,
      "learning_rate": 1.993171154811679e-05,
      "loss": 0.36725232005119324,
      "num_input_tokens_seen": 0,
      "step": 37
    },
    {
      "epoch": 0.4470588235294118,
      "grad_norm": 0.2843556547007244,
      "learning_rate": 1.992231511659481e-05,
      "loss": 0.3372398316860199,
      "num_input_tokens_seen": 0,
      "step": 38
    },
    {
      "epoch": 0.4588235294117647,
      "grad_norm": 0.25146289166175934,
      "learning_rate": 1.9912315708458144e-05,
      "loss": 0.35911282896995544,
      "num_input_tokens_seen": 0,
      "step": 39
    },
    {
      "epoch": 0.47058823529411764,
      "grad_norm": 0.25109365889274177,
      "learning_rate": 1.9901713931368333e-05,
      "loss": 0.35379254817962646,
      "num_input_tokens_seen": 0,
      "step": 40
    },
    {
      "epoch": 0.4823529411764706,
      "grad_norm": 0.25470949144259586,
      "learning_rate": 1.989051042959273e-05,
      "loss": 0.34498846530914307,
      "num_input_tokens_seen": 0,
      "step": 41
    },
    {
      "epoch": 0.49411764705882355,
      "grad_norm": 0.2603263992351511,
      "learning_rate": 1.9878705883965342e-05,
      "loss": 0.346971720457077,
      "num_input_tokens_seen": 0,
      "step": 42
    },
    {
      "epoch": 0.5058823529411764,
      "grad_norm": 0.2837708452421679,
      "learning_rate": 1.986630101184546e-05,
      "loss": 0.3518391251564026,
      "num_input_tokens_seen": 0,
      "step": 43
    },
    {
      "epoch": 0.5176470588235295,
      "grad_norm": 0.2690921713644025,
      "learning_rate": 1.9853296567074075e-05,
      "loss": 0.3417142331600189,
      "num_input_tokens_seen": 0,
      "step": 44
    },
    {
      "epoch": 0.5294117647058824,
      "grad_norm": 0.27838893675816295,
      "learning_rate": 1.983969333992804e-05,
      "loss": 0.33975788950920105,
      "num_input_tokens_seen": 0,
      "step": 45
    },
    {
      "epoch": 0.5411764705882353,
      "grad_norm": 0.2500924041093808,
      "learning_rate": 1.982549215707209e-05,
      "loss": 0.3427805006504059,
      "num_input_tokens_seen": 0,
      "step": 46
    },
    {
      "epoch": 0.5529411764705883,
      "grad_norm": 0.2515785105886048,
      "learning_rate": 1.9810693881508548e-05,
      "loss": 0.34949395060539246,
      "num_input_tokens_seen": 0,
      "step": 47
    },
    {
      "epoch": 0.5647058823529412,
      "grad_norm": 0.29781103489548,
      "learning_rate": 1.9795299412524948e-05,
      "loss": 0.34314972162246704,
      "num_input_tokens_seen": 0,
      "step": 48
    },
    {
      "epoch": 0.5764705882352941,
      "grad_norm": 0.2938887318454496,
      "learning_rate": 1.9779309685639317e-05,
      "loss": 0.3414318263530731,
      "num_input_tokens_seen": 0,
      "step": 49
    },
    {
      "epoch": 0.5882352941176471,
      "grad_norm": 0.2895540362722232,
      "learning_rate": 1.9762725672543372e-05,
      "loss": 0.3192686140537262,
      "num_input_tokens_seen": 0,
      "step": 50
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.23066275708054598,
      "learning_rate": 1.9745548381043454e-05,
      "loss": 0.3385634422302246,
      "num_input_tokens_seen": 0,
      "step": 51
    },
    {
      "epoch": 0.611764705882353,
      "grad_norm": 0.280246896213228,
      "learning_rate": 1.9727778854999283e-05,
      "loss": 0.35149312019348145,
      "num_input_tokens_seen": 0,
      "step": 52
    },
    {
      "epoch": 0.6235294117647059,
      "grad_norm": 0.27445702417204193,
      "learning_rate": 1.9709418174260523e-05,
      "loss": 0.3358836770057678,
      "num_input_tokens_seen": 0,
      "step": 53
    },
    {
      "epoch": 0.6352941176470588,
      "grad_norm": 0.27123307051788814,
      "learning_rate": 1.969046745460116e-05,
      "loss": 0.35038888454437256,
      "num_input_tokens_seen": 0,
      "step": 54
    },
    {
      "epoch": 0.6470588235294118,
      "grad_norm": 0.3022409414703534,
      "learning_rate": 1.9670927847651707e-05,
      "loss": 0.3619537651538849,
      "num_input_tokens_seen": 0,
      "step": 55
    },
    {
      "epoch": 0.6588235294117647,
      "grad_norm": 0.28043980426354626,
      "learning_rate": 1.9650800540829204e-05,
      "loss": 0.334235817193985,
      "num_input_tokens_seen": 0,
      "step": 56
    },
    {
      "epoch": 0.6705882352941176,
      "grad_norm": 0.2608407829948446,
      "learning_rate": 1.963008675726506e-05,
      "loss": 0.3367481827735901,
      "num_input_tokens_seen": 0,
      "step": 57
    },
    {
      "epoch": 0.6823529411764706,
      "grad_norm": 0.28536414145460753,
      "learning_rate": 1.9608787755730746e-05,
      "loss": 0.3296854496002197,
      "num_input_tokens_seen": 0,
      "step": 58
    },
    {
      "epoch": 0.6941176470588235,
      "grad_norm": 0.27980621624734936,
      "learning_rate": 1.958690483056126e-05,
      "loss": 0.32561179995536804,
      "num_input_tokens_seen": 0,
      "step": 59
    },
    {
      "epoch": 0.7058823529411765,
      "grad_norm": 0.2424680758848498,
      "learning_rate": 1.9564439311576515e-05,
      "loss": 0.33346784114837646,
      "num_input_tokens_seen": 0,
      "step": 60
    },
    {
      "epoch": 0.7176470588235294,
      "grad_norm": 0.24779814083785615,
      "learning_rate": 1.954139256400049e-05,
      "loss": 0.34621721506118774,
      "num_input_tokens_seen": 0,
      "step": 61
    },
    {
      "epoch": 0.7294117647058823,
      "grad_norm": 0.28660266256207545,
      "learning_rate": 1.951776598837829e-05,
      "loss": 0.31782716512680054,
      "num_input_tokens_seen": 0,
      "step": 62
    },
    {
      "epoch": 0.7411764705882353,
      "grad_norm": 0.2628734068408129,
      "learning_rate": 1.9493561020491024e-05,
      "loss": 0.3253316283226013,
      "num_input_tokens_seen": 0,
      "step": 63
    },
    {
      "epoch": 0.7529411764705882,
      "grad_norm": 0.253172171843236,
      "learning_rate": 1.9468779131268553e-05,
      "loss": 0.32543760538101196,
      "num_input_tokens_seen": 0,
      "step": 64
    },
    {
      "epoch": 0.7647058823529411,
      "grad_norm": 0.28753705660744233,
      "learning_rate": 1.9443421826700096e-05,
      "loss": 0.32660526037216187,
      "num_input_tokens_seen": 0,
      "step": 65
    },
    {
      "epoch": 0.7764705882352941,
      "grad_norm": 0.2550674488664895,
      "learning_rate": 1.9417490647742738e-05,
      "loss": 0.29762235283851624,
      "num_input_tokens_seen": 0,
      "step": 66
    },
    {
      "epoch": 0.788235294117647,
      "grad_norm": 0.2387936654216341,
      "learning_rate": 1.9390987170227746e-05,
      "loss": 0.34908509254455566,
      "num_input_tokens_seen": 0,
      "step": 67
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.28736279751275334,
      "learning_rate": 1.9363913004764847e-05,
      "loss": 0.3289881944656372,
      "num_input_tokens_seen": 0,
      "step": 68
    },
    {
      "epoch": 0.8117647058823529,
      "grad_norm": 0.2857068101908039,
      "learning_rate": 1.9336269796644314e-05,
      "loss": 0.316879540681839,
      "num_input_tokens_seen": 0,
      "step": 69
    },
    {
      "epoch": 0.8235294117647058,
      "grad_norm": 0.262248761213064,
      "learning_rate": 1.9308059225737015e-05,
      "loss": 0.3085065484046936,
      "num_input_tokens_seen": 0,
      "step": 70
    },
    {
      "epoch": 0.8352941176470589,
      "grad_norm": 0.27771726352284015,
      "learning_rate": 1.9279283006392304e-05,
      "loss": 0.3186359405517578,
      "num_input_tokens_seen": 0,
      "step": 71
    },
    {
      "epoch": 0.8470588235294118,
      "grad_norm": 0.31802345881089383,
      "learning_rate": 1.924994288733386e-05,
      "loss": 0.329565167427063,
      "num_input_tokens_seen": 0,
      "step": 72
    },
    {
      "epoch": 0.8588235294117647,
      "grad_norm": 0.28385852442224846,
      "learning_rate": 1.9220040651553388e-05,
      "loss": 0.3364284634590149,
      "num_input_tokens_seen": 0,
      "step": 73
    },
    {
      "epoch": 0.8705882352941177,
      "grad_norm": 0.2533928699463178,
      "learning_rate": 1.918957811620231e-05,
      "loss": 0.3229159712791443,
      "num_input_tokens_seen": 0,
      "step": 74
    },
    {
      "epoch": 0.8823529411764706,
      "grad_norm": 0.27551639833029534,
      "learning_rate": 1.915855713248129e-05,
      "loss": 0.317361056804657,
      "num_input_tokens_seen": 0,
      "step": 75
    },
    {
      "epoch": 0.8941176470588236,
      "grad_norm": 0.26990146657663827,
      "learning_rate": 1.912697958552778e-05,
      "loss": 0.31780922412872314,
      "num_input_tokens_seen": 0,
      "step": 76
    },
    {
      "epoch": 0.9058823529411765,
      "grad_norm": 0.3150863510764379,
      "learning_rate": 1.9094847394301427e-05,
      "loss": 0.33098268508911133,
      "num_input_tokens_seen": 0,
      "step": 77
    },
    {
      "epoch": 0.9176470588235294,
      "grad_norm": 0.3234901727951674,
      "learning_rate": 1.906216251146748e-05,
      "loss": 0.341233491897583,
      "num_input_tokens_seen": 0,
      "step": 78
    },
    {
      "epoch": 0.9294117647058824,
      "grad_norm": 0.26331326581875253,
      "learning_rate": 1.902892692327811e-05,
      "loss": 0.33283838629722595,
      "num_input_tokens_seen": 0,
      "step": 79
    },
    {
      "epoch": 0.9411764705882353,
      "grad_norm": 0.31786869502135223,
      "learning_rate": 1.899514264945173e-05,
      "loss": 0.3331839442253113,
      "num_input_tokens_seen": 0,
      "step": 80
    },
    {
      "epoch": 0.9529411764705882,
      "grad_norm": 0.29539690375673217,
      "learning_rate": 1.8960811743050227e-05,
      "loss": 0.33531326055526733,
      "num_input_tokens_seen": 0,
      "step": 81
    },
    {
      "epoch": 0.9647058823529412,
      "grad_norm": 0.30472122382886785,
      "learning_rate": 1.8925936290354224e-05,
      "loss": 0.3103257417678833,
      "num_input_tokens_seen": 0,
      "step": 82
    },
    {
      "epoch": 0.9764705882352941,
      "grad_norm": 0.2530167563030317,
      "learning_rate": 1.8890518410736275e-05,
      "loss": 0.32245466113090515,
      "num_input_tokens_seen": 0,
      "step": 83
    },
    {
      "epoch": 0.9882352941176471,
      "grad_norm": 0.28897856083778817,
      "learning_rate": 1.8854560256532098e-05,
      "loss": 0.3198079764842987,
      "num_input_tokens_seen": 0,
      "step": 84
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.26450715598842334,
      "learning_rate": 1.8818064012909755e-05,
      "loss": 0.3213130235671997,
      "num_input_tokens_seen": 0,
      "step": 85
    },
    {
      "epoch": 1.011764705882353,
      "grad_norm": 0.2626207427201876,
      "learning_rate": 1.878103189773686e-05,
      "loss": 0.2763475179672241,
      "num_input_tokens_seen": 0,
      "step": 86
    },
    {
      "epoch": 1.0235294117647058,
      "grad_norm": 0.2629994874410627,
      "learning_rate": 1.8743466161445823e-05,
      "loss": 0.2665697932243347,
      "num_input_tokens_seen": 0,
      "step": 87
    },
    {
      "epoch": 1.035294117647059,
      "grad_norm": 0.29251013301945034,
      "learning_rate": 1.8705369086897063e-05,
      "loss": 0.2806475758552551,
      "num_input_tokens_seen": 0,
      "step": 88
    },
    {
      "epoch": 1.0470588235294118,
      "grad_norm": 0.2852660256104482,
      "learning_rate": 1.86667429892403e-05,
      "loss": 0.2648066282272339,
      "num_input_tokens_seen": 0,
      "step": 89
    },
    {
      "epoch": 1.0588235294117647,
      "grad_norm": 0.2762797160323279,
      "learning_rate": 1.862759021577385e-05,
      "loss": 0.2734478712081909,
      "num_input_tokens_seen": 0,
      "step": 90
    },
    {
      "epoch": 1.0705882352941176,
      "grad_norm": 0.3020506174745607,
      "learning_rate": 1.8587913145801998e-05,
      "loss": 0.2635505795478821,
      "num_input_tokens_seen": 0,
      "step": 91
    },
    {
      "epoch": 1.0823529411764705,
      "grad_norm": 0.28351991002826543,
      "learning_rate": 1.8547714190490385e-05,
      "loss": 0.2799134850502014,
      "num_input_tokens_seen": 0,
      "step": 92
    },
    {
      "epoch": 1.0941176470588236,
      "grad_norm": 0.2740110743262188,
      "learning_rate": 1.8506995792719498e-05,
      "loss": 0.2726055979728699,
      "num_input_tokens_seen": 0,
      "step": 93
    },
    {
      "epoch": 1.1058823529411765,
      "grad_norm": 0.30269062031162386,
      "learning_rate": 1.8465760426936212e-05,
      "loss": 0.2837594747543335,
      "num_input_tokens_seen": 0,
      "step": 94
    },
    {
      "epoch": 1.1176470588235294,
      "grad_norm": 0.30315593582121325,
      "learning_rate": 1.8424010599003424e-05,
      "loss": 0.2731676995754242,
      "num_input_tokens_seen": 0,
      "step": 95
    },
    {
      "epoch": 1.1294117647058823,
      "grad_norm": 0.26149596901353317,
      "learning_rate": 1.838174884604776e-05,
      "loss": 0.2705945372581482,
      "num_input_tokens_seen": 0,
      "step": 96
    },
    {
      "epoch": 1.1411764705882352,
      "grad_norm": 0.3026007790348899,
      "learning_rate": 1.8338977736305408e-05,
      "loss": 0.2789444923400879,
      "num_input_tokens_seen": 0,
      "step": 97
    },
    {
      "epoch": 1.1529411764705881,
      "grad_norm": 0.3349505482436329,
      "learning_rate": 1.8295699868966038e-05,
      "loss": 0.2682260572910309,
      "num_input_tokens_seen": 0,
      "step": 98
    },
    {
      "epoch": 1.1647058823529413,
      "grad_norm": 0.2891949628165266,
      "learning_rate": 1.8251917874014854e-05,
      "loss": 0.28042054176330566,
      "num_input_tokens_seen": 0,
      "step": 99
    },
    {
      "epoch": 1.1764705882352942,
      "grad_norm": 0.2941393562882544,
      "learning_rate": 1.8207634412072765e-05,
      "loss": 0.25862598419189453,
      "num_input_tokens_seen": 0,
      "step": 100
    },
    {
      "epoch": 1.188235294117647,
      "grad_norm": 0.32722595542360156,
      "learning_rate": 1.8162852174234712e-05,
      "loss": 0.2712678909301758,
      "num_input_tokens_seen": 0,
      "step": 101
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.2755950618714099,
      "learning_rate": 1.8117573881906114e-05,
      "loss": 0.26205819845199585,
      "num_input_tokens_seen": 0,
      "step": 102
    },
    {
      "epoch": 1.2117647058823529,
      "grad_norm": 0.2571435526644292,
      "learning_rate": 1.8071802286637505e-05,
      "loss": 0.2622745633125305,
      "num_input_tokens_seen": 0,
      "step": 103
    },
    {
      "epoch": 1.223529411764706,
      "grad_norm": 0.2591172743832164,
      "learning_rate": 1.8025540169957315e-05,
      "loss": 0.25631460547447205,
      "num_input_tokens_seen": 0,
      "step": 104
    },
    {
      "epoch": 1.2352941176470589,
      "grad_norm": 0.2817321177900711,
      "learning_rate": 1.7978790343202826e-05,
      "loss": 0.2782523036003113,
      "num_input_tokens_seen": 0,
      "step": 105
    },
    {
      "epoch": 1.2470588235294118,
      "grad_norm": 0.33225523735776513,
      "learning_rate": 1.7931555647349358e-05,
      "loss": 0.2600249946117401,
      "num_input_tokens_seen": 0,
      "step": 106
    },
    {
      "epoch": 1.2588235294117647,
      "grad_norm": 0.2786742348476795,
      "learning_rate": 1.7883838952837595e-05,
      "loss": 0.25568312406539917,
      "num_input_tokens_seen": 0,
      "step": 107
    },
    {
      "epoch": 1.2705882352941176,
      "grad_norm": 0.2771371487960206,
      "learning_rate": 1.7835643159399156e-05,
      "loss": 0.2384142279624939,
      "num_input_tokens_seen": 0,
      "step": 108
    },
    {
      "epoch": 1.2823529411764705,
      "grad_norm": 0.31328815588599274,
      "learning_rate": 1.778697119588039e-05,
      "loss": 0.2667343318462372,
      "num_input_tokens_seen": 0,
      "step": 109
    },
    {
      "epoch": 1.2941176470588236,
      "grad_norm": 0.2690014796691674,
      "learning_rate": 1.7737826020064377e-05,
      "loss": 0.2558494210243225,
      "num_input_tokens_seen": 0,
      "step": 110
    },
    {
      "epoch": 1.3058823529411765,
      "grad_norm": 0.3038451633685586,
      "learning_rate": 1.76882106184912e-05,
      "loss": 0.25802576541900635,
      "num_input_tokens_seen": 0,
      "step": 111
    },
    {
      "epoch": 1.3176470588235294,
      "grad_norm": 0.26349039262552754,
      "learning_rate": 1.7638128006276422e-05,
      "loss": 0.26081448793411255,
      "num_input_tokens_seen": 0,
      "step": 112
    },
    {
      "epoch": 1.3294117647058823,
      "grad_norm": 0.27581161125402026,
      "learning_rate": 1.758758122692791e-05,
      "loss": 0.27647483348846436,
      "num_input_tokens_seen": 0,
      "step": 113
    },
    {
      "epoch": 1.3411764705882354,
      "grad_norm": 0.3235486769428178,
      "learning_rate": 1.753657335216083e-05,
      "loss": 0.2677750587463379,
      "num_input_tokens_seen": 0,
      "step": 114
    },
    {
      "epoch": 1.3529411764705883,
      "grad_norm": 0.2809145367414571,
      "learning_rate": 1.7485107481711014e-05,
      "loss": 0.2682688236236572,
      "num_input_tokens_seen": 0,
      "step": 115
    },
    {
      "epoch": 1.3647058823529412,
      "grad_norm": 0.2619951939456424,
      "learning_rate": 1.743318674314656e-05,
      "loss": 0.25316929817199707,
      "num_input_tokens_seen": 0,
      "step": 116
    },
    {
      "epoch": 1.3764705882352941,
      "grad_norm": 0.27411080913366315,
      "learning_rate": 1.7380814291677818e-05,
      "loss": 0.2697577476501465,
      "num_input_tokens_seen": 0,
      "step": 117
    },
    {
      "epoch": 1.388235294117647,
      "grad_norm": 0.3338822677438316,
      "learning_rate": 1.7327993309965583e-05,
      "loss": 0.2708876132965088,
      "num_input_tokens_seen": 0,
      "step": 118
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.31962282276030907,
      "learning_rate": 1.7274727007927747e-05,
      "loss": 0.27048563957214355,
      "num_input_tokens_seen": 0,
      "step": 119
    },
    {
      "epoch": 1.4117647058823528,
      "grad_norm": 0.285342846378909,
      "learning_rate": 1.7221018622544197e-05,
      "loss": 0.2710177004337311,
      "num_input_tokens_seen": 0,
      "step": 120
    },
    {
      "epoch": 1.423529411764706,
      "grad_norm": 0.308814170391406,
      "learning_rate": 1.7166871417660116e-05,
      "loss": 0.2526181936264038,
      "num_input_tokens_seen": 0,
      "step": 121
    },
    {
      "epoch": 1.4352941176470588,
      "grad_norm": 0.27775597890631276,
      "learning_rate": 1.7112288683787637e-05,
      "loss": 0.26763850450515747,
      "num_input_tokens_seen": 0,
      "step": 122
    },
    {
      "epoch": 1.4470588235294117,
      "grad_norm": 0.2958185178060128,
      "learning_rate": 1.7057273737905887e-05,
      "loss": 0.268245667219162,
      "num_input_tokens_seen": 0,
      "step": 123
    },
    {
      "epoch": 1.4588235294117646,
      "grad_norm": 0.2483775556217329,
      "learning_rate": 1.70018299232594e-05,
      "loss": 0.25788575410842896,
      "num_input_tokens_seen": 0,
      "step": 124
    },
    {
      "epoch": 1.4705882352941178,
      "grad_norm": 0.2811097779442606,
      "learning_rate": 1.6945960609154966e-05,
      "loss": 0.26732224225997925,
      "num_input_tokens_seen": 0,
      "step": 125
    },
    {
      "epoch": 1.4823529411764707,
      "grad_norm": 0.2934299916938348,
      "learning_rate": 1.688966919075687e-05,
      "loss": 0.26281166076660156,
      "num_input_tokens_seen": 0,
      "step": 126
    },
    {
      "epoch": 1.4941176470588236,
      "grad_norm": 0.2368134963295287,
      "learning_rate": 1.6832959088880557e-05,
      "loss": 0.25862863659858704,
      "num_input_tokens_seen": 0,
      "step": 127
    },
    {
      "epoch": 1.5058823529411764,
      "grad_norm": 0.2708304514650526,
      "learning_rate": 1.677583374978478e-05,
      "loss": 0.2421874701976776,
      "num_input_tokens_seen": 0,
      "step": 128
    },
    {
      "epoch": 1.5176470588235293,
      "grad_norm": 0.2767120423486198,
      "learning_rate": 1.6718296644962146e-05,
      "loss": 0.2624642550945282,
      "num_input_tokens_seen": 0,
      "step": 129
    },
    {
      "epoch": 1.5294117647058822,
      "grad_norm": 0.2813174470652987,
      "learning_rate": 1.6660351270928164e-05,
      "loss": 0.24937519431114197,
      "num_input_tokens_seen": 0,
      "step": 130
    },
    {
      "epoch": 1.5411764705882351,
      "grad_norm": 0.3009488397968105,
      "learning_rate": 1.660200114900876e-05,
      "loss": 0.2704227566719055,
      "num_input_tokens_seen": 0,
      "step": 131
    },
    {
      "epoch": 1.5529411764705883,
      "grad_norm": 0.3141059797795813,
      "learning_rate": 1.6543249825126285e-05,
      "loss": 0.26932939887046814,
      "num_input_tokens_seen": 0,
      "step": 132
    },
    {
      "epoch": 1.5647058823529412,
      "grad_norm": 0.25053717473426707,
      "learning_rate": 1.6484100869584044e-05,
      "loss": 0.2592698633670807,
      "num_input_tokens_seen": 0,
      "step": 133
    },
    {
      "epoch": 1.576470588235294,
      "grad_norm": 0.25700597213890997,
      "learning_rate": 1.6424557876849308e-05,
      "loss": 0.27053964138031006,
      "num_input_tokens_seen": 0,
      "step": 134
    },
    {
      "epoch": 1.5882352941176472,
      "grad_norm": 0.30182930329649144,
      "learning_rate": 1.636462446533489e-05,
      "loss": 0.25989019870758057,
      "num_input_tokens_seen": 0,
      "step": 135
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.26390881674937633,
      "learning_rate": 1.6304304277179267e-05,
      "loss": 0.2570236027240753,
      "num_input_tokens_seen": 0,
      "step": 136
    },
    {
      "epoch": 1.611764705882353,
      "grad_norm": 0.2652947312714827,
      "learning_rate": 1.6243600978025215e-05,
      "loss": 0.2678568363189697,
      "num_input_tokens_seen": 0,
      "step": 137
    },
    {
      "epoch": 1.6235294117647059,
      "grad_norm": 0.2575940385752971,
      "learning_rate": 1.6182518256797095e-05,
      "loss": 0.2600210905075073,
      "num_input_tokens_seen": 0,
      "step": 138
    },
    {
      "epoch": 1.6352941176470588,
      "grad_norm": 0.2610590842320019,
      "learning_rate": 1.612105982547663e-05,
      "loss": 0.26671087741851807,
      "num_input_tokens_seen": 0,
      "step": 139
    },
    {
      "epoch": 1.6470588235294117,
      "grad_norm": 0.25464302295329627,
      "learning_rate": 1.605922941887737e-05,
      "loss": 0.2668280005455017,
      "num_input_tokens_seen": 0,
      "step": 140
    },
    {
      "epoch": 1.6588235294117646,
      "grad_norm": 0.26069231826980477,
      "learning_rate": 1.599703079441769e-05,
      "loss": 0.2653328478336334,
      "num_input_tokens_seen": 0,
      "step": 141
    },
    {
      "epoch": 1.6705882352941175,
      "grad_norm": 0.27072482250492486,
      "learning_rate": 1.5934467731892497e-05,
      "loss": 0.2632245719432831,
      "num_input_tokens_seen": 0,
      "step": 142
    },
    {
      "epoch": 1.6823529411764706,
      "grad_norm": 0.24138888757547514,
      "learning_rate": 1.5871544033243488e-05,
      "loss": 0.26093634963035583,
      "num_input_tokens_seen": 0,
      "step": 143
    },
    {
      "epoch": 1.6941176470588235,
      "grad_norm": 0.25857892670146815,
      "learning_rate": 1.5808263522328137e-05,
      "loss": 0.2518957853317261,
      "num_input_tokens_seen": 0,
      "step": 144
    },
    {
      "epoch": 1.7058823529411766,
      "grad_norm": 0.25322801625227936,
      "learning_rate": 1.5744630044687307e-05,
      "loss": 0.25198179483413696,
      "num_input_tokens_seen": 0,
      "step": 145
    },
    {
      "epoch": 1.7176470588235295,
      "grad_norm": 0.23398219863607192,
      "learning_rate": 1.568064746731156e-05,
      "loss": 0.25039592385292053,
      "num_input_tokens_seen": 0,
      "step": 146
    },
    {
      "epoch": 1.7294117647058824,
      "grad_norm": 0.22752785226042835,
      "learning_rate": 1.561631967840617e-05,
      "loss": 0.25004899501800537,
      "num_input_tokens_seen": 0,
      "step": 147
    },
    {
      "epoch": 1.7411764705882353,
      "grad_norm": 0.26867363858385673,
      "learning_rate": 1.5551650587154815e-05,
      "loss": 0.2628065347671509,
      "num_input_tokens_seen": 0,
      "step": 148
    },
    {
      "epoch": 1.7529411764705882,
      "grad_norm": 0.2572214700469002,
      "learning_rate": 1.5486644123482047e-05,
      "loss": 0.2694377899169922,
      "num_input_tokens_seen": 0,
      "step": 149
    },
    {
      "epoch": 1.7647058823529411,
      "grad_norm": 0.2649069012394484,
      "learning_rate": 1.542130423781444e-05,
      "loss": 0.2698570787906647,
      "num_input_tokens_seen": 0,
      "step": 150
    },
    {
      "epoch": 1.776470588235294,
      "grad_norm": 0.3129557276746984,
      "learning_rate": 1.5355634900840558e-05,
      "loss": 0.2620123624801636,
      "num_input_tokens_seen": 0,
      "step": 151
    },
    {
      "epoch": 1.788235294117647,
      "grad_norm": 0.219414643912218,
      "learning_rate": 1.5289640103269626e-05,
      "loss": 0.24250832200050354,
      "num_input_tokens_seen": 0,
      "step": 152
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.2787522458312503,
      "learning_rate": 1.5223323855589027e-05,
      "loss": 0.2599625885486603,
      "num_input_tokens_seen": 0,
      "step": 153
    },
    {
      "epoch": 1.811764705882353,
      "grad_norm": 0.24624844789559322,
      "learning_rate": 1.5156690187820596e-05,
      "loss": 0.2539859712123871,
      "num_input_tokens_seen": 0,
      "step": 154
    },
    {
      "epoch": 1.8235294117647058,
      "grad_norm": 0.28786535612403885,
      "learning_rate": 1.50897431492757e-05,
      "loss": 0.251323938369751,
      "num_input_tokens_seen": 0,
      "step": 155
    },
    {
      "epoch": 1.835294117647059,
      "grad_norm": 0.2861446800798861,
      "learning_rate": 1.5022486808309171e-05,
      "loss": 0.2852325439453125,
      "num_input_tokens_seen": 0,
      "step": 156
    },
    {
      "epoch": 1.8470588235294119,
      "grad_norm": 0.30835997118524755,
      "learning_rate": 1.4954925252072077e-05,
      "loss": 0.2626144289970398,
      "num_input_tokens_seen": 0,
      "step": 157
    },
    {
      "epoch": 1.8588235294117648,
      "grad_norm": 0.27166093756727683,
      "learning_rate": 1.4887062586263334e-05,
      "loss": 0.26250118017196655,
      "num_input_tokens_seen": 0,
      "step": 158
    },
    {
      "epoch": 1.8705882352941177,
      "grad_norm": 0.30818985316404857,
      "learning_rate": 1.4818902934880222e-05,
      "loss": 0.27699387073516846,
      "num_input_tokens_seen": 0,
      "step": 159
    },
    {
      "epoch": 1.8823529411764706,
      "grad_norm": 0.30205479197808555,
      "learning_rate": 1.4750450439967751e-05,
      "loss": 0.272649347782135,
      "num_input_tokens_seen": 0,
      "step": 160
    },
    {
      "epoch": 1.8941176470588235,
      "grad_norm": 0.29949042144033816,
      "learning_rate": 1.4681709261366963e-05,
      "loss": 0.2485789656639099,
      "num_input_tokens_seen": 0,
      "step": 161
    },
    {
      "epoch": 1.9058823529411764,
      "grad_norm": 0.267903631477539,
      "learning_rate": 1.4612683576462135e-05,
      "loss": 0.2616223096847534,
      "num_input_tokens_seen": 0,
      "step": 162
    },
    {
      "epoch": 1.9176470588235293,
      "grad_norm": 0.27260315220708237,
      "learning_rate": 1.4543377579926915e-05,
      "loss": 0.27286335825920105,
      "num_input_tokens_seen": 0,
      "step": 163
    },
    {
      "epoch": 1.9294117647058824,
      "grad_norm": 0.28592302424298965,
      "learning_rate": 1.4473795483469442e-05,
      "loss": 0.24860531091690063,
      "num_input_tokens_seen": 0,
      "step": 164
    },
    {
      "epoch": 1.9411764705882353,
      "grad_norm": 0.27067444548694936,
      "learning_rate": 1.4403941515576344e-05,
      "loss": 0.2611614167690277,
      "num_input_tokens_seen": 0,
      "step": 165
    },
    {
      "epoch": 1.9529411764705882,
      "grad_norm": 0.26432408877050523,
      "learning_rate": 1.4333819921255836e-05,
      "loss": 0.26266223192214966,
      "num_input_tokens_seen": 0,
      "step": 166
    },
    {
      "epoch": 1.9647058823529413,
      "grad_norm": 0.32069387585361836,
      "learning_rate": 1.4263434961779709e-05,
      "loss": 0.24890068173408508,
      "num_input_tokens_seen": 0,
      "step": 167
    },
    {
      "epoch": 1.9764705882352942,
      "grad_norm": 0.28968277975368684,
      "learning_rate": 1.41927909144244e-05,
      "loss": 0.2612011432647705,
      "num_input_tokens_seen": 0,
      "step": 168
    },
    {
      "epoch": 1.988235294117647,
      "grad_norm": 0.2593706365289158,
      "learning_rate": 1.412189207221104e-05,
      "loss": 0.24890106916427612,
      "num_input_tokens_seen": 0,
      "step": 169
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.25908450639554936,
      "learning_rate": 1.4050742743644588e-05,
      "loss": 0.25550538301467896,
      "num_input_tokens_seen": 0,
      "step": 170
    },
    {
      "epoch": 2.011764705882353,
      "grad_norm": 0.32606044201267254,
      "learning_rate": 1.3979347252451994e-05,
      "loss": 0.20405685901641846,
      "num_input_tokens_seen": 0,
      "step": 171
    },
    {
      "epoch": 2.023529411764706,
      "grad_norm": 0.31532835367496725,
      "learning_rate": 1.3907709937319451e-05,
      "loss": 0.2080579251050949,
      "num_input_tokens_seen": 0,
      "step": 172
    },
    {
      "epoch": 2.0352941176470587,
      "grad_norm": 0.23106550000023307,
      "learning_rate": 1.3835835151628728e-05,
      "loss": 0.1862945556640625,
      "num_input_tokens_seen": 0,
      "step": 173
    },
    {
      "epoch": 2.0470588235294116,
      "grad_norm": 0.2399759682184491,
      "learning_rate": 1.3763727263192626e-05,
      "loss": 0.18684154748916626,
      "num_input_tokens_seen": 0,
      "step": 174
    },
    {
      "epoch": 2.0588235294117645,
      "grad_norm": 0.24298409208730917,
      "learning_rate": 1.3691390653989536e-05,
      "loss": 0.19205346703529358,
      "num_input_tokens_seen": 0,
      "step": 175
    },
    {
      "epoch": 2.070588235294118,
      "grad_norm": 0.2606890104298591,
      "learning_rate": 1.3618829719897158e-05,
      "loss": 0.19722914695739746,
      "num_input_tokens_seen": 0,
      "step": 176
    },
    {
      "epoch": 2.0823529411764707,
      "grad_norm": 0.2634006155067239,
      "learning_rate": 1.3546048870425356e-05,
      "loss": 0.18658706545829773,
      "num_input_tokens_seen": 0,
      "step": 177
    },
    {
      "epoch": 2.0941176470588236,
      "grad_norm": 0.2474551016529151,
      "learning_rate": 1.3473052528448203e-05,
      "loss": 0.18761307001113892,
      "num_input_tokens_seen": 0,
      "step": 178
    },
    {
      "epoch": 2.1058823529411765,
      "grad_norm": 0.2773501459528279,
      "learning_rate": 1.3399845129935191e-05,
      "loss": 0.2006130963563919,
      "num_input_tokens_seen": 0,
      "step": 179
    },
    {
      "epoch": 2.1176470588235294,
      "grad_norm": 0.24768518968840073,
      "learning_rate": 1.3326431123681667e-05,
      "loss": 0.1869545876979828,
      "num_input_tokens_seen": 0,
      "step": 180
    },
    {
      "epoch": 2.1294117647058823,
      "grad_norm": 0.24087563849344726,
      "learning_rate": 1.3252814971038477e-05,
      "loss": 0.19419728219509125,
      "num_input_tokens_seen": 0,
      "step": 181
    },
    {
      "epoch": 2.1411764705882352,
      "grad_norm": 0.24859116981429222,
      "learning_rate": 1.3179001145640856e-05,
      "loss": 0.1937357634305954,
      "num_input_tokens_seen": 0,
      "step": 182
    },
    {
      "epoch": 2.152941176470588,
      "grad_norm": 0.2513377458414818,
      "learning_rate": 1.3104994133136563e-05,
      "loss": 0.18806332349777222,
      "num_input_tokens_seen": 0,
      "step": 183
    },
    {
      "epoch": 2.164705882352941,
      "grad_norm": 0.24195612774749747,
      "learning_rate": 1.3030798430913289e-05,
      "loss": 0.19312450289726257,
      "num_input_tokens_seen": 0,
      "step": 184
    },
    {
      "epoch": 2.176470588235294,
      "grad_norm": 0.2598954308224352,
      "learning_rate": 1.295641854782535e-05,
      "loss": 0.19178995490074158,
      "num_input_tokens_seen": 0,
      "step": 185
    },
    {
      "epoch": 2.1882352941176473,
      "grad_norm": 0.2738424910649441,
      "learning_rate": 1.2881859003919688e-05,
      "loss": 0.19293949007987976,
      "num_input_tokens_seen": 0,
      "step": 186
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.24146821641260552,
      "learning_rate": 1.2807124330161188e-05,
      "loss": 0.18528440594673157,
      "num_input_tokens_seen": 0,
      "step": 187
    },
    {
      "epoch": 2.211764705882353,
      "grad_norm": 0.257111381442425,
      "learning_rate": 1.2732219068157335e-05,
      "loss": 0.18848256766796112,
      "num_input_tokens_seen": 0,
      "step": 188
    },
    {
      "epoch": 2.223529411764706,
      "grad_norm": 0.2526409622347608,
      "learning_rate": 1.2657147769882215e-05,
      "loss": 0.18127834796905518,
      "num_input_tokens_seen": 0,
      "step": 189
    },
    {
      "epoch": 2.235294117647059,
      "grad_norm": 0.23701529976763616,
      "learning_rate": 1.2581914997399899e-05,
      "loss": 0.18892061710357666,
      "num_input_tokens_seen": 0,
      "step": 190
    },
    {
      "epoch": 2.2470588235294118,
      "grad_norm": 0.24297086363023263,
      "learning_rate": 1.2506525322587207e-05,
      "loss": 0.19873817265033722,
      "num_input_tokens_seen": 0,
      "step": 191
    },
    {
      "epoch": 2.2588235294117647,
      "grad_norm": 0.2537032696104157,
      "learning_rate": 1.2430983326855873e-05,
      "loss": 0.1893860250711441,
      "num_input_tokens_seen": 0,
      "step": 192
    },
    {
      "epoch": 2.2705882352941176,
      "grad_norm": 0.23876942589975814,
      "learning_rate": 1.2355293600874132e-05,
      "loss": 0.18759432435035706,
      "num_input_tokens_seen": 0,
      "step": 193
    },
    {
      "epoch": 2.2823529411764705,
      "grad_norm": 0.2435388542806445,
      "learning_rate": 1.2279460744287755e-05,
      "loss": 0.18849223852157593,
      "num_input_tokens_seen": 0,
      "step": 194
    },
    {
      "epoch": 2.2941176470588234,
      "grad_norm": 0.2647343889775541,
      "learning_rate": 1.220348936544052e-05,
      "loss": 0.18661049008369446,
      "num_input_tokens_seen": 0,
      "step": 195
    },
    {
      "epoch": 2.3058823529411763,
      "grad_norm": 0.25540155279573523,
      "learning_rate": 1.2127384081094167e-05,
      "loss": 0.18517085909843445,
      "num_input_tokens_seen": 0,
      "step": 196
    },
    {
      "epoch": 2.317647058823529,
      "grad_norm": 0.24552318557540526,
      "learning_rate": 1.205114951614785e-05,
      "loss": 0.17878204584121704,
      "num_input_tokens_seen": 0,
      "step": 197
    },
    {
      "epoch": 2.3294117647058825,
      "grad_norm": 0.2258935926658077,
      "learning_rate": 1.197479030335706e-05,
      "loss": 0.18578067421913147,
      "num_input_tokens_seen": 0,
      "step": 198
    },
    {
      "epoch": 2.3411764705882354,
      "grad_norm": 0.22583777859137,
      "learning_rate": 1.1898311083052113e-05,
      "loss": 0.19397635757923126,
      "num_input_tokens_seen": 0,
      "step": 199
    },
    {
      "epoch": 2.3529411764705883,
      "grad_norm": 0.23201542489820412,
      "learning_rate": 1.1821716502856154e-05,
      "loss": 0.18146567046642303,
      "num_input_tokens_seen": 0,
      "step": 200
    },
    {
      "epoch": 2.364705882352941,
      "grad_norm": 0.28552700838642453,
      "learning_rate": 1.1745011217402709e-05,
      "loss": 0.19469541311264038,
      "num_input_tokens_seen": 0,
      "step": 201
    },
    {
      "epoch": 2.376470588235294,
      "grad_norm": 0.24910488131854605,
      "learning_rate": 1.1668199888052844e-05,
      "loss": 0.18924464285373688,
      "num_input_tokens_seen": 0,
      "step": 202
    },
    {
      "epoch": 2.388235294117647,
      "grad_norm": 0.24952841695443162,
      "learning_rate": 1.159128718261189e-05,
      "loss": 0.18815085291862488,
      "num_input_tokens_seen": 0,
      "step": 203
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.22629712220582293,
      "learning_rate": 1.1514277775045768e-05,
      "loss": 0.18509158492088318,
      "num_input_tokens_seen": 0,
      "step": 204
    },
    {
      "epoch": 2.411764705882353,
      "grad_norm": 0.2258797767600323,
      "learning_rate": 1.1437176345196967e-05,
      "loss": 0.17601992189884186,
      "num_input_tokens_seen": 0,
      "step": 205
    },
    {
      "epoch": 2.4235294117647057,
      "grad_norm": 0.2994549469629298,
      "learning_rate": 1.135998757850015e-05,
      "loss": 0.19033361971378326,
      "num_input_tokens_seen": 0,
      "step": 206
    },
    {
      "epoch": 2.435294117647059,
      "grad_norm": 0.28669793445051134,
      "learning_rate": 1.128271616569741e-05,
      "loss": 0.19659247994422913,
      "num_input_tokens_seen": 0,
      "step": 207
    },
    {
      "epoch": 2.447058823529412,
      "grad_norm": 0.24321969874326846,
      "learning_rate": 1.1205366802553231e-05,
      "loss": 0.189006507396698,
      "num_input_tokens_seen": 0,
      "step": 208
    },
    {
      "epoch": 2.458823529411765,
      "grad_norm": 0.23277687621799142,
      "learning_rate": 1.1127944189569122e-05,
      "loss": 0.18315881490707397,
      "num_input_tokens_seen": 0,
      "step": 209
    },
    {
      "epoch": 2.4705882352941178,
      "grad_norm": 0.24644185758060683,
      "learning_rate": 1.1050453031697958e-05,
      "loss": 0.18082918226718903,
      "num_input_tokens_seen": 0,
      "step": 210
    },
    {
      "epoch": 2.4823529411764707,
      "grad_norm": 0.27537652887423003,
      "learning_rate": 1.0972898038058077e-05,
      "loss": 0.18804597854614258,
      "num_input_tokens_seen": 0,
      "step": 211
    },
    {
      "epoch": 2.4941176470588236,
      "grad_norm": 0.22999355280888956,
      "learning_rate": 1.0895283921647098e-05,
      "loss": 0.18512041866779327,
      "num_input_tokens_seen": 0,
      "step": 212
    },
    {
      "epoch": 2.5058823529411764,
      "grad_norm": 0.24328460263907906,
      "learning_rate": 1.0817615399055513e-05,
      "loss": 0.18306857347488403,
      "num_input_tokens_seen": 0,
      "step": 213
    },
    {
      "epoch": 2.5176470588235293,
      "grad_norm": 0.24353741537161722,
      "learning_rate": 1.0739897190180066e-05,
      "loss": 0.18730933964252472,
      "num_input_tokens_seen": 0,
      "step": 214
    },
    {
      "epoch": 2.5294117647058822,
      "grad_norm": 0.24168464720218039,
      "learning_rate": 1.0662134017936924e-05,
      "loss": 0.1890895515680313,
      "num_input_tokens_seen": 0,
      "step": 215
    },
    {
      "epoch": 2.541176470588235,
      "grad_norm": 0.2464118373551017,
      "learning_rate": 1.0584330607974673e-05,
      "loss": 0.1896791309118271,
      "num_input_tokens_seen": 0,
      "step": 216
    },
    {
      "epoch": 2.552941176470588,
      "grad_norm": 0.2272154213017855,
      "learning_rate": 1.0506491688387128e-05,
      "loss": 0.187567800283432,
      "num_input_tokens_seen": 0,
      "step": 217
    },
    {
      "epoch": 2.564705882352941,
      "grad_norm": 0.23687499350154168,
      "learning_rate": 1.0428621989426016e-05,
      "loss": 0.19160117208957672,
      "num_input_tokens_seen": 0,
      "step": 218
    },
    {
      "epoch": 2.576470588235294,
      "grad_norm": 0.23229299934050784,
      "learning_rate": 1.0350726243213519e-05,
      "loss": 0.18402451276779175,
      "num_input_tokens_seen": 0,
      "step": 219
    },
    {
      "epoch": 2.588235294117647,
      "grad_norm": 0.2515873476821987,
      "learning_rate": 1.0272809183454701e-05,
      "loss": 0.18722085654735565,
      "num_input_tokens_seen": 0,
      "step": 220
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.22755973648814593,
      "learning_rate": 1.0194875545149854e-05,
      "loss": 0.18111610412597656,
      "num_input_tokens_seen": 0,
      "step": 221
    },
    {
      "epoch": 2.611764705882353,
      "grad_norm": 0.23007823552128587,
      "learning_rate": 1.0116930064306736e-05,
      "loss": 0.19812649488449097,
      "num_input_tokens_seen": 0,
      "step": 222
    },
    {
      "epoch": 2.623529411764706,
      "grad_norm": 0.22528651243150996,
      "learning_rate": 1.0038977477652779e-05,
      "loss": 0.18580538034439087,
      "num_input_tokens_seen": 0,
      "step": 223
    },
    {
      "epoch": 2.635294117647059,
      "grad_norm": 0.23539863556511334,
      "learning_rate": 9.961022522347226e-06,
      "loss": 0.18501965701580048,
      "num_input_tokens_seen": 0,
      "step": 224
    },
    {
      "epoch": 2.6470588235294117,
      "grad_norm": 0.22782974012346754,
      "learning_rate": 9.883069935693267e-06,
      "loss": 0.18402716517448425,
      "num_input_tokens_seen": 0,
      "step": 225
    },
    {
      "epoch": 2.6588235294117646,
      "grad_norm": 0.24487953714591462,
      "learning_rate": 9.80512445485015e-06,
      "loss": 0.18938913941383362,
      "num_input_tokens_seen": 0,
      "step": 226
    },
    {
      "epoch": 2.6705882352941175,
      "grad_norm": 0.24462792166495934,
      "learning_rate": 9.7271908165453e-06,
      "loss": 0.19719335436820984,
      "num_input_tokens_seen": 0,
      "step": 227
    },
    {
      "epoch": 2.682352941176471,
      "grad_norm": 0.2366728459616901,
      "learning_rate": 9.649273756786486e-06,
      "loss": 0.185680091381073,
      "num_input_tokens_seen": 0,
      "step": 228
    },
    {
      "epoch": 2.6941176470588237,
      "grad_norm": 0.2303882056729561,
      "learning_rate": 9.57137801057399e-06,
      "loss": 0.19624218344688416,
      "num_input_tokens_seen": 0,
      "step": 229
    },
    {
      "epoch": 2.7058823529411766,
      "grad_norm": 0.22987803077687444,
      "learning_rate": 9.493508311612874e-06,
      "loss": 0.17861570417881012,
      "num_input_tokens_seen": 0,
      "step": 230
    },
    {
      "epoch": 2.7176470588235295,
      "grad_norm": 0.26388168681073687,
      "learning_rate": 9.415669392025329e-06,
      "loss": 0.18734458088874817,
      "num_input_tokens_seen": 0,
      "step": 231
    },
    {
      "epoch": 2.7294117647058824,
      "grad_norm": 0.22186631357859773,
      "learning_rate": 9.337865982063076e-06,
      "loss": 0.1946583092212677,
      "num_input_tokens_seen": 0,
      "step": 232
    },
    {
      "epoch": 2.7411764705882353,
      "grad_norm": 0.2311568846601055,
      "learning_rate": 9.260102809819939e-06,
      "loss": 0.18761436641216278,
      "num_input_tokens_seen": 0,
      "step": 233
    },
    {
      "epoch": 2.7529411764705882,
      "grad_norm": 0.22628859572679205,
      "learning_rate": 9.182384600944494e-06,
      "loss": 0.18877655267715454,
      "num_input_tokens_seen": 0,
      "step": 234
    },
    {
      "epoch": 2.764705882352941,
      "grad_norm": 0.24528368812451035,
      "learning_rate": 9.104716078352906e-06,
      "loss": 0.18831658363342285,
      "num_input_tokens_seen": 0,
      "step": 235
    },
    {
      "epoch": 2.776470588235294,
      "grad_norm": 0.22998847186224078,
      "learning_rate": 9.027101961941925e-06,
      "loss": 0.18712544441223145,
      "num_input_tokens_seen": 0,
      "step": 236
    },
    {
      "epoch": 2.788235294117647,
      "grad_norm": 0.22929072663885758,
      "learning_rate": 8.949546968302042e-06,
      "loss": 0.20112478733062744,
      "num_input_tokens_seen": 0,
      "step": 237
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.23007743920004314,
      "learning_rate": 8.872055810430881e-06,
      "loss": 0.18601751327514648,
      "num_input_tokens_seen": 0,
      "step": 238
    },
    {
      "epoch": 2.8117647058823527,
      "grad_norm": 0.23659776591024959,
      "learning_rate": 8.79463319744677e-06,
      "loss": 0.1808547079563141,
      "num_input_tokens_seen": 0,
      "step": 239
    },
    {
      "epoch": 2.8235294117647056,
      "grad_norm": 0.23509031587485976,
      "learning_rate": 8.717283834302593e-06,
      "loss": 0.18669113516807556,
      "num_input_tokens_seen": 0,
      "step": 240
    },
    {
      "epoch": 2.835294117647059,
      "grad_norm": 0.23472960086401704,
      "learning_rate": 8.640012421499856e-06,
      "loss": 0.19292673468589783,
      "num_input_tokens_seen": 0,
      "step": 241
    },
    {
      "epoch": 2.847058823529412,
      "grad_norm": 0.25429765516678327,
      "learning_rate": 8.562823654803035e-06,
      "loss": 0.18981140851974487,
      "num_input_tokens_seen": 0,
      "step": 242
    },
    {
      "epoch": 2.8588235294117648,
      "grad_norm": 0.23658961623110553,
      "learning_rate": 8.485722224954237e-06,
      "loss": 0.1999085545539856,
      "num_input_tokens_seen": 0,
      "step": 243
    },
    {
      "epoch": 2.8705882352941177,
      "grad_norm": 0.23199472766369356,
      "learning_rate": 8.408712817388113e-06,
      "loss": 0.1827118992805481,
      "num_input_tokens_seen": 0,
      "step": 244
    },
    {
      "epoch": 2.8823529411764706,
      "grad_norm": 0.25077191290374024,
      "learning_rate": 8.331800111947158e-06,
      "loss": 0.1857125163078308,
      "num_input_tokens_seen": 0,
      "step": 245
    },
    {
      "epoch": 2.8941176470588235,
      "grad_norm": 0.23140729045512615,
      "learning_rate": 8.254988782597295e-06,
      "loss": 0.18820548057556152,
      "num_input_tokens_seen": 0,
      "step": 246
    },
    {
      "epoch": 2.9058823529411764,
      "grad_norm": 0.22239003021686357,
      "learning_rate": 8.178283497143851e-06,
      "loss": 0.19076308608055115,
      "num_input_tokens_seen": 0,
      "step": 247
    },
    {
      "epoch": 2.9176470588235293,
      "grad_norm": 0.21803105840925516,
      "learning_rate": 8.10168891694789e-06,
      "loss": 0.18549099564552307,
      "num_input_tokens_seen": 0,
      "step": 248
    },
    {
      "epoch": 2.9294117647058826,
      "grad_norm": 0.23828217230216947,
      "learning_rate": 8.025209696642942e-06,
      "loss": 0.1965373158454895,
      "num_input_tokens_seen": 0,
      "step": 249
    },
    {
      "epoch": 2.9411764705882355,
      "grad_norm": 0.2390427784115555,
      "learning_rate": 7.948850483852153e-06,
      "loss": 0.18414372205734253,
      "num_input_tokens_seen": 0,
      "step": 250
    },
    {
      "epoch": 2.9529411764705884,
      "grad_norm": 0.24685443360941575,
      "learning_rate": 7.872615918905833e-06,
      "loss": 0.19256475567817688,
      "num_input_tokens_seen": 0,
      "step": 251
    },
    {
      "epoch": 2.9647058823529413,
      "grad_norm": 0.23889907605167213,
      "learning_rate": 7.796510634559487e-06,
      "loss": 0.19201350212097168,
      "num_input_tokens_seen": 0,
      "step": 252
    },
    {
      "epoch": 2.976470588235294,
      "grad_norm": 0.24349828471939475,
      "learning_rate": 7.720539255712252e-06,
      "loss": 0.18964079022407532,
      "num_input_tokens_seen": 0,
      "step": 253
    },
    {
      "epoch": 2.988235294117647,
      "grad_norm": 0.25208339650704936,
      "learning_rate": 7.644706399125871e-06,
      "loss": 0.19716620445251465,
      "num_input_tokens_seen": 0,
      "step": 254
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.22219530818543262,
      "learning_rate": 7.569016673144132e-06,
      "loss": 0.19001775979995728,
      "num_input_tokens_seen": 0,
      "step": 255
    }
  ],
  "logging_steps": 1,
  "max_steps": 425,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 5,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 267247958228992.0,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}