{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 5.0,
  "eval_steps": 400,
  "global_step": 26155,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.019116803670426306,
      "grad_norm": 6.148062705993652,
      "learning_rate": 4.981265532402982e-05,
      "loss": 1.0593,
      "step": 100
    },
    {
      "epoch": 0.03823360734085261,
      "grad_norm": 4.97545051574707,
      "learning_rate": 4.9625310648059644e-05,
      "loss": 0.9839,
      "step": 200
    },
    {
      "epoch": 0.05735041101127891,
      "grad_norm": 5.777927875518799,
      "learning_rate": 4.9434142611355384e-05,
      "loss": 0.9631,
      "step": 300
    },
    {
      "epoch": 0.07646721468170523,
      "grad_norm": 6.401044845581055,
      "learning_rate": 4.924297457465112e-05,
      "loss": 0.9816,
      "step": 400
    },
    {
      "epoch": 0.07646721468170523,
      "eval_loss": 0.8617107272148132,
      "eval_runtime": 92.0408,
      "eval_samples_per_second": 89.341,
      "eval_steps_per_second": 11.169,
      "step": 400
    },
    {
      "epoch": 0.09558401835213153,
      "grad_norm": 5.193621635437012,
      "learning_rate": 4.905180653794686e-05,
      "loss": 0.9312,
      "step": 500
    },
    {
      "epoch": 0.11470082202255782,
      "grad_norm": 5.454291343688965,
      "learning_rate": 4.88606385012426e-05,
      "loss": 0.9509,
      "step": 600
    },
    {
      "epoch": 0.13381762569298414,
      "grad_norm": 6.0297112464904785,
      "learning_rate": 4.866947046453833e-05,
      "loss": 0.9374,
      "step": 700
    },
    {
      "epoch": 0.15293442936341045,
      "grad_norm": 4.852521896362305,
      "learning_rate": 4.847830242783406e-05,
      "loss": 0.9135,
      "step": 800
    },
    {
      "epoch": 0.15293442936341045,
      "eval_loss": 0.8287038207054138,
      "eval_runtime": 92.0241,
      "eval_samples_per_second": 89.357,
      "eval_steps_per_second": 11.171,
      "step": 800
    },
    {
      "epoch": 0.17205123303383674,
      "grad_norm": 5.611992835998535,
      "learning_rate": 4.828713439112981e-05,
      "loss": 0.9056,
      "step": 900
    },
    {
      "epoch": 0.19116803670426305,
      "grad_norm": 4.3008832931518555,
      "learning_rate": 4.809596635442554e-05,
      "loss": 0.8996,
      "step": 1000
    },
    {
      "epoch": 0.21028484037468936,
      "grad_norm": 5.790643215179443,
      "learning_rate": 4.790670999808832e-05,
      "loss": 0.8965,
      "step": 1100
    },
    {
      "epoch": 0.22940164404511565,
      "grad_norm": 5.138456344604492,
      "learning_rate": 4.7715541961384055e-05,
      "loss": 0.9044,
      "step": 1200
    },
    {
      "epoch": 0.22940164404511565,
      "eval_loss": 0.8015913367271423,
      "eval_runtime": 92.1486,
      "eval_samples_per_second": 89.236,
      "eval_steps_per_second": 11.156,
      "step": 1200
    },
    {
      "epoch": 0.24851844771554196,
      "grad_norm": 5.13100004196167,
      "learning_rate": 4.7524373924679795e-05,
      "loss": 0.9073,
      "step": 1300
    },
    {
      "epoch": 0.2676352513859683,
      "grad_norm": 4.568897724151611,
      "learning_rate": 4.7333205887975535e-05,
      "loss": 0.8891,
      "step": 1400
    },
    {
      "epoch": 0.28675205505639456,
      "grad_norm": 4.8391337394714355,
      "learning_rate": 4.714203785127127e-05,
      "loss": 0.871,
      "step": 1500
    },
    {
      "epoch": 0.3058688587268209,
      "grad_norm": 4.416493892669678,
      "learning_rate": 4.695086981456701e-05,
      "loss": 0.8974,
      "step": 1600
    },
    {
      "epoch": 0.3058688587268209,
      "eval_loss": 0.8033304810523987,
      "eval_runtime": 91.9998,
      "eval_samples_per_second": 89.381,
      "eval_steps_per_second": 11.174,
      "step": 1600
    },
    {
      "epoch": 0.3249856623972472,
      "grad_norm": 4.519742012023926,
      "learning_rate": 4.675970177786274e-05,
      "loss": 0.8682,
      "step": 1700
    },
    {
      "epoch": 0.3441024660676735,
      "grad_norm": 4.968471527099609,
      "learning_rate": 4.657044542152552e-05,
      "loss": 0.9351,
      "step": 1800
    },
    {
      "epoch": 0.3632192697380998,
      "grad_norm": 5.676445960998535,
      "learning_rate": 4.637927738482126e-05,
      "loss": 0.8868,
      "step": 1900
    },
    {
      "epoch": 0.3823360734085261,
      "grad_norm": 4.578829288482666,
      "learning_rate": 4.6188109348117e-05,
      "loss": 0.8726,
      "step": 2000
    },
    {
      "epoch": 0.3823360734085261,
      "eval_loss": 0.7817397117614746,
      "eval_runtime": 92.2617,
      "eval_samples_per_second": 89.127,
      "eval_steps_per_second": 11.142,
      "step": 2000
    },
    {
      "epoch": 0.4014528770789524,
      "grad_norm": 5.0320892333984375,
      "learning_rate": 4.599694131141273e-05,
      "loss": 0.8714,
      "step": 2100
    },
    {
      "epoch": 0.4205696807493787,
      "grad_norm": 5.464868545532227,
      "learning_rate": 4.5805773274708466e-05,
      "loss": 0.8674,
      "step": 2200
    },
    {
      "epoch": 0.439686484419805,
      "grad_norm": 4.6338934898376465,
      "learning_rate": 4.561460523800421e-05,
      "loss": 0.851,
      "step": 2300
    },
    {
      "epoch": 0.4588032880902313,
      "grad_norm": 4.83494234085083,
      "learning_rate": 4.5423437201299945e-05,
      "loss": 0.8855,
      "step": 2400
    },
    {
      "epoch": 0.4588032880902313,
      "eval_loss": 0.7753578424453735,
      "eval_runtime": 92.0087,
      "eval_samples_per_second": 89.372,
      "eval_steps_per_second": 11.173,
      "step": 2400
    },
    {
      "epoch": 0.47792009176065764,
      "grad_norm": 4.239180564880371,
      "learning_rate": 4.523226916459568e-05,
      "loss": 0.8647,
      "step": 2500
    },
    {
      "epoch": 0.4970368954310839,
      "grad_norm": 5.430279731750488,
      "learning_rate": 4.504110112789142e-05,
      "loss": 0.8601,
      "step": 2600
    },
    {
      "epoch": 0.5161536991015102,
      "grad_norm": 4.269476890563965,
      "learning_rate": 4.484993309118716e-05,
      "loss": 0.8713,
      "step": 2700
    },
    {
      "epoch": 0.5352705027719366,
      "grad_norm": 5.328524589538574,
      "learning_rate": 4.465876505448289e-05,
      "loss": 0.8462,
      "step": 2800
    },
    {
      "epoch": 0.5352705027719366,
      "eval_loss": 0.763035237789154,
      "eval_runtime": 92.1674,
      "eval_samples_per_second": 89.218,
      "eval_steps_per_second": 11.154,
      "step": 2800
    },
    {
      "epoch": 0.5543873064423628,
      "grad_norm": 5.192692756652832,
      "learning_rate": 4.446759701777863e-05,
      "loss": 0.8335,
      "step": 2900
    },
    {
      "epoch": 0.5735041101127891,
      "grad_norm": 4.487423419952393,
      "learning_rate": 4.4276428981074365e-05,
      "loss": 0.8294,
      "step": 3000
    },
    {
      "epoch": 0.5926209137832155,
      "grad_norm": 4.573492527008057,
      "learning_rate": 4.4085260944370104e-05,
      "loss": 0.8579,
      "step": 3100
    },
    {
      "epoch": 0.6117377174536418,
      "grad_norm": 4.045724868774414,
      "learning_rate": 4.389409290766584e-05,
      "loss": 0.8206,
      "step": 3200
    },
    {
      "epoch": 0.6117377174536418,
      "eval_loss": 0.7534114122390747,
      "eval_runtime": 92.1289,
      "eval_samples_per_second": 89.255,
      "eval_steps_per_second": 11.158,
      "step": 3200
    },
    {
      "epoch": 0.630854521124068,
      "grad_norm": 4.9863386154174805,
      "learning_rate": 4.370292487096158e-05,
      "loss": 0.8268,
      "step": 3300
    },
    {
      "epoch": 0.6499713247944944,
      "grad_norm": 4.475931644439697,
      "learning_rate": 4.351175683425732e-05,
      "loss": 0.8326,
      "step": 3400
    },
    {
      "epoch": 0.6690881284649207,
      "grad_norm": 5.008608341217041,
      "learning_rate": 4.332058879755305e-05,
      "loss": 0.7823,
      "step": 3500
    },
    {
      "epoch": 0.688204932135347,
      "grad_norm": 6.179344177246094,
      "learning_rate": 4.312942076084879e-05,
      "loss": 0.8181,
      "step": 3600
    },
    {
      "epoch": 0.688204932135347,
      "eval_loss": 0.74337238073349,
      "eval_runtime": 92.0867,
      "eval_samples_per_second": 89.296,
      "eval_steps_per_second": 11.163,
      "step": 3600
    },
    {
      "epoch": 0.7073217358057733,
      "grad_norm": 6.242499351501465,
      "learning_rate": 4.2938252724144524e-05,
      "loss": 0.8082,
      "step": 3700
    },
    {
      "epoch": 0.7264385394761996,
      "grad_norm": 4.346529006958008,
      "learning_rate": 4.2747084687440263e-05,
      "loss": 0.8274,
      "step": 3800
    },
    {
      "epoch": 0.7455553431466259,
      "grad_norm": 3.4538333415985107,
      "learning_rate": 4.2555916650735997e-05,
      "loss": 0.812,
      "step": 3900
    },
    {
      "epoch": 0.7646721468170522,
      "grad_norm": 5.477049350738525,
      "learning_rate": 4.2364748614031736e-05,
      "loss": 0.8291,
      "step": 4000
    },
    {
      "epoch": 0.7646721468170522,
      "eval_loss": 0.8589261770248413,
      "eval_runtime": 91.9418,
      "eval_samples_per_second": 89.437,
      "eval_steps_per_second": 11.181,
      "step": 4000
    },
    {
      "epoch": 0.7837889504874785,
      "grad_norm": 6.062958717346191,
      "learning_rate": 4.217358057732747e-05,
      "loss": 0.8236,
      "step": 4100
    },
    {
      "epoch": 0.8029057541579048,
      "grad_norm": 4.950747489929199,
      "learning_rate": 4.198241254062321e-05,
      "loss": 0.8356,
      "step": 4200
    },
    {
      "epoch": 0.8220225578283311,
      "grad_norm": 4.48617696762085,
      "learning_rate": 4.179124450391895e-05,
      "loss": 0.778,
      "step": 4300
    },
    {
      "epoch": 0.8411393614987575,
      "grad_norm": 4.147668361663818,
      "learning_rate": 4.160007646721468e-05,
      "loss": 0.8314,
      "step": 4400
    },
    {
      "epoch": 0.8411393614987575,
      "eval_loss": 0.7325341105461121,
      "eval_runtime": 91.9404,
      "eval_samples_per_second": 89.438,
      "eval_steps_per_second": 11.181,
      "step": 4400
    },
    {
      "epoch": 0.8602561651691837,
      "grad_norm": 4.805129051208496,
      "learning_rate": 4.1408908430510416e-05,
      "loss": 0.841,
      "step": 4500
    },
    {
      "epoch": 0.87937296883961,
      "grad_norm": 4.559420108795166,
      "learning_rate": 4.121774039380616e-05,
      "loss": 0.805,
      "step": 4600
    },
    {
      "epoch": 0.8984897725100364,
      "grad_norm": 4.7745771408081055,
      "learning_rate": 4.1026572357101895e-05,
      "loss": 0.8243,
      "step": 4700
    },
    {
      "epoch": 0.9176065761804626,
      "grad_norm": 4.034806251525879,
      "learning_rate": 4.083540432039763e-05,
      "loss": 0.8016,
      "step": 4800
    },
    {
      "epoch": 0.9176065761804626,
      "eval_loss": 0.7278503775596619,
      "eval_runtime": 91.908,
      "eval_samples_per_second": 89.47,
      "eval_steps_per_second": 11.185,
      "step": 4800
    },
    {
      "epoch": 0.9367233798508889,
      "grad_norm": 4.074121952056885,
      "learning_rate": 4.064423628369337e-05,
      "loss": 0.8006,
      "step": 4900
    },
    {
      "epoch": 0.9558401835213153,
      "grad_norm": 4.704626560211182,
      "learning_rate": 4.045306824698911e-05,
      "loss": 0.8106,
      "step": 5000
    },
    {
      "epoch": 0.9749569871917415,
      "grad_norm": 4.858222961425781,
      "learning_rate": 4.026190021028484e-05,
      "loss": 0.8129,
      "step": 5100
    },
    {
      "epoch": 0.9940737908621678,
      "grad_norm": 3.913759469985962,
      "learning_rate": 4.0070732173580575e-05,
      "loss": 0.7769,
      "step": 5200
    },
    {
      "epoch": 0.9940737908621678,
      "eval_loss": 0.7124339938163757,
      "eval_runtime": 92.1458,
      "eval_samples_per_second": 89.239,
      "eval_steps_per_second": 11.156,
      "step": 5200
    },
    {
      "epoch": 1.013190594532594,
      "grad_norm": 4.4074015617370605,
      "learning_rate": 3.987956413687632e-05,
      "loss": 0.7881,
      "step": 5300
    },
    {
      "epoch": 1.0323073982030204,
      "grad_norm": 4.406864643096924,
      "learning_rate": 3.9688396100172054e-05,
      "loss": 0.783,
      "step": 5400
    },
    {
      "epoch": 1.0514242018734468,
      "grad_norm": 4.834721565246582,
      "learning_rate": 3.949722806346779e-05,
      "loss": 0.7832,
      "step": 5500
    },
    {
      "epoch": 1.070541005543873,
      "grad_norm": 4.5118889808654785,
      "learning_rate": 3.930606002676353e-05,
      "loss": 0.7652,
      "step": 5600
    },
    {
      "epoch": 1.070541005543873,
      "eval_loss": 0.7111669182777405,
      "eval_runtime": 91.8955,
      "eval_samples_per_second": 89.482,
      "eval_steps_per_second": 11.187,
      "step": 5600
    },
    {
      "epoch": 1.0896578092142994,
      "grad_norm": 4.746542930603027,
      "learning_rate": 3.911489199005927e-05,
      "loss": 0.773,
      "step": 5700
    },
    {
      "epoch": 1.1087746128847256,
      "grad_norm": 4.428741455078125,
      "learning_rate": 3.8923723953355e-05,
      "loss": 0.78,
      "step": 5800
    },
    {
      "epoch": 1.127891416555152,
      "grad_norm": 5.356833457946777,
      "learning_rate": 3.8732555916650734e-05,
      "loss": 0.7614,
      "step": 5900
    },
    {
      "epoch": 1.1470082202255782,
      "grad_norm": 5.255131244659424,
      "learning_rate": 3.8541387879946474e-05,
      "loss": 0.7753,
      "step": 6000
    },
    {
      "epoch": 1.1470082202255782,
      "eval_loss": 0.7003123164176941,
      "eval_runtime": 91.7533,
      "eval_samples_per_second": 89.621,
      "eval_steps_per_second": 11.204,
      "step": 6000
    },
    {
      "epoch": 1.1661250238960046,
      "grad_norm": 4.378373622894287,
      "learning_rate": 3.8350219843242213e-05,
      "loss": 0.7813,
      "step": 6100
    },
    {
      "epoch": 1.185241827566431,
      "grad_norm": 5.40322208404541,
      "learning_rate": 3.8159051806537947e-05,
      "loss": 0.7519,
      "step": 6200
    },
    {
      "epoch": 1.2043586312368573,
      "grad_norm": 4.921120643615723,
      "learning_rate": 3.7967883769833686e-05,
      "loss": 0.7649,
      "step": 6300
    },
    {
      "epoch": 1.2234754349072836,
      "grad_norm": 4.296281814575195,
      "learning_rate": 3.7778627413496465e-05,
      "loss": 0.7948,
      "step": 6400
    },
    {
      "epoch": 1.2234754349072836,
      "eval_loss": 0.707783579826355,
      "eval_runtime": 91.9021,
      "eval_samples_per_second": 89.476,
      "eval_steps_per_second": 11.186,
      "step": 6400
    },
    {
      "epoch": 1.2425922385777097,
      "grad_norm": 3.6409478187561035,
      "learning_rate": 3.75874593767922e-05,
      "loss": 0.7547,
      "step": 6500
    },
    {
      "epoch": 1.261709042248136,
      "grad_norm": 4.5969672203063965,
      "learning_rate": 3.739629134008794e-05,
      "loss": 0.7419,
      "step": 6600
    },
    {
      "epoch": 1.2808258459185624,
      "grad_norm": 6.831844806671143,
      "learning_rate": 3.720703498375072e-05,
      "loss": 0.7909,
      "step": 6700
    },
    {
      "epoch": 1.2999426495889888,
      "grad_norm": 4.02253532409668,
      "learning_rate": 3.701586694704646e-05,
      "loss": 0.7693,
      "step": 6800
    },
    {
      "epoch": 1.2999426495889888,
      "eval_loss": 0.6886795163154602,
      "eval_runtime": 91.6808,
      "eval_samples_per_second": 89.692,
      "eval_steps_per_second": 11.213,
      "step": 6800
    },
    {
      "epoch": 1.319059453259415,
      "grad_norm": 5.338057994842529,
      "learning_rate": 3.682469891034219e-05,
      "loss": 0.7468,
      "step": 6900
    },
    {
      "epoch": 1.3381762569298412,
      "grad_norm": 4.327272415161133,
      "learning_rate": 3.663353087363793e-05,
      "loss": 0.7493,
      "step": 7000
    },
    {
      "epoch": 1.3572930606002676,
      "grad_norm": 5.279138088226318,
      "learning_rate": 3.644236283693367e-05,
      "loss": 0.7527,
      "step": 7100
    },
    {
      "epoch": 1.376409864270694,
      "grad_norm": 5.587660789489746,
      "learning_rate": 3.62511948002294e-05,
      "loss": 0.7456,
      "step": 7200
    },
    {
      "epoch": 1.376409864270694,
      "eval_loss": 0.6874927282333374,
      "eval_runtime": 91.6806,
      "eval_samples_per_second": 89.692,
      "eval_steps_per_second": 11.213,
      "step": 7200
    },
    {
      "epoch": 1.3955266679411202,
      "grad_norm": 3.81733775138855,
      "learning_rate": 3.606002676352514e-05,
      "loss": 0.7551,
      "step": 7300
    },
    {
      "epoch": 1.4146434716115466,
      "grad_norm": 4.612213611602783,
      "learning_rate": 3.5868858726820876e-05,
      "loss": 0.7616,
      "step": 7400
    },
    {
      "epoch": 1.433760275281973,
      "grad_norm": 5.318126678466797,
      "learning_rate": 3.5677690690116616e-05,
      "loss": 0.7507,
      "step": 7500
    },
    {
      "epoch": 1.4528770789523993,
      "grad_norm": 5.163857936859131,
      "learning_rate": 3.548652265341235e-05,
      "loss": 0.7435,
      "step": 7600
    },
    {
      "epoch": 1.4528770789523993,
      "eval_loss": 0.6907040476799011,
      "eval_runtime": 91.8652,
      "eval_samples_per_second": 89.512,
      "eval_steps_per_second": 11.19,
      "step": 7600
    },
    {
      "epoch": 1.4719938826228254,
      "grad_norm": 4.82822322845459,
      "learning_rate": 3.529535461670809e-05,
      "loss": 0.7539,
      "step": 7700
    },
    {
      "epoch": 1.4911106862932517,
      "grad_norm": 3.967336416244507,
      "learning_rate": 3.510609826037087e-05,
      "loss": 0.7339,
      "step": 7800
    },
    {
      "epoch": 1.510227489963678,
      "grad_norm": 4.51738166809082,
      "learning_rate": 3.49149302236666e-05,
      "loss": 0.7473,
      "step": 7900
    },
    {
      "epoch": 1.5293442936341044,
      "grad_norm": 5.371578693389893,
      "learning_rate": 3.472376218696235e-05,
      "loss": 0.759,
      "step": 8000
    },
    {
      "epoch": 1.5293442936341044,
      "eval_loss": 0.6801463961601257,
      "eval_runtime": 91.9431,
      "eval_samples_per_second": 89.436,
      "eval_steps_per_second": 11.181,
      "step": 8000
    },
    {
      "epoch": 1.5484610973045307,
      "grad_norm": 5.212741851806641,
      "learning_rate": 3.453259415025808e-05,
      "loss": 0.746,
      "step": 8100
    },
    {
      "epoch": 1.5675779009749569,
      "grad_norm": 3.754594564437866,
      "learning_rate": 3.4341426113553814e-05,
      "loss": 0.779,
      "step": 8200
    },
    {
      "epoch": 1.5866947046453834,
      "grad_norm": 4.9265289306640625,
      "learning_rate": 3.4150258076849553e-05,
      "loss": 0.7602,
      "step": 8300
    },
    {
      "epoch": 1.6058115083158095,
      "grad_norm": 4.226690769195557,
      "learning_rate": 3.395909004014529e-05,
      "loss": 0.7413,
      "step": 8400
    },
    {
      "epoch": 1.6058115083158095,
      "eval_loss": 0.6831762194633484,
      "eval_runtime": 92.496,
      "eval_samples_per_second": 88.901,
      "eval_steps_per_second": 11.114,
      "step": 8400
    },
    {
      "epoch": 1.6249283119862359,
      "grad_norm": 4.135231018066406,
      "learning_rate": 3.3767922003441027e-05,
      "loss": 0.748,
      "step": 8500
    },
    {
      "epoch": 1.6440451156566622,
      "grad_norm": 4.373616695404053,
      "learning_rate": 3.357675396673676e-05,
      "loss": 0.7212,
      "step": 8600
    },
    {
      "epoch": 1.6631619193270883,
      "grad_norm": 3.8442435264587402,
      "learning_rate": 3.33855859300325e-05,
      "loss": 0.731,
      "step": 8700
    },
    {
      "epoch": 1.682278722997515,
      "grad_norm": 5.096011638641357,
      "learning_rate": 3.319441789332824e-05,
      "loss": 0.742,
      "step": 8800
    },
    {
      "epoch": 1.682278722997515,
      "eval_loss": 0.6838387250900269,
      "eval_runtime": 92.5093,
      "eval_samples_per_second": 88.888,
      "eval_steps_per_second": 11.112,
      "step": 8800
    },
    {
      "epoch": 1.701395526667941,
      "grad_norm": 3.780578851699829,
      "learning_rate": 3.300324985662397e-05,
      "loss": 0.742,
      "step": 8900
    },
    {
      "epoch": 1.7205123303383676,
      "grad_norm": 4.875925064086914,
      "learning_rate": 3.281208181991971e-05,
      "loss": 0.7479,
      "step": 9000
    },
    {
      "epoch": 1.7396291340087937,
      "grad_norm": 3.7036213874816895,
      "learning_rate": 3.2620913783215446e-05,
      "loss": 0.7228,
      "step": 9100
    },
    {
      "epoch": 1.75874593767922,
      "grad_norm": 5.547360897064209,
      "learning_rate": 3.2429745746511185e-05,
      "loss": 0.7363,
      "step": 9200
    },
    {
      "epoch": 1.75874593767922,
      "eval_loss": 0.6730713844299316,
      "eval_runtime": 92.4366,
      "eval_samples_per_second": 88.958,
      "eval_steps_per_second": 11.121,
      "step": 9200
    },
    {
      "epoch": 1.7778627413496464,
      "grad_norm": 3.721874475479126,
      "learning_rate": 3.223857770980692e-05,
      "loss": 0.73,
      "step": 9300
    },
    {
      "epoch": 1.7969795450200725,
      "grad_norm": 4.086114406585693,
      "learning_rate": 3.204740967310266e-05,
      "loss": 0.7188,
      "step": 9400
    },
    {
      "epoch": 1.816096348690499,
      "grad_norm": 5.272156238555908,
      "learning_rate": 3.18562416363984e-05,
      "loss": 0.7556,
      "step": 9500
    },
    {
      "epoch": 1.8352131523609252,
      "grad_norm": 4.227740287780762,
      "learning_rate": 3.166507359969413e-05,
      "loss": 0.7355,
      "step": 9600
    },
    {
      "epoch": 1.8352131523609252,
      "eval_loss": 0.6690217852592468,
      "eval_runtime": 92.4428,
      "eval_samples_per_second": 88.952,
      "eval_steps_per_second": 11.12,
      "step": 9600
    },
    {
      "epoch": 1.8543299560313515,
      "grad_norm": 4.812748432159424,
      "learning_rate": 3.147390556298987e-05,
      "loss": 0.7534,
      "step": 9700
    },
    {
      "epoch": 1.8734467597017779,
      "grad_norm": 4.234578609466553,
      "learning_rate": 3.1282737526285605e-05,
      "loss": 0.7143,
      "step": 9800
    },
    {
      "epoch": 1.8925635633722042,
      "grad_norm": 4.305205345153809,
      "learning_rate": 3.1091569489581344e-05,
      "loss": 0.7151,
      "step": 9900
    },
    {
      "epoch": 1.9116803670426306,
      "grad_norm": 4.651333332061768,
      "learning_rate": 3.090231313324412e-05,
      "loss": 0.7097,
      "step": 10000
    },
    {
      "epoch": 1.9116803670426306,
      "eval_loss": 0.664512038230896,
      "eval_runtime": 92.6703,
      "eval_samples_per_second": 88.734,
      "eval_steps_per_second": 11.093,
      "step": 10000
    },
    {
      "epoch": 1.9307971707130567,
      "grad_norm": 4.365225791931152,
      "learning_rate": 3.071114509653986e-05,
      "loss": 0.7095,
      "step": 10100
    },
    {
      "epoch": 1.9499139743834832,
      "grad_norm": 4.273274898529053,
      "learning_rate": 3.0519977059835596e-05,
      "loss": 0.7283,
      "step": 10200
    },
    {
      "epoch": 1.9690307780539094,
      "grad_norm": 4.034031391143799,
      "learning_rate": 3.033072070349838e-05,
      "loss": 0.7083,
      "step": 10300
    },
    {
      "epoch": 1.9881475817243357,
      "grad_norm": 4.648432731628418,
      "learning_rate": 3.013955266679411e-05,
      "loss": 0.7019,
      "step": 10400
    },
    {
      "epoch": 1.9881475817243357,
      "eval_loss": 0.658172607421875,
      "eval_runtime": 92.5836,
      "eval_samples_per_second": 88.817,
      "eval_steps_per_second": 11.103,
      "step": 10400
    },
    {
      "epoch": 2.007264385394762,
      "grad_norm": 3.510467290878296,
      "learning_rate": 2.9948384630089848e-05,
      "loss": 0.7183,
      "step": 10500
    },
    {
      "epoch": 2.026381189065188,
      "grad_norm": 4.297295570373535,
      "learning_rate": 2.9757216593385588e-05,
      "loss": 0.701,
      "step": 10600
    },
    {
      "epoch": 2.0454979927356147,
      "grad_norm": 5.070156097412109,
      "learning_rate": 2.9566048556681324e-05,
      "loss": 0.7029,
      "step": 10700
    },
    {
      "epoch": 2.064614796406041,
      "grad_norm": 5.115049362182617,
      "learning_rate": 2.937488051997706e-05,
      "loss": 0.7023,
      "step": 10800
    },
    {
      "epoch": 2.064614796406041,
      "eval_loss": 0.6589385867118835,
      "eval_runtime": 92.7551,
      "eval_samples_per_second": 88.653,
      "eval_steps_per_second": 11.083,
      "step": 10800
    },
    {
      "epoch": 2.0837316000764674,
      "grad_norm": 4.264118194580078,
      "learning_rate": 2.9183712483272797e-05,
      "loss": 0.701,
      "step": 10900
    },
    {
      "epoch": 2.1028484037468935,
      "grad_norm": 4.804683208465576,
      "learning_rate": 2.8992544446568537e-05,
      "loss": 0.6865,
      "step": 11000
    },
    {
      "epoch": 2.1219652074173196,
      "grad_norm": 3.3149337768554688,
      "learning_rate": 2.8801376409864274e-05,
      "loss": 0.7121,
      "step": 11100
    },
    {
      "epoch": 2.141082011087746,
      "grad_norm": 4.628523349761963,
      "learning_rate": 2.8610208373160007e-05,
      "loss": 0.7095,
      "step": 11200
    },
    {
      "epoch": 2.141082011087746,
      "eval_loss": 0.6505147218704224,
      "eval_runtime": 92.4458,
      "eval_samples_per_second": 88.949,
      "eval_steps_per_second": 11.12,
      "step": 11200
    },
    {
      "epoch": 2.1601988147581723,
      "grad_norm": 4.2497453689575195,
      "learning_rate": 2.8419040336455743e-05,
      "loss": 0.7078,
      "step": 11300
    },
    {
      "epoch": 2.179315618428599,
      "grad_norm": 4.486359119415283,
      "learning_rate": 2.8227872299751483e-05,
      "loss": 0.7164,
      "step": 11400
    },
    {
      "epoch": 2.198432422099025,
      "grad_norm": 4.553341388702393,
      "learning_rate": 2.803670426304722e-05,
      "loss": 0.6857,
      "step": 11500
    },
    {
      "epoch": 2.217549225769451,
      "grad_norm": 4.612332344055176,
      "learning_rate": 2.7845536226342956e-05,
      "loss": 0.7088,
      "step": 11600
    },
    {
      "epoch": 2.217549225769451,
      "eval_loss": 0.6430885195732117,
      "eval_runtime": 92.4895,
      "eval_samples_per_second": 88.907,
      "eval_steps_per_second": 11.115,
      "step": 11600
    },
    {
      "epoch": 2.2366660294398777,
      "grad_norm": 4.992730617523193,
      "learning_rate": 2.7654368189638696e-05,
      "loss": 0.6807,
      "step": 11700
    },
    {
      "epoch": 2.255782833110304,
      "grad_norm": 4.852089881896973,
      "learning_rate": 2.7463200152934433e-05,
      "loss": 0.6944,
      "step": 11800
    },
    {
      "epoch": 2.2748996367807304,
      "grad_norm": 4.18324089050293,
      "learning_rate": 2.7272032116230166e-05,
      "loss": 0.704,
      "step": 11900
    },
    {
      "epoch": 2.2940164404511565,
      "grad_norm": 4.048402786254883,
      "learning_rate": 2.7080864079525902e-05,
      "loss": 0.7127,
      "step": 12000
    },
    {
      "epoch": 2.2940164404511565,
      "eval_loss": 0.6457203030586243,
      "eval_runtime": 92.3316,
      "eval_samples_per_second": 89.059,
      "eval_steps_per_second": 11.134,
      "step": 12000
    },
    {
      "epoch": 2.313133244121583,
      "grad_norm": 4.407283306121826,
      "learning_rate": 2.6889696042821642e-05,
      "loss": 0.7022,
      "step": 12100
    },
    {
      "epoch": 2.332250047792009,
      "grad_norm": 3.9950592517852783,
      "learning_rate": 2.669852800611738e-05,
      "loss": 0.7034,
      "step": 12200
    },
    {
      "epoch": 2.3513668514624353,
      "grad_norm": 4.345687389373779,
      "learning_rate": 2.6507359969413115e-05,
      "loss": 0.6908,
      "step": 12300
    },
    {
      "epoch": 2.370483655132862,
      "grad_norm": 4.338857173919678,
      "learning_rate": 2.631619193270885e-05,
      "loss": 0.6754,
      "step": 12400
    },
    {
      "epoch": 2.370483655132862,
      "eval_loss": 0.6425340175628662,
      "eval_runtime": 92.4505,
      "eval_samples_per_second": 88.945,
      "eval_steps_per_second": 11.119,
      "step": 12400
    },
    {
      "epoch": 2.389600458803288,
      "grad_norm": 4.529644012451172,
      "learning_rate": 2.6125023896004592e-05,
      "loss": 0.6968,
      "step": 12500
    },
    {
      "epoch": 2.4087172624737145,
      "grad_norm": 4.309901714324951,
      "learning_rate": 2.593385585930033e-05,
      "loss": 0.7247,
      "step": 12600
    },
    {
      "epoch": 2.4278340661441407,
      "grad_norm": 4.750647068023682,
      "learning_rate": 2.574268782259606e-05,
      "loss": 0.6855,
      "step": 12700
    },
    {
      "epoch": 2.446950869814567,
      "grad_norm": 3.7934632301330566,
      "learning_rate": 2.5551519785891798e-05,
      "loss": 0.6865,
      "step": 12800
    },
    {
      "epoch": 2.446950869814567,
      "eval_loss": 0.6368651390075684,
      "eval_runtime": 92.2827,
      "eval_samples_per_second": 89.107,
      "eval_steps_per_second": 11.14,
      "step": 12800
    },
    {
      "epoch": 2.4660676734849933,
      "grad_norm": 4.074941158294678,
      "learning_rate": 2.5360351749187538e-05,
      "loss": 0.694,
      "step": 12900
    },
    {
      "epoch": 2.4851844771554195,
      "grad_norm": 4.529365539550781,
      "learning_rate": 2.5169183712483274e-05,
      "loss": 0.69,
      "step": 13000
    },
    {
      "epoch": 2.504301280825846,
      "grad_norm": 4.395044803619385,
      "learning_rate": 2.4979927356146053e-05,
      "loss": 0.6887,
      "step": 13100
    },
    {
      "epoch": 2.523418084496272,
      "grad_norm": 8.110248565673828,
      "learning_rate": 2.478875931944179e-05,
      "loss": 0.7046,
      "step": 13200
    },
    {
      "epoch": 2.523418084496272,
      "eval_loss": 0.6256079077720642,
      "eval_runtime": 92.0493,
      "eval_samples_per_second": 89.333,
      "eval_steps_per_second": 11.168,
      "step": 13200
    },
    {
      "epoch": 2.5425348881666983,
      "grad_norm": 3.641064167022705,
      "learning_rate": 2.459759128273753e-05,
      "loss": 0.6763,
      "step": 13300
    },
    {
      "epoch": 2.561651691837125,
      "grad_norm": 3.8722896575927734,
      "learning_rate": 2.4406423246033263e-05,
      "loss": 0.6963,
      "step": 13400
    },
    {
      "epoch": 2.5807684955075514,
      "grad_norm": 4.976208686828613,
      "learning_rate": 2.4215255209329003e-05,
      "loss": 0.675,
      "step": 13500
    },
    {
      "epoch": 2.5998852991779775,
      "grad_norm": 4.116947650909424,
      "learning_rate": 2.402408717262474e-05,
      "loss": 0.6729,
      "step": 13600
    },
    {
      "epoch": 2.5998852991779775,
      "eval_loss": 0.6305546164512634,
      "eval_runtime": 92.2226,
      "eval_samples_per_second": 89.165,
      "eval_steps_per_second": 11.147,
      "step": 13600
    },
    {
      "epoch": 2.6190021028484036,
      "grad_norm": 4.226246356964111,
      "learning_rate": 2.3832919135920476e-05,
      "loss": 0.7178,
      "step": 13700
    },
    {
      "epoch": 2.63811890651883,
      "grad_norm": 3.8298568725585938,
      "learning_rate": 2.3641751099216212e-05,
      "loss": 0.6867,
      "step": 13800
    },
    {
      "epoch": 2.6572357101892563,
      "grad_norm": 4.829805374145508,
      "learning_rate": 2.345058306251195e-05,
      "loss": 0.6816,
      "step": 13900
    },
    {
      "epoch": 2.6763525138596824,
      "grad_norm": 4.9147210121154785,
      "learning_rate": 2.3259415025807685e-05,
      "loss": 0.6628,
      "step": 14000
    },
    {
      "epoch": 2.6763525138596824,
      "eval_loss": 0.6306756138801575,
      "eval_runtime": 92.2614,
      "eval_samples_per_second": 89.127,
      "eval_steps_per_second": 11.142,
      "step": 14000
    },
    {
      "epoch": 2.695469317530109,
      "grad_norm": 4.762243270874023,
      "learning_rate": 2.306824698910342e-05,
      "loss": 0.7046,
      "step": 14100
    },
    {
      "epoch": 2.714586121200535,
      "grad_norm": 3.3113512992858887,
      "learning_rate": 2.287707895239916e-05,
      "loss": 0.6755,
      "step": 14200
    },
    {
      "epoch": 2.7337029248709617,
      "grad_norm": 4.240131855010986,
      "learning_rate": 2.2685910915694898e-05,
      "loss": 0.6827,
      "step": 14300
    },
    {
      "epoch": 2.752819728541388,
      "grad_norm": 3.4899845123291016,
      "learning_rate": 2.2494742878990635e-05,
      "loss": 0.6789,
      "step": 14400
    },
    {
      "epoch": 2.752819728541388,
      "eval_loss": 0.6250412464141846,
      "eval_runtime": 92.2599,
      "eval_samples_per_second": 89.129,
      "eval_steps_per_second": 11.142,
      "step": 14400
    },
    {
      "epoch": 2.7719365322118144,
      "grad_norm": 3.6331779956817627,
      "learning_rate": 2.230357484228637e-05,
      "loss": 0.6732,
      "step": 14500
    },
    {
      "epoch": 2.7910533358822405,
      "grad_norm": 5.3023247718811035,
      "learning_rate": 2.2112406805582108e-05,
      "loss": 0.6705,
      "step": 14600
    },
    {
      "epoch": 2.8101701395526666,
      "grad_norm": 4.467443943023682,
      "learning_rate": 2.1921238768877844e-05,
      "loss": 0.6857,
      "step": 14700
    },
    {
      "epoch": 2.829286943223093,
      "grad_norm": 3.4010238647460938,
      "learning_rate": 2.1730070732173584e-05,
      "loss": 0.6876,
      "step": 14800
    },
    {
      "epoch": 2.829286943223093,
      "eval_loss": 0.6198094487190247,
      "eval_runtime": 92.347,
      "eval_samples_per_second": 89.045,
      "eval_steps_per_second": 11.132,
      "step": 14800
    },
    {
      "epoch": 2.8484037468935193,
      "grad_norm": 4.248734951019287,
      "learning_rate": 2.1538902695469317e-05,
      "loss": 0.674,
      "step": 14900
    },
    {
      "epoch": 2.867520550563946,
      "grad_norm": 4.063199520111084,
      "learning_rate": 2.1347734658765057e-05,
      "loss": 0.666,
      "step": 15000
    },
    {
      "epoch": 2.886637354234372,
      "grad_norm": 4.015697002410889,
      "learning_rate": 2.115656662206079e-05,
      "loss": 0.6953,
      "step": 15100
    },
    {
      "epoch": 2.9057541579047985,
      "grad_norm": 3.798788070678711,
      "learning_rate": 2.096539858535653e-05,
      "loss": 0.65,
      "step": 15200
    },
    {
      "epoch": 2.9057541579047985,
      "eval_loss": 0.6209089756011963,
      "eval_runtime": 92.3611,
      "eval_samples_per_second": 89.031,
      "eval_steps_per_second": 11.13,
      "step": 15200
    },
    {
      "epoch": 2.9248709615752246,
      "grad_norm": 5.368408679962158,
      "learning_rate": 2.0774230548652267e-05,
      "loss": 0.6766,
      "step": 15300
    },
    {
      "epoch": 2.9439877652456508,
      "grad_norm": 3.803342580795288,
      "learning_rate": 2.0583062511948003e-05,
      "loss": 0.6659,
      "step": 15400
    },
    {
      "epoch": 2.9631045689160773,
      "grad_norm": 4.15940523147583,
      "learning_rate": 2.039189447524374e-05,
      "loss": 0.6636,
      "step": 15500
    },
    {
      "epoch": 2.9822213725865034,
      "grad_norm": 4.552635192871094,
      "learning_rate": 2.0200726438539476e-05,
      "loss": 0.6731,
      "step": 15600
    },
    {
      "epoch": 2.9822213725865034,
      "eval_loss": 0.6129796504974365,
      "eval_runtime": 92.2051,
      "eval_samples_per_second": 89.182,
      "eval_steps_per_second": 11.149,
      "step": 15600
    },
    {
      "epoch": 3.00133817625693,
      "grad_norm": 4.447234153747559,
      "learning_rate": 2.0009558401835213e-05,
      "loss": 0.6696,
      "step": 15700
    },
    {
      "epoch": 3.020454979927356,
      "grad_norm": 4.5681376457214355,
      "learning_rate": 1.9820302045497995e-05,
      "loss": 0.6701,
      "step": 15800
    },
    {
      "epoch": 3.0395717835977822,
      "grad_norm": 4.63778018951416,
      "learning_rate": 1.962913400879373e-05,
      "loss": 0.6498,
      "step": 15900
    },
    {
      "epoch": 3.058688587268209,
      "grad_norm": 3.8129169940948486,
      "learning_rate": 1.9437965972089468e-05,
      "loss": 0.6514,
      "step": 16000
    },
    {
      "epoch": 3.058688587268209,
      "eval_loss": 0.6256683468818665,
      "eval_runtime": 92.6353,
      "eval_samples_per_second": 88.767,
      "eval_steps_per_second": 11.097,
      "step": 16000
    },
    {
      "epoch": 3.077805390938635,
      "grad_norm": 4.221614837646484,
      "learning_rate": 1.9246797935385204e-05,
      "loss": 0.6745,
      "step": 16100
    },
    {
      "epoch": 3.0969221946090615,
      "grad_norm": 4.324675559997559,
      "learning_rate": 1.905562989868094e-05,
      "loss": 0.6516,
      "step": 16200
    },
    {
      "epoch": 3.1160389982794876,
      "grad_norm": 4.2093939781188965,
      "learning_rate": 1.8864461861976677e-05,
      "loss": 0.6574,
      "step": 16300
    },
    {
      "epoch": 3.135155801949914,
      "grad_norm": 4.944237232208252,
      "learning_rate": 1.8673293825272414e-05,
      "loss": 0.6602,
      "step": 16400
    },
    {
      "epoch": 3.135155801949914,
      "eval_loss": 0.6231346726417542,
      "eval_runtime": 92.6789,
      "eval_samples_per_second": 88.726,
      "eval_steps_per_second": 11.092,
      "step": 16400
    },
    {
      "epoch": 3.1542726056203403,
      "grad_norm": 4.590976238250732,
      "learning_rate": 1.8482125788568154e-05,
      "loss": 0.6662,
      "step": 16500
    },
    {
      "epoch": 3.1733894092907664,
      "grad_norm": 4.595473289489746,
      "learning_rate": 1.8290957751863887e-05,
      "loss": 0.6294,
      "step": 16600
    },
    {
      "epoch": 3.192506212961193,
      "grad_norm": 3.4412662982940674,
      "learning_rate": 1.8099789715159627e-05,
      "loss": 0.6558,
      "step": 16700
    },
    {
      "epoch": 3.211623016631619,
      "grad_norm": 4.820471286773682,
      "learning_rate": 1.7908621678455363e-05,
      "loss": 0.6749,
      "step": 16800
    },
    {
      "epoch": 3.211623016631619,
      "eval_loss": 0.6116614937782288,
      "eval_runtime": 92.7709,
      "eval_samples_per_second": 88.638,
      "eval_steps_per_second": 11.081,
      "step": 16800
    },
    {
      "epoch": 3.2307398203020457,
      "grad_norm": 5.879933834075928,
      "learning_rate": 1.77174536417511e-05,
      "loss": 0.6435,
      "step": 16900
    },
    {
      "epoch": 3.2498566239724718,
      "grad_norm": 4.462230205535889,
      "learning_rate": 1.752628560504684e-05,
      "loss": 0.6691,
      "step": 17000
    },
    {
      "epoch": 3.268973427642898,
      "grad_norm": 3.9079251289367676,
      "learning_rate": 1.7335117568342573e-05,
      "loss": 0.6684,
      "step": 17100
    },
    {
      "epoch": 3.2880902313133245,
      "grad_norm": 3.6853411197662354,
      "learning_rate": 1.7143949531638313e-05,
      "loss": 0.6429,
      "step": 17200
    },
    {
      "epoch": 3.2880902313133245,
      "eval_loss": 0.6121929883956909,
      "eval_runtime": 92.7326,
      "eval_samples_per_second": 88.674,
      "eval_steps_per_second": 11.086,
      "step": 17200
    },
    {
      "epoch": 3.3072070349837506,
      "grad_norm": 4.5890631675720215,
      "learning_rate": 1.6952781494934046e-05,
      "loss": 0.6608,
      "step": 17300
    },
    {
      "epoch": 3.326323838654177,
      "grad_norm": 3.9099321365356445,
      "learning_rate": 1.6761613458229786e-05,
      "loss": 0.6515,
      "step": 17400
    },
    {
      "epoch": 3.3454406423246033,
      "grad_norm": 8.615681648254395,
      "learning_rate": 1.6570445421525522e-05,
      "loss": 0.6516,
      "step": 17500
    },
    {
      "epoch": 3.36455744599503,
      "grad_norm": 3.810173988342285,
      "learning_rate": 1.637927738482126e-05,
      "loss": 0.6488,
      "step": 17600
    },
    {
      "epoch": 3.36455744599503,
      "eval_loss": 0.6148595809936523,
      "eval_runtime": 92.7216,
      "eval_samples_per_second": 88.685,
      "eval_steps_per_second": 11.087,
      "step": 17600
    },
    {
      "epoch": 3.383674249665456,
      "grad_norm": 4.097940444946289,
      "learning_rate": 1.6188109348116995e-05,
      "loss": 0.6441,
      "step": 17700
    },
    {
      "epoch": 3.402791053335882,
      "grad_norm": 4.74275016784668,
      "learning_rate": 1.5996941311412732e-05,
      "loss": 0.6444,
      "step": 17800
    },
    {
      "epoch": 3.4219078570063086,
      "grad_norm": 4.2954888343811035,
      "learning_rate": 1.5805773274708468e-05,
      "loss": 0.6474,
      "step": 17900
    },
    {
      "epoch": 3.4410246606767347,
      "grad_norm": 4.689930438995361,
      "learning_rate": 1.5614605238004208e-05,
      "loss": 0.6341,
      "step": 18000
    },
    {
      "epoch": 3.4410246606767347,
      "eval_loss": 0.6162819862365723,
      "eval_runtime": 92.7406,
      "eval_samples_per_second": 88.667,
      "eval_steps_per_second": 11.085,
      "step": 18000
    },
    {
      "epoch": 3.4601414643471613,
      "grad_norm": 4.592708110809326,
      "learning_rate": 1.542343720129994e-05,
      "loss": 0.6344,
      "step": 18100
    },
    {
      "epoch": 3.4792582680175874,
      "grad_norm": 3.388826608657837,
      "learning_rate": 1.5232269164595681e-05,
      "loss": 0.6476,
      "step": 18200
    },
    {
      "epoch": 3.498375071688014,
      "grad_norm": 3.1417880058288574,
      "learning_rate": 1.5041101127891416e-05,
      "loss": 0.63,
      "step": 18300
    },
    {
      "epoch": 3.51749187535844,
      "grad_norm": 3.839583158493042,
      "learning_rate": 1.4849933091187154e-05,
      "loss": 0.6502,
      "step": 18400
    },
    {
      "epoch": 3.51749187535844,
      "eval_loss": 0.6018521189689636,
      "eval_runtime": 92.7633,
      "eval_samples_per_second": 88.645,
      "eval_steps_per_second": 11.082,
      "step": 18400
    },
    {
      "epoch": 3.536608679028866,
      "grad_norm": 4.443102836608887,
      "learning_rate": 1.4658765054482892e-05,
      "loss": 0.615,
      "step": 18500
    },
    {
      "epoch": 3.555725482699293,
      "grad_norm": 3.7104012966156006,
      "learning_rate": 1.4467597017778627e-05,
      "loss": 0.6362,
      "step": 18600
    },
    {
      "epoch": 3.574842286369719,
      "grad_norm": 3.7938549518585205,
      "learning_rate": 1.4276428981074365e-05,
      "loss": 0.6351,
      "step": 18700
    },
    {
      "epoch": 3.593959090040145,
      "grad_norm": 3.9377052783966064,
      "learning_rate": 1.4085260944370102e-05,
      "loss": 0.6388,
      "step": 18800
    },
    {
      "epoch": 3.593959090040145,
      "eval_loss": 0.604111909866333,
      "eval_runtime": 92.8027,
      "eval_samples_per_second": 88.607,
      "eval_steps_per_second": 11.077,
      "step": 18800
    },
    {
      "epoch": 3.6130758937105716,
      "grad_norm": 4.241858959197998,
      "learning_rate": 1.389409290766584e-05,
      "loss": 0.6598,
      "step": 18900
    },
    {
      "epoch": 3.632192697380998,
      "grad_norm": 4.486043453216553,
      "learning_rate": 1.3702924870961575e-05,
      "loss": 0.6225,
      "step": 19000
    },
    {
      "epoch": 3.6513095010514243,
      "grad_norm": 4.468062877655029,
      "learning_rate": 1.3511756834257313e-05,
      "loss": 0.6401,
      "step": 19100
    },
    {
      "epoch": 3.6704263047218504,
      "grad_norm": 4.349284648895264,
      "learning_rate": 1.332058879755305e-05,
      "loss": 0.6489,
      "step": 19200
    },
    {
      "epoch": 3.6704263047218504,
      "eval_loss": 0.5988742113113403,
      "eval_runtime": 92.7585,
      "eval_samples_per_second": 88.65,
      "eval_steps_per_second": 11.083,
      "step": 19200
    },
    {
      "epoch": 3.689543108392277,
      "grad_norm": 4.928227424621582,
      "learning_rate": 1.3129420760848788e-05,
      "loss": 0.62,
      "step": 19300
    },
    {
      "epoch": 3.708659912062703,
      "grad_norm": 3.8102471828460693,
      "learning_rate": 1.2938252724144523e-05,
      "loss": 0.6427,
      "step": 19400
    },
    {
      "epoch": 3.727776715733129,
      "grad_norm": 4.022319316864014,
      "learning_rate": 1.2747084687440261e-05,
      "loss": 0.6461,
      "step": 19500
    },
    {
      "epoch": 3.7468935194035558,
      "grad_norm": 4.785296440124512,
      "learning_rate": 1.2555916650735996e-05,
      "loss": 0.6502,
      "step": 19600
    },
    {
      "epoch": 3.7468935194035558,
      "eval_loss": 0.5975850224494934,
      "eval_runtime": 92.6855,
      "eval_samples_per_second": 88.719,
      "eval_steps_per_second": 11.091,
      "step": 19600
    },
    {
      "epoch": 3.766010323073982,
      "grad_norm": 4.089471817016602,
      "learning_rate": 1.2364748614031734e-05,
      "loss": 0.6329,
      "step": 19700
    },
    {
      "epoch": 3.7851271267444084,
      "grad_norm": 2.898491859436035,
      "learning_rate": 1.2173580577327472e-05,
      "loss": 0.6317,
      "step": 19800
    },
    {
      "epoch": 3.8042439304148346,
      "grad_norm": 3.9998719692230225,
      "learning_rate": 1.1982412540623209e-05,
      "loss": 0.6184,
      "step": 19900
    },
    {
      "epoch": 3.823360734085261,
      "grad_norm": 3.649463176727295,
      "learning_rate": 1.1793156184285987e-05,
      "loss": 0.6301,
      "step": 20000
    },
    {
      "epoch": 3.823360734085261,
      "eval_loss": 0.6061282157897949,
      "eval_runtime": 92.6598,
      "eval_samples_per_second": 88.744,
      "eval_steps_per_second": 11.094,
      "step": 20000
    },
    {
      "epoch": 3.8424775377556872,
      "grad_norm": 4.067989349365234,
      "learning_rate": 1.1601988147581724e-05,
      "loss": 0.6425,
      "step": 20100
    },
    {
      "epoch": 3.8615943414261134,
      "grad_norm": 3.7173011302948,
      "learning_rate": 1.141082011087746e-05,
      "loss": 0.6134,
      "step": 20200
    },
    {
      "epoch": 3.88071114509654,
      "grad_norm": 4.036506175994873,
      "learning_rate": 1.1219652074173199e-05,
      "loss": 0.6612,
      "step": 20300
    },
    {
      "epoch": 3.899827948766966,
      "grad_norm": 3.4378676414489746,
      "learning_rate": 1.1028484037468937e-05,
      "loss": 0.6194,
      "step": 20400
    },
    {
      "epoch": 3.899827948766966,
      "eval_loss": 0.5860570669174194,
      "eval_runtime": 92.6457,
      "eval_samples_per_second": 88.757,
      "eval_steps_per_second": 11.096,
      "step": 20400
    },
    {
      "epoch": 3.9189447524373926,
      "grad_norm": 7.162832260131836,
      "learning_rate": 1.0837316000764673e-05,
      "loss": 0.6385,
      "step": 20500
    },
    {
      "epoch": 3.9380615561078187,
      "grad_norm": 3.439091920852661,
      "learning_rate": 1.064614796406041e-05,
      "loss": 0.6243,
      "step": 20600
    },
    {
      "epoch": 3.9571783597782453,
      "grad_norm": 3.7195284366607666,
      "learning_rate": 1.0454979927356146e-05,
      "loss": 0.6337,
      "step": 20700
    },
    {
      "epoch": 3.9762951634486714,
      "grad_norm": 3.3584518432617188,
      "learning_rate": 1.0263811890651883e-05,
      "loss": 0.6352,
      "step": 20800
    },
    {
      "epoch": 3.9762951634486714,
      "eval_loss": 0.5977619290351868,
      "eval_runtime": 92.6632,
      "eval_samples_per_second": 88.741,
      "eval_steps_per_second": 11.094,
      "step": 20800
    },
    {
      "epoch": 3.9954119671190975,
      "grad_norm": 5.517305850982666,
      "learning_rate": 1.0072643853947621e-05,
      "loss": 0.6241,
      "step": 20900
    },
    {
      "epoch": 4.014528770789524,
      "grad_norm": 3.5819714069366455,
      "learning_rate": 9.881475817243358e-06,
      "loss": 0.6352,
      "step": 21000
    },
    {
      "epoch": 4.033645574459951,
      "grad_norm": 3.967008352279663,
      "learning_rate": 9.690307780539094e-06,
      "loss": 0.617,
      "step": 21100
    },
    {
      "epoch": 4.052762378130376,
      "grad_norm": 3.5766172409057617,
      "learning_rate": 9.49913974383483e-06,
      "loss": 0.628,
      "step": 21200
    },
    {
      "epoch": 4.052762378130376,
      "eval_loss": 0.5928879380226135,
      "eval_runtime": 92.586,
      "eval_samples_per_second": 88.815,
      "eval_steps_per_second": 11.103,
      "step": 21200
    },
    {
      "epoch": 4.071879181800803,
      "grad_norm": 4.025076866149902,
      "learning_rate": 9.307971707130567e-06,
      "loss": 0.6238,
      "step": 21300
    },
    {
      "epoch": 4.0909959854712294,
      "grad_norm": 5.096427917480469,
      "learning_rate": 9.116803670426305e-06,
      "loss": 0.6337,
      "step": 21400
    },
    {
      "epoch": 4.110112789141655,
      "grad_norm": 5.223696708679199,
      "learning_rate": 8.925635633722042e-06,
      "loss": 0.6212,
      "step": 21500
    },
    {
      "epoch": 4.129229592812082,
      "grad_norm": 4.151371479034424,
      "learning_rate": 8.734467597017778e-06,
      "loss": 0.6176,
      "step": 21600
    },
    {
      "epoch": 4.129229592812082,
      "eval_loss": 0.5918228626251221,
      "eval_runtime": 92.7104,
      "eval_samples_per_second": 88.696,
      "eval_steps_per_second": 11.088,
      "step": 21600
    },
    {
      "epoch": 4.148346396482508,
      "grad_norm": 4.445927619934082,
      "learning_rate": 8.543299560313515e-06,
      "loss": 0.6322,
      "step": 21700
    },
    {
      "epoch": 4.167463200152935,
      "grad_norm": 6.669031143188477,
      "learning_rate": 8.352131523609253e-06,
      "loss": 0.6307,
      "step": 21800
    },
    {
      "epoch": 4.1865800038233605,
      "grad_norm": 4.0559186935424805,
      "learning_rate": 8.16096348690499e-06,
      "loss": 0.6323,
      "step": 21900
    },
    {
      "epoch": 4.205696807493787,
      "grad_norm": 4.512356281280518,
      "learning_rate": 7.969795450200728e-06,
      "loss": 0.6385,
      "step": 22000
    },
    {
      "epoch": 4.205696807493787,
      "eval_loss": 0.5929626226425171,
      "eval_runtime": 92.4043,
      "eval_samples_per_second": 88.989,
      "eval_steps_per_second": 11.125,
      "step": 22000
    },
    {
      "epoch": 4.224813611164214,
      "grad_norm": 4.109405517578125,
      "learning_rate": 7.778627413496464e-06,
      "loss": 0.6255,
      "step": 22100
    },
    {
      "epoch": 4.243930414834639,
      "grad_norm": 4.0541486740112305,
      "learning_rate": 7.587459376792201e-06,
      "loss": 0.6198,
      "step": 22200
    },
    {
      "epoch": 4.263047218505066,
      "grad_norm": 5.3996663093566895,
      "learning_rate": 7.396291340087938e-06,
      "loss": 0.6172,
      "step": 22300
    },
    {
      "epoch": 4.282164022175492,
      "grad_norm": 4.728433609008789,
      "learning_rate": 7.205123303383675e-06,
      "loss": 0.6061,
      "step": 22400
    },
    {
      "epoch": 4.282164022175492,
      "eval_loss": 0.5865157246589661,
      "eval_runtime": 92.3573,
      "eval_samples_per_second": 89.035,
      "eval_steps_per_second": 11.131,
      "step": 22400
    },
    {
      "epoch": 4.301280825845919,
      "grad_norm": 4.604154586791992,
      "learning_rate": 7.013955266679411e-06,
      "loss": 0.6441,
      "step": 22500
    },
    {
      "epoch": 4.320397629516345,
      "grad_norm": 4.1287760734558105,
      "learning_rate": 6.822787229975149e-06,
      "loss": 0.625,
      "step": 22600
    },
    {
      "epoch": 4.339514433186771,
      "grad_norm": 3.1182920932769775,
      "learning_rate": 6.631619193270885e-06,
      "loss": 0.5973,
      "step": 22700
    },
    {
      "epoch": 4.358631236857198,
      "grad_norm": 4.751844882965088,
      "learning_rate": 6.4404511565666225e-06,
      "loss": 0.597,
      "step": 22800
    },
    {
      "epoch": 4.358631236857198,
      "eval_loss": 0.5919764637947083,
      "eval_runtime": 92.4705,
      "eval_samples_per_second": 88.926,
      "eval_steps_per_second": 11.117,
      "step": 22800
    },
    {
      "epoch": 4.3777480405276235,
      "grad_norm": 5.184845924377441,
      "learning_rate": 6.249283119862359e-06,
      "loss": 0.6219,
      "step": 22900
    },
    {
      "epoch": 4.39686484419805,
      "grad_norm": 4.108447551727295,
      "learning_rate": 6.058115083158096e-06,
      "loss": 0.6275,
      "step": 23000
    },
    {
      "epoch": 4.415981647868477,
      "grad_norm": 3.9303929805755615,
      "learning_rate": 5.866947046453833e-06,
      "loss": 0.6213,
      "step": 23100
    },
    {
      "epoch": 4.435098451538902,
      "grad_norm": 4.054929733276367,
      "learning_rate": 5.67577900974957e-06,
      "loss": 0.6313,
      "step": 23200
    },
    {
      "epoch": 4.435098451538902,
      "eval_loss": 0.5812836289405823,
      "eval_runtime": 92.6171,
      "eval_samples_per_second": 88.785,
      "eval_steps_per_second": 11.099,
      "step": 23200
    },
    {
      "epoch": 4.454215255209329,
      "grad_norm": 4.04779052734375,
      "learning_rate": 5.484610973045308e-06,
      "loss": 0.6055,
      "step": 23300
    },
    {
      "epoch": 4.473332058879755,
      "grad_norm": 4.373106956481934,
      "learning_rate": 5.293442936341044e-06,
      "loss": 0.6181,
      "step": 23400
    },
    {
      "epoch": 4.492448862550182,
      "grad_norm": 3.912672758102417,
      "learning_rate": 5.102274899636781e-06,
      "loss": 0.6049,
      "step": 23500
    },
    {
      "epoch": 4.511565666220608,
      "grad_norm": 4.924178123474121,
      "learning_rate": 4.911106862932518e-06,
      "loss": 0.6388,
      "step": 23600
    },
    {
      "epoch": 4.511565666220608,
      "eval_loss": 0.585365891456604,
      "eval_runtime": 92.598,
      "eval_samples_per_second": 88.803,
      "eval_steps_per_second": 11.102,
      "step": 23600
    },
    {
      "epoch": 4.530682469891034,
      "grad_norm": 4.225689888000488,
      "learning_rate": 4.7199388262282546e-06,
      "loss": 0.5984,
      "step": 23700
    },
    {
      "epoch": 4.549799273561461,
      "grad_norm": 3.848640203475952,
      "learning_rate": 4.528770789523992e-06,
      "loss": 0.6009,
      "step": 23800
    },
    {
      "epoch": 4.568916077231886,
      "grad_norm": 3.6290130615234375,
      "learning_rate": 4.3376027528197284e-06,
      "loss": 0.6205,
      "step": 23900
    },
    {
      "epoch": 4.588032880902313,
      "grad_norm": 5.409413814544678,
      "learning_rate": 4.146434716115466e-06,
      "loss": 0.6052,
      "step": 24000
    },
    {
      "epoch": 4.588032880902313,
      "eval_loss": 0.5768113732337952,
      "eval_runtime": 92.5622,
      "eval_samples_per_second": 88.838,
      "eval_steps_per_second": 11.106,
      "step": 24000
    },
    {
      "epoch": 4.6071496845727395,
      "grad_norm": 4.062690258026123,
      "learning_rate": 3.955266679411203e-06,
      "loss": 0.6227,
      "step": 24100
    },
    {
      "epoch": 4.626266488243166,
      "grad_norm": 6.228837490081787,
      "learning_rate": 3.7640986427069397e-06,
      "loss": 0.6104,
      "step": 24200
    },
    {
      "epoch": 4.645383291913592,
      "grad_norm": 3.8039870262145996,
      "learning_rate": 3.5729306060026766e-06,
      "loss": 0.6087,
      "step": 24300
    },
    {
      "epoch": 4.664500095584018,
      "grad_norm": 4.199521541595459,
      "learning_rate": 3.3817625692984135e-06,
      "loss": 0.6135,
      "step": 24400
    },
    {
      "epoch": 4.664500095584018,
      "eval_loss": 0.5789579153060913,
      "eval_runtime": 92.5954,
      "eval_samples_per_second": 88.806,
      "eval_steps_per_second": 11.102,
      "step": 24400
    },
    {
      "epoch": 4.683616899254445,
      "grad_norm": 3.312234878540039,
      "learning_rate": 3.19059453259415e-06,
      "loss": 0.6108,
      "step": 24500
    },
    {
      "epoch": 4.702733702924871,
      "grad_norm": 4.610132694244385,
      "learning_rate": 2.9994264958898874e-06,
      "loss": 0.5984,
      "step": 24600
    },
    {
      "epoch": 4.721850506595297,
      "grad_norm": 4.196247100830078,
      "learning_rate": 2.8082584591856244e-06,
      "loss": 0.6249,
      "step": 24700
    },
    {
      "epoch": 4.740967310265724,
      "grad_norm": 4.444230079650879,
      "learning_rate": 2.6170904224813613e-06,
      "loss": 0.6135,
      "step": 24800
    },
    {
      "epoch": 4.740967310265724,
      "eval_loss": 0.5723977088928223,
      "eval_runtime": 92.5878,
      "eval_samples_per_second": 88.813,
      "eval_steps_per_second": 11.103,
      "step": 24800
    },
    {
      "epoch": 4.76008411393615,
      "grad_norm": 4.337975025177002,
      "learning_rate": 2.4259223857770982e-06,
      "loss": 0.6222,
      "step": 24900
    },
    {
      "epoch": 4.779200917606576,
      "grad_norm": 4.261539459228516,
      "learning_rate": 2.234754349072835e-06,
      "loss": 0.5808,
      "step": 25000
    },
    {
      "epoch": 4.7983177212770025,
      "grad_norm": 4.659415245056152,
      "learning_rate": 2.043586312368572e-06,
      "loss": 0.592,
      "step": 25100
    },
    {
      "epoch": 4.817434524947429,
      "grad_norm": 4.005898952484131,
      "learning_rate": 1.852418275664309e-06,
      "loss": 0.6087,
      "step": 25200
    },
    {
      "epoch": 4.817434524947429,
      "eval_loss": 0.5687017440795898,
      "eval_runtime": 92.6047,
      "eval_samples_per_second": 88.797,
      "eval_steps_per_second": 11.101,
      "step": 25200
    },
    {
      "epoch": 4.836551328617855,
      "grad_norm": 4.495694160461426,
      "learning_rate": 1.6612502389600458e-06,
      "loss": 0.6195,
      "step": 25300
    },
    {
      "epoch": 4.855668132288281,
      "grad_norm": 5.030457019805908,
      "learning_rate": 1.470082202255783e-06,
      "loss": 0.6202,
      "step": 25400
    },
    {
      "epoch": 4.874784935958708,
      "grad_norm": 4.42711877822876,
      "learning_rate": 1.2789141655515199e-06,
      "loss": 0.6007,
      "step": 25500
    },
    {
      "epoch": 4.893901739629134,
      "grad_norm": 4.1595563888549805,
      "learning_rate": 1.0877461288472568e-06,
      "loss": 0.621,
      "step": 25600
    },
    {
      "epoch": 4.893901739629134,
      "eval_loss": 0.5748383402824402,
      "eval_runtime": 92.5734,
      "eval_samples_per_second": 88.827,
      "eval_steps_per_second": 11.105,
      "step": 25600
    },
    {
      "epoch": 4.91301854329956,
      "grad_norm": 3.987473249435425,
      "learning_rate": 8.965780921429937e-07,
      "loss": 0.586,
      "step": 25700
    },
    {
      "epoch": 4.932135346969987,
      "grad_norm": 3.4999001026153564,
      "learning_rate": 7.054100554387307e-07,
      "loss": 0.6105,
      "step": 25800
    },
    {
      "epoch": 4.951252150640413,
      "grad_norm": 3.7822272777557373,
      "learning_rate": 5.142420187344676e-07,
      "loss": 0.6047,
      "step": 25900
    },
    {
      "epoch": 4.970368954310839,
      "grad_norm": 3.8180148601531982,
      "learning_rate": 3.2307398203020455e-07,
      "loss": 0.6256,
      "step": 26000
    },
    {
      "epoch": 4.970368954310839,
      "eval_loss": 0.5706872344017029,
      "eval_runtime": 92.6466,
      "eval_samples_per_second": 88.757,
      "eval_steps_per_second": 11.096,
      "step": 26000
    },
    {
      "epoch": 4.9894857579812655,
      "grad_norm": 3.5531647205352783,
      "learning_rate": 1.319059453259415e-07,
      "loss": 0.599,
      "step": 26100
    }
  ],
  "logging_steps": 100,
  "max_steps": 26155,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 5,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 5.446806122974282e+16,
  "train_batch_size": 16,
  "trial_name": null,
  "trial_params": null
}