{
  "best_global_step": 1000,
  "best_metric": 0.7969963550567627,
  "best_model_checkpoint": "checkpoints/lora_tutor/checkpoint-1000",
  "epoch": 0.35634743875278396,
  "eval_steps": 200,
  "global_step": 1000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.00035634743875278396,
      "grad_norm": 99.66374969482422,
      "learning_rate": 0.0,
      "loss": 4.1982,
      "step": 1
    },
    {
      "epoch": 0.0017817371937639199,
      "grad_norm": 57.29983139038086,
      "learning_rate": 3.3333333333333333e-06,
      "loss": 4.0,
      "step": 5
    },
    {
      "epoch": 0.0035634743875278397,
      "grad_norm": 27.13236427307129,
      "learning_rate": 7.5e-06,
      "loss": 2.4799,
      "step": 10
    },
    {
      "epoch": 0.005345211581291759,
      "grad_norm": 13.770986557006836,
      "learning_rate": 1.1666666666666668e-05,
      "loss": 1.4129,
      "step": 15
    },
    {
      "epoch": 0.0071269487750556795,
      "grad_norm": 9.720105171203613,
      "learning_rate": 1.5833333333333333e-05,
      "loss": 1.2207,
      "step": 20
    },
    {
      "epoch": 0.008908685968819599,
      "grad_norm": 10.442448616027832,
      "learning_rate": 2e-05,
      "loss": 1.2037,
      "step": 25
    },
    {
      "epoch": 0.010690423162583519,
      "grad_norm": 8.392529487609863,
      "learning_rate": 2.4166666666666667e-05,
      "loss": 1.1535,
      "step": 30
    },
    {
      "epoch": 0.012472160356347439,
      "grad_norm": 7.494682788848877,
      "learning_rate": 2.8333333333333335e-05,
      "loss": 1.1494,
      "step": 35
    },
    {
      "epoch": 0.014253897550111359,
      "grad_norm": 7.756562232971191,
      "learning_rate": 3.2500000000000004e-05,
      "loss": 1.1588,
      "step": 40
    },
    {
      "epoch": 0.016035634743875277,
      "grad_norm": 5.802969932556152,
      "learning_rate": 3.6666666666666666e-05,
      "loss": 1.1049,
      "step": 45
    },
    {
      "epoch": 0.017817371937639197,
      "grad_norm": 7.09335470199585,
      "learning_rate": 4.0833333333333334e-05,
      "loss": 1.0902,
      "step": 50
    },
    {
      "epoch": 0.019599109131403118,
      "grad_norm": 5.961513042449951,
      "learning_rate": 4.5e-05,
      "loss": 1.0484,
      "step": 55
    },
    {
      "epoch": 0.021380846325167038,
      "grad_norm": 4.003515720367432,
      "learning_rate": 4.9166666666666665e-05,
      "loss": 1.0418,
      "step": 60
    },
    {
      "epoch": 0.023162583518930958,
      "grad_norm": 4.197242259979248,
      "learning_rate": 5.333333333333333e-05,
      "loss": 1.0574,
      "step": 65
    },
    {
      "epoch": 0.024944320712694878,
      "grad_norm": 4.823288917541504,
      "learning_rate": 5.7499999999999995e-05,
      "loss": 1.0194,
      "step": 70
    },
    {
      "epoch": 0.026726057906458798,
      "grad_norm": 6.500214099884033,
      "learning_rate": 6.166666666666667e-05,
      "loss": 1.0146,
      "step": 75
    },
    {
      "epoch": 0.028507795100222718,
      "grad_norm": 6.800583362579346,
      "learning_rate": 6.583333333333334e-05,
      "loss": 1.0192,
      "step": 80
    },
    {
      "epoch": 0.030289532293986638,
      "grad_norm": 5.19222354888916,
      "learning_rate": 7e-05,
      "loss": 1.0455,
      "step": 85
    },
    {
      "epoch": 0.032071269487750555,
      "grad_norm": 6.357260704040527,
      "learning_rate": 7.416666666666668e-05,
      "loss": 1.029,
      "step": 90
    },
    {
      "epoch": 0.033853006681514475,
      "grad_norm": 5.543500900268555,
      "learning_rate": 7.833333333333333e-05,
      "loss": 1.0228,
      "step": 95
    },
    {
      "epoch": 0.035634743875278395,
      "grad_norm": 4.388900279998779,
      "learning_rate": 8.25e-05,
      "loss": 1.044,
      "step": 100
    },
    {
      "epoch": 0.037416481069042315,
      "grad_norm": 5.311753273010254,
      "learning_rate": 8.666666666666667e-05,
      "loss": 1.063,
      "step": 105
    },
    {
      "epoch": 0.039198218262806235,
      "grad_norm": 5.037621974945068,
      "learning_rate": 9.083333333333334e-05,
      "loss": 1.0138,
      "step": 110
    },
    {
      "epoch": 0.040979955456570155,
      "grad_norm": 5.125575542449951,
      "learning_rate": 9.5e-05,
      "loss": 1.0403,
      "step": 115
    },
    {
      "epoch": 0.042761692650334075,
      "grad_norm": 5.154388904571533,
      "learning_rate": 9.916666666666667e-05,
      "loss": 1.015,
      "step": 120
    },
    {
      "epoch": 0.044543429844097995,
      "grad_norm": 3.9509270191192627,
      "learning_rate": 9.999661540018812e-05,
      "loss": 1.0027,
      "step": 125
    },
    {
      "epoch": 0.046325167037861915,
      "grad_norm": 3.7814090251922607,
      "learning_rate": 9.998286624877786e-05,
      "loss": 0.9863,
      "step": 130
    },
    {
      "epoch": 0.048106904231625836,
      "grad_norm": 3.7585690021514893,
      "learning_rate": 9.995854391448606e-05,
      "loss": 1.0459,
      "step": 135
    },
    {
      "epoch": 0.049888641425389756,
      "grad_norm": 6.917703628540039,
      "learning_rate": 9.992365354236557e-05,
      "loss": 1.0719,
      "step": 140
    },
    {
      "epoch": 0.051670378619153676,
      "grad_norm": 3.885483503341675,
      "learning_rate": 9.987820251299122e-05,
      "loss": 1.0123,
      "step": 145
    },
    {
      "epoch": 0.053452115812917596,
      "grad_norm": 3.287639617919922,
      "learning_rate": 9.982220044089859e-05,
      "loss": 0.9903,
      "step": 150
    },
    {
      "epoch": 0.055233853006681516,
      "grad_norm": 3.95298171043396,
      "learning_rate": 9.975565917255016e-05,
      "loss": 0.9841,
      "step": 155
    },
    {
      "epoch": 0.057015590200445436,
      "grad_norm": 4.5531721115112305,
      "learning_rate": 9.967859278382938e-05,
      "loss": 0.9968,
      "step": 160
    },
    {
      "epoch": 0.058797327394209356,
      "grad_norm": 4.4977641105651855,
      "learning_rate": 9.959101757706308e-05,
      "loss": 1.006,
      "step": 165
    },
    {
      "epoch": 0.060579064587973276,
      "grad_norm": 3.260209798812866,
      "learning_rate": 9.949295207757299e-05,
      "loss": 0.9557,
      "step": 170
    },
    {
      "epoch": 0.062360801781737196,
      "grad_norm": 3.9708852767944336,
      "learning_rate": 9.938441702975689e-05,
      "loss": 0.9914,
      "step": 175
    },
    {
      "epoch": 0.06414253897550111,
      "grad_norm": 3.731992721557617,
      "learning_rate": 9.926543539270048e-05,
      "loss": 0.9794,
      "step": 180
    },
    {
      "epoch": 0.06592427616926504,
      "grad_norm": 3.153402805328369,
      "learning_rate": 9.913603233532067e-05,
      "loss": 0.9525,
      "step": 185
    },
    {
      "epoch": 0.06770601336302895,
      "grad_norm": 2.9249067306518555,
      "learning_rate": 9.899623523104149e-05,
      "loss": 0.9578,
      "step": 190
    },
    {
      "epoch": 0.06948775055679288,
      "grad_norm": 2.661738872528076,
      "learning_rate": 9.884607365200356e-05,
      "loss": 0.9711,
      "step": 195
    },
    {
      "epoch": 0.07126948775055679,
      "grad_norm": 3.0224714279174805,
      "learning_rate": 9.868557936280855e-05,
      "loss": 0.9693,
      "step": 200
    },
    {
      "epoch": 0.07126948775055679,
      "eval_loss": 0.9798622131347656,
      "eval_runtime": 249.2057,
      "eval_samples_per_second": 20.02,
      "eval_steps_per_second": 2.504,
      "step": 200
    },
    {
      "epoch": 0.07305122494432072,
      "grad_norm": 2.5287749767303467,
      "learning_rate": 9.851478631379982e-05,
      "loss": 0.9299,
      "step": 205
    },
    {
      "epoch": 0.07483296213808463,
      "grad_norm": 2.9961535930633545,
      "learning_rate": 9.83337306338807e-05,
      "loss": 0.9606,
      "step": 210
    },
    {
      "epoch": 0.07661469933184856,
      "grad_norm": 3.6630430221557617,
      "learning_rate": 9.814245062287189e-05,
      "loss": 0.9546,
      "step": 215
    },
    {
      "epoch": 0.07839643652561247,
      "grad_norm": 2.665858030319214,
      "learning_rate": 9.794098674340965e-05,
      "loss": 0.958,
      "step": 220
    },
    {
      "epoch": 0.0801781737193764,
      "grad_norm": 2.741337776184082,
      "learning_rate": 9.77293816123866e-05,
      "loss": 0.963,
      "step": 225
    },
    {
      "epoch": 0.08195991091314031,
      "grad_norm": 2.693640947341919,
      "learning_rate": 9.750767999193656e-05,
      "loss": 0.9677,
      "step": 230
    },
    {
      "epoch": 0.08374164810690424,
      "grad_norm": 2.718897581100464,
      "learning_rate": 9.727592877996585e-05,
      "loss": 0.9551,
      "step": 235
    },
    {
      "epoch": 0.08552338530066815,
      "grad_norm": 3.1531124114990234,
      "learning_rate": 9.70341770002326e-05,
      "loss": 0.9692,
      "step": 240
    },
    {
      "epoch": 0.08730512249443208,
      "grad_norm": 2.4551897048950195,
      "learning_rate": 9.678247579197657e-05,
      "loss": 0.9727,
      "step": 245
    },
    {
      "epoch": 0.08908685968819599,
      "grad_norm": 2.886244058609009,
      "learning_rate": 9.652087839910124e-05,
      "loss": 0.9537,
      "step": 250
    },
    {
      "epoch": 0.09086859688195992,
      "grad_norm": 2.8074824810028076,
      "learning_rate": 9.62494401589108e-05,
      "loss": 0.9327,
      "step": 255
    },
    {
      "epoch": 0.09265033407572383,
      "grad_norm": 2.750798463821411,
      "learning_rate": 9.596821849040447e-05,
      "loss": 0.9228,
      "step": 260
    },
    {
      "epoch": 0.09443207126948774,
      "grad_norm": 2.552215337753296,
      "learning_rate": 9.567727288213005e-05,
      "loss": 0.9423,
      "step": 265
    },
    {
      "epoch": 0.09621380846325167,
      "grad_norm": 2.3609156608581543,
      "learning_rate": 9.537666487960019e-05,
      "loss": 0.9676,
      "step": 270
    },
    {
      "epoch": 0.09799554565701558,
      "grad_norm": 2.8906874656677246,
      "learning_rate": 9.506645807227312e-05,
      "loss": 0.955,
      "step": 275
    },
    {
      "epoch": 0.09977728285077951,
      "grad_norm": 2.660022497177124,
      "learning_rate": 9.474671808010126e-05,
      "loss": 0.9695,
      "step": 280
    },
    {
      "epoch": 0.10155902004454342,
      "grad_norm": 3.261420726776123,
      "learning_rate": 9.441751253965021e-05,
      "loss": 0.9477,
      "step": 285
    },
    {
      "epoch": 0.10334075723830735,
      "grad_norm": 3.65535044670105,
      "learning_rate": 9.407891108979117e-05,
      "loss": 0.9724,
      "step": 290
    },
    {
      "epoch": 0.10512249443207126,
      "grad_norm": 6.143333911895752,
      "learning_rate": 9.373098535696979e-05,
      "loss": 0.9477,
      "step": 295
    },
    {
      "epoch": 0.10690423162583519,
      "grad_norm": 3.469689130783081,
      "learning_rate": 9.337380894005463e-05,
      "loss": 0.9286,
      "step": 300
    },
    {
      "epoch": 0.1086859688195991,
      "grad_norm": 2.4321353435516357,
      "learning_rate": 9.300745739476829e-05,
      "loss": 0.9681,
      "step": 305
    },
    {
      "epoch": 0.11046770601336303,
      "grad_norm": 2.3954951763153076,
      "learning_rate": 9.263200821770461e-05,
      "loss": 0.9223,
      "step": 310
    },
    {
      "epoch": 0.11224944320712694,
      "grad_norm": 3.206364154815674,
      "learning_rate": 9.224754082993552e-05,
      "loss": 0.9111,
      "step": 315
    },
    {
      "epoch": 0.11403118040089087,
      "grad_norm": 2.411461591720581,
      "learning_rate": 9.185413656021036e-05,
      "loss": 0.9254,
      "step": 320
    },
    {
      "epoch": 0.11581291759465479,
      "grad_norm": 3.2764694690704346,
      "learning_rate": 9.145187862775209e-05,
      "loss": 0.9388,
      "step": 325
    },
    {
      "epoch": 0.11759465478841871,
      "grad_norm": 2.724217653274536,
      "learning_rate": 9.104085212465336e-05,
      "loss": 0.9493,
      "step": 330
    },
    {
      "epoch": 0.11937639198218263,
      "grad_norm": 2.4242122173309326,
      "learning_rate": 9.062114399787647e-05,
      "loss": 0.9439,
      "step": 335
    },
    {
      "epoch": 0.12115812917594655,
      "grad_norm": 2.391575813293457,
      "learning_rate": 9.019284303086087e-05,
      "loss": 0.9253,
      "step": 340
    },
    {
      "epoch": 0.12293986636971047,
      "grad_norm": 2.7728800773620605,
      "learning_rate": 8.97560398247424e-05,
      "loss": 0.946,
      "step": 345
    },
    {
      "epoch": 0.12472160356347439,
      "grad_norm": 3.3350629806518555,
      "learning_rate": 8.931082677918771e-05,
      "loss": 0.9318,
      "step": 350
    },
    {
      "epoch": 0.12650334075723832,
      "grad_norm": 2.887850761413574,
      "learning_rate": 8.885729807284856e-05,
      "loss": 0.9407,
      "step": 355
    },
    {
      "epoch": 0.12828507795100222,
      "grad_norm": 2.461491107940674,
      "learning_rate": 8.839554964343943e-05,
      "loss": 0.9748,
      "step": 360
    },
    {
      "epoch": 0.13006681514476615,
      "grad_norm": 2.649059772491455,
      "learning_rate": 8.792567916744346e-05,
      "loss": 0.9569,
      "step": 365
    },
    {
      "epoch": 0.13184855233853007,
      "grad_norm": 2.505889415740967,
      "learning_rate": 8.744778603945011e-05,
      "loss": 0.9235,
      "step": 370
    },
    {
      "epoch": 0.133630289532294,
      "grad_norm": 3.084015369415283,
      "learning_rate": 8.69619713511298e-05,
      "loss": 0.9466,
      "step": 375
    },
    {
      "epoch": 0.1354120267260579,
      "grad_norm": 2.242276191711426,
      "learning_rate": 8.646833786984927e-05,
      "loss": 0.8958,
      "step": 380
    },
    {
      "epoch": 0.13719376391982183,
      "grad_norm": 2.439112424850464,
      "learning_rate": 8.596699001693255e-05,
      "loss": 0.9211,
      "step": 385
    },
    {
      "epoch": 0.13897550111358575,
      "grad_norm": 2.7526488304138184,
      "learning_rate": 8.545803384557219e-05,
      "loss": 0.9218,
      "step": 390
    },
    {
      "epoch": 0.14075723830734965,
      "grad_norm": 2.521644353866577,
      "learning_rate": 8.4941577018395e-05,
      "loss": 0.9365,
      "step": 395
    },
    {
      "epoch": 0.14253897550111358,
      "grad_norm": 2.8012807369232178,
      "learning_rate": 8.44177287846877e-05,
      "loss": 0.8991,
      "step": 400
    },
    {
      "epoch": 0.14253897550111358,
      "eval_loss": 0.9173732995986938,
      "eval_runtime": 250.7158,
      "eval_samples_per_second": 19.899,
      "eval_steps_per_second": 2.489,
      "step": 400
    },
    {
      "epoch": 0.1443207126948775,
      "grad_norm": 2.3261518478393555,
      "learning_rate": 8.388659995728661e-05,
      "loss": 0.8968,
      "step": 405
    },
    {
      "epoch": 0.14610244988864143,
      "grad_norm": 2.2134907245635986,
      "learning_rate": 8.334830288913682e-05,
      "loss": 0.91,
      "step": 410
    },
    {
      "epoch": 0.14788418708240533,
      "grad_norm": 3.5786261558532715,
      "learning_rate": 8.280295144952536e-05,
      "loss": 0.9175,
      "step": 415
    },
    {
      "epoch": 0.14966592427616926,
      "grad_norm": 2.7428812980651855,
      "learning_rate": 8.225066099999392e-05,
      "loss": 0.9345,
      "step": 420
    },
    {
      "epoch": 0.1514476614699332,
      "grad_norm": 2.246025800704956,
      "learning_rate": 8.169154836993551e-05,
      "loss": 0.9067,
      "step": 425
    },
    {
      "epoch": 0.15322939866369711,
      "grad_norm": 2.188469886779785,
      "learning_rate": 8.112573183188099e-05,
      "loss": 0.9537,
      "step": 430
    },
    {
      "epoch": 0.155011135857461,
      "grad_norm": 2.545259475708008,
      "learning_rate": 8.055333107647999e-05,
      "loss": 0.9159,
      "step": 435
    },
    {
      "epoch": 0.15679287305122494,
      "grad_norm": 2.421093463897705,
      "learning_rate": 7.99744671871822e-05,
      "loss": 0.9034,
      "step": 440
    },
    {
      "epoch": 0.15857461024498887,
      "grad_norm": 2.5586888790130615,
      "learning_rate": 7.938926261462366e-05,
      "loss": 0.9072,
      "step": 445
    },
    {
      "epoch": 0.1603563474387528,
      "grad_norm": 2.444941759109497,
      "learning_rate": 7.879784115072417e-05,
      "loss": 0.9101,
      "step": 450
    },
    {
      "epoch": 0.1621380846325167,
      "grad_norm": 2.3764047622680664,
      "learning_rate": 7.820032790250074e-05,
      "loss": 0.9065,
      "step": 455
    },
    {
      "epoch": 0.16391982182628062,
      "grad_norm": 2.34041428565979,
      "learning_rate": 7.75968492656029e-05,
      "loss": 0.8791,
      "step": 460
    },
    {
      "epoch": 0.16570155902004455,
      "grad_norm": 2.013155698776245,
      "learning_rate": 7.698753289757565e-05,
      "loss": 0.9058,
      "step": 465
    },
    {
      "epoch": 0.16748329621380847,
      "grad_norm": 2.3692591190338135,
      "learning_rate": 7.6372507690855e-05,
      "loss": 0.8898,
      "step": 470
    },
    {
      "epoch": 0.16926503340757237,
      "grad_norm": 2.4539620876312256,
      "learning_rate": 7.575190374550272e-05,
      "loss": 0.9201,
      "step": 475
    },
    {
      "epoch": 0.1710467706013363,
      "grad_norm": 2.6015443801879883,
      "learning_rate": 7.51258523416855e-05,
      "loss": 0.8823,
      "step": 480
    },
    {
      "epoch": 0.17282850779510023,
      "grad_norm": 2.413839101791382,
      "learning_rate": 7.449448591190435e-05,
      "loss": 0.9196,
      "step": 485
    },
    {
      "epoch": 0.17461024498886416,
      "grad_norm": 2.1962289810180664,
      "learning_rate": 7.385793801298042e-05,
      "loss": 0.8869,
      "step": 490
    },
    {
      "epoch": 0.17639198218262805,
      "grad_norm": 2.994487762451172,
      "learning_rate": 7.321634329780286e-05,
      "loss": 0.9103,
      "step": 495
    },
    {
      "epoch": 0.17817371937639198,
      "grad_norm": 2.9973297119140625,
      "learning_rate": 7.256983748684485e-05,
      "loss": 0.9083,
      "step": 500
    },
    {
      "epoch": 0.1799554565701559,
      "grad_norm": 2.6006710529327393,
      "learning_rate": 7.191855733945387e-05,
      "loss": 0.9131,
      "step": 505
    },
    {
      "epoch": 0.18173719376391984,
      "grad_norm": 2.4508118629455566,
      "learning_rate": 7.126264062492217e-05,
      "loss": 0.8762,
      "step": 510
    },
    {
      "epoch": 0.18351893095768373,
      "grad_norm": 2.8403897285461426,
      "learning_rate": 7.060222609334343e-05,
      "loss": 0.8673,
      "step": 515
    },
    {
      "epoch": 0.18530066815144766,
      "grad_norm": 2.5483813285827637,
      "learning_rate": 6.993745344626231e-05,
      "loss": 0.8812,
      "step": 520
    },
    {
      "epoch": 0.1870824053452116,
      "grad_norm": 1.927654504776001,
      "learning_rate": 6.926846330712242e-05,
      "loss": 0.9213,
      "step": 525
    },
    {
      "epoch": 0.1888641425389755,
      "grad_norm": 2.8513023853302,
      "learning_rate": 6.859539719151933e-05,
      "loss": 0.8911,
      "step": 530
    },
    {
      "epoch": 0.19064587973273942,
      "grad_norm": 2.6732981204986572,
      "learning_rate": 6.7918397477265e-05,
      "loss": 0.9018,
      "step": 535
    },
    {
      "epoch": 0.19242761692650334,
      "grad_norm": 2.3755311965942383,
      "learning_rate": 6.723760737426971e-05,
      "loss": 0.8803,
      "step": 540
    },
    {
      "epoch": 0.19420935412026727,
      "grad_norm": 2.5072877407073975,
      "learning_rate": 6.65531708942479e-05,
      "loss": 0.9066,
      "step": 545
    },
    {
      "epoch": 0.19599109131403117,
      "grad_norm": 2.3347630500793457,
      "learning_rate": 6.586523282025462e-05,
      "loss": 0.8999,
      "step": 550
    },
    {
      "epoch": 0.1977728285077951,
      "grad_norm": 2.4541633129119873,
      "learning_rate": 6.517393867605855e-05,
      "loss": 0.9024,
      "step": 555
    },
    {
      "epoch": 0.19955456570155902,
      "grad_norm": 2.89241361618042,
      "learning_rate": 6.447943469535856e-05,
      "loss": 0.8802,
      "step": 560
    },
    {
      "epoch": 0.20133630289532295,
      "grad_norm": 2.635859251022339,
      "learning_rate": 6.378186779084995e-05,
      "loss": 0.91,
      "step": 565
    },
    {
      "epoch": 0.20311804008908685,
      "grad_norm": 2.5360910892486572,
      "learning_rate": 6.308138552314718e-05,
      "loss": 0.883,
      "step": 570
    },
    {
      "epoch": 0.20489977728285078,
      "grad_norm": 2.0861408710479736,
      "learning_rate": 6.23781360695693e-05,
      "loss": 0.9051,
      "step": 575
    },
    {
      "epoch": 0.2066815144766147,
      "grad_norm": 1.938452959060669,
      "learning_rate": 6.167226819279528e-05,
      "loss": 0.8763,
      "step": 580
    },
    {
      "epoch": 0.20846325167037863,
      "grad_norm": 2.333118200302124,
      "learning_rate": 6.096393120939516e-05,
      "loss": 0.8939,
      "step": 585
    },
    {
      "epoch": 0.21024498886414253,
      "grad_norm": 2.2652223110198975,
      "learning_rate": 6.0253274958244386e-05,
      "loss": 0.8992,
      "step": 590
    },
    {
      "epoch": 0.21202672605790646,
      "grad_norm": 1.830731749534607,
      "learning_rate": 5.9540449768827246e-05,
      "loss": 0.8617,
      "step": 595
    },
    {
      "epoch": 0.21380846325167038,
      "grad_norm": 2.4237635135650635,
      "learning_rate": 5.882560642943696e-05,
      "loss": 0.9189,
      "step": 600
    },
    {
      "epoch": 0.21380846325167038,
      "eval_loss": 0.8756723999977112,
      "eval_runtime": 256.5875,
      "eval_samples_per_second": 19.444,
      "eval_steps_per_second": 2.432,
      "step": 600
    },
    {
      "epoch": 0.2155902004454343,
      "grad_norm": 2.6089930534362793,
      "learning_rate": 5.810889615527838e-05,
      "loss": 0.9052,
      "step": 605
    },
    {
      "epoch": 0.2173719376391982,
      "grad_norm": 2.457108974456787,
      "learning_rate": 5.7390470556480545e-05,
      "loss": 0.8959,
      "step": 610
    },
    {
      "epoch": 0.21915367483296214,
      "grad_norm": 2.3315470218658447,
      "learning_rate": 5.667048160602564e-05,
      "loss": 0.8772,
      "step": 615
    },
    {
      "epoch": 0.22093541202672606,
      "grad_norm": 2.0484960079193115,
      "learning_rate": 5.5949081607601274e-05,
      "loss": 0.8387,
      "step": 620
    },
    {
      "epoch": 0.22271714922049,
      "grad_norm": 2.341867208480835,
      "learning_rate": 5.522642316338268e-05,
      "loss": 0.8778,
      "step": 625
    },
    {
      "epoch": 0.2244988864142539,
      "grad_norm": 2.4177300930023193,
      "learning_rate": 5.450265914175187e-05,
      "loss": 0.8936,
      "step": 630
    },
    {
      "epoch": 0.22628062360801782,
      "grad_norm": 2.4489850997924805,
      "learning_rate": 5.377794264496041e-05,
      "loss": 0.8654,
      "step": 635
    },
    {
      "epoch": 0.22806236080178174,
      "grad_norm": 2.468477964401245,
      "learning_rate": 5.3052426976742855e-05,
      "loss": 0.8467,
      "step": 640
    },
    {
      "epoch": 0.22984409799554567,
      "grad_norm": 2.1568973064422607,
      "learning_rate": 5.232626560988735e-05,
      "loss": 0.8337,
      "step": 645
    },
    {
      "epoch": 0.23162583518930957,
      "grad_norm": 2.248286485671997,
      "learning_rate": 5.159961215377065e-05,
      "loss": 0.8626,
      "step": 650
    },
    {
      "epoch": 0.2334075723830735,
      "grad_norm": 2.197516918182373,
      "learning_rate": 5.0872620321864185e-05,
      "loss": 0.8857,
      "step": 655
    },
    {
      "epoch": 0.23518930957683742,
      "grad_norm": 2.0258774757385254,
      "learning_rate": 5.0145443899218105e-05,
      "loss": 0.8693,
      "step": 660
    },
    {
      "epoch": 0.23697104677060132,
      "grad_norm": 2.576545000076294,
      "learning_rate": 4.941823670993016e-05,
      "loss": 0.8585,
      "step": 665
    },
    {
      "epoch": 0.23875278396436525,
      "grad_norm": 2.1643807888031006,
      "learning_rate": 4.869115258460635e-05,
      "loss": 0.8844,
      "step": 670
    },
    {
      "epoch": 0.24053452115812918,
      "grad_norm": 1.8109593391418457,
      "learning_rate": 4.7964345327820217e-05,
      "loss": 0.8526,
      "step": 675
    },
    {
      "epoch": 0.2423162583518931,
      "grad_norm": 2.2996315956115723,
      "learning_rate": 4.723796868557758e-05,
      "loss": 0.8588,
      "step": 680
    },
    {
      "epoch": 0.244097995545657,
      "grad_norm": 2.109656810760498,
      "learning_rate": 4.6512176312793736e-05,
      "loss": 0.8657,
      "step": 685
    },
    {
      "epoch": 0.24587973273942093,
      "grad_norm": 2.0365986824035645,
      "learning_rate": 4.578712174078986e-05,
      "loss": 0.8722,
      "step": 690
    },
    {
      "epoch": 0.24766146993318486,
      "grad_norm": 2.396369695663452,
      "learning_rate": 4.506295834481561e-05,
      "loss": 0.8595,
      "step": 695
    },
    {
      "epoch": 0.24944320712694878,
      "grad_norm": 1.9721331596374512,
      "learning_rate": 4.433983931160467e-05,
      "loss": 0.845,
      "step": 700
    },
    {
      "epoch": 0.2512249443207127,
      "grad_norm": 2.6028833389282227,
      "learning_rate": 4.361791760697027e-05,
      "loss": 0.8756,
      "step": 705
    },
    {
      "epoch": 0.25300668151447664,
      "grad_norm": 2.5747413635253906,
      "learning_rate": 4.289734594344738e-05,
      "loss": 0.8553,
      "step": 710
    },
    {
      "epoch": 0.25478841870824054,
      "grad_norm": 2.2102746963500977,
      "learning_rate": 4.2178276747988446e-05,
      "loss": 0.8301,
      "step": 715
    },
    {
      "epoch": 0.25657015590200444,
      "grad_norm": 2.2053496837615967,
      "learning_rate": 4.146086212971967e-05,
      "loss": 0.8347,
      "step": 720
    },
    {
      "epoch": 0.2583518930957684,
      "grad_norm": 2.1658267974853516,
      "learning_rate": 4.074525384776428e-05,
      "loss": 0.8583,
      "step": 725
    },
    {
      "epoch": 0.2601336302895323,
      "grad_norm": 2.4658656120300293,
      "learning_rate": 4.003160327914015e-05,
      "loss": 0.8448,
      "step": 730
    },
    {
      "epoch": 0.2619153674832962,
      "grad_norm": 2.5138092041015625,
      "learning_rate": 3.932006138673801e-05,
      "loss": 0.7994,
      "step": 735
    },
    {
      "epoch": 0.26369710467706015,
      "grad_norm": 2.3678791522979736,
      "learning_rate": 3.861077868738733e-05,
      "loss": 0.8543,
      "step": 740
    },
    {
      "epoch": 0.26547884187082404,
      "grad_norm": 2.174612283706665,
      "learning_rate": 3.790390522001662e-05,
      "loss": 0.8255,
      "step": 745
    },
    {
      "epoch": 0.267260579064588,
      "grad_norm": 2.633901596069336,
      "learning_rate": 3.719959051391472e-05,
      "loss": 0.8574,
      "step": 750
    },
    {
      "epoch": 0.2690423162583519,
      "grad_norm": 2.3723981380462646,
      "learning_rate": 3.649798355709997e-05,
      "loss": 0.8313,
      "step": 755
    },
    {
      "epoch": 0.2708240534521158,
      "grad_norm": 2.452537775039673,
      "learning_rate": 3.579923276480387e-05,
      "loss": 0.8332,
      "step": 760
    },
    {
      "epoch": 0.27260579064587975,
      "grad_norm": 2.7250778675079346,
      "learning_rate": 3.51034859480759e-05,
      "loss": 0.8345,
      "step": 765
    },
    {
      "epoch": 0.27438752783964365,
      "grad_norm": 2.827697992324829,
      "learning_rate": 3.44108902825161e-05,
      "loss": 0.8547,
      "step": 770
    },
    {
      "epoch": 0.27616926503340755,
      "grad_norm": 2.2842516899108887,
      "learning_rate": 3.372159227714218e-05,
      "loss": 0.8245,
      "step": 775
    },
    {
      "epoch": 0.2779510022271715,
      "grad_norm": 2.4392411708831787,
      "learning_rate": 3.303573774339745e-05,
      "loss": 0.827,
      "step": 780
    },
    {
      "epoch": 0.2797327394209354,
      "grad_norm": 2.548760175704956,
      "learning_rate": 3.235347176430656e-05,
      "loss": 0.8085,
      "step": 785
    },
    {
      "epoch": 0.2815144766146993,
      "grad_norm": 2.289919376373291,
      "learning_rate": 3.167493866378514e-05,
      "loss": 0.8725,
      "step": 790
    },
    {
      "epoch": 0.28329621380846326,
      "grad_norm": 2.1732709407806396,
      "learning_rate": 3.100028197611006e-05,
      "loss": 0.8184,
      "step": 795
    },
    {
      "epoch": 0.28507795100222716,
      "grad_norm": 2.4083878993988037,
      "learning_rate": 3.0329644415556758e-05,
      "loss": 0.8186,
      "step": 800
    },
    {
      "epoch": 0.28507795100222716,
      "eval_loss": 0.8320774435997009,
      "eval_runtime": 261.5096,
      "eval_samples_per_second": 19.078,
      "eval_steps_per_second": 2.386,
      "step": 800
    },
    {
      "epoch": 0.2868596881959911,
      "grad_norm": 2.4117252826690674,
      "learning_rate": 2.9663167846209998e-05,
      "loss": 0.8061,
      "step": 805
    },
    {
      "epoch": 0.288641425389755,
      "grad_norm": 2.716094493865967,
      "learning_rate": 2.9000993251954527e-05,
      "loss": 0.8372,
      "step": 810
    },
    {
      "epoch": 0.2904231625835189,
      "grad_norm": 1.987546443939209,
      "learning_rate": 2.8343260706651864e-05,
      "loss": 0.8539,
      "step": 815
    },
    {
      "epoch": 0.29220489977728287,
      "grad_norm": 2.1564650535583496,
      "learning_rate": 2.7690109344509563e-05,
      "loss": 0.8398,
      "step": 820
    },
    {
      "epoch": 0.29398663697104677,
      "grad_norm": 2.394848108291626,
      "learning_rate": 2.7041677330649407e-05,
      "loss": 0.8257,
      "step": 825
    },
    {
      "epoch": 0.29576837416481067,
      "grad_norm": 2.211273670196533,
      "learning_rate": 2.639810183188045e-05,
      "loss": 0.8238,
      "step": 830
    },
    {
      "epoch": 0.2975501113585746,
      "grad_norm": 2.2479021549224854,
      "learning_rate": 2.575951898768315e-05,
      "loss": 0.8277,
      "step": 835
    },
    {
      "epoch": 0.2993318485523385,
      "grad_norm": 2.60609769821167,
      "learning_rate": 2.5126063881411188e-05,
      "loss": 0.8371,
      "step": 840
    },
    {
      "epoch": 0.3011135857461025,
      "grad_norm": 2.4049665927886963,
      "learning_rate": 2.4497870511716235e-05,
      "loss": 0.8077,
      "step": 845
    },
    {
      "epoch": 0.3028953229398664,
      "grad_norm": 2.140543222427368,
      "learning_rate": 2.3875071764202563e-05,
      "loss": 0.8288,
      "step": 850
    },
    {
      "epoch": 0.3046770601336303,
      "grad_norm": 2.6508686542510986,
      "learning_rate": 2.3257799383316798e-05,
      "loss": 0.848,
      "step": 855
    },
    {
      "epoch": 0.30645879732739423,
      "grad_norm": 2.6622097492218018,
      "learning_rate": 2.264618394447927e-05,
      "loss": 0.8133,
      "step": 860
    },
    {
      "epoch": 0.3082405345211581,
      "grad_norm": 2.2243332862854004,
      "learning_rate": 2.2040354826462668e-05,
      "loss": 0.8227,
      "step": 865
    },
    {
      "epoch": 0.310022271714922,
      "grad_norm": 2.4186229705810547,
      "learning_rate": 2.1440440184023564e-05,
      "loss": 0.7982,
      "step": 870
    },
    {
      "epoch": 0.311804008908686,
      "grad_norm": 2.1508822441101074,
      "learning_rate": 2.0846566920793266e-05,
      "loss": 0.8421,
      "step": 875
    },
    {
      "epoch": 0.3135857461024499,
      "grad_norm": 2.5740039348602295,
      "learning_rate": 2.0258860662432942e-05,
      "loss": 0.8337,
      "step": 880
    },
    {
      "epoch": 0.31536748329621384,
      "grad_norm": 2.060276985168457,
      "learning_rate": 1.967744573005934e-05,
      "loss": 0.8319,
      "step": 885
    },
    {
      "epoch": 0.31714922048997773,
      "grad_norm": 2.0549917221069336,
      "learning_rate": 1.9102445113946343e-05,
      "loss": 0.7851,
      "step": 890
    },
    {
      "epoch": 0.31893095768374163,
      "grad_norm": 2.7247533798217773,
      "learning_rate": 1.8533980447508137e-05,
      "loss": 0.8113,
      "step": 895
    },
    {
      "epoch": 0.3207126948775056,
      "grad_norm": 2.852099657058716,
      "learning_rate": 1.797217198156924e-05,
      "loss": 0.8502,
      "step": 900
    },
    {
      "epoch": 0.3224944320712695,
      "grad_norm": 2.2780370712280273,
      "learning_rate": 1.7417138558927244e-05,
      "loss": 0.8175,
      "step": 905
    },
    {
      "epoch": 0.3242761692650334,
      "grad_norm": 2.220999240875244,
      "learning_rate": 1.6868997589213136e-05,
      "loss": 0.8107,
      "step": 910
    },
    {
      "epoch": 0.32605790645879734,
      "grad_norm": 2.26967191696167,
      "learning_rate": 1.6327865024054984e-05,
      "loss": 0.815,
      "step": 915
    },
    {
      "epoch": 0.32783964365256124,
      "grad_norm": 3.1814401149749756,
      "learning_rate": 1.5793855332550005e-05,
      "loss": 0.8274,
      "step": 920
    },
    {
      "epoch": 0.32962138084632514,
      "grad_norm": 2.5263116359710693,
      "learning_rate": 1.526708147705013e-05,
      "loss": 0.8126,
      "step": 925
    },
    {
      "epoch": 0.3314031180400891,
      "grad_norm": 2.7154064178466797,
      "learning_rate": 1.4747654889266476e-05,
      "loss": 0.8147,
      "step": 930
    },
    {
      "epoch": 0.333184855233853,
      "grad_norm": 2.2681655883789062,
      "learning_rate": 1.4235685446697433e-05,
      "loss": 0.8247,
      "step": 935
    },
    {
      "epoch": 0.33496659242761695,
      "grad_norm": 1.97934889793396,
      "learning_rate": 1.373128144938563e-05,
      "loss": 0.7941,
      "step": 940
    },
    {
      "epoch": 0.33674832962138085,
      "grad_norm": 2.35060977935791,
      "learning_rate": 1.3234549597008571e-05,
      "loss": 0.8306,
      "step": 945
    },
    {
      "epoch": 0.33853006681514475,
      "grad_norm": 2.231822967529297,
      "learning_rate": 1.2745594966307823e-05,
      "loss": 0.8044,
      "step": 950
    },
    {
      "epoch": 0.3403118040089087,
      "grad_norm": 2.1318812370300293,
      "learning_rate": 1.22645209888614e-05,
      "loss": 0.7989,
      "step": 955
    },
    {
      "epoch": 0.3420935412026726,
      "grad_norm": 2.565772294998169,
      "learning_rate": 1.1791429429204342e-05,
      "loss": 0.7852,
      "step": 960
    },
    {
      "epoch": 0.3438752783964365,
      "grad_norm": 2.2323334217071533,
      "learning_rate": 1.132642036330181e-05,
      "loss": 0.798,
      "step": 965
    },
    {
      "epoch": 0.34565701559020046,
      "grad_norm": 2.159836769104004,
      "learning_rate": 1.0869592157379304e-05,
      "loss": 0.7913,
      "step": 970
    },
    {
      "epoch": 0.34743875278396436,
      "grad_norm": 2.292523145675659,
      "learning_rate": 1.0421041447114838e-05,
      "loss": 0.8303,
      "step": 975
    },
    {
      "epoch": 0.3492204899777283,
      "grad_norm": 2.540412187576294,
      "learning_rate": 9.980863117196815e-06,
      "loss": 0.8174,
      "step": 980
    },
    {
      "epoch": 0.3510022271714922,
      "grad_norm": 2.6382853984832764,
      "learning_rate": 9.549150281252633e-06,
      "loss": 0.7803,
      "step": 985
    },
    {
      "epoch": 0.3527839643652561,
      "grad_norm": 2.3101236820220947,
      "learning_rate": 9.125994262151682e-06,
      "loss": 0.8372,
      "step": 990
    },
    {
      "epoch": 0.35456570155902006,
      "grad_norm": 2.285560131072998,
      "learning_rate": 8.711484572687296e-06,
      "loss": 0.7965,
      "step": 995
    },
    {
      "epoch": 0.35634743875278396,
      "grad_norm": 1.8707315921783447,
      "learning_rate": 8.305708896641594e-06,
      "loss": 0.8255,
      "step": 1000
    },
    {
      "epoch": 0.35634743875278396,
      "eval_loss": 0.7969963550567627,
      "eval_runtime": 258.8113,
      "eval_samples_per_second": 19.277,
      "eval_steps_per_second": 2.411,
      "step": 1000
    }
  ],
  "logging_steps": 5,
  "max_steps": 1200,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 200,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 1495650375386112.0,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}