{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 3.0,
  "eval_steps": 500,
  "global_step": 687,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.02185792349726776,
      "grad_norm": 6.277235507965088,
      "learning_rate": 1.904761904761905e-06,
      "loss": 0.4046,
      "step": 5
    },
    {
      "epoch": 0.04371584699453552,
      "grad_norm": 8.327006340026855,
      "learning_rate": 4.2857142857142855e-06,
      "loss": 0.4039,
      "step": 10
    },
    {
      "epoch": 0.06557377049180328,
      "grad_norm": 8.754042625427246,
      "learning_rate": 6.666666666666667e-06,
      "loss": 0.3826,
      "step": 15
    },
    {
      "epoch": 0.08743169398907104,
      "grad_norm": 6.780172824859619,
      "learning_rate": 9.047619047619049e-06,
      "loss": 0.4075,
      "step": 20
    },
    {
      "epoch": 0.1092896174863388,
      "grad_norm": 7.9961934089660645,
      "learning_rate": 9.999499358833745e-06,
      "loss": 0.407,
      "step": 25
    },
    {
      "epoch": 0.13114754098360656,
      "grad_norm": 7.852787494659424,
      "learning_rate": 9.9964402481017e-06,
      "loss": 0.3877,
      "step": 30
    },
    {
      "epoch": 0.15300546448087432,
      "grad_norm": 7.6800432205200195,
      "learning_rate": 9.990601860190732e-06,
      "loss": 0.4428,
      "step": 35
    },
    {
      "epoch": 0.17486338797814208,
      "grad_norm": 6.660261154174805,
      "learning_rate": 9.981987442712634e-06,
      "loss": 0.4133,
      "step": 40
    },
    {
      "epoch": 0.19672131147540983,
      "grad_norm": 6.917162895202637,
      "learning_rate": 9.970601787449697e-06,
      "loss": 0.4197,
      "step": 45
    },
    {
      "epoch": 0.2185792349726776,
      "grad_norm": 6.971606254577637,
      "learning_rate": 9.956451227689278e-06,
      "loss": 0.3847,
      "step": 50
    },
    {
      "epoch": 0.24043715846994534,
      "grad_norm": 6.575194835662842,
      "learning_rate": 9.939543634700891e-06,
      "loss": 0.423,
      "step": 55
    },
    {
      "epoch": 0.26229508196721313,
      "grad_norm": 7.785651206970215,
      "learning_rate": 9.919888413357808e-06,
      "loss": 0.4376,
      "step": 60
    },
    {
      "epoch": 0.28415300546448086,
      "grad_norm": 7.012660980224609,
      "learning_rate": 9.897496496905584e-06,
      "loss": 0.442,
      "step": 65
    },
    {
      "epoch": 0.30601092896174864,
      "grad_norm": 6.468194007873535,
      "learning_rate": 9.872380340880416e-06,
      "loss": 0.4195,
      "step": 70
    },
    {
      "epoch": 0.32786885245901637,
      "grad_norm": 6.798722743988037,
      "learning_rate": 9.844553916180748e-06,
      "loss": 0.4557,
      "step": 75
    },
    {
      "epoch": 0.34972677595628415,
      "grad_norm": 7.388920307159424,
      "learning_rate": 9.814032701295923e-06,
      "loss": 0.4672,
      "step": 80
    },
    {
      "epoch": 0.37158469945355194,
      "grad_norm": 7.575526714324951,
      "learning_rate": 9.780833673696255e-06,
      "loss": 0.4636,
      "step": 85
    },
    {
      "epoch": 0.39344262295081966,
      "grad_norm": 6.115290641784668,
      "learning_rate": 9.744975300389295e-06,
      "loss": 0.4255,
      "step": 90
    },
    {
      "epoch": 0.41530054644808745,
      "grad_norm": 6.540434837341309,
      "learning_rate": 9.706477527647517e-06,
      "loss": 0.4234,
      "step": 95
    },
    {
      "epoch": 0.4371584699453552,
      "grad_norm": 6.275904178619385,
      "learning_rate": 9.665361769913187e-06,
      "loss": 0.4627,
      "step": 100
    },
    {
      "epoch": 0.45901639344262296,
      "grad_norm": 6.831546783447266,
      "learning_rate": 9.621650897886543e-06,
      "loss": 0.4499,
      "step": 105
    },
    {
      "epoch": 0.4808743169398907,
      "grad_norm": 7.7145867347717285,
      "learning_rate": 9.57536922580393e-06,
      "loss": 0.4553,
      "step": 110
    },
    {
      "epoch": 0.5027322404371585,
      "grad_norm": 7.448841094970703,
      "learning_rate": 9.526542497912984e-06,
      "loss": 0.4658,
      "step": 115
    },
    {
      "epoch": 0.5245901639344263,
      "grad_norm": 6.3664140701293945,
      "learning_rate": 9.47519787415234e-06,
      "loss": 0.443,
      "step": 120
    },
    {
      "epoch": 0.546448087431694,
      "grad_norm": 6.129184246063232,
      "learning_rate": 9.421363915043889e-06,
      "loss": 0.4025,
      "step": 125
    },
    {
      "epoch": 0.5683060109289617,
      "grad_norm": 6.985552787780762,
      "learning_rate": 9.365070565805941e-06,
      "loss": 0.4494,
      "step": 130
    },
    {
      "epoch": 0.5901639344262295,
      "grad_norm": 7.637452602386475,
      "learning_rate": 9.306349139696155e-06,
      "loss": 0.437,
      "step": 135
    },
    {
      "epoch": 0.6120218579234973,
      "grad_norm": 6.514573574066162,
      "learning_rate": 9.24523230059349e-06,
      "loss": 0.4698,
      "step": 140
    },
    {
      "epoch": 0.6338797814207651,
      "grad_norm": 8.348119735717773,
      "learning_rate": 9.181754044828882e-06,
      "loss": 0.4558,
      "step": 145
    },
    {
      "epoch": 0.6557377049180327,
      "grad_norm": 6.405549049377441,
      "learning_rate": 9.115949682274727e-06,
      "loss": 0.4222,
      "step": 150
    },
    {
      "epoch": 0.6775956284153005,
      "grad_norm": 6.029642581939697,
      "learning_rate": 9.047855816703722e-06,
      "loss": 0.4571,
      "step": 155
    },
    {
      "epoch": 0.6994535519125683,
      "grad_norm": 7.282389163970947,
      "learning_rate": 8.97751032542795e-06,
      "loss": 0.4453,
      "step": 160
    },
    {
      "epoch": 0.7213114754098361,
      "grad_norm": 8.205427169799805,
      "learning_rate": 8.904952338229589e-06,
      "loss": 0.4482,
      "step": 165
    },
    {
      "epoch": 0.7431693989071039,
      "grad_norm": 6.818772792816162,
      "learning_rate": 8.83022221559489e-06,
      "loss": 0.4609,
      "step": 170
    },
    {
      "epoch": 0.7650273224043715,
      "grad_norm": 6.200765609741211,
      "learning_rate": 8.753361526263622e-06,
      "loss": 0.4664,
      "step": 175
    },
    {
      "epoch": 0.7868852459016393,
      "grad_norm": 6.554717540740967,
      "learning_rate": 8.67441302410638e-06,
      "loss": 0.4744,
      "step": 180
    },
    {
      "epoch": 0.8087431693989071,
      "grad_norm": 6.453155517578125,
      "learning_rate": 8.593420624342693e-06,
      "loss": 0.4483,
      "step": 185
    },
    {
      "epoch": 0.8306010928961749,
      "grad_norm": 6.033990383148193,
      "learning_rate": 8.510429379113114e-06,
      "loss": 0.4593,
      "step": 190
    },
    {
      "epoch": 0.8524590163934426,
      "grad_norm": 7.127843379974365,
      "learning_rate": 8.425485452418906e-06,
      "loss": 0.4623,
      "step": 195
    },
    {
      "epoch": 0.8743169398907104,
      "grad_norm": 6.647049903869629,
      "learning_rate": 8.338636094443242e-06,
      "loss": 0.4353,
      "step": 200
    },
    {
      "epoch": 0.8961748633879781,
      "grad_norm": 5.466816425323486,
      "learning_rate": 8.249929615268234e-06,
      "loss": 0.4422,
      "step": 205
    },
    {
      "epoch": 0.9180327868852459,
      "grad_norm": 6.172186374664307,
      "learning_rate": 8.159415358002361e-06,
      "loss": 0.4346,
      "step": 210
    },
    {
      "epoch": 0.9398907103825137,
      "grad_norm": 7.140369415283203,
      "learning_rate": 8.06714367133331e-06,
      "loss": 0.44,
      "step": 215
    },
    {
      "epoch": 0.9617486338797814,
      "grad_norm": 5.786808967590332,
      "learning_rate": 7.973165881521435e-06,
      "loss": 0.4068,
      "step": 220
    },
    {
      "epoch": 0.9836065573770492,
      "grad_norm": 5.872406005859375,
      "learning_rate": 7.877534263849452e-06,
      "loss": 0.4708,
      "step": 225
    },
    {
      "epoch": 1.0043715846994536,
      "grad_norm": 6.18726921081543,
      "learning_rate": 7.78030201354424e-06,
      "loss": 0.3486,
      "step": 230
    },
    {
      "epoch": 1.0262295081967212,
      "grad_norm": 4.369821071624756,
      "learning_rate": 7.681523216186912e-06,
      "loss": 0.1797,
      "step": 235
    },
    {
      "epoch": 1.048087431693989,
      "grad_norm": 4.727810382843018,
      "learning_rate": 7.581252817627645e-06,
      "loss": 0.1731,
      "step": 240
    },
    {
      "epoch": 1.0699453551912568,
      "grad_norm": 4.88486385345459,
      "learning_rate": 7.479546593421948e-06,
      "loss": 0.1559,
      "step": 245
    },
    {
      "epoch": 1.0918032786885246,
      "grad_norm": 6.529294013977051,
      "learning_rate": 7.37646111780545e-06,
      "loss": 0.1742,
      "step": 250
    },
    {
      "epoch": 1.1136612021857923,
      "grad_norm": 7.334583282470703,
      "learning_rate": 7.272053732224388e-06,
      "loss": 0.1732,
      "step": 255
    },
    {
      "epoch": 1.1355191256830601,
      "grad_norm": 6.130211353302002,
      "learning_rate": 7.166382513439344e-06,
      "loss": 0.1946,
      "step": 260
    },
    {
      "epoch": 1.157377049180328,
      "grad_norm": 5.0988898277282715,
      "learning_rate": 7.059506241219964e-06,
      "loss": 0.1952,
      "step": 265
    },
    {
      "epoch": 1.1792349726775957,
      "grad_norm": 3.992133855819702,
      "learning_rate": 6.951484365648628e-06,
      "loss": 0.1576,
      "step": 270
    },
    {
      "epoch": 1.2010928961748635,
      "grad_norm": 5.18056058883667,
      "learning_rate": 6.84237697405125e-06,
      "loss": 0.1576,
      "step": 275
    },
    {
      "epoch": 1.222950819672131,
      "grad_norm": 4.562799453735352,
      "learning_rate": 6.732244757573619e-06,
      "loss": 0.1794,
      "step": 280
    },
    {
      "epoch": 1.2448087431693988,
      "grad_norm": 5.601682186126709,
      "learning_rate": 6.621148977421856e-06,
      "loss": 0.1896,
      "step": 285
    },
    {
      "epoch": 1.2666666666666666,
      "grad_norm": 5.755665302276611,
      "learning_rate": 6.509151430785785e-06,
      "loss": 0.1772,
      "step": 290
    },
    {
      "epoch": 1.2885245901639344,
      "grad_norm": 5.684791088104248,
      "learning_rate": 6.396314416464151e-06,
      "loss": 0.1815,
      "step": 295
    },
    {
      "epoch": 1.3103825136612022,
      "grad_norm": 4.685842990875244,
      "learning_rate": 6.282700700210826e-06,
      "loss": 0.1775,
      "step": 300
    },
    {
      "epoch": 1.33224043715847,
      "grad_norm": 6.221555709838867,
      "learning_rate": 6.168373479821264e-06,
      "loss": 0.1719,
      "step": 305
    },
    {
      "epoch": 1.3540983606557377,
      "grad_norm": 5.392637729644775,
      "learning_rate": 6.053396349978632e-06,
      "loss": 0.2005,
      "step": 310
    },
    {
      "epoch": 1.3759562841530055,
      "grad_norm": 6.087809085845947,
      "learning_rate": 5.937833266879186e-06,
      "loss": 0.2075,
      "step": 315
    },
    {
      "epoch": 1.3978142076502733,
      "grad_norm": 5.292911529541016,
      "learning_rate": 5.821748512656531e-06,
      "loss": 0.1844,
      "step": 320
    },
    {
      "epoch": 1.419672131147541,
      "grad_norm": 5.144812107086182,
      "learning_rate": 5.705206659624597e-06,
      "loss": 0.166,
      "step": 325
    },
    {
      "epoch": 1.4415300546448089,
      "grad_norm": 5.36559534072876,
      "learning_rate": 5.588272534359193e-06,
      "loss": 0.1638,
      "step": 330
    },
    {
      "epoch": 1.4633879781420764,
      "grad_norm": 5.765285015106201,
      "learning_rate": 5.471011181638131e-06,
      "loss": 0.1635,
      "step": 335
    },
    {
      "epoch": 1.4852459016393442,
      "grad_norm": 5.381952285766602,
      "learning_rate": 5.353487828259973e-06,
      "loss": 0.1724,
      "step": 340
    },
    {
      "epoch": 1.507103825136612,
      "grad_norm": 5.4087605476379395,
      "learning_rate": 5.23576784676153e-06,
      "loss": 0.1642,
      "step": 345
    },
    {
      "epoch": 1.5289617486338798,
      "grad_norm": 5.605231285095215,
      "learning_rate": 5.117916719054285e-06,
      "loss": 0.1776,
      "step": 350
    },
    {
      "epoch": 1.5508196721311476,
      "grad_norm": 4.263212203979492,
      "learning_rate": 5e-06,
      "loss": 0.1825,
      "step": 355
    },
    {
      "epoch": 1.5726775956284151,
      "grad_norm": 4.998441219329834,
      "learning_rate": 4.882083280945716e-06,
      "loss": 0.1828,
      "step": 360
    },
    {
      "epoch": 1.594535519125683,
      "grad_norm": 5.801028728485107,
      "learning_rate": 4.764232153238473e-06,
      "loss": 0.1952,
      "step": 365
    },
    {
      "epoch": 1.6163934426229507,
      "grad_norm": 5.308819770812988,
      "learning_rate": 4.646512171740028e-06,
      "loss": 0.1749,
      "step": 370
    },
    {
      "epoch": 1.6382513661202185,
      "grad_norm": 4.478003978729248,
      "learning_rate": 4.5289888183618695e-06,
      "loss": 0.1692,
      "step": 375
    },
    {
      "epoch": 1.6601092896174863,
      "grad_norm": 5.428745746612549,
      "learning_rate": 4.411727465640808e-06,
      "loss": 0.1617,
      "step": 380
    },
    {
      "epoch": 1.681967213114754,
      "grad_norm": 5.291439533233643,
      "learning_rate": 4.294793340375405e-06,
      "loss": 0.1544,
      "step": 385
    },
    {
      "epoch": 1.7038251366120218,
      "grad_norm": 4.887421607971191,
      "learning_rate": 4.178251487343471e-06,
      "loss": 0.183,
      "step": 390
    },
    {
      "epoch": 1.7256830601092896,
      "grad_norm": 5.476945400238037,
      "learning_rate": 4.062166733120816e-06,
      "loss": 0.1656,
      "step": 395
    },
    {
      "epoch": 1.7475409836065574,
      "grad_norm": 5.077537536621094,
      "learning_rate": 3.94660365002137e-06,
      "loss": 0.1753,
      "step": 400
    },
    {
      "epoch": 1.7693989071038252,
      "grad_norm": 5.308331489562988,
      "learning_rate": 3.831626520178739e-06,
      "loss": 0.1518,
      "step": 405
    },
    {
      "epoch": 1.791256830601093,
      "grad_norm": 5.107011318206787,
      "learning_rate": 3.7172992997891756e-06,
      "loss": 0.1643,
      "step": 410
    },
    {
      "epoch": 1.8131147540983608,
      "grad_norm": 5.22144889831543,
      "learning_rate": 3.60368558353585e-06,
      "loss": 0.1622,
      "step": 415
    },
    {
      "epoch": 1.8349726775956285,
      "grad_norm": 5.993991851806641,
      "learning_rate": 3.4908485692142167e-06,
      "loss": 0.1818,
      "step": 420
    },
    {
      "epoch": 1.8568306010928963,
      "grad_norm": 4.379316329956055,
      "learning_rate": 3.378851022578146e-06,
      "loss": 0.1376,
      "step": 425
    },
    {
      "epoch": 1.8786885245901639,
      "grad_norm": 4.988259792327881,
      "learning_rate": 3.2677552424263836e-06,
      "loss": 0.1501,
      "step": 430
    },
    {
      "epoch": 1.9005464480874317,
      "grad_norm": 6.040336608886719,
      "learning_rate": 3.157623025948752e-06,
      "loss": 0.184,
      "step": 435
    },
    {
      "epoch": 1.9224043715846995,
      "grad_norm": 5.312036514282227,
      "learning_rate": 3.0485156343513733e-06,
      "loss": 0.1552,
      "step": 440
    },
    {
      "epoch": 1.9442622950819672,
      "grad_norm": 5.65187406539917,
      "learning_rate": 2.9404937587800374e-06,
      "loss": 0.1457,
      "step": 445
    },
    {
      "epoch": 1.966120218579235,
      "grad_norm": 4.825805187225342,
      "learning_rate": 2.8336174865606587e-06,
      "loss": 0.1686,
      "step": 450
    },
    {
      "epoch": 1.9879781420765026,
      "grad_norm": 5.101731777191162,
      "learning_rate": 2.727946267775613e-06,
      "loss": 0.1582,
      "step": 455
    },
    {
      "epoch": 2.0087431693989073,
      "grad_norm": 2.968672513961792,
      "learning_rate": 2.6235388821945497e-06,
      "loss": 0.1114,
      "step": 460
    },
    {
      "epoch": 2.030601092896175,
      "grad_norm": 2.115004777908325,
      "learning_rate": 2.5204534065780534e-06,
      "loss": 0.048,
      "step": 465
    },
    {
      "epoch": 2.0524590163934424,
      "grad_norm": 2.478771448135376,
      "learning_rate": 2.4187471823723558e-06,
      "loss": 0.0578,
      "step": 470
    },
    {
      "epoch": 2.07431693989071,
      "grad_norm": 3.982006549835205,
      "learning_rate": 2.318476783813088e-06,
      "loss": 0.0498,
      "step": 475
    },
    {
      "epoch": 2.096174863387978,
      "grad_norm": 2.9506826400756836,
      "learning_rate": 2.2196979864557624e-06,
      "loss": 0.0492,
      "step": 480
    },
    {
      "epoch": 2.1180327868852458,
      "grad_norm": 2.858085870742798,
      "learning_rate": 2.122465736150549e-06,
      "loss": 0.0436,
      "step": 485
    },
    {
      "epoch": 2.1398907103825136,
      "grad_norm": 3.81016206741333,
      "learning_rate": 2.0268341184785674e-06,
      "loss": 0.0566,
      "step": 490
    },
    {
      "epoch": 2.1617486338797813,
      "grad_norm": 4.457023620605469,
      "learning_rate": 1.93285632866669e-06,
      "loss": 0.0545,
      "step": 495
    },
    {
      "epoch": 2.183606557377049,
      "grad_norm": 2.9486582279205322,
      "learning_rate": 1.8405846419976397e-06,
      "loss": 0.0468,
      "step": 500
    },
    {
      "epoch": 2.205464480874317,
      "grad_norm": 3.4897685050964355,
      "learning_rate": 1.7500703847317663e-06,
      "loss": 0.0512,
      "step": 505
    },
    {
      "epoch": 2.2273224043715847,
      "grad_norm": 4.003109931945801,
      "learning_rate": 1.6613639055567583e-06,
      "loss": 0.0502,
      "step": 510
    },
    {
      "epoch": 2.2491803278688525,
      "grad_norm": 3.267022132873535,
      "learning_rate": 1.5745145475810952e-06,
      "loss": 0.051,
      "step": 515
    },
    {
      "epoch": 2.2710382513661203,
      "grad_norm": 3.508829355239868,
      "learning_rate": 1.4895706208868876e-06,
      "loss": 0.0524,
      "step": 520
    },
    {
      "epoch": 2.292896174863388,
      "grad_norm": 3.8706185817718506,
      "learning_rate": 1.4065793756573082e-06,
      "loss": 0.0701,
      "step": 525
    },
    {
      "epoch": 2.314754098360656,
      "grad_norm": 3.8509650230407715,
      "learning_rate": 1.3255869758936214e-06,
      "loss": 0.0529,
      "step": 530
    },
    {
      "epoch": 2.3366120218579236,
      "grad_norm": 4.108227252960205,
      "learning_rate": 1.246638473736378e-06,
      "loss": 0.0569,
      "step": 535
    },
    {
      "epoch": 2.3584699453551914,
      "grad_norm": 3.623960256576538,
      "learning_rate": 1.1697777844051105e-06,
      "loss": 0.0381,
      "step": 540
    },
    {
      "epoch": 2.380327868852459,
      "grad_norm": 3.726578950881958,
      "learning_rate": 1.0950476617704126e-06,
      "loss": 0.0418,
      "step": 545
    },
    {
      "epoch": 2.402185792349727,
      "grad_norm": 2.5834994316101074,
      "learning_rate": 1.0224896745720513e-06,
      "loss": 0.0499,
      "step": 550
    },
    {
      "epoch": 2.4240437158469943,
      "grad_norm": 2.980644941329956,
      "learning_rate": 9.521441832962802e-07,
      "loss": 0.047,
      "step": 555
    },
    {
      "epoch": 2.445901639344262,
      "grad_norm": 2.5629689693450928,
      "learning_rate": 8.840503177252746e-07,
      "loss": 0.0379,
      "step": 560
    },
    {
      "epoch": 2.46775956284153,
      "grad_norm": 2.8533382415771484,
      "learning_rate": 8.182459551711197e-07,
      "loss": 0.0406,
      "step": 565
    },
    {
      "epoch": 2.4896174863387976,
      "grad_norm": 2.8579938411712646,
      "learning_rate": 7.547676994065118e-07,
      "loss": 0.0502,
      "step": 570
    },
    {
      "epoch": 2.5114754098360654,
      "grad_norm": 4.363832473754883,
      "learning_rate": 6.936508603038467e-07,
      "loss": 0.0488,
      "step": 575
    },
    {
      "epoch": 2.533333333333333,
      "grad_norm": 3.9034152030944824,
      "learning_rate": 6.349294341940593e-07,
      "loss": 0.045,
      "step": 580
    },
    {
      "epoch": 2.555191256830601,
      "grad_norm": 3.7723586559295654,
      "learning_rate": 5.786360849561118e-07,
      "loss": 0.0579,
      "step": 585
    },
    {
      "epoch": 2.577049180327869,
      "grad_norm": 2.8064322471618652,
      "learning_rate": 5.248021258476604e-07,
      "loss": 0.041,
      "step": 590
    },
    {
      "epoch": 2.5989071038251366,
      "grad_norm": 2.720299482345581,
      "learning_rate": 4.734575020870169e-07,
      "loss": 0.0482,
      "step": 595
    },
    {
      "epoch": 2.6207650273224044,
      "grad_norm": 3.965766429901123,
      "learning_rate": 4.2463077419606977e-07,
      "loss": 0.0468,
      "step": 600
    },
    {
      "epoch": 2.642622950819672,
      "grad_norm": 4.24222469329834,
      "learning_rate": 3.7834910211345887e-07,
      "loss": 0.0436,
      "step": 605
    },
    {
      "epoch": 2.66448087431694,
      "grad_norm": 4.305575847625732,
      "learning_rate": 3.346382300868134e-07,
      "loss": 0.0427,
      "step": 610
    },
    {
      "epoch": 2.6863387978142077,
      "grad_norm": 3.806036949157715,
      "learning_rate": 2.935224723524843e-07,
      "loss": 0.0572,
      "step": 615
    },
    {
      "epoch": 2.7081967213114755,
      "grad_norm": 4.661888599395752,
      "learning_rate": 2.5502469961070643e-07,
      "loss": 0.041,
      "step": 620
    },
    {
      "epoch": 2.7300546448087433,
      "grad_norm": 5.042760372161865,
      "learning_rate": 2.1916632630374579e-07,
      "loss": 0.0458,
      "step": 625
    },
    {
      "epoch": 2.751912568306011,
      "grad_norm": 2.8905680179595947,
      "learning_rate": 1.8596729870407836e-07,
      "loss": 0.0464,
      "step": 630
    },
    {
      "epoch": 2.773770491803279,
      "grad_norm": 2.9250757694244385,
      "learning_rate": 1.5544608381925285e-07,
      "loss": 0.0461,
      "step": 635
    },
    {
      "epoch": 2.7956284153005466,
      "grad_norm": 4.164889335632324,
      "learning_rate": 1.2761965911958385e-07,
      "loss": 0.0529,
      "step": 640
    },
    {
      "epoch": 2.8174863387978144,
      "grad_norm": 3.0525989532470703,
      "learning_rate": 1.0250350309441826e-07,
      "loss": 0.0367,
      "step": 645
    },
    {
      "epoch": 2.839344262295082,
      "grad_norm": 2.445016384124756,
      "learning_rate": 8.011158664219254e-08,
      "loss": 0.0508,
      "step": 650
    },
    {
      "epoch": 2.86120218579235,
      "grad_norm": 3.160543441772461,
      "learning_rate": 6.045636529911025e-08,
      "loss": 0.0465,
      "step": 655
    },
    {
      "epoch": 2.8830601092896178,
      "grad_norm": 3.9304957389831543,
      "learning_rate": 4.3548772310723073e-08,
      "loss": 0.0407,
      "step": 660
    },
    {
      "epoch": 2.904918032786885,
      "grad_norm": 3.477825880050659,
      "learning_rate": 2.939821255030395e-08,
      "loss": 0.0466,
      "step": 665
    },
    {
      "epoch": 2.926775956284153,
      "grad_norm": 3.0210909843444824,
      "learning_rate": 1.8012557287367394e-08,
      "loss": 0.0444,
      "step": 670
    },
    {
      "epoch": 2.9486338797814207,
      "grad_norm": 2.914111852645874,
      "learning_rate": 9.398139809268513e-09,
      "loss": 0.0501,
      "step": 675
    },
    {
      "epoch": 2.9704918032786884,
      "grad_norm": 2.301490068435669,
      "learning_rate": 3.5597518982999346e-09,
      "loss": 0.0375,
      "step": 680
    },
    {
      "epoch": 2.9923497267759562,
      "grad_norm": 3.19809627532959,
      "learning_rate": 5.006411662555888e-10,
      "loss": 0.0455,
      "step": 685
    }
  ],
  "logging_steps": 5,
  "max_steps": 687,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 3,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 9.285753557053604e+17,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}