{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 4.870544090056285,
  "eval_steps": 500,
  "global_step": 165,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0300187617260788,
      "grad_norm": 19.618404854139,
      "learning_rate": 1e-05,
      "loss": 0.6154,
      "mean_token_accuracy": 0.8398024253547192,
      "step": 1
    },
    {
      "epoch": 0.0600375234521576,
      "grad_norm": 21.798338409796745,
      "learning_rate": 2e-05,
      "loss": 0.6416,
      "mean_token_accuracy": 0.8340235594660044,
      "step": 2
    },
    {
      "epoch": 0.0900562851782364,
      "grad_norm": 13.833687232901854,
      "learning_rate": 3e-05,
      "loss": 0.5896,
      "mean_token_accuracy": 0.8433804120868444,
      "step": 3
    },
    {
      "epoch": 0.1200750469043152,
      "grad_norm": 5.505910810820941,
      "learning_rate": 4e-05,
      "loss": 0.5319,
      "mean_token_accuracy": 0.8556831870228052,
      "step": 4
    },
    {
      "epoch": 0.150093808630394,
      "grad_norm": 5.278702397056334,
      "learning_rate": 5e-05,
      "loss": 0.4437,
      "mean_token_accuracy": 0.8703144080936909,
      "step": 5
    },
    {
      "epoch": 0.1801125703564728,
      "grad_norm": 2.1162182135646033,
      "learning_rate": 4.9995181012051625e-05,
      "loss": 0.4193,
      "mean_token_accuracy": 0.878010880202055,
      "step": 6
    },
    {
      "epoch": 0.2101313320825516,
      "grad_norm": 14.208326816182495,
      "learning_rate": 4.9980725906018074e-05,
      "loss": 0.4096,
      "mean_token_accuracy": 0.8749048858880997,
      "step": 7
    },
    {
      "epoch": 0.2401500938086304,
      "grad_norm": 2.162621083920564,
      "learning_rate": 4.9956640254617906e-05,
      "loss": 0.3978,
      "mean_token_accuracy": 0.8762698639184237,
      "step": 8
    },
    {
      "epoch": 0.2701688555347092,
      "grad_norm": 2.034935016310286,
      "learning_rate": 4.99229333433282e-05,
      "loss": 0.374,
      "mean_token_accuracy": 0.8837966062128544,
      "step": 9
    },
    {
      "epoch": 0.300187617260788,
      "grad_norm": 1.2368690799465214,
      "learning_rate": 4.987961816680492e-05,
      "loss": 0.3545,
      "mean_token_accuracy": 0.8879855256527662,
      "step": 10
    },
    {
      "epoch": 0.3302063789868668,
      "grad_norm": 0.8933826446995154,
      "learning_rate": 4.982671142387316e-05,
      "loss": 0.3527,
      "mean_token_accuracy": 0.8875276073813438,
      "step": 11
    },
    {
      "epoch": 0.3602251407129456,
      "grad_norm": 0.8267017608965835,
      "learning_rate": 4.976423351108943e-05,
      "loss": 0.3186,
      "mean_token_accuracy": 0.8965118452906609,
      "step": 12
    },
    {
      "epoch": 0.3902439024390244,
      "grad_norm": 0.6967492468619846,
      "learning_rate": 4.9692208514878444e-05,
      "loss": 0.3016,
      "mean_token_accuracy": 0.9023277424275875,
      "step": 13
    },
    {
      "epoch": 0.4202626641651032,
      "grad_norm": 0.626201960051008,
      "learning_rate": 4.9610664202247294e-05,
      "loss": 0.3189,
      "mean_token_accuracy": 0.8961522448807955,
      "step": 14
    },
    {
      "epoch": 0.450281425891182,
      "grad_norm": 0.519219193366074,
      "learning_rate": 4.951963201008076e-05,
      "loss": 0.3031,
      "mean_token_accuracy": 0.9007221981883049,
      "step": 15
    },
    {
      "epoch": 0.4803001876172608,
      "grad_norm": 0.5430064582418314,
      "learning_rate": 4.9419147033021814e-05,
      "loss": 0.2963,
      "mean_token_accuracy": 0.9018692336976528,
      "step": 16
    },
    {
      "epoch": 0.5103189493433395,
      "grad_norm": 0.45295446404829903,
      "learning_rate": 4.9309248009941914e-05,
      "loss": 0.2945,
      "mean_token_accuracy": 0.9022990744560957,
      "step": 17
    },
    {
      "epoch": 0.5403377110694184,
      "grad_norm": 0.39810793732783883,
      "learning_rate": 4.9189977309006495e-05,
      "loss": 0.2867,
      "mean_token_accuracy": 0.9044581968337297,
      "step": 18
    },
    {
      "epoch": 0.5703564727954972,
      "grad_norm": 0.29279224179883323,
      "learning_rate": 4.906138091134118e-05,
      "loss": 0.2817,
      "mean_token_accuracy": 0.9055654220283031,
      "step": 19
    },
    {
      "epoch": 0.600375234521576,
      "grad_norm": 0.26896824294508065,
      "learning_rate": 4.892350839330522e-05,
      "loss": 0.2921,
      "mean_token_accuracy": 0.9025575239211321,
      "step": 20
    },
    {
      "epoch": 0.6303939962476548,
      "grad_norm": 0.2400534443678901,
      "learning_rate": 4.877641290737884e-05,
      "loss": 0.2831,
      "mean_token_accuracy": 0.9051281735301018,
      "step": 21
    },
    {
      "epoch": 0.6604127579737336,
      "grad_norm": 0.2249165746946966,
      "learning_rate": 4.862015116167196e-05,
      "loss": 0.2698,
      "mean_token_accuracy": 0.9093952961266041,
      "step": 22
    },
    {
      "epoch": 0.6904315196998124,
      "grad_norm": 0.264247809537063,
      "learning_rate": 4.8454783398062106e-05,
      "loss": 0.2686,
      "mean_token_accuracy": 0.9091940615326166,
      "step": 23
    },
    {
      "epoch": 0.7204502814258912,
      "grad_norm": 0.20930943221019285,
      "learning_rate": 4.828037336897009e-05,
      "loss": 0.2687,
      "mean_token_accuracy": 0.9089630376547575,
      "step": 24
    },
    {
      "epoch": 0.7504690431519699,
      "grad_norm": 0.23889395502942187,
      "learning_rate": 4.8096988312782174e-05,
      "loss": 0.2871,
      "mean_token_accuracy": 0.9030982349067926,
      "step": 25
    },
    {
      "epoch": 0.7804878048780488,
      "grad_norm": 0.21055564681809716,
      "learning_rate": 4.7904698927928406e-05,
      "loss": 0.272,
      "mean_token_accuracy": 0.9078760109841824,
      "step": 26
    },
    {
      "epoch": 0.8105065666041276,
      "grad_norm": 0.21681199372541698,
      "learning_rate": 4.7703579345627035e-05,
      "loss": 0.2619,
      "mean_token_accuracy": 0.9109147116541862,
      "step": 27
    },
    {
      "epoch": 0.8405253283302064,
      "grad_norm": 0.21247193653216784,
      "learning_rate": 4.749370710130554e-05,
      "loss": 0.2721,
      "mean_token_accuracy": 0.9074795469641685,
      "step": 28
    },
    {
      "epoch": 0.8705440900562852,
      "grad_norm": 0.20525916333687041,
      "learning_rate": 4.72751631047092e-05,
      "loss": 0.2539,
      "mean_token_accuracy": 0.9133741557598114,
      "step": 29
    },
    {
      "epoch": 0.900562851782364,
      "grad_norm": 0.21529654405923737,
      "learning_rate": 4.7048031608708876e-05,
      "loss": 0.2603,
      "mean_token_accuracy": 0.9109627865254879,
      "step": 30
    },
    {
      "epoch": 0.9305816135084428,
      "grad_norm": 0.20791794762620378,
      "learning_rate": 4.681240017681993e-05,
      "loss": 0.2593,
      "mean_token_accuracy": 0.9111653957515955,
      "step": 31
    },
    {
      "epoch": 0.9606003752345216,
      "grad_norm": 0.20774824517485244,
      "learning_rate": 4.65683596494448e-05,
      "loss": 0.2719,
      "mean_token_accuracy": 0.9068219736218452,
      "step": 32
    },
    {
      "epoch": 0.9906191369606003,
      "grad_norm": 0.28582938868285823,
      "learning_rate": 4.6316004108852305e-05,
      "loss": 0.2645,
      "mean_token_accuracy": 0.9088481441140175,
      "step": 33
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.28582938868285823,
      "learning_rate": 4.6055430842907167e-05,
      "loss": 0.2564,
      "mean_token_accuracy": 0.9133941173553467,
      "step": 34
    },
    {
      "epoch": 1.0300187617260788,
      "grad_norm": 0.3589081697155284,
      "learning_rate": 4.5786740307563636e-05,
      "loss": 0.2082,
      "mean_token_accuracy": 0.9285639356821775,
      "step": 35
    },
    {
      "epoch": 1.0600375234521575,
      "grad_norm": 0.19449792688035672,
      "learning_rate": 4.551003608813784e-05,
      "loss": 0.2047,
      "mean_token_accuracy": 0.9296260979026556,
      "step": 36
    },
    {
      "epoch": 1.0900562851782365,
      "grad_norm": 0.23233991689426617,
      "learning_rate": 4.522542485937369e-05,
      "loss": 0.1979,
      "mean_token_accuracy": 0.9314604848623276,
      "step": 37
    },
    {
      "epoch": 1.1200750469043153,
      "grad_norm": 0.21035371628271216,
      "learning_rate": 4.493301634431768e-05,
      "loss": 0.2014,
      "mean_token_accuracy": 0.9298410974442959,
      "step": 38
    },
    {
      "epoch": 1.150093808630394,
      "grad_norm": 0.20990624713625997,
      "learning_rate": 4.463292327201862e-05,
      "loss": 0.1913,
      "mean_token_accuracy": 0.933486595749855,
      "step": 39
    },
    {
      "epoch": 1.1801125703564728,
      "grad_norm": 0.2156272816847033,
      "learning_rate": 4.4325261334068426e-05,
      "loss": 0.2031,
      "mean_token_accuracy": 0.9307098593562841,
      "step": 40
    },
    {
      "epoch": 1.2101313320825515,
      "grad_norm": 0.21696878272059866,
      "learning_rate": 4.401014914000078e-05,
      "loss": 0.1915,
      "mean_token_accuracy": 0.9335418920964003,
      "step": 41
    },
    {
      "epoch": 1.2401500938086305,
      "grad_norm": 0.1818612765558643,
      "learning_rate": 4.3687708171564925e-05,
      "loss": 0.1791,
      "mean_token_accuracy": 0.9380327388644218,
      "step": 42
    },
    {
      "epoch": 1.2701688555347093,
      "grad_norm": 0.18129814277988898,
      "learning_rate": 4.335806273589214e-05,
      "loss": 0.1931,
      "mean_token_accuracy": 0.9324233587831259,
      "step": 43
    },
    {
      "epoch": 1.300187617260788,
      "grad_norm": 0.18921071728690822,
      "learning_rate": 4.302133991757297e-05,
      "loss": 0.1861,
      "mean_token_accuracy": 0.9347784202545881,
      "step": 44
    },
    {
      "epoch": 1.3302063789868668,
      "grad_norm": 0.1846346124739407,
      "learning_rate": 4.267766952966369e-05,
      "loss": 0.1978,
      "mean_token_accuracy": 0.9310048930346966,
      "step": 45
    },
    {
      "epoch": 1.3602251407129455,
      "grad_norm": 0.18689120002736795,
      "learning_rate": 4.23271840636409e-05,
      "loss": 0.1931,
      "mean_token_accuracy": 0.9321947041898966,
      "step": 46
    },
    {
      "epoch": 1.3902439024390243,
      "grad_norm": 0.18301258133692994,
      "learning_rate": 4.197001863832355e-05,
      "loss": 0.1991,
      "mean_token_accuracy": 0.9307528082281351,
      "step": 47
    },
    {
      "epoch": 1.4202626641651033,
      "grad_norm": 0.20071944245709974,
      "learning_rate": 4.1606310947782044e-05,
      "loss": 0.1883,
      "mean_token_accuracy": 0.9341552760452032,
      "step": 48
    },
    {
      "epoch": 1.450281425891182,
      "grad_norm": 0.21531485697866234,
      "learning_rate": 4.123620120825459e-05,
      "loss": 0.1793,
      "mean_token_accuracy": 0.9380034245550632,
      "step": 49
    },
    {
      "epoch": 1.4803001876172608,
      "grad_norm": 0.17040701196766744,
      "learning_rate": 4.085983210409114e-05,
      "loss": 0.17,
      "mean_token_accuracy": 0.9408059008419514,
      "step": 50
    },
    {
      "epoch": 1.5103189493433395,
      "grad_norm": 0.17082023776864208,
      "learning_rate": 4.047734873274586e-05,
      "loss": 0.1777,
      "mean_token_accuracy": 0.9373182617127895,
      "step": 51
    },
    {
      "epoch": 1.5403377110694185,
      "grad_norm": 0.18880547525592725,
      "learning_rate": 4.008889854883929e-05,
      "loss": 0.1905,
      "mean_token_accuracy": 0.9339997190982103,
      "step": 52
    },
    {
      "epoch": 1.5703564727954973,
      "grad_norm": 0.2003270144688197,
      "learning_rate": 3.969463130731183e-05,
      "loss": 0.1829,
      "mean_token_accuracy": 0.9364625960588455,
      "step": 53
    },
    {
      "epoch": 1.600375234521576,
      "grad_norm": 0.16248574881358357,
      "learning_rate": 3.9294699005690305e-05,
      "loss": 0.187,
      "mean_token_accuracy": 0.9349782522767782,
      "step": 54
    },
    {
      "epoch": 1.6303939962476548,
      "grad_norm": 0.16268952077579069,
      "learning_rate": 3.888925582549006e-05,
      "loss": 0.1806,
      "mean_token_accuracy": 0.9380554854869843,
      "step": 55
    },
    {
      "epoch": 1.6604127579737336,
      "grad_norm": 0.16260973286493194,
      "learning_rate": 3.847845807277502e-05,
      "loss": 0.1756,
      "mean_token_accuracy": 0.9381309170275927,
      "step": 56
    },
    {
      "epoch": 1.6904315196998123,
      "grad_norm": 0.18849387268876527,
      "learning_rate": 3.8062464117898724e-05,
      "loss": 0.1905,
      "mean_token_accuracy": 0.933776805177331,
      "step": 57
    },
    {
      "epoch": 1.720450281425891,
      "grad_norm": 0.1812480467627804,
      "learning_rate": 3.764143433444962e-05,
      "loss": 0.1845,
      "mean_token_accuracy": 0.9354843944311142,
      "step": 58
    },
    {
      "epoch": 1.7504690431519698,
      "grad_norm": 0.19727408903046884,
      "learning_rate": 3.721553103742388e-05,
      "loss": 0.1839,
      "mean_token_accuracy": 0.9353628680109978,
      "step": 59
    },
    {
      "epoch": 1.7804878048780488,
      "grad_norm": 0.16881751417638702,
      "learning_rate": 3.678491842064995e-05,
      "loss": 0.1847,
      "mean_token_accuracy": 0.9353015590459108,
      "step": 60
    },
    {
      "epoch": 1.8105065666041276,
      "grad_norm": 0.1805153593928837,
      "learning_rate": 3.634976249348867e-05,
      "loss": 0.189,
      "mean_token_accuracy": 0.9340192507952452,
      "step": 61
    },
    {
      "epoch": 1.8405253283302065,
      "grad_norm": 0.16744864978079732,
      "learning_rate": 3.591023101683355e-05,
      "loss": 0.1873,
      "mean_token_accuracy": 0.9332233294844627,
      "step": 62
    },
    {
      "epoch": 1.8705440900562853,
      "grad_norm": 0.20943512548005347,
      "learning_rate": 3.54664934384357e-05,
      "loss": 0.1833,
      "mean_token_accuracy": 0.9361728671938181,
      "step": 63
    },
    {
      "epoch": 1.900562851782364,
      "grad_norm": 0.15100109107147408,
      "learning_rate": 3.5018720827578524e-05,
      "loss": 0.177,
      "mean_token_accuracy": 0.9376390129327774,
      "step": 64
    },
    {
      "epoch": 1.9305816135084428,
      "grad_norm": 0.20136076678950812,
      "learning_rate": 3.456708580912725e-05,
      "loss": 0.1847,
      "mean_token_accuracy": 0.9356410764157772,
      "step": 65
    },
    {
      "epoch": 1.9606003752345216,
      "grad_norm": 0.16935110772638642,
      "learning_rate": 3.411176249697875e-05,
      "loss": 0.1882,
      "mean_token_accuracy": 0.9341955110430717,
      "step": 66
    },
    {
      "epoch": 1.9906191369606003,
      "grad_norm": 0.17801077092117232,
      "learning_rate": 3.365292642693732e-05,
      "loss": 0.1791,
      "mean_token_accuracy": 0.9368807151913643,
      "step": 67
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.17801077092117232,
      "learning_rate": 3.319075448904234e-05,
      "loss": 0.1817,
      "mean_token_accuracy": 0.9353618502616883,
      "step": 68
    },
    {
      "epoch": 2.0300187617260788,
      "grad_norm": 0.34283977157187906,
      "learning_rate": 3.272542485937369e-05,
      "loss": 0.1162,
      "mean_token_accuracy": 0.9604951441287994,
      "step": 69
    },
    {
      "epoch": 2.0600375234521575,
      "grad_norm": 0.25353133352641416,
      "learning_rate": 3.225711693136156e-05,
      "loss": 0.1155,
      "mean_token_accuracy": 0.9606517199426889,
      "step": 70
    },
    {
      "epoch": 2.0900562851782363,
      "grad_norm": 0.36813345733413727,
      "learning_rate": 3.178601124662686e-05,
      "loss": 0.1092,
      "mean_token_accuracy": 0.9620461780577898,
      "step": 71
    },
    {
      "epoch": 2.120075046904315,
      "grad_norm": 0.20837522140479256,
      "learning_rate": 3.131228942537895e-05,
      "loss": 0.1064,
      "mean_token_accuracy": 0.9636496491730213,
      "step": 72
    },
    {
      "epoch": 2.150093808630394,
      "grad_norm": 0.2546796945935164,
      "learning_rate": 3.083613409639764e-05,
      "loss": 0.1082,
      "mean_token_accuracy": 0.9626397844403982,
      "step": 73
    },
    {
      "epoch": 2.180112570356473,
      "grad_norm": 0.2517042958600063,
      "learning_rate": 3.035772882662627e-05,
      "loss": 0.1024,
      "mean_token_accuracy": 0.9642387926578522,
      "step": 74
    },
    {
      "epoch": 2.2101313320825517,
      "grad_norm": 0.16863389096389939,
      "learning_rate": 2.9877258050403212e-05,
      "loss": 0.1011,
      "mean_token_accuracy": 0.964973971247673,
      "step": 75
    },
    {
      "epoch": 2.2401500938086305,
      "grad_norm": 0.2256068322542817,
      "learning_rate": 2.9394906998358868e-05,
      "loss": 0.0979,
      "mean_token_accuracy": 0.9662024211138487,
      "step": 76
    },
    {
      "epoch": 2.2701688555347093,
      "grad_norm": 0.19130902536055486,
      "learning_rate": 2.8910861626005776e-05,
      "loss": 0.101,
      "mean_token_accuracy": 0.9646210763603449,
      "step": 77
    },
    {
      "epoch": 2.300187617260788,
      "grad_norm": 0.18029622833908,
      "learning_rate": 2.8425308542049206e-05,
      "loss": 0.0943,
      "mean_token_accuracy": 0.9668951816856861,
      "step": 78
    },
    {
      "epoch": 2.3302063789868668,
      "grad_norm": 0.1715983987427455,
      "learning_rate": 2.7938434936445945e-05,
      "loss": 0.1025,
      "mean_token_accuracy": 0.9641035441309214,
      "step": 79
    },
    {
      "epoch": 2.3602251407129455,
      "grad_norm": 0.17151947074238844,
      "learning_rate": 2.7450428508239024e-05,
      "loss": 0.0993,
      "mean_token_accuracy": 0.9651761185377836,
      "step": 80
    },
    {
      "epoch": 2.3902439024390243,
      "grad_norm": 0.17762362563985393,
      "learning_rate": 2.6961477393196126e-05,
      "loss": 0.1016,
      "mean_token_accuracy": 0.9645342864096165,
      "step": 81
    },
    {
      "epoch": 2.420262664165103,
      "grad_norm": 0.17493795219201744,
      "learning_rate": 2.6471770091279724e-05,
      "loss": 0.1032,
      "mean_token_accuracy": 0.965608624741435,
      "step": 82
    },
    {
      "epoch": 2.450281425891182,
      "grad_norm": 0.21622340080905333,
      "learning_rate": 2.598149539397672e-05,
      "loss": 0.1056,
      "mean_token_accuracy": 0.9633868020027876,
      "step": 83
    },
    {
      "epoch": 2.480300187617261,
      "grad_norm": 0.18325655719580544,
      "learning_rate": 2.5490842311515707e-05,
      "loss": 0.1003,
      "mean_token_accuracy": 0.9652356337755919,
      "step": 84
    },
    {
      "epoch": 2.5103189493433398,
      "grad_norm": 0.16079654454953773,
      "learning_rate": 2.5e-05,
      "loss": 0.0951,
      "mean_token_accuracy": 0.9671048391610384,
      "step": 85
    },
    {
      "epoch": 2.5403377110694185,
      "grad_norm": 0.177885663467419,
      "learning_rate": 2.4509157688484295e-05,
      "loss": 0.1019,
      "mean_token_accuracy": 0.9652324616909027,
      "step": 86
    },
    {
      "epoch": 2.5703564727954973,
      "grad_norm": 0.16463009515777124,
      "learning_rate": 2.4018504606023293e-05,
      "loss": 0.0983,
      "mean_token_accuracy": 0.9660285171121359,
      "step": 87
    },
    {
      "epoch": 2.600375234521576,
      "grad_norm": 0.14988401935266468,
      "learning_rate": 2.3528229908720272e-05,
      "loss": 0.0973,
      "mean_token_accuracy": 0.9662998840212822,
      "step": 88
    },
    {
      "epoch": 2.630393996247655,
      "grad_norm": 0.1714584031856408,
      "learning_rate": 2.303852260680388e-05,
      "loss": 0.0993,
      "mean_token_accuracy": 0.9654844384640455,
      "step": 89
    },
    {
      "epoch": 2.6604127579737336,
      "grad_norm": 0.15655630724758532,
      "learning_rate": 2.2549571491760986e-05,
      "loss": 0.1044,
      "mean_token_accuracy": 0.9633280653506517,
      "step": 90
    },
    {
      "epoch": 2.6904315196998123,
      "grad_norm": 0.15989111678931958,
      "learning_rate": 2.2061565063554064e-05,
      "loss": 0.0962,
      "mean_token_accuracy": 0.9662177134305239,
      "step": 91
    },
    {
      "epoch": 2.720450281425891,
      "grad_norm": 0.1612719262065956,
      "learning_rate": 2.1574691457950803e-05,
      "loss": 0.1,
      "mean_token_accuracy": 0.9648805633187294,
      "step": 92
    },
    {
      "epoch": 2.75046904315197,
      "grad_norm": 0.1447218929697437,
      "learning_rate": 2.1089138373994223e-05,
      "loss": 0.097,
      "mean_token_accuracy": 0.9660444520413876,
      "step": 93
    },
    {
      "epoch": 2.7804878048780486,
      "grad_norm": 0.15448044912912087,
      "learning_rate": 2.0605093001641138e-05,
      "loss": 0.1037,
      "mean_token_accuracy": 0.9642052594572306,
      "step": 94
    },
    {
      "epoch": 2.8105065666041273,
      "grad_norm": 0.14976483567215834,
      "learning_rate": 2.0122741949596797e-05,
      "loss": 0.103,
      "mean_token_accuracy": 0.9642070364207029,
      "step": 95
    },
    {
      "epoch": 2.8405253283302065,
      "grad_norm": 0.15397846138230065,
      "learning_rate": 1.9642271173373737e-05,
      "loss": 0.1024,
      "mean_token_accuracy": 0.9642751514911652,
      "step": 96
    },
    {
      "epoch": 2.8705440900562853,
      "grad_norm": 0.16533125622570222,
      "learning_rate": 1.9163865903602374e-05,
      "loss": 0.0983,
      "mean_token_accuracy": 0.9661570060998201,
      "step": 97
    },
    {
      "epoch": 2.900562851782364,
      "grad_norm": 0.14567827324511498,
      "learning_rate": 1.868771057462105e-05,
      "loss": 0.0895,
      "mean_token_accuracy": 0.9689803905785084,
      "step": 98
    },
    {
      "epoch": 2.930581613508443,
      "grad_norm": 0.13721507889257023,
      "learning_rate": 1.8213988753373146e-05,
      "loss": 0.1018,
      "mean_token_accuracy": 0.9658490009605885,
      "step": 99
    },
    {
      "epoch": 2.9606003752345216,
      "grad_norm": 0.18558487132226667,
      "learning_rate": 1.7742883068638447e-05,
      "loss": 0.0975,
      "mean_token_accuracy": 0.9673260115087032,
      "step": 100
    },
    {
      "epoch": 2.9906191369606003,
      "grad_norm": 0.14278892649537844,
      "learning_rate": 1.7274575140626318e-05,
      "loss": 0.0945,
      "mean_token_accuracy": 0.9672219399362803,
      "step": 101
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.14278892649537844,
      "learning_rate": 1.6809245510957665e-05,
      "loss": 0.104,
      "mean_token_accuracy": 0.9641202390193939,
      "step": 102
    },
    {
      "epoch": 3.0300187617260788,
      "grad_norm": 0.29206855231690615,
      "learning_rate": 1.6347073573062672e-05,
      "loss": 0.052,
      "mean_token_accuracy": 0.9840696156024933,
      "step": 103
    },
    {
      "epoch": 3.0600375234521575,
      "grad_norm": 0.21146610857781498,
      "learning_rate": 1.588823750302126e-05,
      "loss": 0.0506,
      "mean_token_accuracy": 0.9837026111781597,
      "step": 104
    },
    {
      "epoch": 3.0900562851782363,
      "grad_norm": 0.1728680637000517,
      "learning_rate": 1.5432914190872757e-05,
      "loss": 0.0492,
      "mean_token_accuracy": 0.9842210356146097,
      "step": 105
    },
    {
      "epoch": 3.120075046904315,
      "grad_norm": 0.137716977630954,
      "learning_rate": 1.498127917242148e-05,
      "loss": 0.0493,
      "mean_token_accuracy": 0.9839507173746824,
      "step": 106
    },
    {
      "epoch": 3.150093808630394,
      "grad_norm": 0.14551903804275892,
      "learning_rate": 1.4533506561564306e-05,
      "loss": 0.0544,
      "mean_token_accuracy": 0.9822139292955399,
      "step": 107
    },
    {
      "epoch": 3.180112570356473,
      "grad_norm": 0.16669835535632535,
      "learning_rate": 1.4089768983166444e-05,
      "loss": 0.0489,
      "mean_token_accuracy": 0.9840298742055893,
      "step": 108
    },
    {
      "epoch": 3.2101313320825517,
      "grad_norm": 0.18300271784408872,
      "learning_rate": 1.3650237506511331e-05,
      "loss": 0.0497,
      "mean_token_accuracy": 0.983882175758481,
      "step": 109
    },
    {
      "epoch": 3.2401500938086305,
      "grad_norm": 0.1843234481043501,
      "learning_rate": 1.3215081579350058e-05,
      "loss": 0.0485,
      "mean_token_accuracy": 0.9843094442039728,
      "step": 110
    },
    {
      "epoch": 3.2701688555347093,
      "grad_norm": 0.3461827490875774,
      "learning_rate": 1.2784468962576136e-05,
      "loss": 0.047,
      "mean_token_accuracy": 0.9847969133406878,
      "step": 111
    },
    {
      "epoch": 3.300187617260788,
      "grad_norm": 0.15632977455270483,
      "learning_rate": 1.235856566555039e-05,
      "loss": 0.049,
      "mean_token_accuracy": 0.9837981257587671,
      "step": 112
    },
    {
      "epoch": 3.3302063789868668,
      "grad_norm": 0.14640471914964392,
      "learning_rate": 1.1937535882101281e-05,
      "loss": 0.0458,
      "mean_token_accuracy": 0.9851204100996256,
      "step": 113
    },
    {
      "epoch": 3.3602251407129455,
      "grad_norm": 0.13729939899053178,
      "learning_rate": 1.1521541927224994e-05,
      "loss": 0.0456,
      "mean_token_accuracy": 0.9848766028881073,
      "step": 114
    },
    {
      "epoch": 3.3902439024390243,
      "grad_norm": 0.13806503349144675,
      "learning_rate": 1.1110744174509952e-05,
      "loss": 0.049,
      "mean_token_accuracy": 0.9844018053263426,
      "step": 115
    },
    {
      "epoch": 3.420262664165103,
      "grad_norm": 0.1677329902297057,
      "learning_rate": 1.0705300994309697e-05,
      "loss": 0.0509,
      "mean_token_accuracy": 0.9836404304951429,
      "step": 116
    },
    {
      "epoch": 3.450281425891182,
      "grad_norm": 0.1363456396457925,
      "learning_rate": 1.0305368692688174e-05,
      "loss": 0.0489,
      "mean_token_accuracy": 0.9842113871127367,
      "step": 117
    },
    {
      "epoch": 3.480300187617261,
      "grad_norm": 0.14670430283357652,
      "learning_rate": 9.911101451160715e-06,
      "loss": 0.0476,
      "mean_token_accuracy": 0.9845409169793129,
      "step": 118
    },
    {
      "epoch": 3.5103189493433398,
      "grad_norm": 0.13593290922974113,
      "learning_rate": 9.522651267254149e-06,
      "loss": 0.0498,
      "mean_token_accuracy": 0.9841745216399431,
      "step": 119
    },
    {
      "epoch": 3.5403377110694185,
      "grad_norm": 0.1405157943110022,
      "learning_rate": 9.140167895908867e-06,
      "loss": 0.0515,
      "mean_token_accuracy": 0.9838052876293659,
      "step": 120
    },
    {
      "epoch": 3.5703564727954973,
      "grad_norm": 0.13398507397046694,
      "learning_rate": 8.763798791745411e-06,
      "loss": 0.044,
      "mean_token_accuracy": 0.985531248152256,
      "step": 121
    },
    {
      "epoch": 3.600375234521576,
      "grad_norm": 0.12595342205919996,
      "learning_rate": 8.393689052217966e-06,
      "loss": 0.0443,
      "mean_token_accuracy": 0.9851887430995703,
      "step": 122
    },
    {
      "epoch": 3.630393996247655,
      "grad_norm": 0.12802288754577185,
      "learning_rate": 8.029981361676456e-06,
      "loss": 0.0477,
      "mean_token_accuracy": 0.9847091306000948,
      "step": 123
    },
    {
      "epoch": 3.6604127579737336,
      "grad_norm": 0.13540249038634009,
      "learning_rate": 7.672815936359107e-06,
      "loss": 0.0437,
      "mean_token_accuracy": 0.9858846813440323,
      "step": 124
    },
    {
      "epoch": 3.6904315196998123,
      "grad_norm": 0.1272358814553976,
      "learning_rate": 7.3223304703363135e-06,
      "loss": 0.0472,
      "mean_token_accuracy": 0.9844079315662384,
      "step": 125
    },
    {
      "epoch": 3.720450281425891,
      "grad_norm": 0.13634273240990136,
      "learning_rate": 6.9786600824270296e-06,
      "loss": 0.0427,
      "mean_token_accuracy": 0.9858784638345242,
      "step": 126
    },
    {
      "epoch": 3.75046904315197,
      "grad_norm": 0.15771802380242175,
      "learning_rate": 6.641937264107867e-06,
      "loss": 0.0469,
      "mean_token_accuracy": 0.9847830552607775,
      "step": 127
    },
    {
      "epoch": 3.7804878048780486,
      "grad_norm": 0.13754448160952976,
      "learning_rate": 6.312291828435077e-06,
      "loss": 0.0462,
      "mean_token_accuracy": 0.9851614981889725,
      "step": 128
    },
    {
      "epoch": 3.8105065666041273,
      "grad_norm": 0.14734425443158122,
      "learning_rate": 5.989850859999227e-06,
      "loss": 0.0422,
      "mean_token_accuracy": 0.9861964080482721,
      "step": 129
    },
    {
      "epoch": 3.8405253283302065,
      "grad_norm": 0.12037178039604896,
      "learning_rate": 5.674738665931575e-06,
      "loss": 0.0445,
      "mean_token_accuracy": 0.9854839760810137,
      "step": 130
    },
    {
      "epoch": 3.8705440900562853,
      "grad_norm": 0.13270114277633968,
      "learning_rate": 5.367076727981382e-06,
      "loss": 0.046,
      "mean_token_accuracy": 0.98503128439188,
      "step": 131
    },
    {
      "epoch": 3.900562851782364,
      "grad_norm": 0.12186409904443084,
      "learning_rate": 5.066983655682325e-06,
      "loss": 0.0413,
      "mean_token_accuracy": 0.9866250548511744,
      "step": 132
    },
    {
      "epoch": 3.930581613508443,
      "grad_norm": 0.11572178677884377,
      "learning_rate": 4.7745751406263165e-06,
      "loss": 0.0455,
      "mean_token_accuracy": 0.9853598214685917,
      "step": 133
    },
    {
      "epoch": 3.9606003752345216,
      "grad_norm": 0.1285035698798016,
      "learning_rate": 4.48996391186216e-06,
      "loss": 0.0446,
      "mean_token_accuracy": 0.9853111784905195,
      "step": 134
    },
    {
      "epoch": 3.9906191369606003,
      "grad_norm": 0.12237492704812947,
      "learning_rate": 4.213259692436367e-06,
      "loss": 0.0472,
      "mean_token_accuracy": 0.9846988655626774,
      "step": 135
    },
    {
      "epoch": 4.0,
      "grad_norm": 0.17459270329168236,
      "learning_rate": 3.944569157092839e-06,
      "loss": 0.0397,
      "mean_token_accuracy": 0.9869139909744262,
      "step": 136
    },
    {
      "epoch": 4.030018761726079,
      "grad_norm": 0.21688322258057258,
      "learning_rate": 3.6839958911476957e-06,
      "loss": 0.0316,
      "mean_token_accuracy": 0.9908953290432692,
      "step": 137
    },
    {
      "epoch": 4.0600375234521575,
      "grad_norm": 0.12510412863095888,
      "learning_rate": 3.431640350555204e-06,
      "loss": 0.0298,
      "mean_token_accuracy": 0.9912976007908583,
      "step": 138
    },
    {
      "epoch": 4.090056285178236,
      "grad_norm": 0.11532401288217803,
      "learning_rate": 3.187599823180071e-06,
      "loss": 0.0291,
      "mean_token_accuracy": 0.9916361309587955,
      "step": 139
    },
    {
      "epoch": 4.120075046904315,
      "grad_norm": 0.11662866353878451,
      "learning_rate": 2.9519683912911266e-06,
      "loss": 0.0316,
      "mean_token_accuracy": 0.9906173534691334,
      "step": 140
    },
    {
      "epoch": 4.150093808630394,
      "grad_norm": 0.10785269578007366,
      "learning_rate": 2.7248368952908053e-06,
      "loss": 0.0278,
      "mean_token_accuracy": 0.9918341338634491,
      "step": 141
    },
    {
      "epoch": 4.1801125703564725,
      "grad_norm": 0.10540687517578978,
      "learning_rate": 2.506292898694468e-06,
      "loss": 0.0304,
      "mean_token_accuracy": 0.9909927677363157,
      "step": 142
    },
    {
      "epoch": 4.210131332082551,
      "grad_norm": 0.10795341728368958,
      "learning_rate": 2.296420654372966e-06,
      "loss": 0.0292,
      "mean_token_accuracy": 0.9913486260920763,
      "step": 143
    },
    {
      "epoch": 4.24015009380863,
      "grad_norm": 0.09918400957702202,
      "learning_rate": 2.0953010720716037e-06,
      "loss": 0.0285,
      "mean_token_accuracy": 0.991315545514226,
      "step": 144
    },
    {
      "epoch": 4.270168855534709,
      "grad_norm": 0.1028689650543891,
      "learning_rate": 1.9030116872178316e-06,
      "loss": 0.0268,
      "mean_token_accuracy": 0.9919464886188507,
      "step": 145
    },
    {
      "epoch": 4.300187617260788,
      "grad_norm": 0.0934195965967741,
      "learning_rate": 1.7196266310299108e-06,
      "loss": 0.0271,
      "mean_token_accuracy": 0.9918058719485998,
      "step": 146
    },
    {
      "epoch": 4.330206378986867,
      "grad_norm": 0.09146571370676639,
      "learning_rate": 1.5452166019378989e-06,
      "loss": 0.0273,
      "mean_token_accuracy": 0.9917649105191231,
      "step": 147
    },
    {
      "epoch": 4.360225140712946,
      "grad_norm": 0.09753557772930677,
      "learning_rate": 1.379848838328049e-06,
      "loss": 0.0286,
      "mean_token_accuracy": 0.9913905151188374,
      "step": 148
    },
    {
      "epoch": 4.390243902439025,
      "grad_norm": 0.11653668851139358,
      "learning_rate": 1.2235870926211619e-06,
      "loss": 0.0277,
      "mean_token_accuracy": 0.9916701205074787,
      "step": 149
    },
    {
      "epoch": 4.4202626641651035,
      "grad_norm": 0.09067908471373788,
      "learning_rate": 1.0764916066947794e-06,
      "loss": 0.0258,
      "mean_token_accuracy": 0.9922576006501913,
      "step": 150
    },
    {
      "epoch": 4.450281425891182,
      "grad_norm": 0.09653433513408423,
      "learning_rate": 9.386190886588208e-07,
      "loss": 0.0271,
      "mean_token_accuracy": 0.9919117372483015,
      "step": 151
    },
    {
      "epoch": 4.480300187617261,
      "grad_norm": 0.0987084116462941,
      "learning_rate": 8.10022690993506e-07,
      "loss": 0.028,
      "mean_token_accuracy": 0.9915720969438553,
      "step": 152
    },
    {
      "epoch": 4.51031894934334,
      "grad_norm": 0.10457824343264062,
      "learning_rate": 6.907519900580861e-07,
      "loss": 0.0302,
      "mean_token_accuracy": 0.9909002613276243,
      "step": 153
    },
    {
      "epoch": 4.5403377110694185,
      "grad_norm": 0.10340772315470596,
      "learning_rate": 5.808529669781904e-07,
      "loss": 0.0264,
      "mean_token_accuracy": 0.9919101018458605,
      "step": 154
    },
    {
      "epoch": 4.570356472795497,
      "grad_norm": 0.09744615982408229,
      "learning_rate": 4.803679899192392e-07,
      "loss": 0.0285,
      "mean_token_accuracy": 0.9909517038613558,
      "step": 155
    },
    {
      "epoch": 4.600375234521576,
      "grad_norm": 0.09254462095652977,
      "learning_rate": 3.8933579775271013e-07,
      "loss": 0.0263,
      "mean_token_accuracy": 0.9920994155108929,
      "step": 156
    },
    {
      "epoch": 4.630393996247655,
      "grad_norm": 0.09530189373391666,
      "learning_rate": 3.077914851215585e-07,
      "loss": 0.0283,
      "mean_token_accuracy": 0.9914026968181133,
      "step": 157
    },
    {
      "epoch": 4.6604127579737336,
      "grad_norm": 0.09988980276705559,
      "learning_rate": 2.3576648891056875e-07,
      "loss": 0.027,
      "mean_token_accuracy": 0.9920587744563818,
      "step": 158
    },
    {
      "epoch": 4.690431519699812,
      "grad_norm": 0.09117032881835743,
      "learning_rate": 1.732885761268427e-07,
      "loss": 0.0262,
      "mean_token_accuracy": 0.991992175579071,
      "step": 159
    },
    {
      "epoch": 4.720450281425891,
      "grad_norm": 0.09146419854434591,
      "learning_rate": 1.2038183319507955e-07,
      "loss": 0.0264,
      "mean_token_accuracy": 0.9921840745955706,
      "step": 160
    },
    {
      "epoch": 4.75046904315197,
      "grad_norm": 0.0941692484126693,
      "learning_rate": 7.706665667180091e-08,
      "loss": 0.0262,
      "mean_token_accuracy": 0.992155384272337,
      "step": 161
    },
    {
      "epoch": 4.780487804878049,
      "grad_norm": 0.09868857104545,
      "learning_rate": 4.335974538210441e-08,
      "loss": 0.0286,
      "mean_token_accuracy": 0.9914395287632942,
      "step": 162
    },
    {
      "epoch": 4.810506566604127,
      "grad_norm": 0.098281670570088,
      "learning_rate": 1.9274093981927478e-08,
      "loss": 0.0269,
      "mean_token_accuracy": 0.9919413533061743,
      "step": 163
    },
    {
      "epoch": 4.840525328330206,
      "grad_norm": 0.08992856114449468,
      "learning_rate": 4.818987948379539e-09,
      "loss": 0.0266,
      "mean_token_accuracy": 0.9920829199254513,
      "step": 164
    },
    {
      "epoch": 4.870544090056285,
      "grad_norm": 0.09146022503539022,
      "learning_rate": 0.0,
      "loss": 0.0274,
      "mean_token_accuracy": 0.9918729793280363,
      "step": 165
    },
    {
      "epoch": 4.870544090056285,
      "step": 165,
      "total_flos": 195199345459200.0,
      "train_loss": 0.14440994993077985,
      "train_runtime": 12814.9616,
      "train_samples_per_second": 3.325,
      "train_steps_per_second": 0.013
    }
  ],
  "logging_steps": 1,
  "max_steps": 165,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 5,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 195199345459200.0,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}