{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.30526315789473685,
  "eval_steps": 500,
  "global_step": 2900,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0010526315789473684,
      "grad_norm": 0.34683918952941895,
      "learning_rate": 4.815e-06,
      "loss": 1.7081634521484375,
      "step": 10
    },
    {
      "epoch": 0.002105263157894737,
      "grad_norm": 0.3531605899333954,
      "learning_rate": 1.0165e-05,
      "loss": 1.656758689880371,
      "step": 20
    },
    {
      "epoch": 0.003157894736842105,
      "grad_norm": 0.3394385576248169,
      "learning_rate": 1.5515e-05,
      "loss": 1.633415985107422,
      "step": 30
    },
    {
      "epoch": 0.004210526315789474,
      "grad_norm": 0.37144365906715393,
      "learning_rate": 2.0865e-05,
      "loss": 1.6722015380859374,
      "step": 40
    },
    {
      "epoch": 0.005263157894736842,
      "grad_norm": 0.3785368800163269,
      "learning_rate": 2.6215e-05,
      "loss": 1.6771835327148437,
      "step": 50
    },
    {
      "epoch": 0.00631578947368421,
      "grad_norm": 0.3667239546775818,
      "learning_rate": 3.1565e-05,
      "loss": 1.6657798767089844,
      "step": 60
    },
    {
      "epoch": 0.007368421052631579,
      "grad_norm": 0.35704323649406433,
      "learning_rate": 3.6914999999999995e-05,
      "loss": 1.637792205810547,
      "step": 70
    },
    {
      "epoch": 0.008421052631578947,
      "grad_norm": 0.3614155352115631,
      "learning_rate": 4.2265e-05,
      "loss": 1.6456287384033204,
      "step": 80
    },
    {
      "epoch": 0.009473684210526316,
      "grad_norm": 0.3477347195148468,
      "learning_rate": 4.7615e-05,
      "loss": 1.6376474380493165,
      "step": 90
    },
    {
      "epoch": 0.010526315789473684,
      "grad_norm": 0.3474464416503906,
      "learning_rate": 5.2965e-05,
      "loss": 1.6883708953857421,
      "step": 100
    },
    {
      "epoch": 0.011578947368421053,
      "grad_norm": 0.3608642518520355,
      "learning_rate": 5.831500000000001e-05,
      "loss": 1.7032821655273438,
      "step": 110
    },
    {
      "epoch": 0.01263157894736842,
      "grad_norm": 0.35934099555015564,
      "learning_rate": 6.3665e-05,
      "loss": 1.597799301147461,
      "step": 120
    },
    {
      "epoch": 0.01368421052631579,
      "grad_norm": 0.38500702381134033,
      "learning_rate": 6.9015e-05,
      "loss": 1.6558387756347657,
      "step": 130
    },
    {
      "epoch": 0.014736842105263158,
      "grad_norm": 0.3602914810180664,
      "learning_rate": 7.4365e-05,
      "loss": 1.6937145233154296,
      "step": 140
    },
    {
      "epoch": 0.015789473684210527,
      "grad_norm": 0.36331596970558167,
      "learning_rate": 7.9715e-05,
      "loss": 1.5696943283081055,
      "step": 150
    },
    {
      "epoch": 0.016842105263157894,
      "grad_norm": 0.3533744215965271,
      "learning_rate": 8.5065e-05,
      "loss": 1.702765655517578,
      "step": 160
    },
    {
      "epoch": 0.017894736842105262,
      "grad_norm": 0.3546121120452881,
      "learning_rate": 9.0415e-05,
      "loss": 1.6325836181640625,
      "step": 170
    },
    {
      "epoch": 0.018947368421052633,
      "grad_norm": 0.3867342472076416,
      "learning_rate": 9.5765e-05,
      "loss": 1.636269760131836,
      "step": 180
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.3859454393386841,
      "learning_rate": 0.000101115,
      "loss": 1.7112407684326172,
      "step": 190
    },
    {
      "epoch": 0.021052631578947368,
      "grad_norm": 0.3688015937805176,
      "learning_rate": 0.000106465,
      "loss": 1.6455875396728517,
      "step": 200
    },
    {
      "epoch": 0.022105263157894735,
      "grad_norm": 0.3693976402282715,
      "learning_rate": 0.00010699975274657343,
      "loss": 1.6878833770751953,
      "step": 210
    },
    {
      "epoch": 0.023157894736842106,
      "grad_norm": 0.3748058080673218,
      "learning_rate": 0.00010699889804630456,
      "loss": 1.6435226440429687,
      "step": 220
    },
    {
      "epoch": 0.024210526315789474,
      "grad_norm": 0.3806576430797577,
      "learning_rate": 0.00010699743285643286,
      "loss": 1.7004669189453125,
      "step": 230
    },
    {
      "epoch": 0.02526315789473684,
      "grad_norm": 0.3829317092895508,
      "learning_rate": 0.00010699535719367796,
      "loss": 1.6831859588623046,
      "step": 240
    },
    {
      "epoch": 0.02631578947368421,
      "grad_norm": 0.4069920480251312,
      "learning_rate": 0.00010699267108172577,
      "loss": 1.6417667388916015,
      "step": 250
    },
    {
      "epoch": 0.02736842105263158,
      "grad_norm": 0.37535834312438965,
      "learning_rate": 0.00010698937455122825,
      "loss": 1.640174102783203,
      "step": 260
    },
    {
      "epoch": 0.028421052631578948,
      "grad_norm": 0.3992610573768616,
      "learning_rate": 0.0001069854676398029,
      "loss": 1.6665351867675782,
      "step": 270
    },
    {
      "epoch": 0.029473684210526315,
      "grad_norm": 0.3680964708328247,
      "learning_rate": 0.0001069809503920325,
      "loss": 1.7111568450927734,
      "step": 280
    },
    {
      "epoch": 0.030526315789473683,
      "grad_norm": 0.4049525856971741,
      "learning_rate": 0.00010697582285946452,
      "loss": 1.6817201614379882,
      "step": 290
    },
    {
      "epoch": 0.031578947368421054,
      "grad_norm": 0.38598954677581787,
      "learning_rate": 0.00010697008510061057,
      "loss": 1.6445945739746093,
      "step": 300
    },
    {
      "epoch": 0.03263157894736842,
      "grad_norm": 0.39688920974731445,
      "learning_rate": 0.00010696373718094565,
      "loss": 1.688629150390625,
      "step": 310
    },
    {
      "epoch": 0.03368421052631579,
      "grad_norm": 0.3762621581554413,
      "learning_rate": 0.00010695677917290751,
      "loss": 1.6273818969726563,
      "step": 320
    },
    {
      "epoch": 0.034736842105263156,
      "grad_norm": 0.3470601737499237,
      "learning_rate": 0.00010694921115589574,
      "loss": 1.690780258178711,
      "step": 330
    },
    {
      "epoch": 0.035789473684210524,
      "grad_norm": 0.38783422112464905,
      "learning_rate": 0.00010694103321627094,
      "loss": 1.6885700225830078,
      "step": 340
    },
    {
      "epoch": 0.03684210526315789,
      "grad_norm": 0.3837421238422394,
      "learning_rate": 0.00010693224544735366,
      "loss": 1.670220184326172,
      "step": 350
    },
    {
      "epoch": 0.037894736842105266,
      "grad_norm": 0.3634503185749054,
      "learning_rate": 0.00010692284794942337,
      "loss": 1.6357498168945312,
      "step": 360
    },
    {
      "epoch": 0.03894736842105263,
      "grad_norm": 0.39452844858169556,
      "learning_rate": 0.00010691284082971734,
      "loss": 1.6791454315185548,
      "step": 370
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.38304150104522705,
      "learning_rate": 0.00010690222420242937,
      "loss": 1.6702400207519532,
      "step": 380
    },
    {
      "epoch": 0.04105263157894737,
      "grad_norm": 0.3755001723766327,
      "learning_rate": 0.00010689099818870848,
      "loss": 1.6558124542236328,
      "step": 390
    },
    {
      "epoch": 0.042105263157894736,
      "grad_norm": 0.3776380121707916,
      "learning_rate": 0.0001068791629166576,
      "loss": 1.6616518020629882,
      "step": 400
    },
    {
      "epoch": 0.0431578947368421,
      "grad_norm": 0.3697650134563446,
      "learning_rate": 0.00010686671852133208,
      "loss": 1.6540897369384766,
      "step": 410
    },
    {
      "epoch": 0.04421052631578947,
      "grad_norm": 0.3718468248844147,
      "learning_rate": 0.00010685366514473802,
      "loss": 1.6041250228881836,
      "step": 420
    },
    {
      "epoch": 0.045263157894736845,
      "grad_norm": 0.38397344946861267,
      "learning_rate": 0.0001068400029358309,
      "loss": 1.677585983276367,
      "step": 430
    },
    {
      "epoch": 0.04631578947368421,
      "grad_norm": 0.37290486693382263,
      "learning_rate": 0.00010682573205051367,
      "loss": 1.6698143005371093,
      "step": 440
    },
    {
      "epoch": 0.04736842105263158,
      "grad_norm": 0.37734609842300415,
      "learning_rate": 0.00010681085265163504,
      "loss": 1.6791515350341797,
      "step": 450
    },
    {
      "epoch": 0.04842105263157895,
      "grad_norm": 0.354443222284317,
      "learning_rate": 0.00010679536490898761,
      "loss": 1.6450014114379883,
      "step": 460
    },
    {
      "epoch": 0.049473684210526316,
      "grad_norm": 0.3799300491809845,
      "learning_rate": 0.00010677926899930603,
      "loss": 1.6635103225708008,
      "step": 470
    },
    {
      "epoch": 0.05052631578947368,
      "grad_norm": 0.3844967484474182,
      "learning_rate": 0.00010676256510626478,
      "loss": 1.6978870391845704,
      "step": 480
    },
    {
      "epoch": 0.05157894736842105,
      "grad_norm": 0.38755500316619873,
      "learning_rate": 0.00010674525342047629,
      "loss": 1.6842260360717773,
      "step": 490
    },
    {
      "epoch": 0.05263157894736842,
      "grad_norm": 0.39443737268447876,
      "learning_rate": 0.00010672733413948862,
      "loss": 1.6408458709716798,
      "step": 500
    },
    {
      "epoch": 0.05368421052631579,
      "grad_norm": 0.4008043110370636,
      "learning_rate": 0.00010670880746778328,
      "loss": 1.61962833404541,
      "step": 510
    },
    {
      "epoch": 0.05473684210526316,
      "grad_norm": 0.3917809724807739,
      "learning_rate": 0.00010668967361677283,
      "loss": 1.718182373046875,
      "step": 520
    },
    {
      "epoch": 0.05578947368421053,
      "grad_norm": 0.364409476518631,
      "learning_rate": 0.00010666993280479856,
      "loss": 1.7204322814941406,
      "step": 530
    },
    {
      "epoch": 0.056842105263157895,
      "grad_norm": 0.39319396018981934,
      "learning_rate": 0.00010664958525712792,
      "loss": 1.6448682785034179,
      "step": 540
    },
    {
      "epoch": 0.05789473684210526,
      "grad_norm": 0.3864227533340454,
      "learning_rate": 0.00010662863120595196,
      "loss": 1.7400585174560548,
      "step": 550
    },
    {
      "epoch": 0.05894736842105263,
      "grad_norm": 0.37699612975120544,
      "learning_rate": 0.00010660707089038273,
      "loss": 1.6591960906982421,
      "step": 560
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.3808913230895996,
      "learning_rate": 0.00010658490455645052,
      "loss": 1.63150634765625,
      "step": 570
    },
    {
      "epoch": 0.061052631578947365,
      "grad_norm": 0.38882365822792053,
      "learning_rate": 0.00010656213245710098,
      "loss": 1.6896860122680664,
      "step": 580
    },
    {
      "epoch": 0.06210526315789474,
      "grad_norm": 0.3772079050540924,
      "learning_rate": 0.0001065387548521924,
      "loss": 1.7085845947265625,
      "step": 590
    },
    {
      "epoch": 0.06315789473684211,
      "grad_norm": 0.37180712819099426,
      "learning_rate": 0.00010651477200849263,
      "loss": 1.7532657623291015,
      "step": 600
    },
    {
      "epoch": 0.06421052631578947,
      "grad_norm": 0.3878546357154846,
      "learning_rate": 0.00010649018419967597,
      "loss": 1.6636667251586914,
      "step": 610
    },
    {
      "epoch": 0.06526315789473684,
      "grad_norm": 0.39751365780830383,
      "learning_rate": 0.00010646499170632023,
      "loss": 1.6579233169555665,
      "step": 620
    },
    {
      "epoch": 0.06631578947368422,
      "grad_norm": 0.3831867277622223,
      "learning_rate": 0.00010643919481590337,
      "loss": 1.6426708221435546,
      "step": 630
    },
    {
      "epoch": 0.06736842105263158,
      "grad_norm": 0.3749397099018097,
      "learning_rate": 0.00010641279382280032,
      "loss": 1.7154060363769532,
      "step": 640
    },
    {
      "epoch": 0.06842105263157895,
      "grad_norm": 0.37839797139167786,
      "learning_rate": 0.00010638578902827957,
      "loss": 1.7217548370361329,
      "step": 650
    },
    {
      "epoch": 0.06947368421052631,
      "grad_norm": 0.3703754246234894,
      "learning_rate": 0.00010635818074049972,
      "loss": 1.7110353469848634,
      "step": 660
    },
    {
      "epoch": 0.07052631578947369,
      "grad_norm": 0.36747097969055176,
      "learning_rate": 0.00010632996927450597,
      "loss": 1.651369857788086,
      "step": 670
    },
    {
      "epoch": 0.07157894736842105,
      "grad_norm": 0.36606892943382263,
      "learning_rate": 0.00010630115495222664,
      "loss": 1.6909339904785157,
      "step": 680
    },
    {
      "epoch": 0.07263157894736842,
      "grad_norm": 0.3871472179889679,
      "learning_rate": 0.00010627173810246927,
      "loss": 1.6740509033203126,
      "step": 690
    },
    {
      "epoch": 0.07368421052631578,
      "grad_norm": 0.3820892572402954,
      "learning_rate": 0.00010624171906091708,
      "loss": 1.7049301147460938,
      "step": 700
    },
    {
      "epoch": 0.07473684210526316,
      "grad_norm": 0.38060277700424194,
      "learning_rate": 0.00010621109817012501,
      "loss": 1.7255819320678711,
      "step": 710
    },
    {
      "epoch": 0.07578947368421053,
      "grad_norm": 0.37024298310279846,
      "learning_rate": 0.00010617987577951588,
      "loss": 1.707390594482422,
      "step": 720
    },
    {
      "epoch": 0.07684210526315789,
      "grad_norm": 0.3976726233959198,
      "learning_rate": 0.0001061480522453764,
      "loss": 1.6445907592773437,
      "step": 730
    },
    {
      "epoch": 0.07789473684210527,
      "grad_norm": 0.3904809057712555,
      "learning_rate": 0.00010611562793085301,
      "loss": 1.7427913665771484,
      "step": 740
    },
    {
      "epoch": 0.07894736842105263,
      "grad_norm": 0.37776583433151245,
      "learning_rate": 0.00010608260320594787,
      "loss": 1.6211050033569336,
      "step": 750
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.382707804441452,
      "learning_rate": 0.00010604897844751458,
      "loss": 1.6817436218261719,
      "step": 760
    },
    {
      "epoch": 0.08105263157894736,
      "grad_norm": 0.3894830048084259,
      "learning_rate": 0.00010601475403925381,
      "loss": 1.747372817993164,
      "step": 770
    },
    {
      "epoch": 0.08210526315789474,
      "grad_norm": 0.38454341888427734,
      "learning_rate": 0.00010597993037170907,
      "loss": 1.667810821533203,
      "step": 780
    },
    {
      "epoch": 0.08315789473684211,
      "grad_norm": 0.3924828767776489,
      "learning_rate": 0.00010594450784226211,
      "loss": 1.689559555053711,
      "step": 790
    },
    {
      "epoch": 0.08421052631578947,
      "grad_norm": 0.390747994184494,
      "learning_rate": 0.0001059084868551285,
      "loss": 1.687558364868164,
      "step": 800
    },
    {
      "epoch": 0.08526315789473685,
      "grad_norm": 0.38002100586891174,
      "learning_rate": 0.0001058718678213529,
      "loss": 1.7372432708740235,
      "step": 810
    },
    {
      "epoch": 0.0863157894736842,
      "grad_norm": 0.3947979509830475,
      "learning_rate": 0.00010583465115880448,
      "loss": 1.7141420364379882,
      "step": 820
    },
    {
      "epoch": 0.08736842105263158,
      "grad_norm": 0.38964593410491943,
      "learning_rate": 0.0001057968372921721,
      "loss": 1.6732599258422851,
      "step": 830
    },
    {
      "epoch": 0.08842105263157894,
      "grad_norm": 0.3914567828178406,
      "learning_rate": 0.00010575842665295942,
      "loss": 1.697699737548828,
      "step": 840
    },
    {
      "epoch": 0.08947368421052632,
      "grad_norm": 0.3780556917190552,
      "learning_rate": 0.00010571941967948013,
      "loss": 1.6859580993652343,
      "step": 850
    },
    {
      "epoch": 0.09052631578947369,
      "grad_norm": 0.3804113268852234,
      "learning_rate": 0.00010567981681685271,
      "loss": 1.630574607849121,
      "step": 860
    },
    {
      "epoch": 0.09157894736842105,
      "grad_norm": 0.3920338451862335,
      "learning_rate": 0.0001056396185169956,
      "loss": 1.701805877685547,
      "step": 870
    },
    {
      "epoch": 0.09263157894736843,
      "grad_norm": 0.3645232021808624,
      "learning_rate": 0.00010559882523862185,
      "loss": 1.6626638412475585,
      "step": 880
    },
    {
      "epoch": 0.09368421052631579,
      "grad_norm": 0.39647483825683594,
      "learning_rate": 0.000105557437447234,
      "loss": 1.657071876525879,
      "step": 890
    },
    {
      "epoch": 0.09473684210526316,
      "grad_norm": 0.3784042298793793,
      "learning_rate": 0.00010551545561511872,
      "loss": 1.6789131164550781,
      "step": 900
    },
    {
      "epoch": 0.09578947368421052,
      "grad_norm": 0.3799436390399933,
      "learning_rate": 0.00010547288022134141,
      "loss": 1.6874401092529296,
      "step": 910
    },
    {
      "epoch": 0.0968421052631579,
      "grad_norm": 0.3979872465133667,
      "learning_rate": 0.00010542971175174078,
      "loss": 1.7372554779052733,
      "step": 920
    },
    {
      "epoch": 0.09789473684210526,
      "grad_norm": 0.3869173228740692,
      "learning_rate": 0.0001053859506989233,
      "loss": 1.6965164184570312,
      "step": 930
    },
    {
      "epoch": 0.09894736842105263,
      "grad_norm": 0.38553228974342346,
      "learning_rate": 0.0001053415975622575,
      "loss": 1.6804073333740235,
      "step": 940
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.37855857610702515,
      "learning_rate": 0.00010529665284786835,
      "loss": 1.7479766845703124,
      "step": 950
    },
    {
      "epoch": 0.10105263157894737,
      "grad_norm": 0.36974212527275085,
      "learning_rate": 0.00010525111706863153,
      "loss": 1.6555421829223633,
      "step": 960
    },
    {
      "epoch": 0.10210526315789474,
      "grad_norm": 0.3829262852668762,
      "learning_rate": 0.00010520499074416742,
      "loss": 1.7271907806396485,
      "step": 970
    },
    {
      "epoch": 0.1031578947368421,
      "grad_norm": 0.3871605396270752,
      "learning_rate": 0.0001051582744008353,
      "loss": 1.6716243743896484,
      "step": 980
    },
    {
      "epoch": 0.10421052631578948,
      "grad_norm": 0.3923998475074768,
      "learning_rate": 0.00010511096857172731,
      "loss": 1.6450519561767578,
      "step": 990
    },
    {
      "epoch": 0.10526315789473684,
      "grad_norm": 0.38333484530448914,
      "learning_rate": 0.00010506307379666238,
      "loss": 1.6865043640136719,
      "step": 1000
    },
    {
      "epoch": 0.10631578947368421,
      "grad_norm": 0.38256773352622986,
      "learning_rate": 0.00010501459062218,
      "loss": 1.6601579666137696,
      "step": 1010
    },
    {
      "epoch": 0.10736842105263159,
      "grad_norm": 0.3737237751483917,
      "learning_rate": 0.00010496551960153409,
      "loss": 1.6208690643310546,
      "step": 1020
    },
    {
      "epoch": 0.10842105263157895,
      "grad_norm": 0.366969496011734,
      "learning_rate": 0.00010491586129468662,
      "loss": 1.6808839797973634,
      "step": 1030
    },
    {
      "epoch": 0.10947368421052632,
      "grad_norm": 0.3720376193523407,
      "learning_rate": 0.0001048656162683012,
      "loss": 1.6338840484619142,
      "step": 1040
    },
    {
      "epoch": 0.11052631578947368,
      "grad_norm": 0.39924025535583496,
      "learning_rate": 0.00010481478509573669,
      "loss": 1.652592086791992,
      "step": 1050
    },
    {
      "epoch": 0.11157894736842106,
      "grad_norm": 0.37709176540374756,
      "learning_rate": 0.00010476336835704059,
      "loss": 1.6794198989868163,
      "step": 1060
    },
    {
      "epoch": 0.11263157894736842,
      "grad_norm": 0.382405161857605,
      "learning_rate": 0.00010471136663894244,
      "loss": 1.702239990234375,
      "step": 1070
    },
    {
      "epoch": 0.11368421052631579,
      "grad_norm": 0.3955666720867157,
      "learning_rate": 0.00010465878053484715,
      "loss": 1.625558090209961,
      "step": 1080
    },
    {
      "epoch": 0.11473684210526315,
      "grad_norm": 0.3984505534172058,
      "learning_rate": 0.0001046056106448282,
      "loss": 1.7061031341552735,
      "step": 1090
    },
    {
      "epoch": 0.11578947368421053,
      "grad_norm": 0.37337619066238403,
      "learning_rate": 0.00010455185757562081,
      "loss": 1.6474536895751952,
      "step": 1100
    },
    {
      "epoch": 0.1168421052631579,
      "grad_norm": 0.4265633225440979,
      "learning_rate": 0.00010449752194061497,
      "loss": 1.6948539733886718,
      "step": 1110
    },
    {
      "epoch": 0.11789473684210526,
      "grad_norm": 0.39065343141555786,
      "learning_rate": 0.0001044426043598485,
      "loss": 1.6905693054199218,
      "step": 1120
    },
    {
      "epoch": 0.11894736842105263,
      "grad_norm": 0.3910517692565918,
      "learning_rate": 0.00010438710545999999,
      "loss": 1.6512699127197266,
      "step": 1130
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.41286537051200867,
      "learning_rate": 0.00010433102587438154,
      "loss": 1.6904163360595703,
      "step": 1140
    },
    {
      "epoch": 0.12105263157894737,
      "grad_norm": 0.39058077335357666,
      "learning_rate": 0.00010427436624293164,
      "loss": 1.6889778137207032,
      "step": 1150
    },
    {
      "epoch": 0.12210526315789473,
      "grad_norm": 0.40376579761505127,
      "learning_rate": 0.00010421712721220786,
      "loss": 1.6660743713378907,
      "step": 1160
    },
    {
      "epoch": 0.1231578947368421,
      "grad_norm": 0.4065842628479004,
      "learning_rate": 0.00010415930943537937,
      "loss": 1.7282680511474608,
      "step": 1170
    },
    {
      "epoch": 0.12421052631578948,
      "grad_norm": 0.3935592770576477,
      "learning_rate": 0.00010410091357221965,
      "loss": 1.7208686828613282,
      "step": 1180
    },
    {
      "epoch": 0.12526315789473685,
      "grad_norm": 0.3769897520542145,
      "learning_rate": 0.00010404194028909876,
      "loss": 1.6730665206909179,
      "step": 1190
    },
    {
      "epoch": 0.12631578947368421,
      "grad_norm": 0.37976640462875366,
      "learning_rate": 0.00010398239025897598,
      "loss": 1.7071300506591798,
      "step": 1200
    },
    {
      "epoch": 0.12736842105263158,
      "grad_norm": 0.38293200731277466,
      "learning_rate": 0.0001039222641613919,
      "loss": 1.7225513458251953,
      "step": 1210
    },
    {
      "epoch": 0.12842105263157894,
      "grad_norm": 0.3943805694580078,
      "learning_rate": 0.00010386156268246077,
      "loss": 1.6900711059570312,
      "step": 1220
    },
    {
      "epoch": 0.12947368421052632,
      "grad_norm": 0.402694970369339,
      "learning_rate": 0.00010380028651486271,
      "loss": 1.6741355895996093,
      "step": 1230
    },
    {
      "epoch": 0.13052631578947368,
      "grad_norm": 0.4034770429134369,
      "learning_rate": 0.00010373843635783572,
      "loss": 1.7251928329467774,
      "step": 1240
    },
    {
      "epoch": 0.13157894736842105,
      "grad_norm": 0.4223957359790802,
      "learning_rate": 0.00010367601291716777,
      "loss": 1.7350204467773438,
      "step": 1250
    },
    {
      "epoch": 0.13263157894736843,
      "grad_norm": 0.3636983633041382,
      "learning_rate": 0.0001036130169051887,
      "loss": 1.6685359954833985,
      "step": 1260
    },
    {
      "epoch": 0.1336842105263158,
      "grad_norm": 0.36913859844207764,
      "learning_rate": 0.00010354944904076209,
      "loss": 1.6918949127197265,
      "step": 1270
    },
    {
      "epoch": 0.13473684210526315,
      "grad_norm": 0.3916381597518921,
      "learning_rate": 0.00010348531004927711,
      "loss": 1.6259313583374024,
      "step": 1280
    },
    {
      "epoch": 0.13578947368421052,
      "grad_norm": 0.38772350549697876,
      "learning_rate": 0.00010342060066264016,
      "loss": 1.7148677825927734,
      "step": 1290
    },
    {
      "epoch": 0.1368421052631579,
      "grad_norm": 0.38373488187789917,
      "learning_rate": 0.00010335532161926664,
      "loss": 1.6328174591064453,
      "step": 1300
    },
    {
      "epoch": 0.13789473684210526,
      "grad_norm": 0.3877631723880768,
      "learning_rate": 0.00010328947366407237,
      "loss": 1.646784210205078,
      "step": 1310
    },
    {
      "epoch": 0.13894736842105262,
      "grad_norm": 0.39882156252861023,
      "learning_rate": 0.00010322305754846519,
      "loss": 1.6600376129150392,
      "step": 1320
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.40457776188850403,
      "learning_rate": 0.00010315607403033641,
      "loss": 1.669814109802246,
      "step": 1330
    },
    {
      "epoch": 0.14105263157894737,
      "grad_norm": 0.3948962688446045,
      "learning_rate": 0.00010308852387405208,
      "loss": 1.715940284729004,
      "step": 1340
    },
    {
      "epoch": 0.14210526315789473,
      "grad_norm": 0.3921595513820648,
      "learning_rate": 0.00010302040785044425,
      "loss": 1.6944934844970703,
      "step": 1350
    },
    {
      "epoch": 0.1431578947368421,
      "grad_norm": 0.3857240676879883,
      "learning_rate": 0.00010295172673680234,
      "loss": 1.6900419235229491,
      "step": 1360
    },
    {
      "epoch": 0.14421052631578948,
      "grad_norm": 0.38249680399894714,
      "learning_rate": 0.00010288248131686406,
      "loss": 1.7138862609863281,
      "step": 1370
    },
    {
      "epoch": 0.14526315789473684,
      "grad_norm": 0.40845534205436707,
      "learning_rate": 0.00010281267238080664,
      "loss": 1.7212867736816406,
      "step": 1380
    },
    {
      "epoch": 0.1463157894736842,
      "grad_norm": 0.3911115229129791,
      "learning_rate": 0.00010274230072523764,
      "loss": 1.7087575912475585,
      "step": 1390
    },
    {
      "epoch": 0.14736842105263157,
      "grad_norm": 0.3967211842536926,
      "learning_rate": 0.00010267136715318605,
      "loss": 1.675175094604492,
      "step": 1400
    },
    {
      "epoch": 0.14842105263157895,
      "grad_norm": 0.3820992410182953,
      "learning_rate": 0.00010259987247409298,
      "loss": 1.665155792236328,
      "step": 1410
    },
    {
      "epoch": 0.14947368421052631,
      "grad_norm": 0.40317046642303467,
      "learning_rate": 0.00010252781750380252,
      "loss": 1.6777839660644531,
      "step": 1420
    },
    {
      "epoch": 0.15052631578947367,
      "grad_norm": 0.39026641845703125,
      "learning_rate": 0.00010245520306455232,
      "loss": 1.6641407012939453,
      "step": 1430
    },
    {
      "epoch": 0.15157894736842106,
      "grad_norm": 0.38703930377960205,
      "learning_rate": 0.00010238202998496432,
      "loss": 1.7006916046142577,
      "step": 1440
    },
    {
      "epoch": 0.15263157894736842,
      "grad_norm": 0.3920949697494507,
      "learning_rate": 0.00010230829910003525,
      "loss": 1.6237125396728516,
      "step": 1450
    },
    {
      "epoch": 0.15368421052631578,
      "grad_norm": 0.40310102701187134,
      "learning_rate": 0.00010223401125112709,
      "loss": 1.693703842163086,
      "step": 1460
    },
    {
      "epoch": 0.15473684210526314,
      "grad_norm": 0.3895237147808075,
      "learning_rate": 0.00010215916728595746,
      "loss": 1.6554393768310547,
      "step": 1470
    },
    {
      "epoch": 0.15578947368421053,
      "grad_norm": 0.3830355703830719,
      "learning_rate": 0.00010208376805858997,
      "loss": 1.6817665100097656,
      "step": 1480
    },
    {
      "epoch": 0.1568421052631579,
      "grad_norm": 0.4044099450111389,
      "learning_rate": 0.00010200781442942451,
      "loss": 1.740530776977539,
      "step": 1490
    },
    {
      "epoch": 0.15789473684210525,
      "grad_norm": 0.37278082966804504,
      "learning_rate": 0.00010193130726518736,
      "loss": 1.7269683837890626,
      "step": 1500
    },
    {
      "epoch": 0.15894736842105264,
      "grad_norm": 0.3909358084201813,
      "learning_rate": 0.00010185424743892131,
      "loss": 1.674229049682617,
      "step": 1510
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.3877439796924591,
      "learning_rate": 0.00010177663582997574,
      "loss": 1.6566276550292969,
      "step": 1520
    },
    {
      "epoch": 0.16105263157894736,
      "grad_norm": 0.3673596978187561,
      "learning_rate": 0.00010169847332399658,
      "loss": 1.6969722747802733,
      "step": 1530
    },
    {
      "epoch": 0.16210526315789472,
      "grad_norm": 0.428408145904541,
      "learning_rate": 0.00010161976081291614,
      "loss": 1.6617691040039062,
      "step": 1540
    },
    {
      "epoch": 0.1631578947368421,
      "grad_norm": 0.38442328572273254,
      "learning_rate": 0.00010154049919494305,
      "loss": 1.7180919647216797,
      "step": 1550
    },
    {
      "epoch": 0.16421052631578947,
      "grad_norm": 0.41423359513282776,
      "learning_rate": 0.00010146068937455184,
      "loss": 1.7110111236572265,
      "step": 1560
    },
    {
      "epoch": 0.16526315789473683,
      "grad_norm": 0.3815020024776459,
      "learning_rate": 0.00010138033226247282,
      "loss": 1.6620532989501953,
      "step": 1570
    },
    {
      "epoch": 0.16631578947368422,
      "grad_norm": 0.38987597823143005,
      "learning_rate": 0.00010129942877568153,
      "loss": 1.6376758575439454,
      "step": 1580
    },
    {
      "epoch": 0.16736842105263158,
      "grad_norm": 0.37103158235549927,
      "learning_rate": 0.00010121797983738831,
      "loss": 1.6269058227539062,
      "step": 1590
    },
    {
      "epoch": 0.16842105263157894,
      "grad_norm": 0.39582741260528564,
      "learning_rate": 0.00010113598637702785,
      "loss": 1.6544437408447266,
      "step": 1600
    },
    {
      "epoch": 0.1694736842105263,
      "grad_norm": 0.3875832259654999,
      "learning_rate": 0.0001010534493302485,
      "loss": 1.69503173828125,
      "step": 1610
    },
    {
      "epoch": 0.1705263157894737,
      "grad_norm": 0.40506550669670105,
      "learning_rate": 0.00010097036963890156,
      "loss": 1.6826278686523437,
      "step": 1620
    },
    {
      "epoch": 0.17157894736842105,
      "grad_norm": 0.39827048778533936,
      "learning_rate": 0.00010088674825103067,
      "loss": 1.6500736236572267,
      "step": 1630
    },
    {
      "epoch": 0.1726315789473684,
      "grad_norm": 0.3786768913269043,
      "learning_rate": 0.00010080258612086083,
      "loss": 1.6809326171875,
      "step": 1640
    },
    {
      "epoch": 0.1736842105263158,
      "grad_norm": 0.40326225757598877,
      "learning_rate": 0.00010071788420878764,
      "loss": 1.7387603759765624,
      "step": 1650
    },
    {
      "epoch": 0.17473684210526316,
      "grad_norm": 0.3733818829059601,
      "learning_rate": 0.00010063264348136629,
      "loss": 1.6930301666259766,
      "step": 1660
    },
    {
      "epoch": 0.17578947368421052,
      "grad_norm": 0.4019014239311218,
      "learning_rate": 0.00010054686491130048,
      "loss": 1.665353012084961,
      "step": 1670
    },
    {
      "epoch": 0.17684210526315788,
      "grad_norm": 0.3994007110595703,
      "learning_rate": 0.00010046054947743142,
      "loss": 1.7481708526611328,
      "step": 1680
    },
    {
      "epoch": 0.17789473684210527,
      "grad_norm": 0.40046176314353943,
      "learning_rate": 0.00010037369816472658,
      "loss": 1.6684654235839844,
      "step": 1690
    },
    {
      "epoch": 0.17894736842105263,
      "grad_norm": 0.39062178134918213,
      "learning_rate": 0.00010028631196426851,
      "loss": 1.6636728286743163,
      "step": 1700
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.40030282735824585,
      "learning_rate": 0.0001001983918732435,
      "loss": 1.6382123947143554,
      "step": 1710
    },
    {
      "epoch": 0.18105263157894738,
      "grad_norm": 0.38396012783050537,
      "learning_rate": 0.00010010993889493013,
      "loss": 1.6094409942626953,
      "step": 1720
    },
    {
      "epoch": 0.18210526315789474,
      "grad_norm": 0.3969299793243408,
      "learning_rate": 0.000100020954038688,
      "loss": 1.6550315856933593,
      "step": 1730
    },
    {
      "epoch": 0.1831578947368421,
      "grad_norm": 0.39174884557724,
      "learning_rate": 9.993143831994603e-05,
      "loss": 1.7123249053955079,
      "step": 1740
    },
    {
      "epoch": 0.18421052631578946,
      "grad_norm": 0.38760584592819214,
      "learning_rate": 9.984139276019098e-05,
      "loss": 1.6742156982421874,
      "step": 1750
    },
    {
      "epoch": 0.18526315789473685,
      "grad_norm": 0.3817841410636902,
      "learning_rate": 9.975081838695576e-05,
      "loss": 1.641263771057129,
      "step": 1760
    },
    {
      "epoch": 0.1863157894736842,
      "grad_norm": 0.4085705578327179,
      "learning_rate": 9.965971623380768e-05,
      "loss": 1.7673213958740235,
      "step": 1770
    },
    {
      "epoch": 0.18736842105263157,
      "grad_norm": 0.38965287804603577,
      "learning_rate": 9.956808734033671e-05,
      "loss": 1.770319366455078,
      "step": 1780
    },
    {
      "epoch": 0.18842105263157893,
      "grad_norm": 0.3770400881767273,
      "learning_rate": 9.947593275214358e-05,
      "loss": 1.6587142944335938,
      "step": 1790
    },
    {
      "epoch": 0.18947368421052632,
      "grad_norm": 0.40959247946739197,
      "learning_rate": 9.938325352082786e-05,
      "loss": 1.6820697784423828,
      "step": 1800
    },
    {
      "epoch": 0.19052631578947368,
      "grad_norm": 0.37764784693717957,
      "learning_rate": 9.929005070397595e-05,
      "loss": 1.6965087890625,
      "step": 1810
    },
    {
      "epoch": 0.19157894736842104,
      "grad_norm": 0.37487778067588806,
      "learning_rate": 9.9196325365149e-05,
      "loss": 1.6261119842529297,
      "step": 1820
    },
    {
      "epoch": 0.19263157894736843,
      "grad_norm": 0.4048542380332947,
      "learning_rate": 9.910207857387085e-05,
      "loss": 1.7076032638549805,
      "step": 1830
    },
    {
      "epoch": 0.1936842105263158,
      "grad_norm": 0.37118133902549744,
      "learning_rate": 9.90073114056157e-05,
      "loss": 1.70123233795166,
      "step": 1840
    },
    {
      "epoch": 0.19473684210526315,
      "grad_norm": 0.38945528864860535,
      "learning_rate": 9.891202494179595e-05,
      "loss": 1.7137296676635743,
      "step": 1850
    },
    {
      "epoch": 0.1957894736842105,
      "grad_norm": 0.39081960916519165,
      "learning_rate": 9.881622026974978e-05,
      "loss": 1.6556056976318358,
      "step": 1860
    },
    {
      "epoch": 0.1968421052631579,
      "grad_norm": 0.4000365436077118,
      "learning_rate": 9.871989848272882e-05,
      "loss": 1.708022689819336,
      "step": 1870
    },
    {
      "epoch": 0.19789473684210526,
      "grad_norm": 0.38972243666648865,
      "learning_rate": 9.86230606798856e-05,
      "loss": 1.6936985015869142,
      "step": 1880
    },
    {
      "epoch": 0.19894736842105262,
      "grad_norm": 0.4023416340351105,
      "learning_rate": 9.852570796626104e-05,
      "loss": 1.6013282775878905,
      "step": 1890
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.37790361046791077,
      "learning_rate": 9.842784145277185e-05,
      "loss": 1.678757095336914,
      "step": 1900
    },
    {
      "epoch": 0.20105263157894737,
      "grad_norm": 0.4072909653186798,
      "learning_rate": 9.832946225619782e-05,
      "loss": 1.6550043106079102,
      "step": 1910
    },
    {
      "epoch": 0.20210526315789473,
      "grad_norm": 0.4222109317779541,
      "learning_rate": 9.823057149916913e-05,
      "loss": 1.6794788360595703,
      "step": 1920
    },
    {
      "epoch": 0.2031578947368421,
      "grad_norm": 0.3997038006782532,
      "learning_rate": 9.813117031015348e-05,
      "loss": 1.708123779296875,
      "step": 1930
    },
    {
      "epoch": 0.20421052631578948,
      "grad_norm": 0.387678861618042,
      "learning_rate": 9.803125982344328e-05,
      "loss": 1.694279098510742,
      "step": 1940
    },
    {
      "epoch": 0.20526315789473684,
      "grad_norm": 0.41388800740242004,
      "learning_rate": 9.793084117914258e-05,
      "loss": 1.698614501953125,
      "step": 1950
    },
    {
      "epoch": 0.2063157894736842,
      "grad_norm": 0.38706713914871216,
      "learning_rate": 9.782991552315424e-05,
      "loss": 1.702214813232422,
      "step": 1960
    },
    {
      "epoch": 0.2073684210526316,
      "grad_norm": 0.3965074419975281,
      "learning_rate": 9.772848400716673e-05,
      "loss": 1.6214000701904296,
      "step": 1970
    },
    {
      "epoch": 0.20842105263157895,
      "grad_norm": 0.39218032360076904,
      "learning_rate": 9.762654778864099e-05,
      "loss": 1.681211280822754,
      "step": 1980
    },
    {
      "epoch": 0.2094736842105263,
      "grad_norm": 0.4117305874824524,
      "learning_rate": 9.752410803079726e-05,
      "loss": 1.6745601654052735,
      "step": 1990
    },
    {
      "epoch": 0.21052631578947367,
      "grad_norm": 0.3973471224308014,
      "learning_rate": 9.742116590260185e-05,
      "loss": 1.6459293365478516,
      "step": 2000
    },
    {
      "epoch": 0.21157894736842106,
      "grad_norm": 0.3847576975822449,
      "learning_rate": 9.731772257875366e-05,
      "loss": 1.6581769943237306,
      "step": 2010
    },
    {
      "epoch": 0.21263157894736842,
      "grad_norm": 0.4136882424354553,
      "learning_rate": 9.721377923967092e-05,
      "loss": 1.7314947128295899,
      "step": 2020
    },
    {
      "epoch": 0.21368421052631578,
      "grad_norm": 0.37820902466773987,
      "learning_rate": 9.710933707147764e-05,
      "loss": 1.7070299148559571,
      "step": 2030
    },
    {
      "epoch": 0.21473684210526317,
      "grad_norm": 0.39630916714668274,
      "learning_rate": 9.700439726599012e-05,
      "loss": 1.6553241729736328,
      "step": 2040
    },
    {
      "epoch": 0.21578947368421053,
      "grad_norm": 0.3991798758506775,
      "learning_rate": 9.68989610207033e-05,
      "loss": 1.7385829925537108,
      "step": 2050
    },
    {
      "epoch": 0.2168421052631579,
      "grad_norm": 0.4119565188884735,
      "learning_rate": 9.679302953877712e-05,
      "loss": 1.71380615234375,
      "step": 2060
    },
    {
      "epoch": 0.21789473684210525,
      "grad_norm": 0.40724804997444153,
      "learning_rate": 9.66866040290228e-05,
      "loss": 1.6676467895507812,
      "step": 2070
    },
    {
      "epoch": 0.21894736842105264,
      "grad_norm": 0.4088967442512512,
      "learning_rate": 9.657968570588905e-05,
      "loss": 1.674250030517578,
      "step": 2080
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.40387439727783203,
      "learning_rate": 9.64722757894482e-05,
      "loss": 1.676458740234375,
      "step": 2090
    },
    {
      "epoch": 0.22105263157894736,
      "grad_norm": 0.4028227925300598,
      "learning_rate": 9.636437550538226e-05,
      "loss": 1.6708587646484374,
      "step": 2100
    },
    {
      "epoch": 0.22210526315789475,
      "grad_norm": 0.40027210116386414,
      "learning_rate": 9.625598608496895e-05,
      "loss": 1.6314043045043944,
      "step": 2110
    },
    {
      "epoch": 0.2231578947368421,
      "grad_norm": 0.386688768863678,
      "learning_rate": 9.614710876506763e-05,
      "loss": 1.725076675415039,
      "step": 2120
    },
    {
      "epoch": 0.22421052631578947,
      "grad_norm": 0.4061787724494934,
      "learning_rate": 9.603774478810528e-05,
      "loss": 1.6826349258422852,
      "step": 2130
    },
    {
      "epoch": 0.22526315789473683,
      "grad_norm": 0.40370142459869385,
      "learning_rate": 9.592789540206218e-05,
      "loss": 1.649374771118164,
      "step": 2140
    },
    {
      "epoch": 0.22631578947368422,
      "grad_norm": 0.40586093068122864,
      "learning_rate": 9.581756186045777e-05,
      "loss": 1.6614540100097657,
      "step": 2150
    },
    {
      "epoch": 0.22736842105263158,
      "grad_norm": 0.3933681547641754,
      "learning_rate": 9.570674542233628e-05,
      "loss": 1.6946598052978517,
      "step": 2160
    },
    {
      "epoch": 0.22842105263157894,
      "grad_norm": 0.3825010359287262,
      "learning_rate": 9.559544735225242e-05,
      "loss": 1.6574283599853517,
      "step": 2170
    },
    {
      "epoch": 0.2294736842105263,
      "grad_norm": 0.4000436067581177,
      "learning_rate": 9.548366892025693e-05,
      "loss": 1.673634910583496,
      "step": 2180
    },
    {
      "epoch": 0.2305263157894737,
      "grad_norm": 0.3942500054836273,
      "learning_rate": 9.537141140188206e-05,
      "loss": 1.621174430847168,
      "step": 2190
    },
    {
      "epoch": 0.23157894736842105,
      "grad_norm": 0.3846987783908844,
      "learning_rate": 9.525867607812708e-05,
      "loss": 1.6244104385375977,
      "step": 2200
    },
    {
      "epoch": 0.2326315789473684,
      "grad_norm": 0.38483455777168274,
      "learning_rate": 9.514546423544357e-05,
      "loss": 1.687708282470703,
      "step": 2210
    },
    {
      "epoch": 0.2336842105263158,
      "grad_norm": 0.4134112000465393,
      "learning_rate": 9.503177716572082e-05,
      "loss": 1.7054229736328126,
      "step": 2220
    },
    {
      "epoch": 0.23473684210526316,
      "grad_norm": 0.3780292868614197,
      "learning_rate": 9.491761616627101e-05,
      "loss": 1.6283729553222657,
      "step": 2230
    },
    {
      "epoch": 0.23578947368421052,
      "grad_norm": 0.40246784687042236,
      "learning_rate": 9.480298253981456e-05,
      "loss": 1.7036407470703125,
      "step": 2240
    },
    {
      "epoch": 0.23684210526315788,
      "grad_norm": 0.4002091884613037,
      "learning_rate": 9.468787759446502e-05,
      "loss": 1.7064756393432616,
      "step": 2250
    },
    {
      "epoch": 0.23789473684210527,
      "grad_norm": 0.40926146507263184,
      "learning_rate": 9.457230264371439e-05,
      "loss": 1.6858642578125,
      "step": 2260
    },
    {
      "epoch": 0.23894736842105263,
      "grad_norm": 0.41373902559280396,
      "learning_rate": 9.445625900641796e-05,
      "loss": 1.655508804321289,
      "step": 2270
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.38966718316078186,
      "learning_rate": 9.433974800677935e-05,
      "loss": 1.6741256713867188,
      "step": 2280
    },
    {
      "epoch": 0.24105263157894738,
      "grad_norm": 0.4069412648677826,
      "learning_rate": 9.422277097433537e-05,
      "loss": 1.6685916900634765,
      "step": 2290
    },
    {
      "epoch": 0.24210526315789474,
      "grad_norm": 0.3916907012462616,
      "learning_rate": 9.410532924394083e-05,
      "loss": 1.6491849899291993,
      "step": 2300
    },
    {
      "epoch": 0.2431578947368421,
      "grad_norm": 0.39959436655044556,
      "learning_rate": 9.398742415575336e-05,
      "loss": 1.670114517211914,
      "step": 2310
    },
    {
      "epoch": 0.24421052631578946,
      "grad_norm": 0.3950902223587036,
      "learning_rate": 9.386905705521803e-05,
      "loss": 1.6907678604125977,
      "step": 2320
    },
    {
      "epoch": 0.24526315789473685,
      "grad_norm": 0.38667526841163635,
      "learning_rate": 9.375022929305213e-05,
      "loss": 1.669590377807617,
      "step": 2330
    },
    {
      "epoch": 0.2463157894736842,
      "grad_norm": 0.39125263690948486,
      "learning_rate": 9.363094222522958e-05,
      "loss": 1.6502418518066406,
      "step": 2340
    },
    {
      "epoch": 0.24736842105263157,
      "grad_norm": 0.38178369402885437,
      "learning_rate": 9.351119721296566e-05,
      "loss": 1.7035490036010743,
      "step": 2350
    },
    {
      "epoch": 0.24842105263157896,
      "grad_norm": 0.37467339634895325,
      "learning_rate": 9.339099562270128e-05,
      "loss": 1.6536640167236327,
      "step": 2360
    },
    {
      "epoch": 0.24947368421052632,
      "grad_norm": 0.41233041882514954,
      "learning_rate": 9.327033882608754e-05,
      "loss": 1.6268924713134765,
      "step": 2370
    },
    {
      "epoch": 0.2505263157894737,
      "grad_norm": 0.3746933937072754,
      "learning_rate": 9.314922819996997e-05,
      "loss": 1.6240985870361329,
      "step": 2380
    },
    {
      "epoch": 0.25157894736842107,
      "grad_norm": 0.3932549059391022,
      "learning_rate": 9.302766512637293e-05,
      "loss": 1.6809700012207032,
      "step": 2390
    },
    {
      "epoch": 0.25263157894736843,
      "grad_norm": 0.4058087468147278,
      "learning_rate": 9.290565099248368e-05,
      "loss": 1.6474214553833009,
      "step": 2400
    },
    {
      "epoch": 0.2536842105263158,
      "grad_norm": 0.3873753547668457,
      "learning_rate": 9.278318719063673e-05,
      "loss": 1.6398870468139648,
      "step": 2410
    },
    {
      "epoch": 0.25473684210526315,
      "grad_norm": 0.41126886010169983,
      "learning_rate": 9.26602751182978e-05,
      "loss": 1.6111644744873046,
      "step": 2420
    },
    {
      "epoch": 0.2557894736842105,
      "grad_norm": 0.40002816915512085,
      "learning_rate": 9.2536916178048e-05,
      "loss": 1.6024229049682617,
      "step": 2430
    },
    {
      "epoch": 0.25684210526315787,
      "grad_norm": 0.4194015562534332,
      "learning_rate": 9.241311177756771e-05,
      "loss": 1.6467687606811523,
      "step": 2440
    },
    {
      "epoch": 0.2578947368421053,
      "grad_norm": 0.4181770980358124,
      "learning_rate": 9.228886332962062e-05,
      "loss": 1.6439130783081055,
      "step": 2450
    },
    {
      "epoch": 0.25894736842105265,
      "grad_norm": 0.40925332903862,
      "learning_rate": 9.216417225203754e-05,
      "loss": 1.6347824096679688,
      "step": 2460
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.40195897221565247,
      "learning_rate": 9.203903996770019e-05,
      "loss": 1.6572818756103516,
      "step": 2470
    },
    {
      "epoch": 0.26105263157894737,
      "grad_norm": 0.4277157485485077,
      "learning_rate": 9.191346790452509e-05,
      "loss": 1.6013570785522462,
      "step": 2480
    },
    {
      "epoch": 0.26210526315789473,
      "grad_norm": 0.3951636552810669,
      "learning_rate": 9.178745749544716e-05,
      "loss": 1.694039535522461,
      "step": 2490
    },
    {
      "epoch": 0.2631578947368421,
      "grad_norm": 0.3961932957172394,
      "learning_rate": 9.166101017840337e-05,
      "loss": 1.6311038970947265,
      "step": 2500
    },
    {
      "epoch": 0.26421052631578945,
      "grad_norm": 0.40256279706954956,
      "learning_rate": 9.15341273963164e-05,
      "loss": 1.7131736755371094,
      "step": 2510
    },
    {
      "epoch": 0.26526315789473687,
      "grad_norm": 0.40076208114624023,
      "learning_rate": 9.14068105970781e-05,
      "loss": 1.659266471862793,
      "step": 2520
    },
    {
      "epoch": 0.26631578947368423,
      "grad_norm": 0.39892420172691345,
      "learning_rate": 9.127906123353305e-05,
      "loss": 1.6891080856323242,
      "step": 2530
    },
    {
      "epoch": 0.2673684210526316,
      "grad_norm": 0.39453125,
      "learning_rate": 9.115088076346184e-05,
      "loss": 1.6869060516357421,
      "step": 2540
    },
    {
      "epoch": 0.26842105263157895,
      "grad_norm": 0.3876430094242096,
      "learning_rate": 9.102227064956465e-05,
      "loss": 1.623502540588379,
      "step": 2550
    },
    {
      "epoch": 0.2694736842105263,
      "grad_norm": 0.3828693628311157,
      "learning_rate": 9.08932323594443e-05,
      "loss": 1.6787071228027344,
      "step": 2560
    },
    {
      "epoch": 0.27052631578947367,
      "grad_norm": 0.3757915198802948,
      "learning_rate": 9.076376736558976e-05,
      "loss": 1.7229637145996093,
      "step": 2570
    },
    {
      "epoch": 0.27157894736842103,
      "grad_norm": 0.3994489312171936,
      "learning_rate": 9.063387714535916e-05,
      "loss": 1.6279123306274415,
      "step": 2580
    },
    {
      "epoch": 0.27263157894736845,
      "grad_norm": 0.40050971508026123,
      "learning_rate": 9.0503563180963e-05,
      "loss": 1.667708969116211,
      "step": 2590
    },
    {
      "epoch": 0.2736842105263158,
      "grad_norm": 0.4005604684352875,
      "learning_rate": 9.037282695944726e-05,
      "loss": 1.6468616485595704,
      "step": 2600
    },
    {
      "epoch": 0.27473684210526317,
      "grad_norm": 0.40057310461997986,
      "learning_rate": 9.024166997267636e-05,
      "loss": 1.6907684326171875,
      "step": 2610
    },
    {
      "epoch": 0.27578947368421053,
      "grad_norm": 0.4074793756008148,
      "learning_rate": 9.011009371731623e-05,
      "loss": 1.6792390823364258,
      "step": 2620
    },
    {
      "epoch": 0.2768421052631579,
      "grad_norm": 0.4014405310153961,
      "learning_rate": 8.997809969481715e-05,
      "loss": 1.640324592590332,
      "step": 2630
    },
    {
      "epoch": 0.27789473684210525,
      "grad_norm": 0.42860186100006104,
      "learning_rate": 8.984568941139665e-05,
      "loss": 1.6390762329101562,
      "step": 2640
    },
    {
      "epoch": 0.2789473684210526,
      "grad_norm": 0.41278424859046936,
      "learning_rate": 8.971286437802235e-05,
      "loss": 1.7043113708496094,
      "step": 2650
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.38656142354011536,
      "learning_rate": 8.957962611039464e-05,
      "loss": 1.7256532669067384,
      "step": 2660
    },
    {
      "epoch": 0.2810526315789474,
      "grad_norm": 0.3984103202819824,
      "learning_rate": 8.944597612892944e-05,
      "loss": 1.6301074981689454,
      "step": 2670
    },
    {
      "epoch": 0.28210526315789475,
      "grad_norm": 0.3937322795391083,
      "learning_rate": 8.93119159587409e-05,
      "loss": 1.6612771987915038,
      "step": 2680
    },
    {
      "epoch": 0.2831578947368421,
      "grad_norm": 0.39241543412208557,
      "learning_rate": 8.917744712962387e-05,
      "loss": 1.6962703704833983,
      "step": 2690
    },
    {
      "epoch": 0.28421052631578947,
      "grad_norm": 0.407466858625412,
      "learning_rate": 8.904257117603653e-05,
      "loss": 1.721807861328125,
      "step": 2700
    },
    {
      "epoch": 0.28526315789473683,
      "grad_norm": 0.3965199589729309,
      "learning_rate": 8.890728963708288e-05,
      "loss": 1.6854072570800782,
      "step": 2710
    },
    {
      "epoch": 0.2863157894736842,
      "grad_norm": 0.3866688013076782,
      "learning_rate": 8.877160405649515e-05,
      "loss": 1.678403663635254,
      "step": 2720
    },
    {
      "epoch": 0.2873684210526316,
      "grad_norm": 0.40115654468536377,
      "learning_rate": 8.863551598261618e-05,
      "loss": 1.688330078125,
      "step": 2730
    },
    {
      "epoch": 0.28842105263157897,
      "grad_norm": 0.41881707310676575,
      "learning_rate": 8.849902696838176e-05,
      "loss": 1.685501480102539,
      "step": 2740
    },
    {
      "epoch": 0.2894736842105263,
      "grad_norm": 0.3956238329410553,
      "learning_rate": 8.836213857130296e-05,
      "loss": 1.6521308898925782,
      "step": 2750
    },
    {
      "epoch": 0.2905263157894737,
      "grad_norm": 0.3809671700000763,
      "learning_rate": 8.822485235344825e-05,
      "loss": 1.6597816467285156,
      "step": 2760
    },
    {
      "epoch": 0.29157894736842105,
      "grad_norm": 0.39534077048301697,
      "learning_rate": 8.808716988142575e-05,
      "loss": 1.6627084732055664,
      "step": 2770
    },
    {
      "epoch": 0.2926315789473684,
      "grad_norm": 0.37715721130371094,
      "learning_rate": 8.794909272636537e-05,
      "loss": 1.6618637084960937,
      "step": 2780
    },
    {
      "epoch": 0.29368421052631577,
      "grad_norm": 0.4065514802932739,
      "learning_rate": 8.781062246390083e-05,
      "loss": 1.6399276733398438,
      "step": 2790
    },
    {
      "epoch": 0.29473684210526313,
      "grad_norm": 0.3923916220664978,
      "learning_rate": 8.767176067415169e-05,
      "loss": 1.668557357788086,
      "step": 2800
    },
    {
      "epoch": 0.29578947368421055,
      "grad_norm": 0.3970358967781067,
      "learning_rate": 8.75325089417053e-05,
      "loss": 1.6664169311523438,
      "step": 2810
    },
    {
      "epoch": 0.2968421052631579,
      "grad_norm": 0.4063076078891754,
      "learning_rate": 8.739286885559882e-05,
      "loss": 1.718800163269043,
      "step": 2820
    },
    {
      "epoch": 0.29789473684210527,
      "grad_norm": 0.41235899925231934,
      "learning_rate": 8.725284200930096e-05,
      "loss": 1.6484018325805665,
      "step": 2830
    },
    {
      "epoch": 0.29894736842105263,
      "grad_norm": 0.41001883149147034,
      "learning_rate": 8.711243000069387e-05,
      "loss": 1.6729150772094727,
      "step": 2840
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.40411022305488586,
      "learning_rate": 8.697163443205486e-05,
      "loss": 1.6615083694458008,
      "step": 2850
    },
    {
      "epoch": 0.30105263157894735,
      "grad_norm": 0.3862515389919281,
      "learning_rate": 8.683045691003816e-05,
      "loss": 1.6196592330932618,
      "step": 2860
    },
    {
      "epoch": 0.3021052631578947,
      "grad_norm": 0.385047972202301,
      "learning_rate": 8.668889904565657e-05,
      "loss": 1.6499458312988282,
      "step": 2870
    },
    {
      "epoch": 0.3031578947368421,
      "grad_norm": 0.385885626077652,
      "learning_rate": 8.654696245426309e-05,
      "loss": 1.6544832229614257,
      "step": 2880
    },
    {
      "epoch": 0.3042105263157895,
      "grad_norm": 0.39182907342910767,
      "learning_rate": 8.640464875553244e-05,
      "loss": 1.6151403427124023,
      "step": 2890
    },
    {
      "epoch": 0.30526315789473685,
      "grad_norm": 0.37692710757255554,
      "learning_rate": 8.626195957344259e-05,
      "loss": 1.7116943359375,
      "step": 2900
    }
  ],
  "logging_steps": 10,
  "max_steps": 9500,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 9223372036854775807,
  "save_steps": 100,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 3.884603437744128e+17,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}