{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.05429397472615476,
  "eval_steps": 2000,
  "global_step": 12000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 9.048995787692461e-05,
      "grad_norm": 1.1874778270721436,
      "learning_rate": 2.7146864537145957e-07,
      "loss": 10.3312,
      "step": 20
    },
    {
      "epoch": 0.00018097991575384922,
      "grad_norm": 1.3932149410247803,
      "learning_rate": 5.429372907429191e-07,
      "loss": 10.3266,
      "step": 40
    },
    {
      "epoch": 0.00027146987363077383,
      "grad_norm": 1.2732529640197754,
      "learning_rate": 8.144059361143787e-07,
      "loss": 10.3163,
      "step": 60
    },
    {
      "epoch": 0.00036195983150769844,
      "grad_norm": 1.07429039478302,
      "learning_rate": 1.0858745814858383e-06,
      "loss": 10.3044,
      "step": 80
    },
    {
      "epoch": 0.00045244978938462305,
      "grad_norm": 1.0309141874313354,
      "learning_rate": 1.357343226857298e-06,
      "loss": 10.2959,
      "step": 100
    },
    {
      "epoch": 0.0005429397472615477,
      "grad_norm": 0.9270058870315552,
      "learning_rate": 1.6288118722287574e-06,
      "loss": 10.2818,
      "step": 120
    },
    {
      "epoch": 0.0006334297051384723,
      "grad_norm": 0.8409116864204407,
      "learning_rate": 1.900280517600217e-06,
      "loss": 10.2724,
      "step": 140
    },
    {
      "epoch": 0.0007239196630153969,
      "grad_norm": 0.7587267160415649,
      "learning_rate": 2.1717491629716765e-06,
      "loss": 10.2662,
      "step": 160
    },
    {
      "epoch": 0.0008144096208923215,
      "grad_norm": 0.8605366945266724,
      "learning_rate": 2.4432178083431364e-06,
      "loss": 10.2567,
      "step": 180
    },
    {
      "epoch": 0.0009048995787692461,
      "grad_norm": 0.8124440908432007,
      "learning_rate": 2.714686453714596e-06,
      "loss": 10.2513,
      "step": 200
    },
    {
      "epoch": 0.0009953895366461706,
      "grad_norm": 0.8214222192764282,
      "learning_rate": 2.9861550990860553e-06,
      "loss": 10.2396,
      "step": 220
    },
    {
      "epoch": 0.0010858794945230953,
      "grad_norm": 0.7500312924385071,
      "learning_rate": 3.2576237444575148e-06,
      "loss": 10.2378,
      "step": 240
    },
    {
      "epoch": 0.0011763694524000198,
      "grad_norm": 0.7709519267082214,
      "learning_rate": 3.529092389828975e-06,
      "loss": 10.2287,
      "step": 260
    },
    {
      "epoch": 0.0012668594102769445,
      "grad_norm": 0.8319140672683716,
      "learning_rate": 3.800561035200434e-06,
      "loss": 10.2214,
      "step": 280
    },
    {
      "epoch": 0.001357349368153869,
      "grad_norm": 0.8057898283004761,
      "learning_rate": 4.072029680571894e-06,
      "loss": 10.2072,
      "step": 300
    },
    {
      "epoch": 0.0014478393260307938,
      "grad_norm": 0.6834843754768372,
      "learning_rate": 4.343498325943353e-06,
      "loss": 10.1983,
      "step": 320
    },
    {
      "epoch": 0.0015383292839077183,
      "grad_norm": 0.8223700523376465,
      "learning_rate": 4.614966971314813e-06,
      "loss": 10.1884,
      "step": 340
    },
    {
      "epoch": 0.001628819241784643,
      "grad_norm": 0.8147690892219543,
      "learning_rate": 4.886435616686273e-06,
      "loss": 10.1814,
      "step": 360
    },
    {
      "epoch": 0.0017193091996615675,
      "grad_norm": 0.8512526750564575,
      "learning_rate": 5.157904262057733e-06,
      "loss": 10.1713,
      "step": 380
    },
    {
      "epoch": 0.0018097991575384922,
      "grad_norm": 0.8844230771064758,
      "learning_rate": 5.429372907429192e-06,
      "loss": 10.1572,
      "step": 400
    },
    {
      "epoch": 0.0019002891154154167,
      "grad_norm": 0.9605993628501892,
      "learning_rate": 5.700841552800652e-06,
      "loss": 10.1496,
      "step": 420
    },
    {
      "epoch": 0.001990779073292341,
      "grad_norm": 1.2027961015701294,
      "learning_rate": 5.972310198172111e-06,
      "loss": 10.1298,
      "step": 440
    },
    {
      "epoch": 0.002081269031169266,
      "grad_norm": 1.4069308042526245,
      "learning_rate": 6.2437788435435705e-06,
      "loss": 10.1092,
      "step": 460
    },
    {
      "epoch": 0.0021717589890461906,
      "grad_norm": 1.7658456563949585,
      "learning_rate": 6.5152474889150296e-06,
      "loss": 10.0954,
      "step": 480
    },
    {
      "epoch": 0.002262248946923115,
      "grad_norm": 1.6941689252853394,
      "learning_rate": 6.7867161342864895e-06,
      "loss": 10.0746,
      "step": 500
    },
    {
      "epoch": 0.0023527389048000396,
      "grad_norm": 2.362786293029785,
      "learning_rate": 7.05818477965795e-06,
      "loss": 10.0613,
      "step": 520
    },
    {
      "epoch": 0.0024432288626769646,
      "grad_norm": 1.827091932296753,
      "learning_rate": 7.329653425029408e-06,
      "loss": 10.045,
      "step": 540
    },
    {
      "epoch": 0.002533718820553889,
      "grad_norm": 2.136615753173828,
      "learning_rate": 7.601122070400868e-06,
      "loss": 10.0243,
      "step": 560
    },
    {
      "epoch": 0.0026242087784308136,
      "grad_norm": 2.501790761947632,
      "learning_rate": 7.872590715772328e-06,
      "loss": 10.0091,
      "step": 580
    },
    {
      "epoch": 0.002714698736307738,
      "grad_norm": 2.7978005409240723,
      "learning_rate": 8.144059361143788e-06,
      "loss": 9.9957,
      "step": 600
    },
    {
      "epoch": 0.002805188694184663,
      "grad_norm": 3.0485517978668213,
      "learning_rate": 8.415528006515246e-06,
      "loss": 9.9819,
      "step": 620
    },
    {
      "epoch": 0.0028956786520615875,
      "grad_norm": 2.761986255645752,
      "learning_rate": 8.686996651886706e-06,
      "loss": 9.9596,
      "step": 640
    },
    {
      "epoch": 0.002986168609938512,
      "grad_norm": 3.0985260009765625,
      "learning_rate": 8.958465297258166e-06,
      "loss": 9.9436,
      "step": 660
    },
    {
      "epoch": 0.0030766585678154365,
      "grad_norm": 2.40391206741333,
      "learning_rate": 9.229933942629626e-06,
      "loss": 9.9226,
      "step": 680
    },
    {
      "epoch": 0.0031671485256923614,
      "grad_norm": 1.933740496635437,
      "learning_rate": 9.501402588001086e-06,
      "loss": 9.9069,
      "step": 700
    },
    {
      "epoch": 0.003257638483569286,
      "grad_norm": 2.518874168395996,
      "learning_rate": 9.772871233372546e-06,
      "loss": 9.881,
      "step": 720
    },
    {
      "epoch": 0.0033481284414462104,
      "grad_norm": 2.8025624752044678,
      "learning_rate": 1.0044339878744006e-05,
      "loss": 9.8686,
      "step": 740
    },
    {
      "epoch": 0.003438618399323135,
      "grad_norm": 1.943656086921692,
      "learning_rate": 1.0315808524115465e-05,
      "loss": 9.8463,
      "step": 760
    },
    {
      "epoch": 0.00352910835720006,
      "grad_norm": 1.753179907798767,
      "learning_rate": 1.0587277169486925e-05,
      "loss": 9.8344,
      "step": 780
    },
    {
      "epoch": 0.0036195983150769844,
      "grad_norm": 1.9388506412506104,
      "learning_rate": 1.0858745814858383e-05,
      "loss": 9.8144,
      "step": 800
    },
    {
      "epoch": 0.003710088272953909,
      "grad_norm": 2.6278536319732666,
      "learning_rate": 1.1130214460229843e-05,
      "loss": 9.8008,
      "step": 820
    },
    {
      "epoch": 0.0038005782308308334,
      "grad_norm": 1.8270655870437622,
      "learning_rate": 1.1401683105601303e-05,
      "loss": 9.7791,
      "step": 840
    },
    {
      "epoch": 0.0038910681887077583,
      "grad_norm": 1.656563639640808,
      "learning_rate": 1.1673151750972763e-05,
      "loss": 9.7677,
      "step": 860
    },
    {
      "epoch": 0.003981558146584682,
      "grad_norm": 1.6003910303115845,
      "learning_rate": 1.1944620396344221e-05,
      "loss": 9.7465,
      "step": 880
    },
    {
      "epoch": 0.004072048104461608,
      "grad_norm": 1.5632762908935547,
      "learning_rate": 1.2216089041715681e-05,
      "loss": 9.73,
      "step": 900
    },
    {
      "epoch": 0.004162538062338532,
      "grad_norm": 1.4974184036254883,
      "learning_rate": 1.2487557687087141e-05,
      "loss": 9.7067,
      "step": 920
    },
    {
      "epoch": 0.004253028020215457,
      "grad_norm": 1.811112880706787,
      "learning_rate": 1.2759026332458601e-05,
      "loss": 9.6956,
      "step": 940
    },
    {
      "epoch": 0.004343517978092381,
      "grad_norm": 1.505334734916687,
      "learning_rate": 1.3030494977830059e-05,
      "loss": 9.6667,
      "step": 960
    },
    {
      "epoch": 0.004434007935969306,
      "grad_norm": 1.6951265335083008,
      "learning_rate": 1.3301963623201519e-05,
      "loss": 9.6505,
      "step": 980
    },
    {
      "epoch": 0.00452449789384623,
      "grad_norm": 1.6119604110717773,
      "learning_rate": 1.3573432268572979e-05,
      "loss": 9.6381,
      "step": 1000
    },
    {
      "epoch": 0.004614987851723155,
      "grad_norm": 1.1929903030395508,
      "learning_rate": 1.3844900913944439e-05,
      "loss": 9.6209,
      "step": 1020
    },
    {
      "epoch": 0.004705477809600079,
      "grad_norm": 1.5701353549957275,
      "learning_rate": 1.41163695593159e-05,
      "loss": 9.5956,
      "step": 1040
    },
    {
      "epoch": 0.004795967767477005,
      "grad_norm": 1.32628333568573,
      "learning_rate": 1.4387838204687359e-05,
      "loss": 9.5899,
      "step": 1060
    },
    {
      "epoch": 0.004886457725353929,
      "grad_norm": 1.5850657224655151,
      "learning_rate": 1.4659306850058817e-05,
      "loss": 9.5779,
      "step": 1080
    },
    {
      "epoch": 0.004976947683230854,
      "grad_norm": 1.3933109045028687,
      "learning_rate": 1.4930775495430278e-05,
      "loss": 9.5701,
      "step": 1100
    },
    {
      "epoch": 0.005067437641107778,
      "grad_norm": 1.258367657661438,
      "learning_rate": 1.5202244140801737e-05,
      "loss": 9.5468,
      "step": 1120
    },
    {
      "epoch": 0.005157927598984703,
      "grad_norm": 1.3926512002944946,
      "learning_rate": 1.5473712786173196e-05,
      "loss": 9.5392,
      "step": 1140
    },
    {
      "epoch": 0.005248417556861627,
      "grad_norm": 1.1674704551696777,
      "learning_rate": 1.5745181431544656e-05,
      "loss": 9.5291,
      "step": 1160
    },
    {
      "epoch": 0.005338907514738552,
      "grad_norm": 1.4704829454421997,
      "learning_rate": 1.6016650076916116e-05,
      "loss": 9.5219,
      "step": 1180
    },
    {
      "epoch": 0.005429397472615476,
      "grad_norm": 1.6223082542419434,
      "learning_rate": 1.6288118722287576e-05,
      "loss": 9.4918,
      "step": 1200
    },
    {
      "epoch": 0.0055198874304924015,
      "grad_norm": 1.8586570024490356,
      "learning_rate": 1.6559587367659036e-05,
      "loss": 9.4895,
      "step": 1220
    },
    {
      "epoch": 0.005610377388369326,
      "grad_norm": 1.4105405807495117,
      "learning_rate": 1.6831056013030492e-05,
      "loss": 9.4886,
      "step": 1240
    },
    {
      "epoch": 0.0057008673462462505,
      "grad_norm": 1.4756163358688354,
      "learning_rate": 1.7102524658401956e-05,
      "loss": 9.4702,
      "step": 1260
    },
    {
      "epoch": 0.005791357304123175,
      "grad_norm": 1.3847874402999878,
      "learning_rate": 1.7373993303773412e-05,
      "loss": 9.4638,
      "step": 1280
    },
    {
      "epoch": 0.0058818472620000995,
      "grad_norm": 1.5135865211486816,
      "learning_rate": 1.7645461949144875e-05,
      "loss": 9.4583,
      "step": 1300
    },
    {
      "epoch": 0.005972337219877024,
      "grad_norm": 1.462760329246521,
      "learning_rate": 1.7916930594516332e-05,
      "loss": 9.4292,
      "step": 1320
    },
    {
      "epoch": 0.0060628271777539485,
      "grad_norm": 1.646760106086731,
      "learning_rate": 1.8188399239887792e-05,
      "loss": 9.4419,
      "step": 1340
    },
    {
      "epoch": 0.006153317135630873,
      "grad_norm": 1.3564046621322632,
      "learning_rate": 1.8459867885259252e-05,
      "loss": 9.4283,
      "step": 1360
    },
    {
      "epoch": 0.006243807093507798,
      "grad_norm": 1.4385489225387573,
      "learning_rate": 1.873133653063071e-05,
      "loss": 9.4208,
      "step": 1380
    },
    {
      "epoch": 0.006334297051384723,
      "grad_norm": 1.3975261449813843,
      "learning_rate": 1.900280517600217e-05,
      "loss": 9.4015,
      "step": 1400
    },
    {
      "epoch": 0.006424787009261647,
      "grad_norm": 1.4809174537658691,
      "learning_rate": 1.927427382137363e-05,
      "loss": 9.4009,
      "step": 1420
    },
    {
      "epoch": 0.006515276967138572,
      "grad_norm": 1.5181605815887451,
      "learning_rate": 1.954574246674509e-05,
      "loss": 9.3969,
      "step": 1440
    },
    {
      "epoch": 0.006605766925015496,
      "grad_norm": 1.4760838747024536,
      "learning_rate": 1.981721111211655e-05,
      "loss": 9.395,
      "step": 1460
    },
    {
      "epoch": 0.006696256882892421,
      "grad_norm": 1.6140539646148682,
      "learning_rate": 2.008867975748801e-05,
      "loss": 9.3868,
      "step": 1480
    },
    {
      "epoch": 0.006786746840769345,
      "grad_norm": 1.469307541847229,
      "learning_rate": 2.0360148402859468e-05,
      "loss": 9.3766,
      "step": 1500
    },
    {
      "epoch": 0.00687723679864627,
      "grad_norm": 1.8742159605026245,
      "learning_rate": 2.063161704823093e-05,
      "loss": 9.3715,
      "step": 1520
    },
    {
      "epoch": 0.006967726756523195,
      "grad_norm": 1.5996043682098389,
      "learning_rate": 2.0903085693602387e-05,
      "loss": 9.3622,
      "step": 1540
    },
    {
      "epoch": 0.00705821671440012,
      "grad_norm": 1.867632508277893,
      "learning_rate": 2.117455433897385e-05,
      "loss": 9.3704,
      "step": 1560
    },
    {
      "epoch": 0.007148706672277044,
      "grad_norm": 1.4762872457504272,
      "learning_rate": 2.1446022984345307e-05,
      "loss": 9.3741,
      "step": 1580
    },
    {
      "epoch": 0.007239196630153969,
      "grad_norm": 1.5752198696136475,
      "learning_rate": 2.1717491629716767e-05,
      "loss": 9.3561,
      "step": 1600
    },
    {
      "epoch": 0.007329686588030893,
      "grad_norm": 1.637786865234375,
      "learning_rate": 2.1988960275088227e-05,
      "loss": 9.3535,
      "step": 1620
    },
    {
      "epoch": 0.007420176545907818,
      "grad_norm": 2.6087028980255127,
      "learning_rate": 2.2260428920459687e-05,
      "loss": 9.3541,
      "step": 1640
    },
    {
      "epoch": 0.007510666503784742,
      "grad_norm": 1.977252721786499,
      "learning_rate": 2.2531897565831143e-05,
      "loss": 9.3341,
      "step": 1660
    },
    {
      "epoch": 0.007601156461661667,
      "grad_norm": 1.9511388540267944,
      "learning_rate": 2.2803366211202606e-05,
      "loss": 9.339,
      "step": 1680
    },
    {
      "epoch": 0.007691646419538592,
      "grad_norm": 1.8821523189544678,
      "learning_rate": 2.3074834856574063e-05,
      "loss": 9.3234,
      "step": 1700
    },
    {
      "epoch": 0.007782136377415517,
      "grad_norm": 1.5517367124557495,
      "learning_rate": 2.3346303501945526e-05,
      "loss": 9.3367,
      "step": 1720
    },
    {
      "epoch": 0.00787262633529244,
      "grad_norm": 2.164625883102417,
      "learning_rate": 2.3617772147316983e-05,
      "loss": 9.3366,
      "step": 1740
    },
    {
      "epoch": 0.007963116293169365,
      "grad_norm": 2.4158406257629395,
      "learning_rate": 2.3889240792688443e-05,
      "loss": 9.3221,
      "step": 1760
    },
    {
      "epoch": 0.00805360625104629,
      "grad_norm": 1.8652360439300537,
      "learning_rate": 2.4160709438059906e-05,
      "loss": 9.3098,
      "step": 1780
    },
    {
      "epoch": 0.008144096208923216,
      "grad_norm": 1.8249917030334473,
      "learning_rate": 2.4432178083431362e-05,
      "loss": 9.3094,
      "step": 1800
    },
    {
      "epoch": 0.00823458616680014,
      "grad_norm": 2.06990647315979,
      "learning_rate": 2.4703646728802822e-05,
      "loss": 9.2994,
      "step": 1820
    },
    {
      "epoch": 0.008325076124677065,
      "grad_norm": 2.461805582046509,
      "learning_rate": 2.4975115374174282e-05,
      "loss": 9.3157,
      "step": 1840
    },
    {
      "epoch": 0.008415566082553989,
      "grad_norm": 2.1320767402648926,
      "learning_rate": 2.5246584019545742e-05,
      "loss": 9.281,
      "step": 1860
    },
    {
      "epoch": 0.008506056040430914,
      "grad_norm": 2.6872756481170654,
      "learning_rate": 2.5518052664917202e-05,
      "loss": 9.2917,
      "step": 1880
    },
    {
      "epoch": 0.008596545998307838,
      "grad_norm": 2.4759294986724854,
      "learning_rate": 2.5789521310288662e-05,
      "loss": 9.2941,
      "step": 1900
    },
    {
      "epoch": 0.008687035956184763,
      "grad_norm": 1.8129667043685913,
      "learning_rate": 2.6060989955660118e-05,
      "loss": 9.2815,
      "step": 1920
    },
    {
      "epoch": 0.008777525914061687,
      "grad_norm": 2.9053220748901367,
      "learning_rate": 2.633245860103158e-05,
      "loss": 9.2801,
      "step": 1940
    },
    {
      "epoch": 0.008868015871938612,
      "grad_norm": 2.412623167037964,
      "learning_rate": 2.6603927246403038e-05,
      "loss": 9.2719,
      "step": 1960
    },
    {
      "epoch": 0.008958505829815536,
      "grad_norm": 1.972790002822876,
      "learning_rate": 2.6875395891774498e-05,
      "loss": 9.2729,
      "step": 1980
    },
    {
      "epoch": 0.00904899578769246,
      "grad_norm": 3.04768705368042,
      "learning_rate": 2.7146864537145958e-05,
      "loss": 9.2653,
      "step": 2000
    },
    {
      "epoch": 0.00904899578769246,
      "eval_accuracy": 0.10545615706904701,
      "eval_loss": 9.261013984680176,
      "eval_runtime": 215.2628,
      "eval_samples_per_second": 2823.711,
      "eval_steps_per_second": 11.033,
      "step": 2000
    },
    {
      "epoch": 0.009139485745569385,
      "grad_norm": 2.2706515789031982,
      "learning_rate": 2.7418333182517418e-05,
      "loss": 9.2604,
      "step": 2020
    },
    {
      "epoch": 0.00922997570344631,
      "grad_norm": 2.297621011734009,
      "learning_rate": 2.7689801827888878e-05,
      "loss": 9.2367,
      "step": 2040
    },
    {
      "epoch": 0.009320465661323234,
      "grad_norm": 2.049971342086792,
      "learning_rate": 2.7961270473260337e-05,
      "loss": 9.2545,
      "step": 2060
    },
    {
      "epoch": 0.009410955619200159,
      "grad_norm": 2.3538951873779297,
      "learning_rate": 2.82327391186318e-05,
      "loss": 9.2511,
      "step": 2080
    },
    {
      "epoch": 0.009501445577077083,
      "grad_norm": 3.1383931636810303,
      "learning_rate": 2.8504207764003254e-05,
      "loss": 9.2319,
      "step": 2100
    },
    {
      "epoch": 0.00959193553495401,
      "grad_norm": 2.6480958461761475,
      "learning_rate": 2.8775676409374717e-05,
      "loss": 9.2353,
      "step": 2120
    },
    {
      "epoch": 0.009682425492830934,
      "grad_norm": 2.3209128379821777,
      "learning_rate": 2.9047145054746177e-05,
      "loss": 9.241,
      "step": 2140
    },
    {
      "epoch": 0.009772915450707858,
      "grad_norm": 2.3225491046905518,
      "learning_rate": 2.9318613700117634e-05,
      "loss": 9.2133,
      "step": 2160
    },
    {
      "epoch": 0.009863405408584783,
      "grad_norm": 2.0134568214416504,
      "learning_rate": 2.9590082345489093e-05,
      "loss": 9.2188,
      "step": 2180
    },
    {
      "epoch": 0.009953895366461707,
      "grad_norm": 3.033569574356079,
      "learning_rate": 2.9861550990860557e-05,
      "loss": 9.2131,
      "step": 2200
    },
    {
      "epoch": 0.010044385324338632,
      "grad_norm": 2.8993263244628906,
      "learning_rate": 3.0133019636232017e-05,
      "loss": 9.2119,
      "step": 2220
    },
    {
      "epoch": 0.010134875282215556,
      "grad_norm": 2.718588352203369,
      "learning_rate": 3.0404488281603473e-05,
      "loss": 9.2187,
      "step": 2240
    },
    {
      "epoch": 0.01022536524009248,
      "grad_norm": 2.635470390319824,
      "learning_rate": 3.0675956926974936e-05,
      "loss": 9.1953,
      "step": 2260
    },
    {
      "epoch": 0.010315855197969405,
      "grad_norm": 2.6032440662384033,
      "learning_rate": 3.094742557234639e-05,
      "loss": 9.1967,
      "step": 2280
    },
    {
      "epoch": 0.01040634515584633,
      "grad_norm": 2.4713950157165527,
      "learning_rate": 3.121889421771785e-05,
      "loss": 9.1881,
      "step": 2300
    },
    {
      "epoch": 0.010496835113723254,
      "grad_norm": 2.4573025703430176,
      "learning_rate": 3.149036286308931e-05,
      "loss": 9.1827,
      "step": 2320
    },
    {
      "epoch": 0.010587325071600179,
      "grad_norm": 2.6169447898864746,
      "learning_rate": 3.1761831508460776e-05,
      "loss": 9.1865,
      "step": 2340
    },
    {
      "epoch": 0.010677815029477103,
      "grad_norm": 2.6744954586029053,
      "learning_rate": 3.203330015383223e-05,
      "loss": 9.1829,
      "step": 2360
    },
    {
      "epoch": 0.010768304987354028,
      "grad_norm": 2.766223907470703,
      "learning_rate": 3.230476879920369e-05,
      "loss": 9.177,
      "step": 2380
    },
    {
      "epoch": 0.010858794945230952,
      "grad_norm": 2.8083655834198,
      "learning_rate": 3.257623744457515e-05,
      "loss": 9.1853,
      "step": 2400
    },
    {
      "epoch": 0.010949284903107877,
      "grad_norm": 4.484155178070068,
      "learning_rate": 3.284770608994661e-05,
      "loss": 9.1655,
      "step": 2420
    },
    {
      "epoch": 0.011039774860984803,
      "grad_norm": 3.5152087211608887,
      "learning_rate": 3.311917473531807e-05,
      "loss": 9.1516,
      "step": 2440
    },
    {
      "epoch": 0.011130264818861728,
      "grad_norm": 2.3122165203094482,
      "learning_rate": 3.339064338068953e-05,
      "loss": 9.1552,
      "step": 2460
    },
    {
      "epoch": 0.011220754776738652,
      "grad_norm": 3.0563108921051025,
      "learning_rate": 3.3662112026060985e-05,
      "loss": 9.1494,
      "step": 2480
    },
    {
      "epoch": 0.011311244734615577,
      "grad_norm": 3.926668882369995,
      "learning_rate": 3.393358067143245e-05,
      "loss": 9.1425,
      "step": 2500
    },
    {
      "epoch": 0.011401734692492501,
      "grad_norm": 2.7006709575653076,
      "learning_rate": 3.420504931680391e-05,
      "loss": 9.1328,
      "step": 2520
    },
    {
      "epoch": 0.011492224650369426,
      "grad_norm": 3.1082751750946045,
      "learning_rate": 3.447651796217537e-05,
      "loss": 9.1316,
      "step": 2540
    },
    {
      "epoch": 0.01158271460824635,
      "grad_norm": 2.744490385055542,
      "learning_rate": 3.4747986607546824e-05,
      "loss": 9.1193,
      "step": 2560
    },
    {
      "epoch": 0.011673204566123275,
      "grad_norm": 2.8441922664642334,
      "learning_rate": 3.501945525291829e-05,
      "loss": 9.1174,
      "step": 2580
    },
    {
      "epoch": 0.011763694524000199,
      "grad_norm": 3.7371647357940674,
      "learning_rate": 3.529092389828975e-05,
      "loss": 9.1217,
      "step": 2600
    },
    {
      "epoch": 0.011854184481877124,
      "grad_norm": 3.0141730308532715,
      "learning_rate": 3.556239254366121e-05,
      "loss": 9.0999,
      "step": 2620
    },
    {
      "epoch": 0.011944674439754048,
      "grad_norm": 2.9731669425964355,
      "learning_rate": 3.5833861189032664e-05,
      "loss": 9.1044,
      "step": 2640
    },
    {
      "epoch": 0.012035164397630973,
      "grad_norm": 3.166254997253418,
      "learning_rate": 3.610532983440413e-05,
      "loss": 9.103,
      "step": 2660
    },
    {
      "epoch": 0.012125654355507897,
      "grad_norm": 2.949646472930908,
      "learning_rate": 3.6376798479775584e-05,
      "loss": 9.1026,
      "step": 2680
    },
    {
      "epoch": 0.012216144313384822,
      "grad_norm": 2.762843132019043,
      "learning_rate": 3.664826712514705e-05,
      "loss": 9.1047,
      "step": 2700
    },
    {
      "epoch": 0.012306634271261746,
      "grad_norm": 3.188957929611206,
      "learning_rate": 3.6919735770518503e-05,
      "loss": 9.0968,
      "step": 2720
    },
    {
      "epoch": 0.01239712422913867,
      "grad_norm": 4.116425037384033,
      "learning_rate": 3.719120441588996e-05,
      "loss": 9.0993,
      "step": 2740
    },
    {
      "epoch": 0.012487614187015597,
      "grad_norm": 2.7521297931671143,
      "learning_rate": 3.746267306126142e-05,
      "loss": 9.063,
      "step": 2760
    },
    {
      "epoch": 0.012578104144892521,
      "grad_norm": 3.1481823921203613,
      "learning_rate": 3.7734141706632886e-05,
      "loss": 9.062,
      "step": 2780
    },
    {
      "epoch": 0.012668594102769446,
      "grad_norm": 2.48091721534729,
      "learning_rate": 3.800561035200434e-05,
      "loss": 9.0727,
      "step": 2800
    },
    {
      "epoch": 0.01275908406064637,
      "grad_norm": 3.0816426277160645,
      "learning_rate": 3.82770789973758e-05,
      "loss": 9.0525,
      "step": 2820
    },
    {
      "epoch": 0.012849574018523295,
      "grad_norm": 2.86342191696167,
      "learning_rate": 3.854854764274726e-05,
      "loss": 9.0447,
      "step": 2840
    },
    {
      "epoch": 0.01294006397640022,
      "grad_norm": 2.769746780395508,
      "learning_rate": 3.8820016288118726e-05,
      "loss": 9.0524,
      "step": 2860
    },
    {
      "epoch": 0.013030553934277144,
      "grad_norm": 3.4716339111328125,
      "learning_rate": 3.909148493349018e-05,
      "loss": 9.0453,
      "step": 2880
    },
    {
      "epoch": 0.013121043892154068,
      "grad_norm": 4.585721969604492,
      "learning_rate": 3.936295357886164e-05,
      "loss": 9.0466,
      "step": 2900
    },
    {
      "epoch": 0.013211533850030993,
      "grad_norm": 3.7394728660583496,
      "learning_rate": 3.96344222242331e-05,
      "loss": 9.0405,
      "step": 2920
    },
    {
      "epoch": 0.013302023807907917,
      "grad_norm": 3.9100561141967773,
      "learning_rate": 3.990589086960456e-05,
      "loss": 9.0415,
      "step": 2940
    },
    {
      "epoch": 0.013392513765784842,
      "grad_norm": 2.94941782951355,
      "learning_rate": 4.017735951497602e-05,
      "loss": 9.0265,
      "step": 2960
    },
    {
      "epoch": 0.013483003723661766,
      "grad_norm": 2.6733226776123047,
      "learning_rate": 4.044882816034748e-05,
      "loss": 9.0195,
      "step": 2980
    },
    {
      "epoch": 0.01357349368153869,
      "grad_norm": 3.4839463233947754,
      "learning_rate": 4.0720296805718935e-05,
      "loss": 9.0204,
      "step": 3000
    },
    {
      "epoch": 0.013663983639415615,
      "grad_norm": 3.460050344467163,
      "learning_rate": 4.09917654510904e-05,
      "loss": 9.0086,
      "step": 3020
    },
    {
      "epoch": 0.01375447359729254,
      "grad_norm": 4.007343769073486,
      "learning_rate": 4.126323409646186e-05,
      "loss": 9.0185,
      "step": 3040
    },
    {
      "epoch": 0.013844963555169464,
      "grad_norm": 3.917860746383667,
      "learning_rate": 4.153470274183331e-05,
      "loss": 9.0032,
      "step": 3060
    },
    {
      "epoch": 0.01393545351304639,
      "grad_norm": 3.5258123874664307,
      "learning_rate": 4.1806171387204775e-05,
      "loss": 8.9983,
      "step": 3080
    },
    {
      "epoch": 0.014025943470923315,
      "grad_norm": 3.002183198928833,
      "learning_rate": 4.207764003257624e-05,
      "loss": 8.9898,
      "step": 3100
    },
    {
      "epoch": 0.01411643342880024,
      "grad_norm": 3.2682976722717285,
      "learning_rate": 4.23491086779477e-05,
      "loss": 8.9932,
      "step": 3120
    },
    {
      "epoch": 0.014206923386677164,
      "grad_norm": 3.7955832481384277,
      "learning_rate": 4.262057732331915e-05,
      "loss": 8.9879,
      "step": 3140
    },
    {
      "epoch": 0.014297413344554089,
      "grad_norm": 3.3697524070739746,
      "learning_rate": 4.2892045968690614e-05,
      "loss": 8.9757,
      "step": 3160
    },
    {
      "epoch": 0.014387903302431013,
      "grad_norm": 3.756788730621338,
      "learning_rate": 4.316351461406208e-05,
      "loss": 8.9811,
      "step": 3180
    },
    {
      "epoch": 0.014478393260307938,
      "grad_norm": 3.024722099304199,
      "learning_rate": 4.3434983259433534e-05,
      "loss": 8.9613,
      "step": 3200
    },
    {
      "epoch": 0.014568883218184862,
      "grad_norm": 3.258375406265259,
      "learning_rate": 4.3706451904805e-05,
      "loss": 8.9614,
      "step": 3220
    },
    {
      "epoch": 0.014659373176061787,
      "grad_norm": 2.970426559448242,
      "learning_rate": 4.3977920550176454e-05,
      "loss": 8.9624,
      "step": 3240
    },
    {
      "epoch": 0.014749863133938711,
      "grad_norm": 4.601590156555176,
      "learning_rate": 4.424938919554791e-05,
      "loss": 8.9615,
      "step": 3260
    },
    {
      "epoch": 0.014840353091815636,
      "grad_norm": 4.773068428039551,
      "learning_rate": 4.4520857840919373e-05,
      "loss": 8.9668,
      "step": 3280
    },
    {
      "epoch": 0.01493084304969256,
      "grad_norm": 3.182677984237671,
      "learning_rate": 4.479232648629084e-05,
      "loss": 8.933,
      "step": 3300
    },
    {
      "epoch": 0.015021333007569485,
      "grad_norm": 3.160553455352783,
      "learning_rate": 4.5063795131662286e-05,
      "loss": 8.9409,
      "step": 3320
    },
    {
      "epoch": 0.015111822965446409,
      "grad_norm": 3.0617620944976807,
      "learning_rate": 4.533526377703375e-05,
      "loss": 8.95,
      "step": 3340
    },
    {
      "epoch": 0.015202312923323334,
      "grad_norm": 3.1966211795806885,
      "learning_rate": 4.560673242240521e-05,
      "loss": 8.9379,
      "step": 3360
    },
    {
      "epoch": 0.015292802881200258,
      "grad_norm": 2.3314368724823,
      "learning_rate": 4.587820106777667e-05,
      "loss": 8.9246,
      "step": 3380
    },
    {
      "epoch": 0.015383292839077184,
      "grad_norm": 3.1242740154266357,
      "learning_rate": 4.6149669713148126e-05,
      "loss": 8.9409,
      "step": 3400
    },
    {
      "epoch": 0.015473782796954109,
      "grad_norm": 3.042051315307617,
      "learning_rate": 4.642113835851959e-05,
      "loss": 8.9204,
      "step": 3420
    },
    {
      "epoch": 0.015564272754831033,
      "grad_norm": 4.102015495300293,
      "learning_rate": 4.669260700389105e-05,
      "loss": 8.8915,
      "step": 3440
    },
    {
      "epoch": 0.015654762712707958,
      "grad_norm": 3.2991299629211426,
      "learning_rate": 4.696407564926251e-05,
      "loss": 8.8897,
      "step": 3460
    },
    {
      "epoch": 0.01574525267058488,
      "grad_norm": 3.501094102859497,
      "learning_rate": 4.7235544294633965e-05,
      "loss": 8.9223,
      "step": 3480
    },
    {
      "epoch": 0.015835742628461807,
      "grad_norm": 6.248113632202148,
      "learning_rate": 4.750701294000543e-05,
      "loss": 8.8925,
      "step": 3500
    },
    {
      "epoch": 0.01592623258633873,
      "grad_norm": 4.329127788543701,
      "learning_rate": 4.7778481585376885e-05,
      "loss": 8.8891,
      "step": 3520
    },
    {
      "epoch": 0.016016722544215656,
      "grad_norm": 3.575141191482544,
      "learning_rate": 4.804995023074835e-05,
      "loss": 8.8741,
      "step": 3540
    },
    {
      "epoch": 0.01610721250209258,
      "grad_norm": 3.301194429397583,
      "learning_rate": 4.832141887611981e-05,
      "loss": 8.8965,
      "step": 3560
    },
    {
      "epoch": 0.016197702459969505,
      "grad_norm": 3.7364182472229004,
      "learning_rate": 4.859288752149126e-05,
      "loss": 8.8899,
      "step": 3580
    },
    {
      "epoch": 0.01628819241784643,
      "grad_norm": 5.336267471313477,
      "learning_rate": 4.8864356166862725e-05,
      "loss": 8.8959,
      "step": 3600
    },
    {
      "epoch": 0.016378682375723354,
      "grad_norm": 4.769089221954346,
      "learning_rate": 4.913582481223419e-05,
      "loss": 8.8981,
      "step": 3620
    },
    {
      "epoch": 0.01646917233360028,
      "grad_norm": 3.369799852371216,
      "learning_rate": 4.9407293457605645e-05,
      "loss": 8.8954,
      "step": 3640
    },
    {
      "epoch": 0.016559662291477203,
      "grad_norm": 3.063030481338501,
      "learning_rate": 4.96787621029771e-05,
      "loss": 8.8694,
      "step": 3660
    },
    {
      "epoch": 0.01665015224935413,
      "grad_norm": 4.988938331604004,
      "learning_rate": 4.9950230748348564e-05,
      "loss": 8.8611,
      "step": 3680
    },
    {
      "epoch": 0.016740642207231052,
      "grad_norm": 3.5118601322174072,
      "learning_rate": 5.022169939372003e-05,
      "loss": 8.8525,
      "step": 3700
    },
    {
      "epoch": 0.016831132165107978,
      "grad_norm": 4.257157325744629,
      "learning_rate": 5.0493168039091484e-05,
      "loss": 8.8547,
      "step": 3720
    },
    {
      "epoch": 0.0169216221229849,
      "grad_norm": 3.7021615505218506,
      "learning_rate": 5.076463668446294e-05,
      "loss": 8.8572,
      "step": 3740
    },
    {
      "epoch": 0.017012112080861827,
      "grad_norm": 4.868439197540283,
      "learning_rate": 5.1036105329834404e-05,
      "loss": 8.8684,
      "step": 3760
    },
    {
      "epoch": 0.01710260203873875,
      "grad_norm": 6.547580718994141,
      "learning_rate": 5.130757397520586e-05,
      "loss": 8.828,
      "step": 3780
    },
    {
      "epoch": 0.017193091996615676,
      "grad_norm": 5.9254374504089355,
      "learning_rate": 5.1579042620577324e-05,
      "loss": 8.838,
      "step": 3800
    },
    {
      "epoch": 0.0172835819544926,
      "grad_norm": 6.061065196990967,
      "learning_rate": 5.185051126594879e-05,
      "loss": 8.8405,
      "step": 3820
    },
    {
      "epoch": 0.017374071912369525,
      "grad_norm": 6.026751518249512,
      "learning_rate": 5.2121979911320237e-05,
      "loss": 8.8305,
      "step": 3840
    },
    {
      "epoch": 0.017464561870246448,
      "grad_norm": 4.982965469360352,
      "learning_rate": 5.23934485566917e-05,
      "loss": 8.8316,
      "step": 3860
    },
    {
      "epoch": 0.017555051828123374,
      "grad_norm": 9.080221176147461,
      "learning_rate": 5.266491720206316e-05,
      "loss": 8.8267,
      "step": 3880
    },
    {
      "epoch": 0.0176455417860003,
      "grad_norm": 6.644583225250244,
      "learning_rate": 5.293638584743462e-05,
      "loss": 8.8331,
      "step": 3900
    },
    {
      "epoch": 0.017736031743877223,
      "grad_norm": 6.022925853729248,
      "learning_rate": 5.3207854492806076e-05,
      "loss": 8.8198,
      "step": 3920
    },
    {
      "epoch": 0.01782652170175415,
      "grad_norm": 4.794320583343506,
      "learning_rate": 5.347932313817754e-05,
      "loss": 8.8075,
      "step": 3940
    },
    {
      "epoch": 0.017917011659631072,
      "grad_norm": 5.949656963348389,
      "learning_rate": 5.3750791783548996e-05,
      "loss": 8.8175,
      "step": 3960
    },
    {
      "epoch": 0.018007501617508,
      "grad_norm": 7.972283840179443,
      "learning_rate": 5.402226042892046e-05,
      "loss": 8.8263,
      "step": 3980
    },
    {
      "epoch": 0.01809799157538492,
      "grad_norm": 6.132015228271484,
      "learning_rate": 5.4293729074291916e-05,
      "loss": 8.8035,
      "step": 4000
    },
    {
      "epoch": 0.01809799157538492,
      "eval_accuracy": 0.10955227810888264,
      "eval_loss": 8.793069839477539,
      "eval_runtime": 217.825,
      "eval_samples_per_second": 2790.497,
      "eval_steps_per_second": 10.903,
      "step": 4000
    },
    {
      "epoch": 0.018188481533261847,
      "grad_norm": 3.9714837074279785,
      "learning_rate": 5.455162428739481e-05,
      "loss": 8.8029,
      "step": 4020
    },
    {
      "epoch": 0.01827897149113877,
      "grad_norm": 3.9775164127349854,
      "learning_rate": 5.482309293276626e-05,
      "loss": 8.7859,
      "step": 4040
    },
    {
      "epoch": 0.018369461449015696,
      "grad_norm": 4.350288391113281,
      "learning_rate": 5.509456157813772e-05,
      "loss": 8.8049,
      "step": 4060
    },
    {
      "epoch": 0.01845995140689262,
      "grad_norm": 5.212925910949707,
      "learning_rate": 5.5366030223509186e-05,
      "loss": 8.7768,
      "step": 4080
    },
    {
      "epoch": 0.018550441364769545,
      "grad_norm": 5.585092544555664,
      "learning_rate": 5.563749886888064e-05,
      "loss": 8.7792,
      "step": 4100
    },
    {
      "epoch": 0.018640931322646468,
      "grad_norm": 5.019256114959717,
      "learning_rate": 5.59089675142521e-05,
      "loss": 8.7843,
      "step": 4120
    },
    {
      "epoch": 0.018731421280523394,
      "grad_norm": 5.925191402435303,
      "learning_rate": 5.616686272735499e-05,
      "loss": 8.7693,
      "step": 4140
    },
    {
      "epoch": 0.018821911238400317,
      "grad_norm": 4.334403991699219,
      "learning_rate": 5.643833137272645e-05,
      "loss": 8.7652,
      "step": 4160
    },
    {
      "epoch": 0.018912401196277243,
      "grad_norm": 6.786751747131348,
      "learning_rate": 5.670980001809791e-05,
      "loss": 8.76,
      "step": 4180
    },
    {
      "epoch": 0.019002891154154166,
      "grad_norm": 5.805715084075928,
      "learning_rate": 5.698126866346936e-05,
      "loss": 8.7835,
      "step": 4200
    },
    {
      "epoch": 0.019093381112031092,
      "grad_norm": 7.2905120849609375,
      "learning_rate": 5.7252737308840826e-05,
      "loss": 8.7524,
      "step": 4220
    },
    {
      "epoch": 0.01918387106990802,
      "grad_norm": 4.692761421203613,
      "learning_rate": 5.752420595421228e-05,
      "loss": 8.7274,
      "step": 4240
    },
    {
      "epoch": 0.01927436102778494,
      "grad_norm": 5.6952924728393555,
      "learning_rate": 5.7795674599583746e-05,
      "loss": 8.7625,
      "step": 4260
    },
    {
      "epoch": 0.019364850985661868,
      "grad_norm": 7.725805759429932,
      "learning_rate": 5.806714324495521e-05,
      "loss": 8.7313,
      "step": 4280
    },
    {
      "epoch": 0.01945534094353879,
      "grad_norm": 5.154263496398926,
      "learning_rate": 5.833861189032667e-05,
      "loss": 8.7433,
      "step": 4300
    },
    {
      "epoch": 0.019545830901415717,
      "grad_norm": 7.734066963195801,
      "learning_rate": 5.861008053569812e-05,
      "loss": 8.738,
      "step": 4320
    },
    {
      "epoch": 0.01963632085929264,
      "grad_norm": 6.757390022277832,
      "learning_rate": 5.888154918106958e-05,
      "loss": 8.6971,
      "step": 4340
    },
    {
      "epoch": 0.019726810817169566,
      "grad_norm": 9.869467735290527,
      "learning_rate": 5.915301782644104e-05,
      "loss": 8.7437,
      "step": 4360
    },
    {
      "epoch": 0.01981730077504649,
      "grad_norm": 4.825913429260254,
      "learning_rate": 5.9424486471812505e-05,
      "loss": 8.712,
      "step": 4380
    },
    {
      "epoch": 0.019907790732923415,
      "grad_norm": 8.725457191467285,
      "learning_rate": 5.969595511718397e-05,
      "loss": 8.7054,
      "step": 4400
    },
    {
      "epoch": 0.019998280690800337,
      "grad_norm": 9.08804702758789,
      "learning_rate": 5.9967423762555425e-05,
      "loss": 8.6968,
      "step": 4420
    },
    {
      "epoch": 0.020088770648677264,
      "grad_norm": 7.369052886962891,
      "learning_rate": 6.023889240792689e-05,
      "loss": 8.6736,
      "step": 4440
    },
    {
      "epoch": 0.020179260606554186,
      "grad_norm": 9.925745964050293,
      "learning_rate": 6.051036105329834e-05,
      "loss": 8.7043,
      "step": 4460
    },
    {
      "epoch": 0.020269750564431113,
      "grad_norm": 10.998024940490723,
      "learning_rate": 6.07818296986698e-05,
      "loss": 8.7098,
      "step": 4480
    },
    {
      "epoch": 0.020360240522308035,
      "grad_norm": 9.010730743408203,
      "learning_rate": 6.105329834404126e-05,
      "loss": 8.6893,
      "step": 4500
    },
    {
      "epoch": 0.02045073048018496,
      "grad_norm": 5.833269119262695,
      "learning_rate": 6.132476698941272e-05,
      "loss": 8.6928,
      "step": 4520
    },
    {
      "epoch": 0.020541220438061888,
      "grad_norm": 5.778794288635254,
      "learning_rate": 6.159623563478418e-05,
      "loss": 8.6813,
      "step": 4540
    },
    {
      "epoch": 0.02063171039593881,
      "grad_norm": 6.518376350402832,
      "learning_rate": 6.186770428015565e-05,
      "loss": 8.6679,
      "step": 4560
    },
    {
      "epoch": 0.020722200353815737,
      "grad_norm": 7.985169887542725,
      "learning_rate": 6.21391729255271e-05,
      "loss": 8.6912,
      "step": 4580
    },
    {
      "epoch": 0.02081269031169266,
      "grad_norm": 6.066607475280762,
      "learning_rate": 6.241064157089856e-05,
      "loss": 8.67,
      "step": 4600
    },
    {
      "epoch": 0.020903180269569586,
      "grad_norm": 7.519238471984863,
      "learning_rate": 6.268211021627002e-05,
      "loss": 8.648,
      "step": 4620
    },
    {
      "epoch": 0.02099367022744651,
      "grad_norm": 9.485710144042969,
      "learning_rate": 6.295357886164147e-05,
      "loss": 8.6484,
      "step": 4640
    },
    {
      "epoch": 0.021084160185323435,
      "grad_norm": 9.786864280700684,
      "learning_rate": 6.322504750701294e-05,
      "loss": 8.637,
      "step": 4660
    },
    {
      "epoch": 0.021174650143200358,
      "grad_norm": 8.231635093688965,
      "learning_rate": 6.34965161523844e-05,
      "loss": 8.648,
      "step": 4680
    },
    {
      "epoch": 0.021265140101077284,
      "grad_norm": 7.283841609954834,
      "learning_rate": 6.376798479775586e-05,
      "loss": 8.64,
      "step": 4700
    },
    {
      "epoch": 0.021355630058954207,
      "grad_norm": 7.625393390655518,
      "learning_rate": 6.403945344312731e-05,
      "loss": 8.6713,
      "step": 4720
    },
    {
      "epoch": 0.021446120016831133,
      "grad_norm": 7.758394241333008,
      "learning_rate": 6.431092208849878e-05,
      "loss": 8.6473,
      "step": 4740
    },
    {
      "epoch": 0.021536609974708056,
      "grad_norm": 7.519627571105957,
      "learning_rate": 6.458239073387024e-05,
      "loss": 8.6144,
      "step": 4760
    },
    {
      "epoch": 0.021627099932584982,
      "grad_norm": 7.698405742645264,
      "learning_rate": 6.48538593792417e-05,
      "loss": 8.6678,
      "step": 4780
    },
    {
      "epoch": 0.021717589890461905,
      "grad_norm": 7.843724727630615,
      "learning_rate": 6.512532802461315e-05,
      "loss": 8.6292,
      "step": 4800
    },
    {
      "epoch": 0.02180807984833883,
      "grad_norm": 9.748797416687012,
      "learning_rate": 6.539679666998462e-05,
      "loss": 8.6059,
      "step": 4820
    },
    {
      "epoch": 0.021898569806215754,
      "grad_norm": 8.68276596069336,
      "learning_rate": 6.566826531535607e-05,
      "loss": 8.6153,
      "step": 4840
    },
    {
      "epoch": 0.02198905976409268,
      "grad_norm": 9.26171588897705,
      "learning_rate": 6.593973396072753e-05,
      "loss": 8.6343,
      "step": 4860
    },
    {
      "epoch": 0.022079549721969606,
      "grad_norm": 10.164648056030273,
      "learning_rate": 6.621120260609899e-05,
      "loss": 8.6255,
      "step": 4880
    },
    {
      "epoch": 0.02217003967984653,
      "grad_norm": 8.388748168945312,
      "learning_rate": 6.648267125147046e-05,
      "loss": 8.6111,
      "step": 4900
    },
    {
      "epoch": 0.022260529637723455,
      "grad_norm": 9.701128005981445,
      "learning_rate": 6.675413989684192e-05,
      "loss": 8.5902,
      "step": 4920
    },
    {
      "epoch": 0.022351019595600378,
      "grad_norm": 9.261332511901855,
      "learning_rate": 6.702560854221338e-05,
      "loss": 8.6013,
      "step": 4940
    },
    {
      "epoch": 0.022441509553477304,
      "grad_norm": 7.0918354988098145,
      "learning_rate": 6.729707718758483e-05,
      "loss": 8.5595,
      "step": 4960
    },
    {
      "epoch": 0.022531999511354227,
      "grad_norm": 8.793268203735352,
      "learning_rate": 6.756854583295628e-05,
      "loss": 8.5862,
      "step": 4980
    },
    {
      "epoch": 0.022622489469231153,
      "grad_norm": 8.539192199707031,
      "learning_rate": 6.784001447832774e-05,
      "loss": 8.5938,
      "step": 5000
    },
    {
      "epoch": 0.022712979427108076,
      "grad_norm": 8.60251522064209,
      "learning_rate": 6.811148312369921e-05,
      "loss": 8.598,
      "step": 5020
    },
    {
      "epoch": 0.022803469384985002,
      "grad_norm": 8.976070404052734,
      "learning_rate": 6.838295176907067e-05,
      "loss": 8.5896,
      "step": 5040
    },
    {
      "epoch": 0.022893959342861925,
      "grad_norm": 8.834037780761719,
      "learning_rate": 6.865442041444213e-05,
      "loss": 8.5654,
      "step": 5060
    },
    {
      "epoch": 0.02298444930073885,
      "grad_norm": 7.039853096008301,
      "learning_rate": 6.89258890598136e-05,
      "loss": 8.574,
      "step": 5080
    },
    {
      "epoch": 0.023074939258615774,
      "grad_norm": 4.989284515380859,
      "learning_rate": 6.919735770518505e-05,
      "loss": 8.584,
      "step": 5100
    },
    {
      "epoch": 0.0231654292164927,
      "grad_norm": 10.530620574951172,
      "learning_rate": 6.946882635055651e-05,
      "loss": 8.5884,
      "step": 5120
    },
    {
      "epoch": 0.023255919174369623,
      "grad_norm": 10.483266830444336,
      "learning_rate": 6.974029499592797e-05,
      "loss": 8.573,
      "step": 5140
    },
    {
      "epoch": 0.02334640913224655,
      "grad_norm": 9.433408737182617,
      "learning_rate": 7.001176364129942e-05,
      "loss": 8.5553,
      "step": 5160
    },
    {
      "epoch": 0.023436899090123475,
      "grad_norm": 10.707608222961426,
      "learning_rate": 7.028323228667089e-05,
      "loss": 8.5672,
      "step": 5180
    },
    {
      "epoch": 0.023527389048000398,
      "grad_norm": 11.35906982421875,
      "learning_rate": 7.055470093204235e-05,
      "loss": 8.5374,
      "step": 5200
    },
    {
      "epoch": 0.023617879005877324,
      "grad_norm": 9.386375427246094,
      "learning_rate": 7.08261695774138e-05,
      "loss": 8.5199,
      "step": 5220
    },
    {
      "epoch": 0.023708368963754247,
      "grad_norm": 10.813016891479492,
      "learning_rate": 7.109763822278526e-05,
      "loss": 8.5296,
      "step": 5240
    },
    {
      "epoch": 0.023798858921631173,
      "grad_norm": 10.738064765930176,
      "learning_rate": 7.136910686815673e-05,
      "loss": 8.5293,
      "step": 5260
    },
    {
      "epoch": 0.023889348879508096,
      "grad_norm": 12.89620590209961,
      "learning_rate": 7.164057551352819e-05,
      "loss": 8.5494,
      "step": 5280
    },
    {
      "epoch": 0.023979838837385022,
      "grad_norm": 11.624608039855957,
      "learning_rate": 7.191204415889965e-05,
      "loss": 8.5179,
      "step": 5300
    },
    {
      "epoch": 0.024070328795261945,
      "grad_norm": 7.694511413574219,
      "learning_rate": 7.21835128042711e-05,
      "loss": 8.5528,
      "step": 5320
    },
    {
      "epoch": 0.02416081875313887,
      "grad_norm": 9.326581954956055,
      "learning_rate": 7.245498144964257e-05,
      "loss": 8.5307,
      "step": 5340
    },
    {
      "epoch": 0.024251308711015794,
      "grad_norm": 8.548121452331543,
      "learning_rate": 7.272645009501402e-05,
      "loss": 8.5031,
      "step": 5360
    },
    {
      "epoch": 0.02434179866889272,
      "grad_norm": 10.232369422912598,
      "learning_rate": 7.299791874038548e-05,
      "loss": 8.4905,
      "step": 5380
    },
    {
      "epoch": 0.024432288626769643,
      "grad_norm": 9.751016616821289,
      "learning_rate": 7.326938738575694e-05,
      "loss": 8.4996,
      "step": 5400
    },
    {
      "epoch": 0.02452277858464657,
      "grad_norm": 11.058146476745605,
      "learning_rate": 7.35408560311284e-05,
      "loss": 8.4889,
      "step": 5420
    },
    {
      "epoch": 0.024613268542523492,
      "grad_norm": 8.11478042602539,
      "learning_rate": 7.381232467649987e-05,
      "loss": 8.5099,
      "step": 5440
    },
    {
      "epoch": 0.02470375850040042,
      "grad_norm": 8.138284683227539,
      "learning_rate": 7.408379332187133e-05,
      "loss": 8.4854,
      "step": 5460
    },
    {
      "epoch": 0.02479424845827734,
      "grad_norm": 7.7438459396362305,
      "learning_rate": 7.435526196724278e-05,
      "loss": 8.4877,
      "step": 5480
    },
    {
      "epoch": 0.024884738416154267,
      "grad_norm": 9.896592140197754,
      "learning_rate": 7.462673061261423e-05,
      "loss": 8.4662,
      "step": 5500
    },
    {
      "epoch": 0.024975228374031194,
      "grad_norm": 7.162434101104736,
      "learning_rate": 7.48981992579857e-05,
      "loss": 8.4772,
      "step": 5520
    },
    {
      "epoch": 0.025065718331908116,
      "grad_norm": 8.252161026000977,
      "learning_rate": 7.516966790335716e-05,
      "loss": 8.4936,
      "step": 5540
    },
    {
      "epoch": 0.025156208289785043,
      "grad_norm": 7.313194751739502,
      "learning_rate": 7.544113654872862e-05,
      "loss": 8.493,
      "step": 5560
    },
    {
      "epoch": 0.025246698247661965,
      "grad_norm": 11.324033737182617,
      "learning_rate": 7.571260519410008e-05,
      "loss": 8.4776,
      "step": 5580
    },
    {
      "epoch": 0.02533718820553889,
      "grad_norm": 9.4235258102417,
      "learning_rate": 7.598407383947155e-05,
      "loss": 8.4769,
      "step": 5600
    },
    {
      "epoch": 0.025427678163415814,
      "grad_norm": 6.676479339599609,
      "learning_rate": 7.6255542484843e-05,
      "loss": 8.4389,
      "step": 5620
    },
    {
      "epoch": 0.02551816812129274,
      "grad_norm": 9.530123710632324,
      "learning_rate": 7.652701113021446e-05,
      "loss": 8.4704,
      "step": 5640
    },
    {
      "epoch": 0.025608658079169663,
      "grad_norm": 10.614904403686523,
      "learning_rate": 7.679847977558591e-05,
      "loss": 8.4507,
      "step": 5660
    },
    {
      "epoch": 0.02569914803704659,
      "grad_norm": 7.5254974365234375,
      "learning_rate": 7.706994842095737e-05,
      "loss": 8.464,
      "step": 5680
    },
    {
      "epoch": 0.025789637994923512,
      "grad_norm": 7.461385250091553,
      "learning_rate": 7.734141706632884e-05,
      "loss": 8.4516,
      "step": 5700
    },
    {
      "epoch": 0.02588012795280044,
      "grad_norm": 9.106521606445312,
      "learning_rate": 7.76128857117003e-05,
      "loss": 8.4142,
      "step": 5720
    },
    {
      "epoch": 0.02597061791067736,
      "grad_norm": 8.536205291748047,
      "learning_rate": 7.788435435707175e-05,
      "loss": 8.4497,
      "step": 5740
    },
    {
      "epoch": 0.026061107868554288,
      "grad_norm": 7.925720691680908,
      "learning_rate": 7.815582300244321e-05,
      "loss": 8.4783,
      "step": 5760
    },
    {
      "epoch": 0.02615159782643121,
      "grad_norm": 11.187898635864258,
      "learning_rate": 7.842729164781468e-05,
      "loss": 8.4054,
      "step": 5780
    },
    {
      "epoch": 0.026242087784308137,
      "grad_norm": 6.965084075927734,
      "learning_rate": 7.869876029318614e-05,
      "loss": 8.4079,
      "step": 5800
    },
    {
      "epoch": 0.02633257774218506,
      "grad_norm": 8.090741157531738,
      "learning_rate": 7.89702289385576e-05,
      "loss": 8.4474,
      "step": 5820
    },
    {
      "epoch": 0.026423067700061986,
      "grad_norm": 9.698216438293457,
      "learning_rate": 7.924169758392905e-05,
      "loss": 8.3945,
      "step": 5840
    },
    {
      "epoch": 0.026513557657938912,
      "grad_norm": 7.889448642730713,
      "learning_rate": 7.951316622930052e-05,
      "loss": 8.4046,
      "step": 5860
    },
    {
      "epoch": 0.026604047615815835,
      "grad_norm": 11.487144470214844,
      "learning_rate": 7.978463487467197e-05,
      "loss": 8.4195,
      "step": 5880
    },
    {
      "epoch": 0.02669453757369276,
      "grad_norm": 9.28532886505127,
      "learning_rate": 8.005610352004343e-05,
      "loss": 8.406,
      "step": 5900
    },
    {
      "epoch": 0.026785027531569684,
      "grad_norm": 8.982071876525879,
      "learning_rate": 8.032757216541489e-05,
      "loss": 8.4221,
      "step": 5920
    },
    {
      "epoch": 0.02687551748944661,
      "grad_norm": 11.42358684539795,
      "learning_rate": 8.059904081078636e-05,
      "loss": 8.4423,
      "step": 5940
    },
    {
      "epoch": 0.026966007447323533,
      "grad_norm": 8.633251190185547,
      "learning_rate": 8.087050945615782e-05,
      "loss": 8.4233,
      "step": 5960
    },
    {
      "epoch": 0.02705649740520046,
      "grad_norm": 9.28022575378418,
      "learning_rate": 8.114197810152928e-05,
      "loss": 8.4169,
      "step": 5980
    },
    {
      "epoch": 0.02714698736307738,
      "grad_norm": 11.166740417480469,
      "learning_rate": 8.141344674690073e-05,
      "loss": 8.4018,
      "step": 6000
    },
    {
      "epoch": 0.02714698736307738,
      "eval_accuracy": 0.11314150543417859,
      "eval_loss": 8.402518272399902,
      "eval_runtime": 218.3209,
      "eval_samples_per_second": 2784.158,
      "eval_steps_per_second": 10.878,
      "step": 6000
    },
    {
      "epoch": 0.027237477320954308,
      "grad_norm": 7.100822925567627,
      "learning_rate": 8.167134196000362e-05,
      "loss": 8.4131,
      "step": 6020
    },
    {
      "epoch": 0.02732796727883123,
      "grad_norm": 8.460954666137695,
      "learning_rate": 8.194281060537508e-05,
      "loss": 8.4087,
      "step": 6040
    },
    {
      "epoch": 0.027418457236708157,
      "grad_norm": 7.642125129699707,
      "learning_rate": 8.221427925074653e-05,
      "loss": 8.3806,
      "step": 6060
    },
    {
      "epoch": 0.02750894719458508,
      "grad_norm": 8.104974746704102,
      "learning_rate": 8.2485747896118e-05,
      "loss": 8.404,
      "step": 6080
    },
    {
      "epoch": 0.027599437152462006,
      "grad_norm": 8.082459449768066,
      "learning_rate": 8.275721654148946e-05,
      "loss": 8.3865,
      "step": 6100
    },
    {
      "epoch": 0.02768992711033893,
      "grad_norm": 8.786911010742188,
      "learning_rate": 8.302868518686092e-05,
      "loss": 8.3475,
      "step": 6120
    },
    {
      "epoch": 0.027780417068215855,
      "grad_norm": 7.780808925628662,
      "learning_rate": 8.330015383223237e-05,
      "loss": 8.3798,
      "step": 6140
    },
    {
      "epoch": 0.02787090702609278,
      "grad_norm": 10.508188247680664,
      "learning_rate": 8.357162247760384e-05,
      "loss": 8.3718,
      "step": 6160
    },
    {
      "epoch": 0.027961396983969704,
      "grad_norm": 9.833992004394531,
      "learning_rate": 8.38430911229753e-05,
      "loss": 8.3952,
      "step": 6180
    },
    {
      "epoch": 0.02805188694184663,
      "grad_norm": 9.917244911193848,
      "learning_rate": 8.411455976834675e-05,
      "loss": 8.3828,
      "step": 6200
    },
    {
      "epoch": 0.028142376899723553,
      "grad_norm": 8.893899917602539,
      "learning_rate": 8.438602841371821e-05,
      "loss": 8.3853,
      "step": 6220
    },
    {
      "epoch": 0.02823286685760048,
      "grad_norm": 8.206876754760742,
      "learning_rate": 8.465749705908967e-05,
      "loss": 8.3686,
      "step": 6240
    },
    {
      "epoch": 0.028323356815477402,
      "grad_norm": 6.771660327911377,
      "learning_rate": 8.492896570446114e-05,
      "loss": 8.3699,
      "step": 6260
    },
    {
      "epoch": 0.028413846773354328,
      "grad_norm": 8.602880477905273,
      "learning_rate": 8.52004343498326e-05,
      "loss": 8.3388,
      "step": 6280
    },
    {
      "epoch": 0.02850433673123125,
      "grad_norm": 12.602445602416992,
      "learning_rate": 8.547190299520405e-05,
      "loss": 8.3127,
      "step": 6300
    },
    {
      "epoch": 0.028594826689108177,
      "grad_norm": 6.581843852996826,
      "learning_rate": 8.57433716405755e-05,
      "loss": 8.3345,
      "step": 6320
    },
    {
      "epoch": 0.0286853166469851,
      "grad_norm": 11.11732292175293,
      "learning_rate": 8.601484028594696e-05,
      "loss": 8.3442,
      "step": 6340
    },
    {
      "epoch": 0.028775806604862026,
      "grad_norm": 7.795157432556152,
      "learning_rate": 8.628630893131843e-05,
      "loss": 8.3477,
      "step": 6360
    },
    {
      "epoch": 0.02886629656273895,
      "grad_norm": 7.013496398925781,
      "learning_rate": 8.655777757668989e-05,
      "loss": 8.3444,
      "step": 6380
    },
    {
      "epoch": 0.028956786520615875,
      "grad_norm": 7.039948463439941,
      "learning_rate": 8.682924622206135e-05,
      "loss": 8.3242,
      "step": 6400
    },
    {
      "epoch": 0.029047276478492798,
      "grad_norm": 9.261716842651367,
      "learning_rate": 8.710071486743282e-05,
      "loss": 8.3209,
      "step": 6420
    },
    {
      "epoch": 0.029137766436369724,
      "grad_norm": 7.255875587463379,
      "learning_rate": 8.737218351280428e-05,
      "loss": 8.304,
      "step": 6440
    },
    {
      "epoch": 0.029228256394246647,
      "grad_norm": 7.955538749694824,
      "learning_rate": 8.764365215817573e-05,
      "loss": 8.2953,
      "step": 6460
    },
    {
      "epoch": 0.029318746352123573,
      "grad_norm": 9.364811897277832,
      "learning_rate": 8.791512080354718e-05,
      "loss": 8.2936,
      "step": 6480
    },
    {
      "epoch": 0.0294092363100005,
      "grad_norm": 9.385396957397461,
      "learning_rate": 8.818658944891864e-05,
      "loss": 8.3276,
      "step": 6500
    },
    {
      "epoch": 0.029499726267877422,
      "grad_norm": 8.448295593261719,
      "learning_rate": 8.84580580942901e-05,
      "loss": 8.2975,
      "step": 6520
    },
    {
      "epoch": 0.02959021622575435,
      "grad_norm": 9.282604217529297,
      "learning_rate": 8.872952673966157e-05,
      "loss": 8.3217,
      "step": 6540
    },
    {
      "epoch": 0.02968070618363127,
      "grad_norm": 7.898446559906006,
      "learning_rate": 8.900099538503303e-05,
      "loss": 8.3006,
      "step": 6560
    },
    {
      "epoch": 0.029771196141508197,
      "grad_norm": 9.186493873596191,
      "learning_rate": 8.927246403040448e-05,
      "loss": 8.2981,
      "step": 6580
    },
    {
      "epoch": 0.02986168609938512,
      "grad_norm": 9.346575736999512,
      "learning_rate": 8.954393267577595e-05,
      "loss": 8.2883,
      "step": 6600
    },
    {
      "epoch": 0.029952176057262046,
      "grad_norm": 6.458785057067871,
      "learning_rate": 8.981540132114741e-05,
      "loss": 8.2966,
      "step": 6620
    },
    {
      "epoch": 0.03004266601513897,
      "grad_norm": 8.704976081848145,
      "learning_rate": 9.008686996651886e-05,
      "loss": 8.2986,
      "step": 6640
    },
    {
      "epoch": 0.030133155973015895,
      "grad_norm": 7.744259357452393,
      "learning_rate": 9.035833861189032e-05,
      "loss": 8.2868,
      "step": 6660
    },
    {
      "epoch": 0.030223645930892818,
      "grad_norm": 8.345844268798828,
      "learning_rate": 9.062980725726179e-05,
      "loss": 8.2931,
      "step": 6680
    },
    {
      "epoch": 0.030314135888769744,
      "grad_norm": 7.604759216308594,
      "learning_rate": 9.090127590263323e-05,
      "loss": 8.2847,
      "step": 6700
    },
    {
      "epoch": 0.030404625846646667,
      "grad_norm": 10.3920259475708,
      "learning_rate": 9.11727445480047e-05,
      "loss": 8.273,
      "step": 6720
    },
    {
      "epoch": 0.030495115804523593,
      "grad_norm": 7.095389366149902,
      "learning_rate": 9.144421319337616e-05,
      "loss": 8.2768,
      "step": 6740
    },
    {
      "epoch": 0.030585605762400516,
      "grad_norm": 7.211811542510986,
      "learning_rate": 9.171568183874762e-05,
      "loss": 8.2918,
      "step": 6760
    },
    {
      "epoch": 0.030676095720277442,
      "grad_norm": 8.639713287353516,
      "learning_rate": 9.198715048411909e-05,
      "loss": 8.2845,
      "step": 6780
    },
    {
      "epoch": 0.03076658567815437,
      "grad_norm": 7.687414169311523,
      "learning_rate": 9.225861912949055e-05,
      "loss": 8.2992,
      "step": 6800
    },
    {
      "epoch": 0.03085707563603129,
      "grad_norm": 8.479426383972168,
      "learning_rate": 9.2530087774862e-05,
      "loss": 8.2848,
      "step": 6820
    },
    {
      "epoch": 0.030947565593908218,
      "grad_norm": 8.185149192810059,
      "learning_rate": 9.280155642023345e-05,
      "loss": 8.3037,
      "step": 6840
    },
    {
      "epoch": 0.03103805555178514,
      "grad_norm": 8.295937538146973,
      "learning_rate": 9.307302506560491e-05,
      "loss": 8.3179,
      "step": 6860
    },
    {
      "epoch": 0.031128545509662067,
      "grad_norm": 10.772727012634277,
      "learning_rate": 9.334449371097638e-05,
      "loss": 8.264,
      "step": 6880
    },
    {
      "epoch": 0.03121903546753899,
      "grad_norm": 8.465076446533203,
      "learning_rate": 9.361596235634784e-05,
      "loss": 8.2303,
      "step": 6900
    },
    {
      "epoch": 0.031309525425415916,
      "grad_norm": 9.096773147583008,
      "learning_rate": 9.38874310017193e-05,
      "loss": 8.2473,
      "step": 6920
    },
    {
      "epoch": 0.03140001538329284,
      "grad_norm": 10.57555866241455,
      "learning_rate": 9.415889964709077e-05,
      "loss": 8.27,
      "step": 6940
    },
    {
      "epoch": 0.03149050534116976,
      "grad_norm": 7.5089850425720215,
      "learning_rate": 9.443036829246222e-05,
      "loss": 8.27,
      "step": 6960
    },
    {
      "epoch": 0.03158099529904669,
      "grad_norm": 10.865699768066406,
      "learning_rate": 9.470183693783368e-05,
      "loss": 8.2451,
      "step": 6980
    },
    {
      "epoch": 0.031671485256923614,
      "grad_norm": 12.514881134033203,
      "learning_rate": 9.497330558320513e-05,
      "loss": 8.259,
      "step": 7000
    },
    {
      "epoch": 0.031761975214800536,
      "grad_norm": 9.914373397827148,
      "learning_rate": 9.524477422857659e-05,
      "loss": 8.2727,
      "step": 7020
    },
    {
      "epoch": 0.03185246517267746,
      "grad_norm": 7.3313984870910645,
      "learning_rate": 9.551624287394806e-05,
      "loss": 8.2421,
      "step": 7040
    },
    {
      "epoch": 0.03194295513055439,
      "grad_norm": 5.989616394042969,
      "learning_rate": 9.578771151931952e-05,
      "loss": 8.2363,
      "step": 7060
    },
    {
      "epoch": 0.03203344508843131,
      "grad_norm": 7.4773430824279785,
      "learning_rate": 9.605918016469098e-05,
      "loss": 8.2718,
      "step": 7080
    },
    {
      "epoch": 0.032123935046308234,
      "grad_norm": 6.605820655822754,
      "learning_rate": 9.633064881006243e-05,
      "loss": 8.257,
      "step": 7100
    },
    {
      "epoch": 0.03221442500418516,
      "grad_norm": 8.294914245605469,
      "learning_rate": 9.658854402316532e-05,
      "loss": 8.2478,
      "step": 7120
    },
    {
      "epoch": 0.03230491496206209,
      "grad_norm": 10.011855125427246,
      "learning_rate": 9.686001266853678e-05,
      "loss": 8.2525,
      "step": 7140
    },
    {
      "epoch": 0.03239540491993901,
      "grad_norm": 7.529365062713623,
      "learning_rate": 9.713148131390823e-05,
      "loss": 8.2728,
      "step": 7160
    },
    {
      "epoch": 0.03248589487781593,
      "grad_norm": 8.781538009643555,
      "learning_rate": 9.74029499592797e-05,
      "loss": 8.2305,
      "step": 7180
    },
    {
      "epoch": 0.03257638483569286,
      "grad_norm": 12.758204460144043,
      "learning_rate": 9.767441860465116e-05,
      "loss": 8.2382,
      "step": 7200
    },
    {
      "epoch": 0.032666874793569785,
      "grad_norm": 10.523704528808594,
      "learning_rate": 9.794588725002262e-05,
      "loss": 8.2364,
      "step": 7220
    },
    {
      "epoch": 0.03275736475144671,
      "grad_norm": 6.50457239151001,
      "learning_rate": 9.821735589539409e-05,
      "loss": 8.2384,
      "step": 7240
    },
    {
      "epoch": 0.03284785470932363,
      "grad_norm": 9.191271781921387,
      "learning_rate": 9.848882454076555e-05,
      "loss": 8.2148,
      "step": 7260
    },
    {
      "epoch": 0.03293834466720056,
      "grad_norm": 8.93270206451416,
      "learning_rate": 9.8760293186137e-05,
      "loss": 8.2352,
      "step": 7280
    },
    {
      "epoch": 0.03302883462507748,
      "grad_norm": 9.895100593566895,
      "learning_rate": 9.903176183150845e-05,
      "loss": 8.2376,
      "step": 7300
    },
    {
      "epoch": 0.033119324582954406,
      "grad_norm": 10.420171737670898,
      "learning_rate": 9.930323047687991e-05,
      "loss": 8.2479,
      "step": 7320
    },
    {
      "epoch": 0.03320981454083133,
      "grad_norm": 9.649170875549316,
      "learning_rate": 9.957469912225138e-05,
      "loss": 8.2557,
      "step": 7340
    },
    {
      "epoch": 0.03330030449870826,
      "grad_norm": 7.854948043823242,
      "learning_rate": 9.984616776762284e-05,
      "loss": 8.2145,
      "step": 7360
    },
    {
      "epoch": 0.03339079445658518,
      "grad_norm": 8.486404418945312,
      "learning_rate": 0.0001001176364129943,
      "loss": 8.2132,
      "step": 7380
    },
    {
      "epoch": 0.033481284414462104,
      "grad_norm": 11.286945343017578,
      "learning_rate": 0.00010038910505836577,
      "loss": 8.2169,
      "step": 7400
    },
    {
      "epoch": 0.033571774372339026,
      "grad_norm": 6.662302494049072,
      "learning_rate": 0.00010066057370373721,
      "loss": 8.2318,
      "step": 7420
    },
    {
      "epoch": 0.033662264330215956,
      "grad_norm": 10.467026710510254,
      "learning_rate": 0.00010093204234910868,
      "loss": 8.2089,
      "step": 7440
    },
    {
      "epoch": 0.03375275428809288,
      "grad_norm": 12.113288879394531,
      "learning_rate": 0.00010120351099448013,
      "loss": 8.2194,
      "step": 7460
    },
    {
      "epoch": 0.0338432442459698,
      "grad_norm": 13.295260429382324,
      "learning_rate": 0.00010147497963985159,
      "loss": 8.2526,
      "step": 7480
    },
    {
      "epoch": 0.03393373420384673,
      "grad_norm": 9.79587173461914,
      "learning_rate": 0.00010174644828522305,
      "loss": 8.2253,
      "step": 7500
    },
    {
      "epoch": 0.034024224161723654,
      "grad_norm": 10.251439094543457,
      "learning_rate": 0.00010201791693059452,
      "loss": 8.2248,
      "step": 7520
    },
    {
      "epoch": 0.03411471411960058,
      "grad_norm": 10.583033561706543,
      "learning_rate": 0.00010228938557596597,
      "loss": 8.211,
      "step": 7540
    },
    {
      "epoch": 0.0342052040774775,
      "grad_norm": 10.661384582519531,
      "learning_rate": 0.00010256085422133743,
      "loss": 8.2053,
      "step": 7560
    },
    {
      "epoch": 0.03429569403535443,
      "grad_norm": 8.133881568908691,
      "learning_rate": 0.0001028323228667089,
      "loss": 8.1948,
      "step": 7580
    },
    {
      "epoch": 0.03438618399323135,
      "grad_norm": 9.278162002563477,
      "learning_rate": 0.00010310379151208036,
      "loss": 8.2235,
      "step": 7600
    },
    {
      "epoch": 0.034476673951108275,
      "grad_norm": 10.354171752929688,
      "learning_rate": 0.00010337526015745181,
      "loss": 8.1704,
      "step": 7620
    },
    {
      "epoch": 0.0345671639089852,
      "grad_norm": 9.4600830078125,
      "learning_rate": 0.00010364672880282327,
      "loss": 8.2008,
      "step": 7640
    },
    {
      "epoch": 0.03465765386686213,
      "grad_norm": 10.290422439575195,
      "learning_rate": 0.00010391819744819473,
      "loss": 8.2084,
      "step": 7660
    },
    {
      "epoch": 0.03474814382473905,
      "grad_norm": 9.98493480682373,
      "learning_rate": 0.00010418966609356618,
      "loss": 8.1878,
      "step": 7680
    },
    {
      "epoch": 0.03483863378261597,
      "grad_norm": 8.021723747253418,
      "learning_rate": 0.00010446113473893765,
      "loss": 8.1865,
      "step": 7700
    },
    {
      "epoch": 0.034929123740492896,
      "grad_norm": 6.915677070617676,
      "learning_rate": 0.00010473260338430911,
      "loss": 8.1795,
      "step": 7720
    },
    {
      "epoch": 0.035019613698369825,
      "grad_norm": 9.64877986907959,
      "learning_rate": 0.00010500407202968057,
      "loss": 8.1756,
      "step": 7740
    },
    {
      "epoch": 0.03511010365624675,
      "grad_norm": 9.673460960388184,
      "learning_rate": 0.00010527554067505204,
      "loss": 8.1877,
      "step": 7760
    },
    {
      "epoch": 0.03520059361412367,
      "grad_norm": 10.429800033569336,
      "learning_rate": 0.0001055470093204235,
      "loss": 8.1803,
      "step": 7780
    },
    {
      "epoch": 0.0352910835720006,
      "grad_norm": 9.610269546508789,
      "learning_rate": 0.00010581847796579494,
      "loss": 8.214,
      "step": 7800
    },
    {
      "epoch": 0.03538157352987752,
      "grad_norm": 9.696439743041992,
      "learning_rate": 0.0001060899466111664,
      "loss": 8.1585,
      "step": 7820
    },
    {
      "epoch": 0.035472063487754446,
      "grad_norm": 10.302108764648438,
      "learning_rate": 0.00010636141525653786,
      "loss": 8.1495,
      "step": 7840
    },
    {
      "epoch": 0.03556255344563137,
      "grad_norm": 10.439906120300293,
      "learning_rate": 0.00010663288390190933,
      "loss": 8.1636,
      "step": 7860
    },
    {
      "epoch": 0.0356530434035083,
      "grad_norm": 13.941293716430664,
      "learning_rate": 0.00010690435254728079,
      "loss": 8.1674,
      "step": 7880
    },
    {
      "epoch": 0.03574353336138522,
      "grad_norm": 11.378789901733398,
      "learning_rate": 0.00010717582119265225,
      "loss": 8.1704,
      "step": 7900
    },
    {
      "epoch": 0.035834023319262144,
      "grad_norm": 10.802684783935547,
      "learning_rate": 0.00010744728983802372,
      "loss": 8.1902,
      "step": 7920
    },
    {
      "epoch": 0.03592451327713907,
      "grad_norm": 13.995284080505371,
      "learning_rate": 0.00010771875848339517,
      "loss": 8.1502,
      "step": 7940
    },
    {
      "epoch": 0.036015003235016,
      "grad_norm": 11.473008155822754,
      "learning_rate": 0.00010799022712876663,
      "loss": 8.2082,
      "step": 7960
    },
    {
      "epoch": 0.03610549319289292,
      "grad_norm": 9.314510345458984,
      "learning_rate": 0.00010826169577413808,
      "loss": 8.19,
      "step": 7980
    },
    {
      "epoch": 0.03619598315076984,
      "grad_norm": 11.141118049621582,
      "learning_rate": 0.00010853316441950954,
      "loss": 8.2093,
      "step": 8000
    },
    {
      "epoch": 0.03619598315076984,
      "eval_accuracy": 0.11013720949528932,
      "eval_loss": 8.173333168029785,
      "eval_runtime": 219.4541,
      "eval_samples_per_second": 2769.782,
      "eval_steps_per_second": 10.822,
      "step": 8000
    },
    {
      "epoch": 0.036286473108646765,
      "grad_norm": 12.62540054321289,
      "learning_rate": 0.000108804633064881,
      "loss": 8.1561,
      "step": 8020
    },
    {
      "epoch": 0.036376963066523695,
      "grad_norm": 12.97541332244873,
      "learning_rate": 0.00010907610171025247,
      "loss": 8.1708,
      "step": 8040
    },
    {
      "epoch": 0.03646745302440062,
      "grad_norm": 8.305766105651855,
      "learning_rate": 0.00010934757035562392,
      "loss": 8.1671,
      "step": 8060
    },
    {
      "epoch": 0.03655794298227754,
      "grad_norm": 14.076859474182129,
      "learning_rate": 0.00010961903900099538,
      "loss": 8.1659,
      "step": 8080
    },
    {
      "epoch": 0.03664843294015447,
      "grad_norm": 11.951278686523438,
      "learning_rate": 0.00010989050764636684,
      "loss": 8.1893,
      "step": 8100
    },
    {
      "epoch": 0.03673892289803139,
      "grad_norm": 10.796624183654785,
      "learning_rate": 0.00011016197629173831,
      "loss": 8.1942,
      "step": 8120
    },
    {
      "epoch": 0.036829412855908315,
      "grad_norm": 10.49177074432373,
      "learning_rate": 0.00011043344493710976,
      "loss": 8.1589,
      "step": 8140
    },
    {
      "epoch": 0.03691990281378524,
      "grad_norm": 12.82060432434082,
      "learning_rate": 0.00011070491358248122,
      "loss": 8.1957,
      "step": 8160
    },
    {
      "epoch": 0.03701039277166217,
      "grad_norm": 11.00941276550293,
      "learning_rate": 0.00011097638222785267,
      "loss": 8.1609,
      "step": 8180
    },
    {
      "epoch": 0.03710088272953909,
      "grad_norm": 10.24111270904541,
      "learning_rate": 0.00011124785087322413,
      "loss": 8.1769,
      "step": 8200
    },
    {
      "epoch": 0.03719137268741601,
      "grad_norm": 11.292909622192383,
      "learning_rate": 0.0001115193195185956,
      "loss": 8.1628,
      "step": 8220
    },
    {
      "epoch": 0.037281862645292936,
      "grad_norm": 9.362674713134766,
      "learning_rate": 0.00011179078816396706,
      "loss": 8.1638,
      "step": 8240
    },
    {
      "epoch": 0.037372352603169866,
      "grad_norm": 12.9249906539917,
      "learning_rate": 0.00011206225680933852,
      "loss": 8.1957,
      "step": 8260
    },
    {
      "epoch": 0.03746284256104679,
      "grad_norm": 10.386489868164062,
      "learning_rate": 0.00011233372545470999,
      "loss": 8.1525,
      "step": 8280
    },
    {
      "epoch": 0.03755333251892371,
      "grad_norm": 12.65300464630127,
      "learning_rate": 0.00011260519410008144,
      "loss": 8.1558,
      "step": 8300
    },
    {
      "epoch": 0.037643822476800634,
      "grad_norm": 11.562602996826172,
      "learning_rate": 0.0001128766627454529,
      "loss": 8.148,
      "step": 8320
    },
    {
      "epoch": 0.037734312434677564,
      "grad_norm": 14.783183097839355,
      "learning_rate": 0.00011314813139082436,
      "loss": 8.1448,
      "step": 8340
    },
    {
      "epoch": 0.03782480239255449,
      "grad_norm": 15.469168663024902,
      "learning_rate": 0.00011341960003619583,
      "loss": 8.1801,
      "step": 8360
    },
    {
      "epoch": 0.03791529235043141,
      "grad_norm": 11.361299514770508,
      "learning_rate": 0.00011369106868156726,
      "loss": 8.1549,
      "step": 8380
    },
    {
      "epoch": 0.03800578230830833,
      "grad_norm": 9.814708709716797,
      "learning_rate": 0.00011396253732693873,
      "loss": 8.1663,
      "step": 8400
    },
    {
      "epoch": 0.03809627226618526,
      "grad_norm": 10.522832870483398,
      "learning_rate": 0.00011423400597231019,
      "loss": 8.1459,
      "step": 8420
    },
    {
      "epoch": 0.038186762224062185,
      "grad_norm": 10.637961387634277,
      "learning_rate": 0.00011450547461768165,
      "loss": 8.1554,
      "step": 8440
    },
    {
      "epoch": 0.03827725218193911,
      "grad_norm": 14.578750610351562,
      "learning_rate": 0.00011477694326305312,
      "loss": 8.1758,
      "step": 8460
    },
    {
      "epoch": 0.03836774213981604,
      "grad_norm": 12.179791450500488,
      "learning_rate": 0.00011504841190842457,
      "loss": 8.1117,
      "step": 8480
    },
    {
      "epoch": 0.03845823209769296,
      "grad_norm": 11.189960479736328,
      "learning_rate": 0.00011531988055379603,
      "loss": 8.1517,
      "step": 8500
    },
    {
      "epoch": 0.03854872205556988,
      "grad_norm": 11.662614822387695,
      "learning_rate": 0.00011559134919916749,
      "loss": 8.129,
      "step": 8520
    },
    {
      "epoch": 0.038639212013446805,
      "grad_norm": 9.089029312133789,
      "learning_rate": 0.00011584924441227038,
      "loss": 8.1452,
      "step": 8540
    },
    {
      "epoch": 0.038729701971323735,
      "grad_norm": 15.1500825881958,
      "learning_rate": 0.00011612071305764184,
      "loss": 8.1623,
      "step": 8560
    },
    {
      "epoch": 0.03882019192920066,
      "grad_norm": 15.177955627441406,
      "learning_rate": 0.0001163921817030133,
      "loss": 8.1138,
      "step": 8580
    },
    {
      "epoch": 0.03891068188707758,
      "grad_norm": 9.620798110961914,
      "learning_rate": 0.00011666365034838476,
      "loss": 8.1472,
      "step": 8600
    },
    {
      "epoch": 0.0390011718449545,
      "grad_norm": 13.227412223815918,
      "learning_rate": 0.00011693511899375622,
      "loss": 8.1436,
      "step": 8620
    },
    {
      "epoch": 0.03909166180283143,
      "grad_norm": 12.561627388000488,
      "learning_rate": 0.00011720658763912768,
      "loss": 8.1478,
      "step": 8640
    },
    {
      "epoch": 0.039182151760708356,
      "grad_norm": 12.864951133728027,
      "learning_rate": 0.00011747805628449915,
      "loss": 8.1727,
      "step": 8660
    },
    {
      "epoch": 0.03927264171858528,
      "grad_norm": 12.883962631225586,
      "learning_rate": 0.00011774952492987061,
      "loss": 8.1396,
      "step": 8680
    },
    {
      "epoch": 0.0393631316764622,
      "grad_norm": 7.435621738433838,
      "learning_rate": 0.00011802099357524204,
      "loss": 8.1774,
      "step": 8700
    },
    {
      "epoch": 0.03945362163433913,
      "grad_norm": 12.7384672164917,
      "learning_rate": 0.00011829246222061351,
      "loss": 8.1297,
      "step": 8720
    },
    {
      "epoch": 0.039544111592216054,
      "grad_norm": 14.0343017578125,
      "learning_rate": 0.00011856393086598497,
      "loss": 8.1406,
      "step": 8740
    },
    {
      "epoch": 0.03963460155009298,
      "grad_norm": 15.325870513916016,
      "learning_rate": 0.00011883539951135643,
      "loss": 8.1619,
      "step": 8760
    },
    {
      "epoch": 0.039725091507969906,
      "grad_norm": 21.650548934936523,
      "learning_rate": 0.00011910686815672788,
      "loss": 8.193,
      "step": 8780
    },
    {
      "epoch": 0.03981558146584683,
      "grad_norm": 15.605712890625,
      "learning_rate": 0.00011937833680209935,
      "loss": 8.1709,
      "step": 8800
    },
    {
      "epoch": 0.03990607142372375,
      "grad_norm": 10.788895606994629,
      "learning_rate": 0.00011964980544747081,
      "loss": 8.1451,
      "step": 8820
    },
    {
      "epoch": 0.039996561381600675,
      "grad_norm": 16.377477645874023,
      "learning_rate": 0.00011992127409284227,
      "loss": 8.134,
      "step": 8840
    },
    {
      "epoch": 0.040087051339477604,
      "grad_norm": 13.106194496154785,
      "learning_rate": 0.00012019274273821374,
      "loss": 8.1352,
      "step": 8860
    },
    {
      "epoch": 0.04017754129735453,
      "grad_norm": 11.152835845947266,
      "learning_rate": 0.0001204642113835852,
      "loss": 8.1138,
      "step": 8880
    },
    {
      "epoch": 0.04026803125523145,
      "grad_norm": 9.210712432861328,
      "learning_rate": 0.00012073568002895666,
      "loss": 8.1769,
      "step": 8900
    },
    {
      "epoch": 0.04035852121310837,
      "grad_norm": 12.555234909057617,
      "learning_rate": 0.00012100714867432813,
      "loss": 8.1383,
      "step": 8920
    },
    {
      "epoch": 0.0404490111709853,
      "grad_norm": 12.013688087463379,
      "learning_rate": 0.00012127861731969958,
      "loss": 8.1564,
      "step": 8940
    },
    {
      "epoch": 0.040539501128862225,
      "grad_norm": 9.827411651611328,
      "learning_rate": 0.00012155008596507101,
      "loss": 8.1348,
      "step": 8960
    },
    {
      "epoch": 0.04062999108673915,
      "grad_norm": 11.609356880187988,
      "learning_rate": 0.00012182155461044248,
      "loss": 8.1646,
      "step": 8980
    },
    {
      "epoch": 0.04072048104461607,
      "grad_norm": 13.045088768005371,
      "learning_rate": 0.00012209302325581395,
      "loss": 8.1628,
      "step": 9000
    },
    {
      "epoch": 0.040810971002493,
      "grad_norm": 12.780691146850586,
      "learning_rate": 0.00012236449190118542,
      "loss": 8.1487,
      "step": 9020
    },
    {
      "epoch": 0.04090146096036992,
      "grad_norm": 10.65334701538086,
      "learning_rate": 0.00012263596054655685,
      "loss": 8.1275,
      "step": 9040
    },
    {
      "epoch": 0.040991950918246846,
      "grad_norm": 8.080134391784668,
      "learning_rate": 0.00012290742919192832,
      "loss": 8.1356,
      "step": 9060
    },
    {
      "epoch": 0.041082440876123776,
      "grad_norm": 12.708916664123535,
      "learning_rate": 0.00012317889783729978,
      "loss": 8.1606,
      "step": 9080
    },
    {
      "epoch": 0.0411729308340007,
      "grad_norm": 13.570298194885254,
      "learning_rate": 0.00012345036648267124,
      "loss": 8.1389,
      "step": 9100
    },
    {
      "epoch": 0.04126342079187762,
      "grad_norm": 13.237983703613281,
      "learning_rate": 0.0001237218351280427,
      "loss": 8.1243,
      "step": 9120
    },
    {
      "epoch": 0.041353910749754544,
      "grad_norm": 14.53023910522461,
      "learning_rate": 0.00012399330377341417,
      "loss": 8.1191,
      "step": 9140
    },
    {
      "epoch": 0.041444400707631474,
      "grad_norm": 11.765192031860352,
      "learning_rate": 0.00012426477241878563,
      "loss": 8.1031,
      "step": 9160
    },
    {
      "epoch": 0.041534890665508396,
      "grad_norm": 11.261069297790527,
      "learning_rate": 0.0001245362410641571,
      "loss": 8.1504,
      "step": 9180
    },
    {
      "epoch": 0.04162538062338532,
      "grad_norm": 13.039865493774414,
      "learning_rate": 0.00012480770970952856,
      "loss": 8.1186,
      "step": 9200
    },
    {
      "epoch": 0.04171587058126224,
      "grad_norm": 11.21242904663086,
      "learning_rate": 0.0001250791783549,
      "loss": 8.1244,
      "step": 9220
    },
    {
      "epoch": 0.04180636053913917,
      "grad_norm": 13.84521770477295,
      "learning_rate": 0.00012535064700027146,
      "loss": 8.1442,
      "step": 9240
    },
    {
      "epoch": 0.041896850497016094,
      "grad_norm": 14.333518981933594,
      "learning_rate": 0.00012562211564564292,
      "loss": 8.1628,
      "step": 9260
    },
    {
      "epoch": 0.04198734045489302,
      "grad_norm": 12.016851425170898,
      "learning_rate": 0.00012589358429101438,
      "loss": 8.1037,
      "step": 9280
    },
    {
      "epoch": 0.04207783041276994,
      "grad_norm": 9.183259010314941,
      "learning_rate": 0.00012616505293638585,
      "loss": 8.1429,
      "step": 9300
    },
    {
      "epoch": 0.04216832037064687,
      "grad_norm": 13.651033401489258,
      "learning_rate": 0.0001264365215817573,
      "loss": 8.1202,
      "step": 9320
    },
    {
      "epoch": 0.04225881032852379,
      "grad_norm": 11.869391441345215,
      "learning_rate": 0.00012670799022712877,
      "loss": 8.1125,
      "step": 9340
    },
    {
      "epoch": 0.042349300286400715,
      "grad_norm": 15.943286895751953,
      "learning_rate": 0.00012697945887250024,
      "loss": 8.1694,
      "step": 9360
    },
    {
      "epoch": 0.04243979024427764,
      "grad_norm": 13.450387001037598,
      "learning_rate": 0.00012725092751787167,
      "loss": 8.1379,
      "step": 9380
    },
    {
      "epoch": 0.04253028020215457,
      "grad_norm": 15.152196884155273,
      "learning_rate": 0.00012752239616324314,
      "loss": 8.1391,
      "step": 9400
    },
    {
      "epoch": 0.04262077016003149,
      "grad_norm": 15.109274864196777,
      "learning_rate": 0.0001277938648086146,
      "loss": 8.0963,
      "step": 9420
    },
    {
      "epoch": 0.04271126011790841,
      "grad_norm": 10.3173189163208,
      "learning_rate": 0.00012806533345398606,
      "loss": 8.1557,
      "step": 9440
    },
    {
      "epoch": 0.04280175007578534,
      "grad_norm": 11.38595962524414,
      "learning_rate": 0.00012833680209935753,
      "loss": 8.173,
      "step": 9460
    },
    {
      "epoch": 0.042892240033662266,
      "grad_norm": 11.458219528198242,
      "learning_rate": 0.00012859469731246043,
      "loss": 8.2542,
      "step": 9480
    },
    {
      "epoch": 0.04298272999153919,
      "grad_norm": 14.253256797790527,
      "learning_rate": 0.00012886616595783186,
      "loss": 8.1687,
      "step": 9500
    },
    {
      "epoch": 0.04307321994941611,
      "grad_norm": 14.074560165405273,
      "learning_rate": 0.00012913763460320333,
      "loss": 8.1175,
      "step": 9520
    },
    {
      "epoch": 0.04316370990729304,
      "grad_norm": 14.521282196044922,
      "learning_rate": 0.00012939552981630623,
      "loss": 8.1456,
      "step": 9540
    },
    {
      "epoch": 0.043254199865169964,
      "grad_norm": 12.537208557128906,
      "learning_rate": 0.0001296669984616777,
      "loss": 8.1432,
      "step": 9560
    },
    {
      "epoch": 0.043344689823046886,
      "grad_norm": 10.885902404785156,
      "learning_rate": 0.00012993846710704915,
      "loss": 8.1875,
      "step": 9580
    },
    {
      "epoch": 0.04343517978092381,
      "grad_norm": 10.156676292419434,
      "learning_rate": 0.0001302099357524206,
      "loss": 8.1728,
      "step": 9600
    },
    {
      "epoch": 0.04352566973880074,
      "grad_norm": 13.31322193145752,
      "learning_rate": 0.00013048140439779205,
      "loss": 8.1394,
      "step": 9620
    },
    {
      "epoch": 0.04361615969667766,
      "grad_norm": 7.779819488525391,
      "learning_rate": 0.0001307528730431635,
      "loss": 8.139,
      "step": 9640
    },
    {
      "epoch": 0.043706649654554584,
      "grad_norm": 12.208565711975098,
      "learning_rate": 0.00013102434168853495,
      "loss": 8.1346,
      "step": 9660
    },
    {
      "epoch": 0.04379713961243151,
      "grad_norm": 11.362008094787598,
      "learning_rate": 0.00013129581033390642,
      "loss": 8.1419,
      "step": 9680
    },
    {
      "epoch": 0.04388762957030844,
      "grad_norm": 11.86789321899414,
      "learning_rate": 0.00013156727897927788,
      "loss": 8.1475,
      "step": 9700
    },
    {
      "epoch": 0.04397811952818536,
      "grad_norm": 14.61185073852539,
      "learning_rate": 0.00013183874762464934,
      "loss": 8.1582,
      "step": 9720
    },
    {
      "epoch": 0.04406860948606228,
      "grad_norm": 11.60112190246582,
      "learning_rate": 0.0001321102162700208,
      "loss": 8.1073,
      "step": 9740
    },
    {
      "epoch": 0.04415909944393921,
      "grad_norm": 13.442856788635254,
      "learning_rate": 0.00013238168491539227,
      "loss": 8.1358,
      "step": 9760
    },
    {
      "epoch": 0.044249589401816135,
      "grad_norm": 11.524395942687988,
      "learning_rate": 0.00013265315356076373,
      "loss": 8.1083,
      "step": 9780
    },
    {
      "epoch": 0.04434007935969306,
      "grad_norm": 13.528814315795898,
      "learning_rate": 0.0001329246222061352,
      "loss": 8.1392,
      "step": 9800
    },
    {
      "epoch": 0.04443056931756998,
      "grad_norm": 18.11868667602539,
      "learning_rate": 0.00013319609085150666,
      "loss": 8.1784,
      "step": 9820
    },
    {
      "epoch": 0.04452105927544691,
      "grad_norm": 15.858280181884766,
      "learning_rate": 0.00013346755949687812,
      "loss": 8.1597,
      "step": 9840
    },
    {
      "epoch": 0.04461154923332383,
      "grad_norm": 14.466769218444824,
      "learning_rate": 0.00013373902814224956,
      "loss": 8.1632,
      "step": 9860
    },
    {
      "epoch": 0.044702039191200756,
      "grad_norm": 11.416616439819336,
      "learning_rate": 0.00013401049678762102,
      "loss": 8.1681,
      "step": 9880
    },
    {
      "epoch": 0.04479252914907768,
      "grad_norm": 39.87081527709961,
      "learning_rate": 0.00013428196543299249,
      "loss": 8.1384,
      "step": 9900
    },
    {
      "epoch": 0.04488301910695461,
      "grad_norm": 11.689374923706055,
      "learning_rate": 0.0001345398606460954,
      "loss": 8.5619,
      "step": 9920
    },
    {
      "epoch": 0.04497350906483153,
      "grad_norm": 10.53484058380127,
      "learning_rate": 0.00013481132929146682,
      "loss": 9.1495,
      "step": 9940
    },
    {
      "epoch": 0.045063999022708454,
      "grad_norm": 12.07006549835205,
      "learning_rate": 0.00013508279793683829,
      "loss": 9.1771,
      "step": 9960
    },
    {
      "epoch": 0.045154488980585376,
      "grad_norm": 9.795348167419434,
      "learning_rate": 0.00013535426658220975,
      "loss": 9.1545,
      "step": 9980
    },
    {
      "epoch": 0.045244978938462306,
      "grad_norm": 10.068339347839355,
      "learning_rate": 0.0001356257352275812,
      "loss": 9.1969,
      "step": 10000
    },
    {
      "epoch": 0.045244978938462306,
      "eval_accuracy": 0.022879129772772476,
      "eval_loss": 9.148832321166992,
      "eval_runtime": 212.7494,
      "eval_samples_per_second": 2857.071,
      "eval_steps_per_second": 11.163,
      "step": 10000
    },
    {
      "epoch": 0.04533546889633923,
      "grad_norm": 12.951713562011719,
      "learning_rate": 0.00013589720387295268,
      "loss": 9.154,
      "step": 10020
    },
    {
      "epoch": 0.04542595885421615,
      "grad_norm": 9.139362335205078,
      "learning_rate": 0.00013616867251832414,
      "loss": 9.154,
      "step": 10040
    },
    {
      "epoch": 0.04551644881209308,
      "grad_norm": 8.388337135314941,
      "learning_rate": 0.0001364401411636956,
      "loss": 9.1391,
      "step": 10060
    },
    {
      "epoch": 0.045606938769970004,
      "grad_norm": 10.0809326171875,
      "learning_rate": 0.00013671160980906704,
      "loss": 9.1417,
      "step": 10080
    },
    {
      "epoch": 0.04569742872784693,
      "grad_norm": 8.565701484680176,
      "learning_rate": 0.0001369830784544385,
      "loss": 9.1112,
      "step": 10100
    },
    {
      "epoch": 0.04578791868572385,
      "grad_norm": 10.437520027160645,
      "learning_rate": 0.00013725454709980997,
      "loss": 9.1169,
      "step": 10120
    },
    {
      "epoch": 0.04587840864360078,
      "grad_norm": 8.615896224975586,
      "learning_rate": 0.00013752601574518143,
      "loss": 9.1003,
      "step": 10140
    },
    {
      "epoch": 0.0459688986014777,
      "grad_norm": 10.89583683013916,
      "learning_rate": 0.0001377974843905529,
      "loss": 9.101,
      "step": 10160
    },
    {
      "epoch": 0.046059388559354625,
      "grad_norm": 9.786931991577148,
      "learning_rate": 0.00013806895303592433,
      "loss": 9.0689,
      "step": 10180
    },
    {
      "epoch": 0.04614987851723155,
      "grad_norm": 9.010174751281738,
      "learning_rate": 0.0001383404216812958,
      "loss": 9.0579,
      "step": 10200
    },
    {
      "epoch": 0.04624036847510848,
      "grad_norm": 11.039669036865234,
      "learning_rate": 0.00013861189032666725,
      "loss": 9.0865,
      "step": 10220
    },
    {
      "epoch": 0.0463308584329854,
      "grad_norm": 12.055830001831055,
      "learning_rate": 0.00013888335897203872,
      "loss": 9.0955,
      "step": 10240
    },
    {
      "epoch": 0.04642134839086232,
      "grad_norm": 8.361885070800781,
      "learning_rate": 0.00013915482761741018,
      "loss": 9.07,
      "step": 10260
    },
    {
      "epoch": 0.046511838348739246,
      "grad_norm": 7.196146011352539,
      "learning_rate": 0.00013942629626278164,
      "loss": 9.0528,
      "step": 10280
    },
    {
      "epoch": 0.046602328306616175,
      "grad_norm": 9.67076587677002,
      "learning_rate": 0.0001396977649081531,
      "loss": 9.0546,
      "step": 10300
    },
    {
      "epoch": 0.0466928182644931,
      "grad_norm": 10.09327220916748,
      "learning_rate": 0.00013996923355352457,
      "loss": 9.0741,
      "step": 10320
    },
    {
      "epoch": 0.04678330822237002,
      "grad_norm": 9.639015197753906,
      "learning_rate": 0.00014024070219889603,
      "loss": 9.0633,
      "step": 10340
    },
    {
      "epoch": 0.04687379818024695,
      "grad_norm": 10.251932144165039,
      "learning_rate": 0.0001405121708442675,
      "loss": 9.0446,
      "step": 10360
    },
    {
      "epoch": 0.04696428813812387,
      "grad_norm": 11.07875919342041,
      "learning_rate": 0.00014078363948963896,
      "loss": 9.0418,
      "step": 10380
    },
    {
      "epoch": 0.047054778096000796,
      "grad_norm": 9.328507423400879,
      "learning_rate": 0.00014105510813501042,
      "loss": 9.0287,
      "step": 10400
    },
    {
      "epoch": 0.04714526805387772,
      "grad_norm": 7.056753635406494,
      "learning_rate": 0.00014132657678038186,
      "loss": 9.0362,
      "step": 10420
    },
    {
      "epoch": 0.04723575801175465,
      "grad_norm": 8.899680137634277,
      "learning_rate": 0.0001415980454257533,
      "loss": 9.036,
      "step": 10440
    },
    {
      "epoch": 0.04732624796963157,
      "grad_norm": 9.175132751464844,
      "learning_rate": 0.00014186951407112476,
      "loss": 9.0444,
      "step": 10460
    },
    {
      "epoch": 0.047416737927508494,
      "grad_norm": 9.374978065490723,
      "learning_rate": 0.00014214098271649622,
      "loss": 9.0372,
      "step": 10480
    },
    {
      "epoch": 0.04750722788538542,
      "grad_norm": 9.893750190734863,
      "learning_rate": 0.00014241245136186769,
      "loss": 9.0424,
      "step": 10500
    },
    {
      "epoch": 0.04759771784326235,
      "grad_norm": 7.787280082702637,
      "learning_rate": 0.00014265677314270202,
      "loss": 8.9691,
      "step": 10520
    },
    {
      "epoch": 0.04768820780113927,
      "grad_norm": 17.40734100341797,
      "learning_rate": 0.00014277893403311917,
      "loss": 8.2225,
      "step": 10540
    },
    {
      "epoch": 0.04777869775901619,
      "grad_norm": NaN,
      "learning_rate": 0.00014286037462673062,
      "loss": 6.6046,
      "step": 10560
    },
    {
      "epoch": 0.047869187716893115,
      "grad_norm": NaN,
      "learning_rate": 0.0001429146683558049,
      "loss": 3.0921,
      "step": 10580
    },
    {
      "epoch": 0.047959677674770045,
      "grad_norm": NaN,
      "learning_rate": 0.00014294181522034205,
      "loss": 3.9765,
      "step": 10600
    },
    {
      "epoch": 0.04805016763264697,
      "grad_norm": NaN,
      "learning_rate": 0.00014298253551714776,
      "loss": 6.9972,
      "step": 10620
    },
    {
      "epoch": 0.04814065759052389,
      "grad_norm": NaN,
      "learning_rate": 0.00014298253551714776,
      "loss": 0.0,
      "step": 10640
    },
    {
      "epoch": 0.04823114754840081,
      "grad_norm": NaN,
      "learning_rate": 0.00014298253551714776,
      "loss": 0.0,
      "step": 10660
    },
    {
      "epoch": 0.04832163750627774,
      "grad_norm": NaN,
      "learning_rate": 0.00014298253551714776,
      "loss": 0.0,
      "step": 10680
    },
    {
      "epoch": 0.048412127464154665,
      "grad_norm": NaN,
      "learning_rate": 0.00014298253551714776,
      "loss": 0.0,
      "step": 10700
    },
    {
      "epoch": 0.04850261742203159,
      "grad_norm": NaN,
      "learning_rate": 0.00014298253551714776,
      "loss": 0.0,
      "step": 10720
    },
    {
      "epoch": 0.04859310737990852,
      "grad_norm": NaN,
      "learning_rate": 0.00014298253551714776,
      "loss": 0.0,
      "step": 10740
    },
    {
      "epoch": 0.04868359733778544,
      "grad_norm": NaN,
      "learning_rate": 0.00014298253551714776,
      "loss": 0.0,
      "step": 10760
    },
    {
      "epoch": 0.04877408729566236,
      "grad_norm": NaN,
      "learning_rate": 0.00014298253551714776,
      "loss": 0.0,
      "step": 10780
    },
    {
      "epoch": 0.048864577253539286,
      "grad_norm": NaN,
      "learning_rate": 0.00014298253551714776,
      "loss": 0.0,
      "step": 10800
    },
    {
      "epoch": 0.048955067211416216,
      "grad_norm": NaN,
      "learning_rate": 0.00014298253551714776,
      "loss": 0.0,
      "step": 10820
    },
    {
      "epoch": 0.04904555716929314,
      "grad_norm": NaN,
      "learning_rate": 0.00014298253551714776,
      "loss": 0.0,
      "step": 10840
    },
    {
      "epoch": 0.04913604712717006,
      "grad_norm": NaN,
      "learning_rate": 0.00014298253551714776,
      "loss": 0.0,
      "step": 10860
    },
    {
      "epoch": 0.049226537085046984,
      "grad_norm": NaN,
      "learning_rate": 0.00014298253551714776,
      "loss": 0.0,
      "step": 10880
    },
    {
      "epoch": 0.049317027042923914,
      "grad_norm": NaN,
      "learning_rate": 0.00014298253551714776,
      "loss": 0.0,
      "step": 10900
    },
    {
      "epoch": 0.04940751700080084,
      "grad_norm": NaN,
      "learning_rate": 0.00014298253551714776,
      "loss": 0.0,
      "step": 10920
    },
    {
      "epoch": 0.04949800695867776,
      "grad_norm": NaN,
      "learning_rate": 0.00014298253551714776,
      "loss": 0.0,
      "step": 10940
    },
    {
      "epoch": 0.04958849691655468,
      "grad_norm": NaN,
      "learning_rate": 0.00014298253551714776,
      "loss": 0.0,
      "step": 10960
    },
    {
      "epoch": 0.04967898687443161,
      "grad_norm": NaN,
      "learning_rate": 0.00014298253551714776,
      "loss": 0.0,
      "step": 10980
    },
    {
      "epoch": 0.049769476832308535,
      "grad_norm": NaN,
      "learning_rate": 0.00014298253551714776,
      "loss": 0.0,
      "step": 11000
    },
    {
      "epoch": 0.04985996679018546,
      "grad_norm": NaN,
      "learning_rate": 0.00014298253551714776,
      "loss": 0.0,
      "step": 11020
    },
    {
      "epoch": 0.04995045674806239,
      "grad_norm": NaN,
      "learning_rate": 0.00014298253551714776,
      "loss": 0.0,
      "step": 11040
    },
    {
      "epoch": 0.05004094670593931,
      "grad_norm": NaN,
      "learning_rate": 0.00014298253551714776,
      "loss": 0.0,
      "step": 11060
    },
    {
      "epoch": 0.05013143666381623,
      "grad_norm": NaN,
      "learning_rate": 0.00014298253551714776,
      "loss": 0.0,
      "step": 11080
    },
    {
      "epoch": 0.050221926621693155,
      "grad_norm": NaN,
      "learning_rate": 0.00014298253551714776,
      "loss": 0.0,
      "step": 11100
    },
    {
      "epoch": 0.050312416579570085,
      "grad_norm": NaN,
      "learning_rate": 0.00014298253551714776,
      "loss": 0.0,
      "step": 11120
    },
    {
      "epoch": 0.05040290653744701,
      "grad_norm": NaN,
      "learning_rate": 0.00014298253551714776,
      "loss": 0.0,
      "step": 11140
    },
    {
      "epoch": 0.05049339649532393,
      "grad_norm": NaN,
      "learning_rate": 0.00014298253551714776,
      "loss": 0.0,
      "step": 11160
    },
    {
      "epoch": 0.05058388645320085,
      "grad_norm": NaN,
      "learning_rate": 0.00014298253551714776,
      "loss": 0.0,
      "step": 11180
    },
    {
      "epoch": 0.05067437641107778,
      "grad_norm": NaN,
      "learning_rate": 0.00014298253551714776,
      "loss": 0.0,
      "step": 11200
    },
    {
      "epoch": 0.050764866368954706,
      "grad_norm": NaN,
      "learning_rate": 0.00014298253551714776,
      "loss": 0.0,
      "step": 11220
    },
    {
      "epoch": 0.05085535632683163,
      "grad_norm": NaN,
      "learning_rate": 0.00014298253551714776,
      "loss": 0.0,
      "step": 11240
    },
    {
      "epoch": 0.05094584628470855,
      "grad_norm": NaN,
      "learning_rate": 0.00014298253551714776,
      "loss": 0.0,
      "step": 11260
    },
    {
      "epoch": 0.05103633624258548,
      "grad_norm": NaN,
      "learning_rate": 0.00014298253551714776,
      "loss": 0.0,
      "step": 11280
    },
    {
      "epoch": 0.051126826200462404,
      "grad_norm": NaN,
      "learning_rate": 0.00014298253551714776,
      "loss": 0.0,
      "step": 11300
    },
    {
      "epoch": 0.05121731615833933,
      "grad_norm": NaN,
      "learning_rate": 0.00014298253551714776,
      "loss": 0.0,
      "step": 11320
    },
    {
      "epoch": 0.051307806116216256,
      "grad_norm": NaN,
      "learning_rate": 0.00014298253551714776,
      "loss": 0.0,
      "step": 11340
    },
    {
      "epoch": 0.05139829607409318,
      "grad_norm": NaN,
      "learning_rate": 0.00014298253551714776,
      "loss": 0.0,
      "step": 11360
    },
    {
      "epoch": 0.0514887860319701,
      "grad_norm": NaN,
      "learning_rate": 0.00014298253551714776,
      "loss": 0.0,
      "step": 11380
    },
    {
      "epoch": 0.051579275989847025,
      "grad_norm": NaN,
      "learning_rate": 0.00014298253551714776,
      "loss": 0.0,
      "step": 11400
    },
    {
      "epoch": 0.051669765947723954,
      "grad_norm": NaN,
      "learning_rate": 0.00014298253551714776,
      "loss": 0.0,
      "step": 11420
    },
    {
      "epoch": 0.05176025590560088,
      "grad_norm": NaN,
      "learning_rate": 0.00014298253551714776,
      "loss": 0.0,
      "step": 11440
    },
    {
      "epoch": 0.0518507458634778,
      "grad_norm": NaN,
      "learning_rate": 0.00014298253551714776,
      "loss": 0.0,
      "step": 11460
    },
    {
      "epoch": 0.05194123582135472,
      "grad_norm": NaN,
      "learning_rate": 0.00014298253551714776,
      "loss": 0.0,
      "step": 11480
    },
    {
      "epoch": 0.05203172577923165,
      "grad_norm": NaN,
      "learning_rate": 0.00014298253551714776,
      "loss": 0.0,
      "step": 11500
    },
    {
      "epoch": 0.052122215737108575,
      "grad_norm": NaN,
      "learning_rate": 0.00014298253551714776,
      "loss": 0.0,
      "step": 11520
    },
    {
      "epoch": 0.0522127056949855,
      "grad_norm": NaN,
      "learning_rate": 0.00014298253551714776,
      "loss": 0.0,
      "step": 11540
    },
    {
      "epoch": 0.05230319565286242,
      "grad_norm": NaN,
      "learning_rate": 0.00014298253551714776,
      "loss": 0.0,
      "step": 11560
    },
    {
      "epoch": 0.05239368561073935,
      "grad_norm": NaN,
      "learning_rate": 0.00014298253551714776,
      "loss": 0.0,
      "step": 11580
    },
    {
      "epoch": 0.05248417556861627,
      "grad_norm": NaN,
      "learning_rate": 0.00014298253551714776,
      "loss": 0.0,
      "step": 11600
    },
    {
      "epoch": 0.052574665526493196,
      "grad_norm": NaN,
      "learning_rate": 0.00014298253551714776,
      "loss": 0.0,
      "step": 11620
    },
    {
      "epoch": 0.05266515548437012,
      "grad_norm": NaN,
      "learning_rate": 0.00014298253551714776,
      "loss": 0.0,
      "step": 11640
    },
    {
      "epoch": 0.05275564544224705,
      "grad_norm": NaN,
      "learning_rate": 0.00014298253551714776,
      "loss": 0.0,
      "step": 11660
    },
    {
      "epoch": 0.05284613540012397,
      "grad_norm": NaN,
      "learning_rate": 0.00014298253551714776,
      "loss": 0.0,
      "step": 11680
    },
    {
      "epoch": 0.052936625358000894,
      "grad_norm": NaN,
      "learning_rate": 0.00014298253551714776,
      "loss": 0.0,
      "step": 11700
    },
    {
      "epoch": 0.053027115315877824,
      "grad_norm": NaN,
      "learning_rate": 0.00014298253551714776,
      "loss": 0.0,
      "step": 11720
    },
    {
      "epoch": 0.053117605273754746,
      "grad_norm": NaN,
      "learning_rate": 0.00014298253551714776,
      "loss": 0.0,
      "step": 11740
    },
    {
      "epoch": 0.05320809523163167,
      "grad_norm": NaN,
      "learning_rate": 0.00014298253551714776,
      "loss": 0.0,
      "step": 11760
    },
    {
      "epoch": 0.05329858518950859,
      "grad_norm": NaN,
      "learning_rate": 0.00014298253551714776,
      "loss": 0.0,
      "step": 11780
    },
    {
      "epoch": 0.05338907514738552,
      "grad_norm": NaN,
      "learning_rate": 0.00014298253551714776,
      "loss": 0.0,
      "step": 11800
    },
    {
      "epoch": 0.053479565105262444,
      "grad_norm": NaN,
      "learning_rate": 0.00014298253551714776,
      "loss": 0.0,
      "step": 11820
    },
    {
      "epoch": 0.05357005506313937,
      "grad_norm": NaN,
      "learning_rate": 0.00014298253551714776,
      "loss": 0.0,
      "step": 11840
    },
    {
      "epoch": 0.05366054502101629,
      "grad_norm": NaN,
      "learning_rate": 0.00014298253551714776,
      "loss": 0.0,
      "step": 11860
    },
    {
      "epoch": 0.05375103497889322,
      "grad_norm": NaN,
      "learning_rate": 0.00014298253551714776,
      "loss": 0.0,
      "step": 11880
    },
    {
      "epoch": 0.05384152493677014,
      "grad_norm": NaN,
      "learning_rate": 0.00014298253551714776,
      "loss": 0.0,
      "step": 11900
    },
    {
      "epoch": 0.053932014894647065,
      "grad_norm": NaN,
      "learning_rate": 0.00014298253551714776,
      "loss": 0.0,
      "step": 11920
    },
    {
      "epoch": 0.05402250485252399,
      "grad_norm": NaN,
      "learning_rate": 0.00014298253551714776,
      "loss": 0.0,
      "step": 11940
    },
    {
      "epoch": 0.05411299481040092,
      "grad_norm": NaN,
      "learning_rate": 0.00014298253551714776,
      "loss": 0.0,
      "step": 11960
    },
    {
      "epoch": 0.05420348476827784,
      "grad_norm": NaN,
      "learning_rate": 0.00014298253551714776,
      "loss": 0.0,
      "step": 11980
    },
    {
      "epoch": 0.05429397472615476,
      "grad_norm": NaN,
      "learning_rate": 0.00014298253551714776,
      "loss": 0.0,
      "step": 12000
    },
    {
      "epoch": 0.05429397472615476,
      "eval_accuracy": 0.021626624590642192,
      "eval_loss": NaN,
      "eval_runtime": 218.9297,
      "eval_samples_per_second": 2776.417,
      "eval_steps_per_second": 10.848,
      "step": 12000
    }
  ],
  "logging_steps": 20,
  "max_steps": 663057,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 3,
  "save_steps": 100,
  "total_flos": 4315086323712000.0,
  "train_batch_size": 256,
  "trial_name": null,
  "trial_params": null
}