{
  "best_metric": 3.3027193546295166,
  "best_model_checkpoint": "/scratch/cl5625/exceptions/models/100M_8397/checkpoint-90000",
  "epoch": 10.0,
  "eval_steps": 1000,
  "global_step": 92910,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.005381552039608223,
      "grad_norm": 1.7851003408432007,
      "learning_rate": 0.0003,
      "loss": 8.477,
      "step": 50
    },
    {
      "epoch": 0.010763104079216447,
      "grad_norm": 2.35661244392395,
      "learning_rate": 0.0006,
      "loss": 6.8545,
      "step": 100
    },
    {
      "epoch": 0.01614465611882467,
      "grad_norm": 0.9086544513702393,
      "learning_rate": 0.0005996767589699385,
      "loss": 6.4483,
      "step": 150
    },
    {
      "epoch": 0.021526208158432893,
      "grad_norm": 1.912062406539917,
      "learning_rate": 0.0005993535179398771,
      "loss": 6.2283,
      "step": 200
    },
    {
      "epoch": 0.026907760198041114,
      "grad_norm": 1.995934009552002,
      "learning_rate": 0.0005990302769098158,
      "loss": 6.0812,
      "step": 250
    },
    {
      "epoch": 0.03228931223764934,
      "grad_norm": 1.1780064105987549,
      "learning_rate": 0.0005987070358797543,
      "loss": 5.9232,
      "step": 300
    },
    {
      "epoch": 0.03767086427725756,
      "grad_norm": 2.9962923526763916,
      "learning_rate": 0.0005983837948496929,
      "loss": 5.8634,
      "step": 350
    },
    {
      "epoch": 0.04305241631686579,
      "grad_norm": 1.3674250841140747,
      "learning_rate": 0.0005980605538196314,
      "loss": 5.7794,
      "step": 400
    },
    {
      "epoch": 0.048433968356474004,
      "grad_norm": 1.066927433013916,
      "learning_rate": 0.0005977373127895701,
      "loss": 5.7021,
      "step": 450
    },
    {
      "epoch": 0.05381552039608223,
      "grad_norm": 0.8705481886863708,
      "learning_rate": 0.0005974140717595086,
      "loss": 5.6249,
      "step": 500
    },
    {
      "epoch": 0.05919707243569045,
      "grad_norm": 1.392909288406372,
      "learning_rate": 0.0005970908307294472,
      "loss": 5.5428,
      "step": 550
    },
    {
      "epoch": 0.06457862447529868,
      "grad_norm": 1.5083731412887573,
      "learning_rate": 0.0005967675896993858,
      "loss": 5.4861,
      "step": 600
    },
    {
      "epoch": 0.0699601765149069,
      "grad_norm": 1.1489932537078857,
      "learning_rate": 0.0005964443486693243,
      "loss": 5.4241,
      "step": 650
    },
    {
      "epoch": 0.07534172855451512,
      "grad_norm": 1.363460659980774,
      "learning_rate": 0.000596121107639263,
      "loss": 5.3553,
      "step": 700
    },
    {
      "epoch": 0.08072328059412334,
      "grad_norm": 1.1569222211837769,
      "learning_rate": 0.0005957978666092015,
      "loss": 5.3117,
      "step": 750
    },
    {
      "epoch": 0.08610483263373157,
      "grad_norm": 1.1893969774246216,
      "learning_rate": 0.0005954746255791401,
      "loss": 5.2536,
      "step": 800
    },
    {
      "epoch": 0.09148638467333979,
      "grad_norm": 1.257501482963562,
      "learning_rate": 0.0005951513845490787,
      "loss": 5.19,
      "step": 850
    },
    {
      "epoch": 0.09686793671294801,
      "grad_norm": 1.0504266023635864,
      "learning_rate": 0.0005948281435190174,
      "loss": 5.1544,
      "step": 900
    },
    {
      "epoch": 0.10224948875255624,
      "grad_norm": 1.2635871171951294,
      "learning_rate": 0.0005945049024889559,
      "loss": 5.1161,
      "step": 950
    },
    {
      "epoch": 0.10763104079216446,
      "grad_norm": 1.4006985425949097,
      "learning_rate": 0.0005941816614588944,
      "loss": 5.0692,
      "step": 1000
    },
    {
      "epoch": 0.10763104079216446,
      "eval_accuracy": 0.2266931678303572,
      "eval_loss": 5.018672466278076,
      "eval_runtime": 184.614,
      "eval_samples_per_second": 97.56,
      "eval_steps_per_second": 6.099,
      "step": 1000
    },
    {
      "epoch": 0.11301259283177269,
      "grad_norm": 0.9685474634170532,
      "learning_rate": 0.000593858420428833,
      "loss": 5.029,
      "step": 1050
    },
    {
      "epoch": 0.1183941448713809,
      "grad_norm": 0.9787606596946716,
      "learning_rate": 0.0005935351793987716,
      "loss": 5.0003,
      "step": 1100
    },
    {
      "epoch": 0.12377569691098914,
      "grad_norm": 1.4381256103515625,
      "learning_rate": 0.0005932119383687103,
      "loss": 4.9923,
      "step": 1150
    },
    {
      "epoch": 0.12915724895059735,
      "grad_norm": 0.8574581146240234,
      "learning_rate": 0.0005928886973386488,
      "loss": 4.949,
      "step": 1200
    },
    {
      "epoch": 0.13453880099020557,
      "grad_norm": 0.989743709564209,
      "learning_rate": 0.0005925654563085874,
      "loss": 4.9299,
      "step": 1250
    },
    {
      "epoch": 0.1399203530298138,
      "grad_norm": 0.7719516158103943,
      "learning_rate": 0.000592242215278526,
      "loss": 4.9024,
      "step": 1300
    },
    {
      "epoch": 0.14530190506942203,
      "grad_norm": 1.163643717765808,
      "learning_rate": 0.0005919189742484645,
      "loss": 4.8709,
      "step": 1350
    },
    {
      "epoch": 0.15068345710903025,
      "grad_norm": 1.3706718683242798,
      "learning_rate": 0.0005915957332184032,
      "loss": 4.8521,
      "step": 1400
    },
    {
      "epoch": 0.15606500914863847,
      "grad_norm": 1.0607285499572754,
      "learning_rate": 0.0005912724921883417,
      "loss": 4.814,
      "step": 1450
    },
    {
      "epoch": 0.16144656118824668,
      "grad_norm": 1.1078616380691528,
      "learning_rate": 0.0005909492511582803,
      "loss": 4.795,
      "step": 1500
    },
    {
      "epoch": 0.1668281132278549,
      "grad_norm": 1.0800732374191284,
      "learning_rate": 0.0005906260101282189,
      "loss": 4.7628,
      "step": 1550
    },
    {
      "epoch": 0.17220966526746315,
      "grad_norm": 0.9528633952140808,
      "learning_rate": 0.0005903027690981575,
      "loss": 4.7699,
      "step": 1600
    },
    {
      "epoch": 0.17759121730707136,
      "grad_norm": 1.056601643562317,
      "learning_rate": 0.000589979528068096,
      "loss": 4.7457,
      "step": 1650
    },
    {
      "epoch": 0.18297276934667958,
      "grad_norm": 0.9697463512420654,
      "learning_rate": 0.0005896562870380347,
      "loss": 4.715,
      "step": 1700
    },
    {
      "epoch": 0.1883543213862878,
      "grad_norm": 0.8505885601043701,
      "learning_rate": 0.0005893330460079732,
      "loss": 4.6724,
      "step": 1750
    },
    {
      "epoch": 0.19373587342589602,
      "grad_norm": 1.270241141319275,
      "learning_rate": 0.0005890098049779118,
      "loss": 4.6784,
      "step": 1800
    },
    {
      "epoch": 0.19911742546550426,
      "grad_norm": 0.8811225295066833,
      "learning_rate": 0.0005886865639478504,
      "loss": 4.6724,
      "step": 1850
    },
    {
      "epoch": 0.20449897750511248,
      "grad_norm": 1.407916784286499,
      "learning_rate": 0.0005883633229177889,
      "loss": 4.6474,
      "step": 1900
    },
    {
      "epoch": 0.2098805295447207,
      "grad_norm": 0.8455577492713928,
      "learning_rate": 0.0005880400818877276,
      "loss": 4.5873,
      "step": 1950
    },
    {
      "epoch": 0.2152620815843289,
      "grad_norm": 1.058401346206665,
      "learning_rate": 0.0005877168408576662,
      "loss": 4.5797,
      "step": 2000
    },
    {
      "epoch": 0.2152620815843289,
      "eval_accuracy": 0.2688791726647588,
      "eval_loss": 4.5188069343566895,
      "eval_runtime": 184.1498,
      "eval_samples_per_second": 97.806,
      "eval_steps_per_second": 6.115,
      "step": 2000
    },
    {
      "epoch": 0.22064363362393713,
      "grad_norm": 1.1513112783432007,
      "learning_rate": 0.0005873935998276048,
      "loss": 4.585,
      "step": 2050
    },
    {
      "epoch": 0.22602518566354537,
      "grad_norm": 0.8390672206878662,
      "learning_rate": 0.0005870703587975433,
      "loss": 4.563,
      "step": 2100
    },
    {
      "epoch": 0.2314067377031536,
      "grad_norm": 0.7547805309295654,
      "learning_rate": 0.0005867471177674818,
      "loss": 4.5412,
      "step": 2150
    },
    {
      "epoch": 0.2367882897427618,
      "grad_norm": 0.7424968481063843,
      "learning_rate": 0.0005864238767374205,
      "loss": 4.5178,
      "step": 2200
    },
    {
      "epoch": 0.24216984178237003,
      "grad_norm": 0.8238902688026428,
      "learning_rate": 0.0005861006357073591,
      "loss": 4.5121,
      "step": 2250
    },
    {
      "epoch": 0.24755139382197827,
      "grad_norm": 0.8803598284721375,
      "learning_rate": 0.0005857773946772977,
      "loss": 4.4803,
      "step": 2300
    },
    {
      "epoch": 0.2529329458615865,
      "grad_norm": 0.7315595746040344,
      "learning_rate": 0.0005854541536472362,
      "loss": 4.4587,
      "step": 2350
    },
    {
      "epoch": 0.2583144979011947,
      "grad_norm": 0.9177563786506653,
      "learning_rate": 0.0005851309126171749,
      "loss": 4.4501,
      "step": 2400
    },
    {
      "epoch": 0.2636960499408029,
      "grad_norm": 0.8450412750244141,
      "learning_rate": 0.0005848076715871134,
      "loss": 4.4449,
      "step": 2450
    },
    {
      "epoch": 0.26907760198041114,
      "grad_norm": 1.0020413398742676,
      "learning_rate": 0.000584484430557052,
      "loss": 4.4178,
      "step": 2500
    },
    {
      "epoch": 0.27445915402001936,
      "grad_norm": 0.8538787364959717,
      "learning_rate": 0.0005841611895269906,
      "loss": 4.3898,
      "step": 2550
    },
    {
      "epoch": 0.2798407060596276,
      "grad_norm": 1.2234236001968384,
      "learning_rate": 0.0005838379484969291,
      "loss": 4.4115,
      "step": 2600
    },
    {
      "epoch": 0.2852222580992358,
      "grad_norm": 0.876475989818573,
      "learning_rate": 0.0005835147074668678,
      "loss": 4.3804,
      "step": 2650
    },
    {
      "epoch": 0.29060381013884407,
      "grad_norm": 0.8736183047294617,
      "learning_rate": 0.0005831914664368063,
      "loss": 4.3792,
      "step": 2700
    },
    {
      "epoch": 0.2959853621784523,
      "grad_norm": 0.7667163014411926,
      "learning_rate": 0.0005828682254067449,
      "loss": 4.3574,
      "step": 2750
    },
    {
      "epoch": 0.3013669142180605,
      "grad_norm": 0.8317923545837402,
      "learning_rate": 0.0005825449843766835,
      "loss": 4.3536,
      "step": 2800
    },
    {
      "epoch": 0.3067484662576687,
      "grad_norm": 0.9385647177696228,
      "learning_rate": 0.0005822217433466221,
      "loss": 4.3414,
      "step": 2850
    },
    {
      "epoch": 0.31213001829727693,
      "grad_norm": 1.0671179294586182,
      "learning_rate": 0.0005818985023165607,
      "loss": 4.3359,
      "step": 2900
    },
    {
      "epoch": 0.31751157033688515,
      "grad_norm": 0.8247517943382263,
      "learning_rate": 0.0005815752612864992,
      "loss": 4.3098,
      "step": 2950
    },
    {
      "epoch": 0.32289312237649337,
      "grad_norm": 0.6964085102081299,
      "learning_rate": 0.0005812520202564378,
      "loss": 4.32,
      "step": 3000
    },
    {
      "epoch": 0.32289312237649337,
      "eval_accuracy": 0.2985042517504795,
      "eval_loss": 4.2403564453125,
      "eval_runtime": 184.0775,
      "eval_samples_per_second": 97.845,
      "eval_steps_per_second": 6.117,
      "step": 3000
    },
    {
      "epoch": 0.3282746744161016,
      "grad_norm": 0.769616961479187,
      "learning_rate": 0.0005809287792263764,
      "loss": 4.3057,
      "step": 3050
    },
    {
      "epoch": 0.3336562264557098,
      "grad_norm": 0.793465256690979,
      "learning_rate": 0.0005806055381963151,
      "loss": 4.2695,
      "step": 3100
    },
    {
      "epoch": 0.3390377784953181,
      "grad_norm": 0.7056701183319092,
      "learning_rate": 0.0005802822971662536,
      "loss": 4.2748,
      "step": 3150
    },
    {
      "epoch": 0.3444193305349263,
      "grad_norm": 0.8943589329719543,
      "learning_rate": 0.0005799590561361922,
      "loss": 4.2823,
      "step": 3200
    },
    {
      "epoch": 0.3498008825745345,
      "grad_norm": 0.7527636289596558,
      "learning_rate": 0.0005796358151061307,
      "loss": 4.2694,
      "step": 3250
    },
    {
      "epoch": 0.35518243461414273,
      "grad_norm": 0.6932998299598694,
      "learning_rate": 0.0005793125740760694,
      "loss": 4.2636,
      "step": 3300
    },
    {
      "epoch": 0.36056398665375095,
      "grad_norm": 0.6939517259597778,
      "learning_rate": 0.0005789893330460079,
      "loss": 4.256,
      "step": 3350
    },
    {
      "epoch": 0.36594553869335916,
      "grad_norm": 0.7336264252662659,
      "learning_rate": 0.0005786660920159465,
      "loss": 4.2421,
      "step": 3400
    },
    {
      "epoch": 0.3713270907329674,
      "grad_norm": 0.7286413311958313,
      "learning_rate": 0.0005783428509858851,
      "loss": 4.2092,
      "step": 3450
    },
    {
      "epoch": 0.3767086427725756,
      "grad_norm": 0.7822768092155457,
      "learning_rate": 0.0005780196099558237,
      "loss": 4.2272,
      "step": 3500
    },
    {
      "epoch": 0.3820901948121838,
      "grad_norm": 0.7599762082099915,
      "learning_rate": 0.0005776963689257623,
      "loss": 4.201,
      "step": 3550
    },
    {
      "epoch": 0.38747174685179203,
      "grad_norm": 0.798646092414856,
      "learning_rate": 0.0005773731278957008,
      "loss": 4.2062,
      "step": 3600
    },
    {
      "epoch": 0.3928532988914003,
      "grad_norm": 0.728539228439331,
      "learning_rate": 0.0005770498868656394,
      "loss": 4.186,
      "step": 3650
    },
    {
      "epoch": 0.3982348509310085,
      "grad_norm": 0.8191288113594055,
      "learning_rate": 0.000576726645835578,
      "loss": 4.1849,
      "step": 3700
    },
    {
      "epoch": 0.40361640297061674,
      "grad_norm": 0.6519265174865723,
      "learning_rate": 0.0005764034048055167,
      "loss": 4.1823,
      "step": 3750
    },
    {
      "epoch": 0.40899795501022496,
      "grad_norm": 0.9170729517936707,
      "learning_rate": 0.0005760801637754552,
      "loss": 4.1929,
      "step": 3800
    },
    {
      "epoch": 0.4143795070498332,
      "grad_norm": 0.7417013049125671,
      "learning_rate": 0.0005757569227453937,
      "loss": 4.1778,
      "step": 3850
    },
    {
      "epoch": 0.4197610590894414,
      "grad_norm": 0.7433168888092041,
      "learning_rate": 0.0005754336817153324,
      "loss": 4.1817,
      "step": 3900
    },
    {
      "epoch": 0.4251426111290496,
      "grad_norm": 0.8834530711174011,
      "learning_rate": 0.0005751104406852709,
      "loss": 4.1561,
      "step": 3950
    },
    {
      "epoch": 0.4305241631686578,
      "grad_norm": 0.6912859082221985,
      "learning_rate": 0.0005747871996552096,
      "loss": 4.1791,
      "step": 4000
    },
    {
      "epoch": 0.4305241631686578,
      "eval_accuracy": 0.3112565152346017,
      "eval_loss": 4.094341278076172,
      "eval_runtime": 184.0591,
      "eval_samples_per_second": 97.854,
      "eval_steps_per_second": 6.118,
      "step": 4000
    },
    {
      "epoch": 0.43590571520826604,
      "grad_norm": 0.6573261618614197,
      "learning_rate": 0.0005744639586251481,
      "loss": 4.1698,
      "step": 4050
    },
    {
      "epoch": 0.44128726724787426,
      "grad_norm": 0.6453205347061157,
      "learning_rate": 0.0005741407175950867,
      "loss": 4.1569,
      "step": 4100
    },
    {
      "epoch": 0.44666881928748253,
      "grad_norm": 0.7522885799407959,
      "learning_rate": 0.0005738174765650253,
      "loss": 4.1499,
      "step": 4150
    },
    {
      "epoch": 0.45205037132709075,
      "grad_norm": 0.7057735919952393,
      "learning_rate": 0.0005734942355349638,
      "loss": 4.1518,
      "step": 4200
    },
    {
      "epoch": 0.45743192336669897,
      "grad_norm": 0.9186234474182129,
      "learning_rate": 0.0005731709945049025,
      "loss": 4.1445,
      "step": 4250
    },
    {
      "epoch": 0.4628134754063072,
      "grad_norm": 0.664431631565094,
      "learning_rate": 0.000572847753474841,
      "loss": 4.1155,
      "step": 4300
    },
    {
      "epoch": 0.4681950274459154,
      "grad_norm": 0.8200898170471191,
      "learning_rate": 0.0005725245124447796,
      "loss": 4.1346,
      "step": 4350
    },
    {
      "epoch": 0.4735765794855236,
      "grad_norm": 0.7778466939926147,
      "learning_rate": 0.0005722012714147182,
      "loss": 4.1089,
      "step": 4400
    },
    {
      "epoch": 0.47895813152513184,
      "grad_norm": 0.6436388492584229,
      "learning_rate": 0.0005718780303846568,
      "loss": 4.1102,
      "step": 4450
    },
    {
      "epoch": 0.48433968356474005,
      "grad_norm": 0.8299694061279297,
      "learning_rate": 0.0005715547893545953,
      "loss": 4.1175,
      "step": 4500
    },
    {
      "epoch": 0.48972123560434827,
      "grad_norm": 0.6865853071212769,
      "learning_rate": 0.000571231548324534,
      "loss": 4.1037,
      "step": 4550
    },
    {
      "epoch": 0.49510278764395654,
      "grad_norm": 0.6101646423339844,
      "learning_rate": 0.0005709083072944725,
      "loss": 4.1056,
      "step": 4600
    },
    {
      "epoch": 0.5004843396835648,
      "grad_norm": 0.6010715961456299,
      "learning_rate": 0.0005705850662644111,
      "loss": 4.0895,
      "step": 4650
    },
    {
      "epoch": 0.505865891723173,
      "grad_norm": 0.7732595205307007,
      "learning_rate": 0.0005702618252343497,
      "loss": 4.122,
      "step": 4700
    },
    {
      "epoch": 0.5112474437627812,
      "grad_norm": 0.7084074020385742,
      "learning_rate": 0.0005699385842042882,
      "loss": 4.0893,
      "step": 4750
    },
    {
      "epoch": 0.5166289958023894,
      "grad_norm": 0.8309442400932312,
      "learning_rate": 0.0005696153431742269,
      "loss": 4.0823,
      "step": 4800
    },
    {
      "epoch": 0.5220105478419976,
      "grad_norm": 0.6847308278083801,
      "learning_rate": 0.0005692921021441655,
      "loss": 4.0971,
      "step": 4850
    },
    {
      "epoch": 0.5273920998816058,
      "grad_norm": 0.6202206015586853,
      "learning_rate": 0.0005689688611141041,
      "loss": 4.0665,
      "step": 4900
    },
    {
      "epoch": 0.5327736519212141,
      "grad_norm": 0.743624746799469,
      "learning_rate": 0.0005686456200840426,
      "loss": 4.0618,
      "step": 4950
    },
    {
      "epoch": 0.5381552039608223,
      "grad_norm": 0.574941873550415,
      "learning_rate": 0.0005683223790539811,
      "loss": 4.0643,
      "step": 5000
    },
    {
      "epoch": 0.5381552039608223,
      "eval_accuracy": 0.32120618613043717,
      "eval_loss": 3.9959421157836914,
      "eval_runtime": 184.0345,
      "eval_samples_per_second": 97.868,
      "eval_steps_per_second": 6.118,
      "step": 5000
    },
    {
      "epoch": 0.5435367560004305,
      "grad_norm": 0.6600099802017212,
      "learning_rate": 0.0005679991380239198,
      "loss": 4.0475,
      "step": 5050
    },
    {
      "epoch": 0.5489183080400387,
      "grad_norm": 0.5597075819969177,
      "learning_rate": 0.0005676758969938584,
      "loss": 4.0342,
      "step": 5100
    },
    {
      "epoch": 0.5542998600796469,
      "grad_norm": 0.6935561895370483,
      "learning_rate": 0.000567352655963797,
      "loss": 4.0344,
      "step": 5150
    },
    {
      "epoch": 0.5596814121192552,
      "grad_norm": 0.6177208423614502,
      "learning_rate": 0.0005670294149337355,
      "loss": 4.0424,
      "step": 5200
    },
    {
      "epoch": 0.5650629641588634,
      "grad_norm": 0.6166762113571167,
      "learning_rate": 0.0005667061739036742,
      "loss": 4.0621,
      "step": 5250
    },
    {
      "epoch": 0.5704445161984716,
      "grad_norm": 0.6113119125366211,
      "learning_rate": 0.0005663829328736127,
      "loss": 4.0435,
      "step": 5300
    },
    {
      "epoch": 0.5758260682380799,
      "grad_norm": 0.6283344626426697,
      "learning_rate": 0.0005660596918435512,
      "loss": 4.018,
      "step": 5350
    },
    {
      "epoch": 0.5812076202776881,
      "grad_norm": 0.6031971573829651,
      "learning_rate": 0.0005657364508134899,
      "loss": 4.0429,
      "step": 5400
    },
    {
      "epoch": 0.5865891723172963,
      "grad_norm": 0.7106824517250061,
      "learning_rate": 0.0005654132097834284,
      "loss": 4.0108,
      "step": 5450
    },
    {
      "epoch": 0.5919707243569046,
      "grad_norm": 0.6639676094055176,
      "learning_rate": 0.0005650899687533671,
      "loss": 4.0068,
      "step": 5500
    },
    {
      "epoch": 0.5973522763965128,
      "grad_norm": 0.7186005115509033,
      "learning_rate": 0.0005647667277233056,
      "loss": 4.0193,
      "step": 5550
    },
    {
      "epoch": 0.602733828436121,
      "grad_norm": 0.6553114056587219,
      "learning_rate": 0.0005644434866932442,
      "loss": 4.0244,
      "step": 5600
    },
    {
      "epoch": 0.6081153804757292,
      "grad_norm": 0.6312011480331421,
      "learning_rate": 0.0005641202456631828,
      "loss": 4.0089,
      "step": 5650
    },
    {
      "epoch": 0.6134969325153374,
      "grad_norm": 0.5797494053840637,
      "learning_rate": 0.0005637970046331214,
      "loss": 4.013,
      "step": 5700
    },
    {
      "epoch": 0.6188784845549457,
      "grad_norm": 0.5721137523651123,
      "learning_rate": 0.00056347376360306,
      "loss": 3.9972,
      "step": 5750
    },
    {
      "epoch": 0.6242600365945539,
      "grad_norm": 0.59420245885849,
      "learning_rate": 0.0005631505225729985,
      "loss": 4.0314,
      "step": 5800
    },
    {
      "epoch": 0.6296415886341621,
      "grad_norm": 0.6400176882743835,
      "learning_rate": 0.0005628272815429371,
      "loss": 3.9964,
      "step": 5850
    },
    {
      "epoch": 0.6350231406737703,
      "grad_norm": 0.6309003829956055,
      "learning_rate": 0.0005625040405128757,
      "loss": 4.0015,
      "step": 5900
    },
    {
      "epoch": 0.6404046927133785,
      "grad_norm": 0.639087975025177,
      "learning_rate": 0.0005621807994828143,
      "loss": 3.974,
      "step": 5950
    },
    {
      "epoch": 0.6457862447529867,
      "grad_norm": 0.6096267700195312,
      "learning_rate": 0.0005618575584527529,
      "loss": 3.9902,
      "step": 6000
    },
    {
      "epoch": 0.6457862447529867,
      "eval_accuracy": 0.3283240368111638,
      "eval_loss": 3.9176361560821533,
      "eval_runtime": 183.9745,
      "eval_samples_per_second": 97.899,
      "eval_steps_per_second": 6.12,
      "step": 6000
    },
    {
      "epoch": 0.651167796792595,
      "grad_norm": 0.6264605522155762,
      "learning_rate": 0.0005615343174226915,
      "loss": 3.9795,
      "step": 6050
    },
    {
      "epoch": 0.6565493488322032,
      "grad_norm": 0.5533555150032043,
      "learning_rate": 0.00056121107639263,
      "loss": 3.9717,
      "step": 6100
    },
    {
      "epoch": 0.6619309008718114,
      "grad_norm": 0.5940308570861816,
      "learning_rate": 0.0005608878353625687,
      "loss": 3.9721,
      "step": 6150
    },
    {
      "epoch": 0.6673124529114196,
      "grad_norm": 0.6304638385772705,
      "learning_rate": 0.0005605645943325072,
      "loss": 3.9876,
      "step": 6200
    },
    {
      "epoch": 0.6726940049510278,
      "grad_norm": 0.595482587814331,
      "learning_rate": 0.0005602413533024458,
      "loss": 3.9483,
      "step": 6250
    },
    {
      "epoch": 0.6780755569906362,
      "grad_norm": 0.6096006631851196,
      "learning_rate": 0.0005599181122723844,
      "loss": 3.9689,
      "step": 6300
    },
    {
      "epoch": 0.6834571090302444,
      "grad_norm": 0.5732763409614563,
      "learning_rate": 0.000559594871242323,
      "loss": 3.9743,
      "step": 6350
    },
    {
      "epoch": 0.6888386610698526,
      "grad_norm": 0.6785142421722412,
      "learning_rate": 0.0005592716302122616,
      "loss": 3.9582,
      "step": 6400
    },
    {
      "epoch": 0.6942202131094608,
      "grad_norm": 0.5796311497688293,
      "learning_rate": 0.0005589483891822001,
      "loss": 3.9449,
      "step": 6450
    },
    {
      "epoch": 0.699601765149069,
      "grad_norm": 0.6873115301132202,
      "learning_rate": 0.0005586251481521387,
      "loss": 3.9594,
      "step": 6500
    },
    {
      "epoch": 0.7049833171886772,
      "grad_norm": 0.5725986957550049,
      "learning_rate": 0.0005583019071220773,
      "loss": 3.9353,
      "step": 6550
    },
    {
      "epoch": 0.7103648692282855,
      "grad_norm": 0.521824836730957,
      "learning_rate": 0.000557978666092016,
      "loss": 3.9524,
      "step": 6600
    },
    {
      "epoch": 0.7157464212678937,
      "grad_norm": 0.5745775103569031,
      "learning_rate": 0.0005576554250619545,
      "loss": 3.9594,
      "step": 6650
    },
    {
      "epoch": 0.7211279733075019,
      "grad_norm": 0.620051383972168,
      "learning_rate": 0.000557332184031893,
      "loss": 3.9509,
      "step": 6700
    },
    {
      "epoch": 0.7265095253471101,
      "grad_norm": 0.6912485361099243,
      "learning_rate": 0.0005570089430018317,
      "loss": 3.9476,
      "step": 6750
    },
    {
      "epoch": 0.7318910773867183,
      "grad_norm": 0.6365768909454346,
      "learning_rate": 0.0005566857019717702,
      "loss": 3.9378,
      "step": 6800
    },
    {
      "epoch": 0.7372726294263265,
      "grad_norm": 0.618370532989502,
      "learning_rate": 0.0005563624609417089,
      "loss": 3.942,
      "step": 6850
    },
    {
      "epoch": 0.7426541814659348,
      "grad_norm": 0.5419732332229614,
      "learning_rate": 0.0005560392199116474,
      "loss": 3.9099,
      "step": 6900
    },
    {
      "epoch": 0.748035733505543,
      "grad_norm": 0.5781886577606201,
      "learning_rate": 0.000555715978881586,
      "loss": 3.9445,
      "step": 6950
    },
    {
      "epoch": 0.7534172855451512,
      "grad_norm": 0.6141578555107117,
      "learning_rate": 0.0005553927378515246,
      "loss": 3.942,
      "step": 7000
    },
    {
      "epoch": 0.7534172855451512,
      "eval_accuracy": 0.3333785691522934,
      "eval_loss": 3.861785411834717,
      "eval_runtime": 184.1728,
      "eval_samples_per_second": 97.794,
      "eval_steps_per_second": 6.114,
      "step": 7000
    },
    {
      "epoch": 0.7587988375847594,
      "grad_norm": 0.6214739680290222,
      "learning_rate": 0.0005550694968214631,
      "loss": 3.9291,
      "step": 7050
    },
    {
      "epoch": 0.7641803896243676,
      "grad_norm": 0.6426515579223633,
      "learning_rate": 0.0005547462557914018,
      "loss": 3.9034,
      "step": 7100
    },
    {
      "epoch": 0.7695619416639758,
      "grad_norm": 0.5256863236427307,
      "learning_rate": 0.0005544230147613403,
      "loss": 3.9213,
      "step": 7150
    },
    {
      "epoch": 0.7749434937035841,
      "grad_norm": 0.6033873558044434,
      "learning_rate": 0.0005540997737312789,
      "loss": 3.935,
      "step": 7200
    },
    {
      "epoch": 0.7803250457431924,
      "grad_norm": 0.6033143997192383,
      "learning_rate": 0.0005537829975218188,
      "loss": 3.9269,
      "step": 7250
    },
    {
      "epoch": 0.7857065977828006,
      "grad_norm": 0.6376200318336487,
      "learning_rate": 0.0005534597564917573,
      "loss": 3.9195,
      "step": 7300
    },
    {
      "epoch": 0.7910881498224088,
      "grad_norm": 0.563334047794342,
      "learning_rate": 0.0005531365154616959,
      "loss": 3.9358,
      "step": 7350
    },
    {
      "epoch": 0.796469701862017,
      "grad_norm": 0.6669442653656006,
      "learning_rate": 0.0005528132744316344,
      "loss": 3.8961,
      "step": 7400
    },
    {
      "epoch": 0.8018512539016253,
      "grad_norm": 0.5889538526535034,
      "learning_rate": 0.0005524900334015731,
      "loss": 3.9166,
      "step": 7450
    },
    {
      "epoch": 0.8072328059412335,
      "grad_norm": 0.5355585217475891,
      "learning_rate": 0.0005521667923715117,
      "loss": 3.9003,
      "step": 7500
    },
    {
      "epoch": 0.8126143579808417,
      "grad_norm": 0.6089932918548584,
      "learning_rate": 0.0005518435513414502,
      "loss": 3.9116,
      "step": 7550
    },
    {
      "epoch": 0.8179959100204499,
      "grad_norm": 0.5592775940895081,
      "learning_rate": 0.0005515203103113888,
      "loss": 3.9084,
      "step": 7600
    },
    {
      "epoch": 0.8233774620600581,
      "grad_norm": 0.5718680024147034,
      "learning_rate": 0.0005511970692813274,
      "loss": 3.9068,
      "step": 7650
    },
    {
      "epoch": 0.8287590140996663,
      "grad_norm": 0.5790997743606567,
      "learning_rate": 0.000550873828251266,
      "loss": 3.9004,
      "step": 7700
    },
    {
      "epoch": 0.8341405661392746,
      "grad_norm": 0.6181998252868652,
      "learning_rate": 0.0005505505872212045,
      "loss": 3.8947,
      "step": 7750
    },
    {
      "epoch": 0.8395221181788828,
      "grad_norm": 0.5165712833404541,
      "learning_rate": 0.0005502273461911432,
      "loss": 3.8927,
      "step": 7800
    },
    {
      "epoch": 0.844903670218491,
      "grad_norm": 0.5599433183670044,
      "learning_rate": 0.0005499041051610817,
      "loss": 3.8939,
      "step": 7850
    },
    {
      "epoch": 0.8502852222580992,
      "grad_norm": 0.6335838437080383,
      "learning_rate": 0.0005495808641310204,
      "loss": 3.9013,
      "step": 7900
    },
    {
      "epoch": 0.8556667742977074,
      "grad_norm": 0.6030533909797668,
      "learning_rate": 0.0005492576231009589,
      "loss": 3.8842,
      "step": 7950
    },
    {
      "epoch": 0.8610483263373157,
      "grad_norm": 0.5869680047035217,
      "learning_rate": 0.0005489343820708974,
      "loss": 3.8727,
      "step": 8000
    },
    {
      "epoch": 0.8610483263373157,
      "eval_accuracy": 0.33745522550309276,
      "eval_loss": 3.8181793689727783,
      "eval_runtime": 184.0506,
      "eval_samples_per_second": 97.859,
      "eval_steps_per_second": 6.118,
      "step": 8000
    },
    {
      "epoch": 0.8664298783769239,
      "grad_norm": 0.613333523273468,
      "learning_rate": 0.0005486111410408361,
      "loss": 3.8842,
      "step": 8050
    },
    {
      "epoch": 0.8718114304165321,
      "grad_norm": 0.5983001589775085,
      "learning_rate": 0.0005482879000107746,
      "loss": 3.8791,
      "step": 8100
    },
    {
      "epoch": 0.8771929824561403,
      "grad_norm": 0.599665105342865,
      "learning_rate": 0.0005479646589807133,
      "loss": 3.8743,
      "step": 8150
    },
    {
      "epoch": 0.8825745344957485,
      "grad_norm": 0.5956316590309143,
      "learning_rate": 0.0005476414179506518,
      "loss": 3.8628,
      "step": 8200
    },
    {
      "epoch": 0.8879560865353568,
      "grad_norm": 0.6256473064422607,
      "learning_rate": 0.0005473181769205904,
      "loss": 3.878,
      "step": 8250
    },
    {
      "epoch": 0.8933376385749651,
      "grad_norm": 0.5864694118499756,
      "learning_rate": 0.000546994935890529,
      "loss": 3.8907,
      "step": 8300
    },
    {
      "epoch": 0.8987191906145733,
      "grad_norm": 0.5615338683128357,
      "learning_rate": 0.0005466716948604677,
      "loss": 3.885,
      "step": 8350
    },
    {
      "epoch": 0.9041007426541815,
      "grad_norm": 0.6215041875839233,
      "learning_rate": 0.0005463484538304062,
      "loss": 3.8651,
      "step": 8400
    },
    {
      "epoch": 0.9094822946937897,
      "grad_norm": 0.6117379069328308,
      "learning_rate": 0.0005460252128003447,
      "loss": 3.8568,
      "step": 8450
    },
    {
      "epoch": 0.9148638467333979,
      "grad_norm": 0.6314567923545837,
      "learning_rate": 0.0005457019717702833,
      "loss": 3.8692,
      "step": 8500
    },
    {
      "epoch": 0.9202453987730062,
      "grad_norm": 0.612455427646637,
      "learning_rate": 0.0005453787307402219,
      "loss": 3.8427,
      "step": 8550
    },
    {
      "epoch": 0.9256269508126144,
      "grad_norm": 0.611771285533905,
      "learning_rate": 0.0005450554897101605,
      "loss": 3.8701,
      "step": 8600
    },
    {
      "epoch": 0.9310085028522226,
      "grad_norm": 0.5838083028793335,
      "learning_rate": 0.0005447322486800991,
      "loss": 3.8609,
      "step": 8650
    },
    {
      "epoch": 0.9363900548918308,
      "grad_norm": 0.6281047463417053,
      "learning_rate": 0.0005444090076500377,
      "loss": 3.8696,
      "step": 8700
    },
    {
      "epoch": 0.941771606931439,
      "grad_norm": 0.5830518007278442,
      "learning_rate": 0.0005440857666199763,
      "loss": 3.8657,
      "step": 8750
    },
    {
      "epoch": 0.9471531589710472,
      "grad_norm": 0.6259497404098511,
      "learning_rate": 0.0005437625255899148,
      "loss": 3.8393,
      "step": 8800
    },
    {
      "epoch": 0.9525347110106555,
      "grad_norm": 0.5686277151107788,
      "learning_rate": 0.0005434392845598534,
      "loss": 3.8414,
      "step": 8850
    },
    {
      "epoch": 0.9579162630502637,
      "grad_norm": 0.6480411291122437,
      "learning_rate": 0.000543116043529792,
      "loss": 3.8488,
      "step": 8900
    },
    {
      "epoch": 0.9632978150898719,
      "grad_norm": 0.5571646690368652,
      "learning_rate": 0.0005427928024997306,
      "loss": 3.856,
      "step": 8950
    },
    {
      "epoch": 0.9686793671294801,
      "grad_norm": 0.5905200839042664,
      "learning_rate": 0.0005424695614696692,
      "loss": 3.8671,
      "step": 9000
    },
    {
      "epoch": 0.9686793671294801,
      "eval_accuracy": 0.3412404748087736,
      "eval_loss": 3.778561592102051,
      "eval_runtime": 183.7431,
      "eval_samples_per_second": 98.023,
      "eval_steps_per_second": 6.128,
      "step": 9000
    },
    {
      "epoch": 0.9740609191690883,
      "grad_norm": 0.5285218954086304,
      "learning_rate": 0.0005421463204396078,
      "loss": 3.8317,
      "step": 9050
    },
    {
      "epoch": 0.9794424712086965,
      "grad_norm": 0.5539981722831726,
      "learning_rate": 0.0005418230794095463,
      "loss": 3.8446,
      "step": 9100
    },
    {
      "epoch": 0.9848240232483048,
      "grad_norm": 0.6069391965866089,
      "learning_rate": 0.000541499838379485,
      "loss": 3.8397,
      "step": 9150
    },
    {
      "epoch": 0.9902055752879131,
      "grad_norm": 0.651209831237793,
      "learning_rate": 0.0005411765973494235,
      "loss": 3.8296,
      "step": 9200
    },
    {
      "epoch": 0.9955871273275213,
      "grad_norm": 0.578993558883667,
      "learning_rate": 0.0005408533563193621,
      "loss": 3.8121,
      "step": 9250
    },
    {
      "epoch": 1.0009686793671295,
      "grad_norm": 0.6293763518333435,
      "learning_rate": 0.0005405301152893007,
      "loss": 3.8359,
      "step": 9300
    },
    {
      "epoch": 1.0063502314067376,
      "grad_norm": 0.6404456496238708,
      "learning_rate": 0.0005402068742592392,
      "loss": 3.7673,
      "step": 9350
    },
    {
      "epoch": 1.011731783446346,
      "grad_norm": 0.6690871119499207,
      "learning_rate": 0.0005398836332291779,
      "loss": 3.7674,
      "step": 9400
    },
    {
      "epoch": 1.017113335485954,
      "grad_norm": 0.6160586476325989,
      "learning_rate": 0.0005395603921991164,
      "loss": 3.7658,
      "step": 9450
    },
    {
      "epoch": 1.0224948875255624,
      "grad_norm": 0.567518949508667,
      "learning_rate": 0.0005392436159896562,
      "loss": 3.7742,
      "step": 9500
    },
    {
      "epoch": 1.0278764395651705,
      "grad_norm": 0.63124018907547,
      "learning_rate": 0.0005389203749595948,
      "loss": 3.7726,
      "step": 9550
    },
    {
      "epoch": 1.0332579916047788,
      "grad_norm": 0.6264467239379883,
      "learning_rate": 0.0005385971339295334,
      "loss": 3.7611,
      "step": 9600
    },
    {
      "epoch": 1.0386395436443872,
      "grad_norm": 0.575022280216217,
      "learning_rate": 0.000538273892899472,
      "loss": 3.7788,
      "step": 9650
    },
    {
      "epoch": 1.0440210956839953,
      "grad_norm": 0.6051644682884216,
      "learning_rate": 0.0005379506518694106,
      "loss": 3.773,
      "step": 9700
    },
    {
      "epoch": 1.0494026477236036,
      "grad_norm": 0.5552962422370911,
      "learning_rate": 0.0005376274108393491,
      "loss": 3.7698,
      "step": 9750
    },
    {
      "epoch": 1.0547841997632117,
      "grad_norm": 0.5538464188575745,
      "learning_rate": 0.0005373041698092877,
      "loss": 3.7835,
      "step": 9800
    },
    {
      "epoch": 1.06016575180282,
      "grad_norm": 0.5775489807128906,
      "learning_rate": 0.0005369809287792263,
      "loss": 3.7586,
      "step": 9850
    },
    {
      "epoch": 1.0655473038424281,
      "grad_norm": 0.5624511241912842,
      "learning_rate": 0.000536657687749165,
      "loss": 3.7688,
      "step": 9900
    },
    {
      "epoch": 1.0709288558820365,
      "grad_norm": 0.5958260297775269,
      "learning_rate": 0.0005363344467191035,
      "loss": 3.7579,
      "step": 9950
    },
    {
      "epoch": 1.0763104079216446,
      "grad_norm": 0.610848069190979,
      "learning_rate": 0.000536011205689042,
      "loss": 3.7672,
      "step": 10000
    },
    {
      "epoch": 1.0763104079216446,
      "eval_accuracy": 0.3445822030263958,
      "eval_loss": 3.7484071254730225,
      "eval_runtime": 184.2126,
      "eval_samples_per_second": 97.773,
      "eval_steps_per_second": 6.113,
      "step": 10000
    },
    {
      "epoch": 1.081691959961253,
      "grad_norm": 0.5695315599441528,
      "learning_rate": 0.0005356879646589807,
      "loss": 3.7851,
      "step": 10050
    },
    {
      "epoch": 1.087073512000861,
      "grad_norm": 0.6010772585868835,
      "learning_rate": 0.0005353647236289192,
      "loss": 3.7612,
      "step": 10100
    },
    {
      "epoch": 1.0924550640404693,
      "grad_norm": 0.5455631613731384,
      "learning_rate": 0.0005350414825988579,
      "loss": 3.7597,
      "step": 10150
    },
    {
      "epoch": 1.0978366160800774,
      "grad_norm": 0.6401311159133911,
      "learning_rate": 0.0005347182415687964,
      "loss": 3.7578,
      "step": 10200
    },
    {
      "epoch": 1.1032181681196858,
      "grad_norm": 0.5106366872787476,
      "learning_rate": 0.000534395000538735,
      "loss": 3.7616,
      "step": 10250
    },
    {
      "epoch": 1.1085997201592939,
      "grad_norm": 0.6232722997665405,
      "learning_rate": 0.0005340717595086736,
      "loss": 3.7587,
      "step": 10300
    },
    {
      "epoch": 1.1139812721989022,
      "grad_norm": 0.5387819409370422,
      "learning_rate": 0.0005337485184786122,
      "loss": 3.7626,
      "step": 10350
    },
    {
      "epoch": 1.1193628242385103,
      "grad_norm": 0.567363440990448,
      "learning_rate": 0.0005334252774485507,
      "loss": 3.7721,
      "step": 10400
    },
    {
      "epoch": 1.1247443762781186,
      "grad_norm": 0.5667002201080322,
      "learning_rate": 0.0005331020364184894,
      "loss": 3.7548,
      "step": 10450
    },
    {
      "epoch": 1.1301259283177267,
      "grad_norm": 0.5517935156822205,
      "learning_rate": 0.0005327787953884279,
      "loss": 3.7581,
      "step": 10500
    },
    {
      "epoch": 1.135507480357335,
      "grad_norm": 0.6343664526939392,
      "learning_rate": 0.0005324555543583665,
      "loss": 3.7591,
      "step": 10550
    },
    {
      "epoch": 1.1408890323969434,
      "grad_norm": 0.5790595412254333,
      "learning_rate": 0.0005321323133283051,
      "loss": 3.7669,
      "step": 10600
    },
    {
      "epoch": 1.1462705844365515,
      "grad_norm": 0.6566817760467529,
      "learning_rate": 0.0005318090722982436,
      "loss": 3.7701,
      "step": 10650
    },
    {
      "epoch": 1.1516521364761596,
      "grad_norm": 0.5846270322799683,
      "learning_rate": 0.0005314858312681823,
      "loss": 3.7444,
      "step": 10700
    },
    {
      "epoch": 1.157033688515768,
      "grad_norm": 0.6394940614700317,
      "learning_rate": 0.0005311625902381209,
      "loss": 3.7535,
      "step": 10750
    },
    {
      "epoch": 1.1624152405553763,
      "grad_norm": 0.6165667772293091,
      "learning_rate": 0.0005308393492080595,
      "loss": 3.7604,
      "step": 10800
    },
    {
      "epoch": 1.1677967925949844,
      "grad_norm": 0.596870481967926,
      "learning_rate": 0.000530516108177998,
      "loss": 3.7459,
      "step": 10850
    },
    {
      "epoch": 1.1731783446345927,
      "grad_norm": 0.5039400458335876,
      "learning_rate": 0.0005301928671479365,
      "loss": 3.7562,
      "step": 10900
    },
    {
      "epoch": 1.1785598966742008,
      "grad_norm": 0.5547177195549011,
      "learning_rate": 0.0005298696261178752,
      "loss": 3.7764,
      "step": 10950
    },
    {
      "epoch": 1.1839414487138091,
      "grad_norm": 0.5482553243637085,
      "learning_rate": 0.0005295463850878138,
      "loss": 3.7574,
      "step": 11000
    },
    {
      "epoch": 1.1839414487138091,
      "eval_accuracy": 0.3466484549939638,
      "eval_loss": 3.723857879638672,
      "eval_runtime": 184.041,
      "eval_samples_per_second": 97.864,
      "eval_steps_per_second": 6.118,
      "step": 11000
    },
    {
      "epoch": 1.1893230007534172,
      "grad_norm": 0.5721132159233093,
      "learning_rate": 0.0005292231440577524,
      "loss": 3.76,
      "step": 11050
    },
    {
      "epoch": 1.1947045527930256,
      "grad_norm": 0.5457881689071655,
      "learning_rate": 0.0005288999030276909,
      "loss": 3.7496,
      "step": 11100
    },
    {
      "epoch": 1.2000861048326337,
      "grad_norm": 0.5807094573974609,
      "learning_rate": 0.0005285766619976295,
      "loss": 3.7408,
      "step": 11150
    },
    {
      "epoch": 1.205467656872242,
      "grad_norm": 0.5281505584716797,
      "learning_rate": 0.0005282534209675681,
      "loss": 3.7376,
      "step": 11200
    },
    {
      "epoch": 1.21084920891185,
      "grad_norm": 0.5891653299331665,
      "learning_rate": 0.0005279301799375066,
      "loss": 3.7329,
      "step": 11250
    },
    {
      "epoch": 1.2162307609514584,
      "grad_norm": 0.5305073857307434,
      "learning_rate": 0.0005276069389074453,
      "loss": 3.7487,
      "step": 11300
    },
    {
      "epoch": 1.2216123129910665,
      "grad_norm": 0.6238071918487549,
      "learning_rate": 0.0005272836978773838,
      "loss": 3.744,
      "step": 11350
    },
    {
      "epoch": 1.2269938650306749,
      "grad_norm": 0.5580189228057861,
      "learning_rate": 0.0005269604568473225,
      "loss": 3.7448,
      "step": 11400
    },
    {
      "epoch": 1.232375417070283,
      "grad_norm": 0.5435125231742859,
      "learning_rate": 0.000526637215817261,
      "loss": 3.7414,
      "step": 11450
    },
    {
      "epoch": 1.2377569691098913,
      "grad_norm": 0.5330039262771606,
      "learning_rate": 0.0005263204396078008,
      "loss": 3.7221,
      "step": 11500
    },
    {
      "epoch": 1.2431385211494996,
      "grad_norm": 0.5881175994873047,
      "learning_rate": 0.0005259971985777394,
      "loss": 3.7579,
      "step": 11550
    },
    {
      "epoch": 1.2485200731891077,
      "grad_norm": 0.5768909454345703,
      "learning_rate": 0.000525673957547678,
      "loss": 3.7517,
      "step": 11600
    },
    {
      "epoch": 1.2539016252287158,
      "grad_norm": 0.5658957362174988,
      "learning_rate": 0.0005253507165176167,
      "loss": 3.726,
      "step": 11650
    },
    {
      "epoch": 1.2592831772683242,
      "grad_norm": 0.6303074359893799,
      "learning_rate": 0.0005250274754875552,
      "loss": 3.7302,
      "step": 11700
    },
    {
      "epoch": 1.2646647293079325,
      "grad_norm": 0.5750662684440613,
      "learning_rate": 0.0005247042344574938,
      "loss": 3.7391,
      "step": 11750
    },
    {
      "epoch": 1.2700462813475406,
      "grad_norm": 0.6278459429740906,
      "learning_rate": 0.0005243809934274323,
      "loss": 3.7381,
      "step": 11800
    },
    {
      "epoch": 1.275427833387149,
      "grad_norm": 0.5623860359191895,
      "learning_rate": 0.0005240577523973709,
      "loss": 3.7178,
      "step": 11850
    },
    {
      "epoch": 1.280809385426757,
      "grad_norm": 0.5962601900100708,
      "learning_rate": 0.0005237345113673095,
      "loss": 3.7451,
      "step": 11900
    },
    {
      "epoch": 1.2861909374663654,
      "grad_norm": 0.5212928652763367,
      "learning_rate": 0.0005234112703372481,
      "loss": 3.7435,
      "step": 11950
    },
    {
      "epoch": 1.2915724895059735,
      "grad_norm": 0.5815906524658203,
      "learning_rate": 0.0005230880293071867,
      "loss": 3.7261,
      "step": 12000
    },
    {
      "epoch": 1.2915724895059735,
      "eval_accuracy": 0.34967378600227017,
      "eval_loss": 3.697418451309204,
      "eval_runtime": 183.8764,
      "eval_samples_per_second": 97.952,
      "eval_steps_per_second": 6.124,
      "step": 12000
    },
    {
      "epoch": 1.2969540415455818,
      "grad_norm": 0.6026476621627808,
      "learning_rate": 0.0005227647882771253,
      "loss": 3.7327,
      "step": 12050
    },
    {
      "epoch": 1.30233559358519,
      "grad_norm": 0.5665404796600342,
      "learning_rate": 0.0005224415472470639,
      "loss": 3.7317,
      "step": 12100
    },
    {
      "epoch": 1.3077171456247982,
      "grad_norm": 0.5028511881828308,
      "learning_rate": 0.0005221183062170024,
      "loss": 3.7213,
      "step": 12150
    },
    {
      "epoch": 1.3130986976644063,
      "grad_norm": 0.5583544969558716,
      "learning_rate": 0.0005217950651869409,
      "loss": 3.7129,
      "step": 12200
    },
    {
      "epoch": 1.3184802497040147,
      "grad_norm": 0.5267575979232788,
      "learning_rate": 0.0005214718241568796,
      "loss": 3.7092,
      "step": 12250
    },
    {
      "epoch": 1.3238618017436228,
      "grad_norm": 0.6156179904937744,
      "learning_rate": 0.0005211485831268182,
      "loss": 3.7579,
      "step": 12300
    },
    {
      "epoch": 1.329243353783231,
      "grad_norm": 0.6041366457939148,
      "learning_rate": 0.0005208253420967568,
      "loss": 3.7211,
      "step": 12350
    },
    {
      "epoch": 1.3346249058228392,
      "grad_norm": 0.5673537254333496,
      "learning_rate": 0.0005205021010666953,
      "loss": 3.7161,
      "step": 12400
    },
    {
      "epoch": 1.3400064578624475,
      "grad_norm": 0.5781580805778503,
      "learning_rate": 0.0005201788600366339,
      "loss": 3.7172,
      "step": 12450
    },
    {
      "epoch": 1.3453880099020559,
      "grad_norm": 0.5916229486465454,
      "learning_rate": 0.0005198556190065725,
      "loss": 3.7285,
      "step": 12500
    },
    {
      "epoch": 1.350769561941664,
      "grad_norm": 0.5684212446212769,
      "learning_rate": 0.0005195323779765112,
      "loss": 3.7222,
      "step": 12550
    },
    {
      "epoch": 1.356151113981272,
      "grad_norm": 0.5577252507209778,
      "learning_rate": 0.0005192091369464497,
      "loss": 3.7386,
      "step": 12600
    },
    {
      "epoch": 1.3615326660208804,
      "grad_norm": 0.6396933794021606,
      "learning_rate": 0.0005188858959163882,
      "loss": 3.7317,
      "step": 12650
    },
    {
      "epoch": 1.3669142180604887,
      "grad_norm": 0.5533187389373779,
      "learning_rate": 0.0005185626548863269,
      "loss": 3.7278,
      "step": 12700
    },
    {
      "epoch": 1.3722957701000968,
      "grad_norm": 0.5899225473403931,
      "learning_rate": 0.0005182394138562654,
      "loss": 3.717,
      "step": 12750
    },
    {
      "epoch": 1.3776773221397052,
      "grad_norm": 0.6234177350997925,
      "learning_rate": 0.0005179161728262041,
      "loss": 3.7126,
      "step": 12800
    },
    {
      "epoch": 1.3830588741793133,
      "grad_norm": 0.5137346982955933,
      "learning_rate": 0.0005175929317961426,
      "loss": 3.7043,
      "step": 12850
    },
    {
      "epoch": 1.3884404262189216,
      "grad_norm": 0.5724355578422546,
      "learning_rate": 0.0005172696907660812,
      "loss": 3.6998,
      "step": 12900
    },
    {
      "epoch": 1.3938219782585297,
      "grad_norm": 0.5575365424156189,
      "learning_rate": 0.0005169464497360198,
      "loss": 3.7041,
      "step": 12950
    },
    {
      "epoch": 1.399203530298138,
      "grad_norm": 0.5341693162918091,
      "learning_rate": 0.0005166232087059583,
      "loss": 3.7105,
      "step": 13000
    },
    {
      "epoch": 1.399203530298138,
      "eval_accuracy": 0.3518252218338847,
      "eval_loss": 3.6750853061676025,
      "eval_runtime": 184.0131,
      "eval_samples_per_second": 97.879,
      "eval_steps_per_second": 6.119,
      "step": 13000
    },
    {
      "epoch": 1.4045850823377461,
      "grad_norm": 0.5974880456924438,
      "learning_rate": 0.0005162999676758969,
      "loss": 3.7213,
      "step": 13050
    },
    {
      "epoch": 1.4099666343773545,
      "grad_norm": 0.5822169780731201,
      "learning_rate": 0.0005159767266458355,
      "loss": 3.7023,
      "step": 13100
    },
    {
      "epoch": 1.4153481864169626,
      "grad_norm": 0.5897988080978394,
      "learning_rate": 0.0005156534856157741,
      "loss": 3.7,
      "step": 13150
    },
    {
      "epoch": 1.420729738456571,
      "grad_norm": 0.5822961330413818,
      "learning_rate": 0.0005153302445857127,
      "loss": 3.7204,
      "step": 13200
    },
    {
      "epoch": 1.426111290496179,
      "grad_norm": 0.5670113563537598,
      "learning_rate": 0.0005150070035556513,
      "loss": 3.6954,
      "step": 13250
    },
    {
      "epoch": 1.4314928425357873,
      "grad_norm": 0.5750128626823425,
      "learning_rate": 0.0005146837625255898,
      "loss": 3.6973,
      "step": 13300
    },
    {
      "epoch": 1.4368743945753955,
      "grad_norm": 0.5693084597587585,
      "learning_rate": 0.0005143605214955285,
      "loss": 3.6957,
      "step": 13350
    },
    {
      "epoch": 1.4422559466150038,
      "grad_norm": 0.5890657305717468,
      "learning_rate": 0.0005140372804654671,
      "loss": 3.7205,
      "step": 13400
    },
    {
      "epoch": 1.447637498654612,
      "grad_norm": 0.5949841737747192,
      "learning_rate": 0.0005137140394354056,
      "loss": 3.6978,
      "step": 13450
    },
    {
      "epoch": 1.4530190506942202,
      "grad_norm": 0.5681695342063904,
      "learning_rate": 0.0005133907984053442,
      "loss": 3.7001,
      "step": 13500
    },
    {
      "epoch": 1.4584006027338283,
      "grad_norm": 0.5512904524803162,
      "learning_rate": 0.000513074022195884,
      "loss": 3.6912,
      "step": 13550
    },
    {
      "epoch": 1.4637821547734367,
      "grad_norm": 0.6680477857589722,
      "learning_rate": 0.0005127507811658226,
      "loss": 3.7173,
      "step": 13600
    },
    {
      "epoch": 1.469163706813045,
      "grad_norm": 0.6835876703262329,
      "learning_rate": 0.0005124275401357612,
      "loss": 3.7078,
      "step": 13650
    },
    {
      "epoch": 1.474545258852653,
      "grad_norm": 0.5243673920631409,
      "learning_rate": 0.0005121042991056997,
      "loss": 3.694,
      "step": 13700
    },
    {
      "epoch": 1.4799268108922612,
      "grad_norm": 0.5665490627288818,
      "learning_rate": 0.0005117810580756384,
      "loss": 3.7244,
      "step": 13750
    },
    {
      "epoch": 1.4853083629318695,
      "grad_norm": 0.5301810503005981,
      "learning_rate": 0.0005114578170455769,
      "loss": 3.7072,
      "step": 13800
    },
    {
      "epoch": 1.4906899149714778,
      "grad_norm": 0.5615100264549255,
      "learning_rate": 0.0005111345760155156,
      "loss": 3.6943,
      "step": 13850
    },
    {
      "epoch": 1.496071467011086,
      "grad_norm": 0.5923837423324585,
      "learning_rate": 0.0005108113349854541,
      "loss": 3.7282,
      "step": 13900
    },
    {
      "epoch": 1.501453019050694,
      "grad_norm": 0.566630482673645,
      "learning_rate": 0.0005104880939553926,
      "loss": 3.7054,
      "step": 13950
    },
    {
      "epoch": 1.5068345710903024,
      "grad_norm": 0.569094181060791,
      "learning_rate": 0.0005101648529253313,
      "loss": 3.7067,
      "step": 14000
    },
    {
      "epoch": 1.5068345710903024,
      "eval_accuracy": 0.35326987063026605,
      "eval_loss": 3.6572160720825195,
      "eval_runtime": 183.9705,
      "eval_samples_per_second": 97.902,
      "eval_steps_per_second": 6.121,
      "step": 14000
    },
    {
      "epoch": 1.5122161231299107,
      "grad_norm": 0.5216185450553894,
      "learning_rate": 0.0005098416118952699,
      "loss": 3.6777,
      "step": 14050
    },
    {
      "epoch": 1.5175976751695188,
      "grad_norm": 0.632200300693512,
      "learning_rate": 0.0005095183708652085,
      "loss": 3.6887,
      "step": 14100
    },
    {
      "epoch": 1.5229792272091272,
      "grad_norm": 0.544043242931366,
      "learning_rate": 0.000509195129835147,
      "loss": 3.6624,
      "step": 14150
    },
    {
      "epoch": 1.5283607792487355,
      "grad_norm": 0.5500674247741699,
      "learning_rate": 0.0005088718888050856,
      "loss": 3.7167,
      "step": 14200
    },
    {
      "epoch": 1.5337423312883436,
      "grad_norm": 0.5480815172195435,
      "learning_rate": 0.0005085486477750242,
      "loss": 3.6881,
      "step": 14250
    },
    {
      "epoch": 1.5391238833279517,
      "grad_norm": 0.6296195387840271,
      "learning_rate": 0.0005082254067449629,
      "loss": 3.7047,
      "step": 14300
    },
    {
      "epoch": 1.54450543536756,
      "grad_norm": 0.5799419283866882,
      "learning_rate": 0.0005079021657149014,
      "loss": 3.6935,
      "step": 14350
    },
    {
      "epoch": 1.5498869874071683,
      "grad_norm": 0.5535317063331604,
      "learning_rate": 0.0005075789246848399,
      "loss": 3.6873,
      "step": 14400
    },
    {
      "epoch": 1.5552685394467765,
      "grad_norm": 0.5576125979423523,
      "learning_rate": 0.0005072556836547785,
      "loss": 3.6869,
      "step": 14450
    },
    {
      "epoch": 1.5606500914863846,
      "grad_norm": 0.5365850329399109,
      "learning_rate": 0.0005069324426247171,
      "loss": 3.6872,
      "step": 14500
    },
    {
      "epoch": 1.566031643525993,
      "grad_norm": 0.5638772249221802,
      "learning_rate": 0.0005066092015946557,
      "loss": 3.7072,
      "step": 14550
    },
    {
      "epoch": 1.5714131955656012,
      "grad_norm": 0.5572370290756226,
      "learning_rate": 0.0005062859605645943,
      "loss": 3.6838,
      "step": 14600
    },
    {
      "epoch": 1.5767947476052093,
      "grad_norm": 0.6258504986763,
      "learning_rate": 0.0005059627195345329,
      "loss": 3.6623,
      "step": 14650
    },
    {
      "epoch": 1.5821762996448174,
      "grad_norm": 0.6134964227676392,
      "learning_rate": 0.0005056394785044715,
      "loss": 3.681,
      "step": 14700
    },
    {
      "epoch": 1.5875578516844258,
      "grad_norm": 0.4954919219017029,
      "learning_rate": 0.00050531623747441,
      "loss": 3.6909,
      "step": 14750
    },
    {
      "epoch": 1.592939403724034,
      "grad_norm": 0.5540531277656555,
      "learning_rate": 0.0005049929964443486,
      "loss": 3.676,
      "step": 14800
    },
    {
      "epoch": 1.5983209557636422,
      "grad_norm": 0.5672141909599304,
      "learning_rate": 0.0005046697554142871,
      "loss": 3.7004,
      "step": 14850
    },
    {
      "epoch": 1.6037025078032503,
      "grad_norm": 0.6011446118354797,
      "learning_rate": 0.0005043465143842258,
      "loss": 3.7031,
      "step": 14900
    },
    {
      "epoch": 1.6090840598428586,
      "grad_norm": 0.5907103419303894,
      "learning_rate": 0.0005040232733541644,
      "loss": 3.6924,
      "step": 14950
    },
    {
      "epoch": 1.614465611882467,
      "grad_norm": 0.5484122037887573,
      "learning_rate": 0.000503700032324103,
      "loss": 3.6725,
      "step": 15000
    },
    {
      "epoch": 1.614465611882467,
      "eval_accuracy": 0.35555375433212644,
      "eval_loss": 3.63727068901062,
      "eval_runtime": 183.8875,
      "eval_samples_per_second": 97.946,
      "eval_steps_per_second": 6.123,
      "step": 15000
    },
    {
      "epoch": 1.619847163922075,
      "grad_norm": 0.5765328407287598,
      "learning_rate": 0.0005033767912940415,
      "loss": 3.6993,
      "step": 15050
    },
    {
      "epoch": 1.6252287159616834,
      "grad_norm": 0.5641318559646606,
      "learning_rate": 0.0005030535502639802,
      "loss": 3.6728,
      "step": 15100
    },
    {
      "epoch": 1.6306102680012917,
      "grad_norm": 0.5740742087364197,
      "learning_rate": 0.0005027303092339187,
      "loss": 3.6683,
      "step": 15150
    },
    {
      "epoch": 1.6359918200408998,
      "grad_norm": 0.5896754264831543,
      "learning_rate": 0.0005024070682038573,
      "loss": 3.6826,
      "step": 15200
    },
    {
      "epoch": 1.641373372080508,
      "grad_norm": 0.6210188269615173,
      "learning_rate": 0.0005020838271737959,
      "loss": 3.6811,
      "step": 15250
    },
    {
      "epoch": 1.6467549241201163,
      "grad_norm": 0.5900714993476868,
      "learning_rate": 0.0005017605861437344,
      "loss": 3.6843,
      "step": 15300
    },
    {
      "epoch": 1.6521364761597246,
      "grad_norm": 0.6299698352813721,
      "learning_rate": 0.0005014373451136731,
      "loss": 3.646,
      "step": 15350
    },
    {
      "epoch": 1.6575180281993327,
      "grad_norm": 0.6007218956947327,
      "learning_rate": 0.0005011141040836116,
      "loss": 3.6644,
      "step": 15400
    },
    {
      "epoch": 1.6628995802389408,
      "grad_norm": 0.5768170356750488,
      "learning_rate": 0.0005007908630535503,
      "loss": 3.6724,
      "step": 15450
    },
    {
      "epoch": 1.6682811322785491,
      "grad_norm": 0.6738324761390686,
      "learning_rate": 0.0005004676220234888,
      "loss": 3.6717,
      "step": 15500
    },
    {
      "epoch": 1.6736626843181575,
      "grad_norm": 0.5419800281524658,
      "learning_rate": 0.0005001508458140286,
      "loss": 3.6607,
      "step": 15550
    },
    {
      "epoch": 1.6790442363577656,
      "grad_norm": 0.5669275522232056,
      "learning_rate": 0.0004998276047839673,
      "loss": 3.6747,
      "step": 15600
    },
    {
      "epoch": 1.6844257883973737,
      "grad_norm": 0.6458127498626709,
      "learning_rate": 0.0004995043637539058,
      "loss": 3.6782,
      "step": 15650
    },
    {
      "epoch": 1.689807340436982,
      "grad_norm": 0.6181530952453613,
      "learning_rate": 0.0004991811227238443,
      "loss": 3.6733,
      "step": 15700
    },
    {
      "epoch": 1.6951888924765903,
      "grad_norm": 0.5216902494430542,
      "learning_rate": 0.0004988578816937829,
      "loss": 3.6608,
      "step": 15750
    },
    {
      "epoch": 1.7005704445161984,
      "grad_norm": 0.7096442580223083,
      "learning_rate": 0.0004985346406637215,
      "loss": 3.6861,
      "step": 15800
    },
    {
      "epoch": 1.7059519965558065,
      "grad_norm": 0.6171854734420776,
      "learning_rate": 0.0004982113996336602,
      "loss": 3.6544,
      "step": 15850
    },
    {
      "epoch": 1.7113335485954149,
      "grad_norm": 0.5395773649215698,
      "learning_rate": 0.0004978881586035987,
      "loss": 3.6643,
      "step": 15900
    },
    {
      "epoch": 1.7167151006350232,
      "grad_norm": 0.5730467438697815,
      "learning_rate": 0.0004975649175735373,
      "loss": 3.6719,
      "step": 15950
    },
    {
      "epoch": 1.7220966526746313,
      "grad_norm": 0.514015793800354,
      "learning_rate": 0.0004972416765434759,
      "loss": 3.657,
      "step": 16000
    },
    {
      "epoch": 1.7220966526746313,
      "eval_accuracy": 0.35728709385143087,
      "eval_loss": 3.620812177658081,
      "eval_runtime": 183.8577,
      "eval_samples_per_second": 97.962,
      "eval_steps_per_second": 6.124,
      "step": 16000
    },
    {
      "epoch": 1.7274782047142396,
      "grad_norm": 0.512117326259613,
      "learning_rate": 0.0004969184355134145,
      "loss": 3.6661,
      "step": 16050
    },
    {
      "epoch": 1.732859756753848,
      "grad_norm": 0.6183128952980042,
      "learning_rate": 0.0004965951944833531,
      "loss": 3.6563,
      "step": 16100
    },
    {
      "epoch": 1.738241308793456,
      "grad_norm": 0.5749107599258423,
      "learning_rate": 0.0004962719534532916,
      "loss": 3.6847,
      "step": 16150
    },
    {
      "epoch": 1.7436228608330642,
      "grad_norm": 0.5686755180358887,
      "learning_rate": 0.0004959487124232302,
      "loss": 3.6577,
      "step": 16200
    },
    {
      "epoch": 1.7490044128726725,
      "grad_norm": 0.5784595012664795,
      "learning_rate": 0.0004956254713931688,
      "loss": 3.6646,
      "step": 16250
    },
    {
      "epoch": 1.7543859649122808,
      "grad_norm": 0.6464424729347229,
      "learning_rate": 0.0004953022303631074,
      "loss": 3.6751,
      "step": 16300
    },
    {
      "epoch": 1.759767516951889,
      "grad_norm": 0.5448122620582581,
      "learning_rate": 0.0004949789893330459,
      "loss": 3.6626,
      "step": 16350
    },
    {
      "epoch": 1.765149068991497,
      "grad_norm": 0.5861468315124512,
      "learning_rate": 0.0004946557483029846,
      "loss": 3.659,
      "step": 16400
    },
    {
      "epoch": 1.7705306210311054,
      "grad_norm": 0.5669645071029663,
      "learning_rate": 0.0004943325072729231,
      "loss": 3.6554,
      "step": 16450
    },
    {
      "epoch": 1.7759121730707137,
      "grad_norm": 0.5547570586204529,
      "learning_rate": 0.0004940092662428617,
      "loss": 3.6505,
      "step": 16500
    },
    {
      "epoch": 1.7812937251103218,
      "grad_norm": 0.5636820793151855,
      "learning_rate": 0.0004936860252128003,
      "loss": 3.65,
      "step": 16550
    },
    {
      "epoch": 1.78667527714993,
      "grad_norm": 0.6154249310493469,
      "learning_rate": 0.0004933627841827388,
      "loss": 3.6674,
      "step": 16600
    },
    {
      "epoch": 1.7920568291895382,
      "grad_norm": 0.591482937335968,
      "learning_rate": 0.0004930395431526775,
      "loss": 3.6723,
      "step": 16650
    },
    {
      "epoch": 1.7974383812291466,
      "grad_norm": 0.6477094888687134,
      "learning_rate": 0.0004927163021226161,
      "loss": 3.6466,
      "step": 16700
    },
    {
      "epoch": 1.8028199332687547,
      "grad_norm": 0.5866237282752991,
      "learning_rate": 0.0004923930610925547,
      "loss": 3.6498,
      "step": 16750
    },
    {
      "epoch": 1.8082014853083628,
      "grad_norm": 0.5712083578109741,
      "learning_rate": 0.0004920698200624932,
      "loss": 3.6535,
      "step": 16800
    },
    {
      "epoch": 1.813583037347971,
      "grad_norm": 0.5897883176803589,
      "learning_rate": 0.0004917465790324317,
      "loss": 3.6363,
      "step": 16850
    },
    {
      "epoch": 1.8189645893875794,
      "grad_norm": 0.6297891736030579,
      "learning_rate": 0.0004914233380023704,
      "loss": 3.6618,
      "step": 16900
    },
    {
      "epoch": 1.8243461414271875,
      "grad_norm": 0.5456569790840149,
      "learning_rate": 0.0004911000969723089,
      "loss": 3.6571,
      "step": 16950
    },
    {
      "epoch": 1.8297276934667959,
      "grad_norm": 0.5984981060028076,
      "learning_rate": 0.0004907768559422476,
      "loss": 3.6574,
      "step": 17000
    },
    {
      "epoch": 1.8297276934667959,
      "eval_accuracy": 0.35855333460602085,
      "eval_loss": 3.605092763900757,
      "eval_runtime": 184.0749,
      "eval_samples_per_second": 97.846,
      "eval_steps_per_second": 6.117,
      "step": 17000
    },
    {
      "epoch": 1.8351092455064042,
      "grad_norm": 0.5838953852653503,
      "learning_rate": 0.0004904536149121861,
      "loss": 3.6571,
      "step": 17050
    },
    {
      "epoch": 1.8404907975460123,
      "grad_norm": 0.5793919563293457,
      "learning_rate": 0.0004901303738821248,
      "loss": 3.6232,
      "step": 17100
    },
    {
      "epoch": 1.8458723495856204,
      "grad_norm": 0.5924348831176758,
      "learning_rate": 0.0004898071328520633,
      "loss": 3.6329,
      "step": 17150
    },
    {
      "epoch": 1.8512539016252287,
      "grad_norm": 0.6244965195655823,
      "learning_rate": 0.0004894838918220019,
      "loss": 3.6494,
      "step": 17200
    },
    {
      "epoch": 1.856635453664837,
      "grad_norm": 0.5778618454933167,
      "learning_rate": 0.0004891606507919405,
      "loss": 3.6311,
      "step": 17250
    },
    {
      "epoch": 1.8620170057044452,
      "grad_norm": 0.5544555187225342,
      "learning_rate": 0.000488837409761879,
      "loss": 3.619,
      "step": 17300
    },
    {
      "epoch": 1.8673985577440533,
      "grad_norm": 0.5473847389221191,
      "learning_rate": 0.0004885141687318177,
      "loss": 3.6683,
      "step": 17350
    },
    {
      "epoch": 1.8727801097836616,
      "grad_norm": 0.6301535964012146,
      "learning_rate": 0.00048819092770175623,
      "loss": 3.654,
      "step": 17400
    },
    {
      "epoch": 1.87816166182327,
      "grad_norm": 0.573832631111145,
      "learning_rate": 0.0004878676866716948,
      "loss": 3.6434,
      "step": 17450
    },
    {
      "epoch": 1.883543213862878,
      "grad_norm": 0.5745556950569153,
      "learning_rate": 0.00048754444564163337,
      "loss": 3.6451,
      "step": 17500
    },
    {
      "epoch": 1.8889247659024861,
      "grad_norm": 0.6622468829154968,
      "learning_rate": 0.000487221204611572,
      "loss": 3.6211,
      "step": 17550
    },
    {
      "epoch": 1.8943063179420945,
      "grad_norm": 0.5608550310134888,
      "learning_rate": 0.00048690442840211177,
      "loss": 3.6405,
      "step": 17600
    },
    {
      "epoch": 1.8996878699817028,
      "grad_norm": 0.5869284868240356,
      "learning_rate": 0.0004865811873720504,
      "loss": 3.6488,
      "step": 17650
    },
    {
      "epoch": 1.905069422021311,
      "grad_norm": 0.5901599526405334,
      "learning_rate": 0.00048625794634198896,
      "loss": 3.6438,
      "step": 17700
    },
    {
      "epoch": 1.910450974060919,
      "grad_norm": 0.6597800850868225,
      "learning_rate": 0.00048593470531192756,
      "loss": 3.6504,
      "step": 17750
    },
    {
      "epoch": 1.9158325261005273,
      "grad_norm": 0.5624268651008606,
      "learning_rate": 0.00048561146428186615,
      "loss": 3.6402,
      "step": 17800
    },
    {
      "epoch": 1.9212140781401357,
      "grad_norm": 0.5875638127326965,
      "learning_rate": 0.0004852882232518047,
      "loss": 3.6419,
      "step": 17850
    },
    {
      "epoch": 1.9265956301797438,
      "grad_norm": 0.6079698204994202,
      "learning_rate": 0.00048496498222174334,
      "loss": 3.6556,
      "step": 17900
    },
    {
      "epoch": 1.931977182219352,
      "grad_norm": 0.6289412379264832,
      "learning_rate": 0.00048464174119168193,
      "loss": 3.6516,
      "step": 17950
    },
    {
      "epoch": 1.9373587342589604,
      "grad_norm": 0.5443165302276611,
      "learning_rate": 0.0004843185001616205,
      "loss": 3.6287,
      "step": 18000
    },
    {
      "epoch": 1.9373587342589604,
      "eval_accuracy": 0.3602385408960234,
      "eval_loss": 3.588521957397461,
      "eval_runtime": 184.0024,
      "eval_samples_per_second": 97.885,
      "eval_steps_per_second": 6.119,
      "step": 18000
    },
    {
      "epoch": 1.9427402862985685,
      "grad_norm": 0.62270188331604,
      "learning_rate": 0.00048399525913155907,
      "loss": 3.6299,
      "step": 18050
    },
    {
      "epoch": 1.9481218383381766,
      "grad_norm": 0.606747031211853,
      "learning_rate": 0.0004836720181014976,
      "loss": 3.6288,
      "step": 18100
    },
    {
      "epoch": 1.953503390377785,
      "grad_norm": 0.5461599230766296,
      "learning_rate": 0.0004833487770714362,
      "loss": 3.6563,
      "step": 18150
    },
    {
      "epoch": 1.9588849424173933,
      "grad_norm": 0.5216193199157715,
      "learning_rate": 0.00048302553604137485,
      "loss": 3.6264,
      "step": 18200
    },
    {
      "epoch": 1.9642664944570014,
      "grad_norm": 0.5836853981018066,
      "learning_rate": 0.0004827022950113134,
      "loss": 3.6377,
      "step": 18250
    },
    {
      "epoch": 1.9696480464966095,
      "grad_norm": 0.5691048502922058,
      "learning_rate": 0.000482379053981252,
      "loss": 3.6324,
      "step": 18300
    },
    {
      "epoch": 1.9750295985362178,
      "grad_norm": 0.6174172759056091,
      "learning_rate": 0.0004820558129511906,
      "loss": 3.6395,
      "step": 18350
    },
    {
      "epoch": 1.9804111505758262,
      "grad_norm": 0.5571573376655579,
      "learning_rate": 0.0004817325719211291,
      "loss": 3.6126,
      "step": 18400
    },
    {
      "epoch": 1.9857927026154343,
      "grad_norm": 0.5309216380119324,
      "learning_rate": 0.0004814093308910677,
      "loss": 3.6417,
      "step": 18450
    },
    {
      "epoch": 1.9911742546550424,
      "grad_norm": 0.5947520136833191,
      "learning_rate": 0.00048108608986100637,
      "loss": 3.6379,
      "step": 18500
    },
    {
      "epoch": 1.9965558066946507,
      "grad_norm": 0.5698376297950745,
      "learning_rate": 0.0004807628488309449,
      "loss": 3.6367,
      "step": 18550
    },
    {
      "epoch": 2.001937358734259,
      "grad_norm": 0.5619902014732361,
      "learning_rate": 0.0004804396078008835,
      "loss": 3.5969,
      "step": 18600
    },
    {
      "epoch": 2.007318910773867,
      "grad_norm": 0.6373156309127808,
      "learning_rate": 0.00048011636677082204,
      "loss": 3.5599,
      "step": 18650
    },
    {
      "epoch": 2.0127004628134753,
      "grad_norm": 0.6504054665565491,
      "learning_rate": 0.00047979312574076064,
      "loss": 3.5548,
      "step": 18700
    },
    {
      "epoch": 2.018082014853084,
      "grad_norm": 0.6098981499671936,
      "learning_rate": 0.0004794698847106992,
      "loss": 3.5572,
      "step": 18750
    },
    {
      "epoch": 2.023463566892692,
      "grad_norm": 0.5936856269836426,
      "learning_rate": 0.0004791466436806378,
      "loss": 3.549,
      "step": 18800
    },
    {
      "epoch": 2.0288451189323,
      "grad_norm": 0.6207876801490784,
      "learning_rate": 0.0004788234026505764,
      "loss": 3.5397,
      "step": 18850
    },
    {
      "epoch": 2.034226670971908,
      "grad_norm": 0.574242353439331,
      "learning_rate": 0.00047850016162051496,
      "loss": 3.5495,
      "step": 18900
    },
    {
      "epoch": 2.0396082230115167,
      "grad_norm": 0.5654100775718689,
      "learning_rate": 0.00047817692059045356,
      "loss": 3.5383,
      "step": 18950
    },
    {
      "epoch": 2.044989775051125,
      "grad_norm": 0.6265895366668701,
      "learning_rate": 0.00047785367956039215,
      "loss": 3.5597,
      "step": 19000
    },
    {
      "epoch": 2.044989775051125,
      "eval_accuracy": 0.36156964742463865,
      "eval_loss": 3.578030824661255,
      "eval_runtime": 183.8786,
      "eval_samples_per_second": 97.95,
      "eval_steps_per_second": 6.124,
      "step": 19000
    },
    {
      "epoch": 2.050371327090733,
      "grad_norm": 0.5495560169219971,
      "learning_rate": 0.00047753043853033075,
      "loss": 3.5317,
      "step": 19050
    },
    {
      "epoch": 2.055752879130341,
      "grad_norm": 0.5911033749580383,
      "learning_rate": 0.00047720719750026934,
      "loss": 3.5586,
      "step": 19100
    },
    {
      "epoch": 2.0611344311699495,
      "grad_norm": 0.5579802989959717,
      "learning_rate": 0.00047688395647020793,
      "loss": 3.5622,
      "step": 19150
    },
    {
      "epoch": 2.0665159832095576,
      "grad_norm": 0.588341474533081,
      "learning_rate": 0.0004765607154401465,
      "loss": 3.5544,
      "step": 19200
    },
    {
      "epoch": 2.0718975352491658,
      "grad_norm": 0.608241617679596,
      "learning_rate": 0.00047623747441008507,
      "loss": 3.5531,
      "step": 19250
    },
    {
      "epoch": 2.0772790872887743,
      "grad_norm": 0.563453197479248,
      "learning_rate": 0.0004759142333800236,
      "loss": 3.5416,
      "step": 19300
    },
    {
      "epoch": 2.0826606393283824,
      "grad_norm": 0.5913609862327576,
      "learning_rate": 0.00047559099234996226,
      "loss": 3.5638,
      "step": 19350
    },
    {
      "epoch": 2.0880421913679905,
      "grad_norm": 0.651707649230957,
      "learning_rate": 0.00047526775131990085,
      "loss": 3.5613,
      "step": 19400
    },
    {
      "epoch": 2.0934237434075986,
      "grad_norm": 0.5794175863265991,
      "learning_rate": 0.0004749445102898394,
      "loss": 3.5536,
      "step": 19450
    },
    {
      "epoch": 2.098805295447207,
      "grad_norm": 0.5251868963241577,
      "learning_rate": 0.000474621269259778,
      "loss": 3.5509,
      "step": 19500
    },
    {
      "epoch": 2.1041868474868153,
      "grad_norm": 0.5378852486610413,
      "learning_rate": 0.0004742980282297166,
      "loss": 3.57,
      "step": 19550
    },
    {
      "epoch": 2.1095683995264234,
      "grad_norm": 0.5861989855766296,
      "learning_rate": 0.0004739747871996551,
      "loss": 3.5597,
      "step": 19600
    },
    {
      "epoch": 2.1149499515660315,
      "grad_norm": 0.5818963050842285,
      "learning_rate": 0.000473658010990195,
      "loss": 3.5506,
      "step": 19650
    },
    {
      "epoch": 2.12033150360564,
      "grad_norm": 0.6148971319198608,
      "learning_rate": 0.0004733347699601336,
      "loss": 3.5478,
      "step": 19700
    },
    {
      "epoch": 2.125713055645248,
      "grad_norm": 0.6216322779655457,
      "learning_rate": 0.0004730115289300722,
      "loss": 3.5714,
      "step": 19750
    },
    {
      "epoch": 2.1310946076848563,
      "grad_norm": 0.628680944442749,
      "learning_rate": 0.00047268828790001077,
      "loss": 3.5581,
      "step": 19800
    },
    {
      "epoch": 2.1364761597244644,
      "grad_norm": 0.6624084711074829,
      "learning_rate": 0.0004723650468699493,
      "loss": 3.5477,
      "step": 19850
    },
    {
      "epoch": 2.141857711764073,
      "grad_norm": 0.5844711661338806,
      "learning_rate": 0.0004720418058398879,
      "loss": 3.5444,
      "step": 19900
    },
    {
      "epoch": 2.147239263803681,
      "grad_norm": 0.605950117111206,
      "learning_rate": 0.00047171856480982644,
      "loss": 3.5702,
      "step": 19950
    },
    {
      "epoch": 2.152620815843289,
      "grad_norm": 0.5762618780136108,
      "learning_rate": 0.0004713953237797651,
      "loss": 3.5619,
      "step": 20000
    },
    {
      "epoch": 2.152620815843289,
      "eval_accuracy": 0.3625837048266112,
      "eval_loss": 3.5703272819519043,
      "eval_runtime": 184.0776,
      "eval_samples_per_second": 97.845,
      "eval_steps_per_second": 6.117,
      "step": 20000
    },
    {
      "epoch": 2.1580023678828972,
      "grad_norm": 0.5856814980506897,
      "learning_rate": 0.0004710720827497037,
      "loss": 3.5636,
      "step": 20050
    },
    {
      "epoch": 2.163383919922506,
      "grad_norm": 0.5840341448783875,
      "learning_rate": 0.00047074884171964223,
      "loss": 3.5585,
      "step": 20100
    },
    {
      "epoch": 2.168765471962114,
      "grad_norm": 0.6337221264839172,
      "learning_rate": 0.0004704256006895808,
      "loss": 3.552,
      "step": 20150
    },
    {
      "epoch": 2.174147024001722,
      "grad_norm": 0.599939227104187,
      "learning_rate": 0.00047010235965951936,
      "loss": 3.5582,
      "step": 20200
    },
    {
      "epoch": 2.1795285760413305,
      "grad_norm": 0.5688349008560181,
      "learning_rate": 0.00046977911862945796,
      "loss": 3.5489,
      "step": 20250
    },
    {
      "epoch": 2.1849101280809387,
      "grad_norm": 0.6068848371505737,
      "learning_rate": 0.0004694558775993966,
      "loss": 3.555,
      "step": 20300
    },
    {
      "epoch": 2.1902916801205468,
      "grad_norm": 0.5929007530212402,
      "learning_rate": 0.00046913263656933515,
      "loss": 3.5529,
      "step": 20350
    },
    {
      "epoch": 2.195673232160155,
      "grad_norm": 0.6062953472137451,
      "learning_rate": 0.00046880939553927374,
      "loss": 3.573,
      "step": 20400
    },
    {
      "epoch": 2.2010547841997634,
      "grad_norm": 0.6026338338851929,
      "learning_rate": 0.00046848615450921234,
      "loss": 3.5429,
      "step": 20450
    },
    {
      "epoch": 2.2064363362393715,
      "grad_norm": 0.5629875063896179,
      "learning_rate": 0.0004681629134791509,
      "loss": 3.5558,
      "step": 20500
    },
    {
      "epoch": 2.2118178882789796,
      "grad_norm": 0.5894096493721008,
      "learning_rate": 0.00046783967244908947,
      "loss": 3.5585,
      "step": 20550
    },
    {
      "epoch": 2.2171994403185877,
      "grad_norm": 0.5922936201095581,
      "learning_rate": 0.0004675164314190281,
      "loss": 3.5593,
      "step": 20600
    },
    {
      "epoch": 2.2225809923581963,
      "grad_norm": 0.5861797332763672,
      "learning_rate": 0.00046719319038896666,
      "loss": 3.5489,
      "step": 20650
    },
    {
      "epoch": 2.2279625443978044,
      "grad_norm": 0.5921692848205566,
      "learning_rate": 0.00046686994935890526,
      "loss": 3.5381,
      "step": 20700
    },
    {
      "epoch": 2.2333440964374125,
      "grad_norm": 0.5825867056846619,
      "learning_rate": 0.0004665467083288438,
      "loss": 3.5535,
      "step": 20750
    },
    {
      "epoch": 2.2387256484770206,
      "grad_norm": 0.5726574659347534,
      "learning_rate": 0.0004662234672987824,
      "loss": 3.5438,
      "step": 20800
    },
    {
      "epoch": 2.244107200516629,
      "grad_norm": 0.5989852547645569,
      "learning_rate": 0.00046590022626872104,
      "loss": 3.5573,
      "step": 20850
    },
    {
      "epoch": 2.2494887525562373,
      "grad_norm": 0.5568691492080688,
      "learning_rate": 0.0004655769852386596,
      "loss": 3.5681,
      "step": 20900
    },
    {
      "epoch": 2.2548703045958454,
      "grad_norm": 0.6287533640861511,
      "learning_rate": 0.0004652537442085982,
      "loss": 3.561,
      "step": 20950
    },
    {
      "epoch": 2.2602518566354535,
      "grad_norm": 0.5485689043998718,
      "learning_rate": 0.00046493050317853677,
      "loss": 3.5547,
      "step": 21000
    },
    {
      "epoch": 2.2602518566354535,
      "eval_accuracy": 0.36366751738256065,
      "eval_loss": 3.5600011348724365,
      "eval_runtime": 183.7823,
      "eval_samples_per_second": 98.002,
      "eval_steps_per_second": 6.127,
      "step": 21000
    },
    {
      "epoch": 2.265633408675062,
      "grad_norm": 0.5734512209892273,
      "learning_rate": 0.0004646072621484753,
      "loss": 3.5528,
      "step": 21050
    },
    {
      "epoch": 2.27101496071467,
      "grad_norm": 0.5945401191711426,
      "learning_rate": 0.0004642840211184139,
      "loss": 3.5591,
      "step": 21100
    },
    {
      "epoch": 2.2763965127542782,
      "grad_norm": 0.5975996851921082,
      "learning_rate": 0.00046396078008835255,
      "loss": 3.5556,
      "step": 21150
    },
    {
      "epoch": 2.281778064793887,
      "grad_norm": 0.5691627860069275,
      "learning_rate": 0.0004636375390582911,
      "loss": 3.5513,
      "step": 21200
    },
    {
      "epoch": 2.287159616833495,
      "grad_norm": 0.5872142314910889,
      "learning_rate": 0.0004633142980282297,
      "loss": 3.5868,
      "step": 21250
    },
    {
      "epoch": 2.292541168873103,
      "grad_norm": 0.5582751035690308,
      "learning_rate": 0.00046299105699816823,
      "loss": 3.5478,
      "step": 21300
    },
    {
      "epoch": 2.297922720912711,
      "grad_norm": 0.5925235152244568,
      "learning_rate": 0.0004626678159681068,
      "loss": 3.5631,
      "step": 21350
    },
    {
      "epoch": 2.303304272952319,
      "grad_norm": 0.6011558771133423,
      "learning_rate": 0.0004623445749380454,
      "loss": 3.575,
      "step": 21400
    },
    {
      "epoch": 2.3086858249919278,
      "grad_norm": 0.5539757609367371,
      "learning_rate": 0.000462021333907984,
      "loss": 3.5792,
      "step": 21450
    },
    {
      "epoch": 2.314067377031536,
      "grad_norm": 0.5873982906341553,
      "learning_rate": 0.0004616980928779226,
      "loss": 3.5697,
      "step": 21500
    },
    {
      "epoch": 2.319448929071144,
      "grad_norm": 0.5937085747718811,
      "learning_rate": 0.0004613813166684624,
      "loss": 3.5354,
      "step": 21550
    },
    {
      "epoch": 2.3248304811107525,
      "grad_norm": 0.548755407333374,
      "learning_rate": 0.000461058075638401,
      "loss": 3.5449,
      "step": 21600
    },
    {
      "epoch": 2.3302120331503606,
      "grad_norm": 0.5959485769271851,
      "learning_rate": 0.00046073483460833955,
      "loss": 3.5478,
      "step": 21650
    },
    {
      "epoch": 2.3355935851899687,
      "grad_norm": 0.6252501010894775,
      "learning_rate": 0.00046041159357827814,
      "loss": 3.5532,
      "step": 21700
    },
    {
      "epoch": 2.340975137229577,
      "grad_norm": 0.5844683647155762,
      "learning_rate": 0.00046008835254821674,
      "loss": 3.5576,
      "step": 21750
    },
    {
      "epoch": 2.3463566892691854,
      "grad_norm": 0.5866824388504028,
      "learning_rate": 0.0004597651115181554,
      "loss": 3.5485,
      "step": 21800
    },
    {
      "epoch": 2.3517382413087935,
      "grad_norm": 0.608598530292511,
      "learning_rate": 0.00045944187048809393,
      "loss": 3.5381,
      "step": 21850
    },
    {
      "epoch": 2.3571197933484016,
      "grad_norm": 0.5846897959709167,
      "learning_rate": 0.0004591186294580325,
      "loss": 3.554,
      "step": 21900
    },
    {
      "epoch": 2.3625013453880097,
      "grad_norm": 0.6155576705932617,
      "learning_rate": 0.00045879538842797106,
      "loss": 3.5566,
      "step": 21950
    },
    {
      "epoch": 2.3678828974276183,
      "grad_norm": 0.5617237091064453,
      "learning_rate": 0.00045847214739790966,
      "loss": 3.557,
      "step": 22000
    },
    {
      "epoch": 2.3678828974276183,
      "eval_accuracy": 0.36525167648689577,
      "eval_loss": 3.5492379665374756,
      "eval_runtime": 184.1656,
      "eval_samples_per_second": 97.798,
      "eval_steps_per_second": 6.114,
      "step": 22000
    },
    {
      "epoch": 2.3732644494672264,
      "grad_norm": 0.6038778424263,
      "learning_rate": 0.0004581489063678482,
      "loss": 3.5658,
      "step": 22050
    },
    {
      "epoch": 2.3786460015068345,
      "grad_norm": 0.6399400234222412,
      "learning_rate": 0.00045782566533778685,
      "loss": 3.561,
      "step": 22100
    },
    {
      "epoch": 2.384027553546443,
      "grad_norm": 0.6012102365493774,
      "learning_rate": 0.00045750242430772544,
      "loss": 3.5524,
      "step": 22150
    },
    {
      "epoch": 2.389409105586051,
      "grad_norm": 0.605171799659729,
      "learning_rate": 0.000457179183277664,
      "loss": 3.5363,
      "step": 22200
    },
    {
      "epoch": 2.3947906576256592,
      "grad_norm": 0.6219980716705322,
      "learning_rate": 0.0004568559422476026,
      "loss": 3.5374,
      "step": 22250
    },
    {
      "epoch": 2.4001722096652673,
      "grad_norm": 0.5795163512229919,
      "learning_rate": 0.00045653270121754117,
      "loss": 3.5776,
      "step": 22300
    },
    {
      "epoch": 2.4055537617048754,
      "grad_norm": 0.5863945484161377,
      "learning_rate": 0.0004562094601874797,
      "loss": 3.5253,
      "step": 22350
    },
    {
      "epoch": 2.410935313744484,
      "grad_norm": 0.6207752227783203,
      "learning_rate": 0.00045588621915741836,
      "loss": 3.5785,
      "step": 22400
    },
    {
      "epoch": 2.416316865784092,
      "grad_norm": 0.5603289008140564,
      "learning_rate": 0.00045556297812735696,
      "loss": 3.5507,
      "step": 22450
    },
    {
      "epoch": 2.4216984178237,
      "grad_norm": 0.591170072555542,
      "learning_rate": 0.0004552397370972955,
      "loss": 3.5715,
      "step": 22500
    },
    {
      "epoch": 2.4270799698633088,
      "grad_norm": 0.600636899471283,
      "learning_rate": 0.0004549164960672341,
      "loss": 3.5521,
      "step": 22550
    },
    {
      "epoch": 2.432461521902917,
      "grad_norm": 0.6858201622962952,
      "learning_rate": 0.00045459325503717263,
      "loss": 3.5289,
      "step": 22600
    },
    {
      "epoch": 2.437843073942525,
      "grad_norm": 0.5883813500404358,
      "learning_rate": 0.0004542700140071113,
      "loss": 3.5528,
      "step": 22650
    },
    {
      "epoch": 2.443224625982133,
      "grad_norm": 0.563820481300354,
      "learning_rate": 0.0004539467729770499,
      "loss": 3.522,
      "step": 22700
    },
    {
      "epoch": 2.4486061780217416,
      "grad_norm": 0.7230624556541443,
      "learning_rate": 0.0004536235319469884,
      "loss": 3.5712,
      "step": 22750
    },
    {
      "epoch": 2.4539877300613497,
      "grad_norm": 0.57767653465271,
      "learning_rate": 0.000453300290916927,
      "loss": 3.5509,
      "step": 22800
    },
    {
      "epoch": 2.459369282100958,
      "grad_norm": 0.5922796130180359,
      "learning_rate": 0.0004529770498868656,
      "loss": 3.558,
      "step": 22850
    },
    {
      "epoch": 2.464750834140566,
      "grad_norm": 0.5940879583358765,
      "learning_rate": 0.00045265380885680414,
      "loss": 3.5665,
      "step": 22900
    },
    {
      "epoch": 2.4701323861801745,
      "grad_norm": 0.6035211086273193,
      "learning_rate": 0.0004523305678267428,
      "loss": 3.5551,
      "step": 22950
    },
    {
      "epoch": 2.4755139382197826,
      "grad_norm": 0.6247579455375671,
      "learning_rate": 0.0004520073267966814,
      "loss": 3.5609,
      "step": 23000
    },
    {
      "epoch": 2.4755139382197826,
      "eval_accuracy": 0.3659423828947324,
      "eval_loss": 3.538984537124634,
      "eval_runtime": 184.1591,
      "eval_samples_per_second": 97.801,
      "eval_steps_per_second": 6.114,
      "step": 23000
    },
    {
      "epoch": 2.4808954902593907,
      "grad_norm": 0.6028592586517334,
      "learning_rate": 0.00045168408576661993,
      "loss": 3.5638,
      "step": 23050
    },
    {
      "epoch": 2.4862770422989993,
      "grad_norm": 0.594947874546051,
      "learning_rate": 0.0004513608447365585,
      "loss": 3.5383,
      "step": 23100
    },
    {
      "epoch": 2.4916585943386074,
      "grad_norm": 0.5821413993835449,
      "learning_rate": 0.00045103760370649706,
      "loss": 3.5656,
      "step": 23150
    },
    {
      "epoch": 2.4970401463782155,
      "grad_norm": 0.6132476329803467,
      "learning_rate": 0.00045071436267643566,
      "loss": 3.5491,
      "step": 23200
    },
    {
      "epoch": 2.5024216984178236,
      "grad_norm": 0.5961017608642578,
      "learning_rate": 0.0004503911216463743,
      "loss": 3.5542,
      "step": 23250
    },
    {
      "epoch": 2.5078032504574317,
      "grad_norm": 0.6220559477806091,
      "learning_rate": 0.00045006788061631285,
      "loss": 3.5438,
      "step": 23300
    },
    {
      "epoch": 2.5131848024970402,
      "grad_norm": 0.6220978498458862,
      "learning_rate": 0.00044974463958625144,
      "loss": 3.5366,
      "step": 23350
    },
    {
      "epoch": 2.5185663545366483,
      "grad_norm": 0.6197825074195862,
      "learning_rate": 0.00044942139855619004,
      "loss": 3.5378,
      "step": 23400
    },
    {
      "epoch": 2.5239479065762565,
      "grad_norm": 0.6109803915023804,
      "learning_rate": 0.0004490981575261286,
      "loss": 3.5489,
      "step": 23450
    },
    {
      "epoch": 2.529329458615865,
      "grad_norm": 0.6155878901481628,
      "learning_rate": 0.0004487749164960672,
      "loss": 3.534,
      "step": 23500
    },
    {
      "epoch": 2.534711010655473,
      "grad_norm": 0.5653412342071533,
      "learning_rate": 0.0004484516754660058,
      "loss": 3.5452,
      "step": 23550
    },
    {
      "epoch": 2.540092562695081,
      "grad_norm": 0.600301206111908,
      "learning_rate": 0.00044812843443594436,
      "loss": 3.5374,
      "step": 23600
    },
    {
      "epoch": 2.5454741147346893,
      "grad_norm": 0.5881109833717346,
      "learning_rate": 0.00044780519340588296,
      "loss": 3.545,
      "step": 23650
    },
    {
      "epoch": 2.550855666774298,
      "grad_norm": 0.6022902131080627,
      "learning_rate": 0.0004474819523758215,
      "loss": 3.5524,
      "step": 23700
    },
    {
      "epoch": 2.556237218813906,
      "grad_norm": 0.55455082654953,
      "learning_rate": 0.0004471587113457601,
      "loss": 3.5488,
      "step": 23750
    },
    {
      "epoch": 2.561618770853514,
      "grad_norm": 0.6199488639831543,
      "learning_rate": 0.00044683547031569874,
      "loss": 3.5366,
      "step": 23800
    },
    {
      "epoch": 2.567000322893122,
      "grad_norm": 0.5790871977806091,
      "learning_rate": 0.0004465122292856373,
      "loss": 3.5681,
      "step": 23850
    },
    {
      "epoch": 2.5723818749327307,
      "grad_norm": 0.6125236749649048,
      "learning_rate": 0.0004461889882555759,
      "loss": 3.5678,
      "step": 23900
    },
    {
      "epoch": 2.577763426972339,
      "grad_norm": 0.5920491814613342,
      "learning_rate": 0.00044586574722551447,
      "loss": 3.5386,
      "step": 23950
    },
    {
      "epoch": 2.583144979011947,
      "grad_norm": 0.5730222463607788,
      "learning_rate": 0.000445542506195453,
      "loss": 3.5309,
      "step": 24000
    },
    {
      "epoch": 2.583144979011947,
      "eval_accuracy": 0.3666978464237065,
      "eval_loss": 3.532193899154663,
      "eval_runtime": 183.7475,
      "eval_samples_per_second": 98.02,
      "eval_steps_per_second": 6.128,
      "step": 24000
    },
    {
      "epoch": 2.5885265310515555,
      "grad_norm": 0.6469062566757202,
      "learning_rate": 0.0004452192651653916,
      "loss": 3.5368,
      "step": 24050
    },
    {
      "epoch": 2.5939080830911636,
      "grad_norm": 0.6277520656585693,
      "learning_rate": 0.00044489602413533025,
      "loss": 3.5454,
      "step": 24100
    },
    {
      "epoch": 2.5992896351307717,
      "grad_norm": 0.6027266383171082,
      "learning_rate": 0.0004445727831052688,
      "loss": 3.5321,
      "step": 24150
    },
    {
      "epoch": 2.60467118717038,
      "grad_norm": 0.6238152980804443,
      "learning_rate": 0.0004442495420752074,
      "loss": 3.5269,
      "step": 24200
    },
    {
      "epoch": 2.610052739209988,
      "grad_norm": 0.674095094203949,
      "learning_rate": 0.00044392630104514593,
      "loss": 3.5418,
      "step": 24250
    },
    {
      "epoch": 2.6154342912495965,
      "grad_norm": 0.6170018911361694,
      "learning_rate": 0.0004436030600150845,
      "loss": 3.5419,
      "step": 24300
    },
    {
      "epoch": 2.6208158432892046,
      "grad_norm": 0.6214667558670044,
      "learning_rate": 0.0004432798189850231,
      "loss": 3.5417,
      "step": 24350
    },
    {
      "epoch": 2.6261973953288127,
      "grad_norm": 0.6522749662399292,
      "learning_rate": 0.0004429565779549617,
      "loss": 3.5605,
      "step": 24400
    },
    {
      "epoch": 2.6315789473684212,
      "grad_norm": 0.6221618056297302,
      "learning_rate": 0.0004426333369249003,
      "loss": 3.5732,
      "step": 24450
    },
    {
      "epoch": 2.6369604994080293,
      "grad_norm": 0.5975761413574219,
      "learning_rate": 0.0004423100958948389,
      "loss": 3.5284,
      "step": 24500
    },
    {
      "epoch": 2.6423420514476375,
      "grad_norm": 0.7168217301368713,
      "learning_rate": 0.00044198685486477744,
      "loss": 3.5398,
      "step": 24550
    },
    {
      "epoch": 2.6477236034872456,
      "grad_norm": 0.6105281114578247,
      "learning_rate": 0.00044166361383471604,
      "loss": 3.5478,
      "step": 24600
    },
    {
      "epoch": 2.653105155526854,
      "grad_norm": 0.5701020956039429,
      "learning_rate": 0.0004413403728046547,
      "loss": 3.5552,
      "step": 24650
    },
    {
      "epoch": 2.658486707566462,
      "grad_norm": 0.5857675075531006,
      "learning_rate": 0.0004410171317745932,
      "loss": 3.5507,
      "step": 24700
    },
    {
      "epoch": 2.6638682596060703,
      "grad_norm": 0.5888562798500061,
      "learning_rate": 0.0004406938907445318,
      "loss": 3.5488,
      "step": 24750
    },
    {
      "epoch": 2.6692498116456784,
      "grad_norm": 0.5767269730567932,
      "learning_rate": 0.00044037064971447036,
      "loss": 3.5337,
      "step": 24800
    },
    {
      "epoch": 2.674631363685287,
      "grad_norm": 0.6049450039863586,
      "learning_rate": 0.00044004740868440896,
      "loss": 3.5406,
      "step": 24850
    },
    {
      "epoch": 2.680012915724895,
      "grad_norm": 0.5585682392120361,
      "learning_rate": 0.00043972416765434755,
      "loss": 3.5389,
      "step": 24900
    },
    {
      "epoch": 2.685394467764503,
      "grad_norm": 0.6012302041053772,
      "learning_rate": 0.00043940092662428615,
      "loss": 3.5356,
      "step": 24950
    },
    {
      "epoch": 2.6907760198041117,
      "grad_norm": 0.6298533082008362,
      "learning_rate": 0.00043907768559422474,
      "loss": 3.5233,
      "step": 25000
    },
    {
      "epoch": 2.6907760198041117,
      "eval_accuracy": 0.367504594115729,
      "eval_loss": 3.522351026535034,
      "eval_runtime": 184.0339,
      "eval_samples_per_second": 97.868,
      "eval_steps_per_second": 6.118,
      "step": 25000
    },
    {
      "epoch": 2.69615757184372,
      "grad_norm": 0.5995802879333496,
      "learning_rate": 0.00043875444456416334,
      "loss": 3.5602,
      "step": 25050
    },
    {
      "epoch": 2.701539123883328,
      "grad_norm": 0.5978403687477112,
      "learning_rate": 0.0004384312035341019,
      "loss": 3.5535,
      "step": 25100
    },
    {
      "epoch": 2.706920675922936,
      "grad_norm": 0.6651970744132996,
      "learning_rate": 0.0004381144273246417,
      "loss": 3.539,
      "step": 25150
    },
    {
      "epoch": 2.712302227962544,
      "grad_norm": 0.6051041483879089,
      "learning_rate": 0.0004377911862945803,
      "loss": 3.5391,
      "step": 25200
    },
    {
      "epoch": 2.7176837800021527,
      "grad_norm": 0.6183181405067444,
      "learning_rate": 0.00043746794526451887,
      "loss": 3.5367,
      "step": 25250
    },
    {
      "epoch": 2.723065332041761,
      "grad_norm": 0.6170680522918701,
      "learning_rate": 0.00043714470423445747,
      "loss": 3.5485,
      "step": 25300
    },
    {
      "epoch": 2.728446884081369,
      "grad_norm": 0.6302635669708252,
      "learning_rate": 0.00043682146320439606,
      "loss": 3.53,
      "step": 25350
    },
    {
      "epoch": 2.7338284361209775,
      "grad_norm": 0.6181442141532898,
      "learning_rate": 0.00043649822217433466,
      "loss": 3.5284,
      "step": 25400
    },
    {
      "epoch": 2.7392099881605856,
      "grad_norm": 0.5958592295646667,
      "learning_rate": 0.0004361749811442732,
      "loss": 3.523,
      "step": 25450
    },
    {
      "epoch": 2.7445915402001937,
      "grad_norm": 0.6164222359657288,
      "learning_rate": 0.0004358517401142118,
      "loss": 3.5392,
      "step": 25500
    },
    {
      "epoch": 2.749973092239802,
      "grad_norm": 0.6154482364654541,
      "learning_rate": 0.00043552849908415033,
      "loss": 3.5324,
      "step": 25550
    },
    {
      "epoch": 2.7553546442794103,
      "grad_norm": 0.5700194835662842,
      "learning_rate": 0.000435205258054089,
      "loss": 3.5367,
      "step": 25600
    },
    {
      "epoch": 2.7607361963190185,
      "grad_norm": 0.6216681003570557,
      "learning_rate": 0.0004348820170240276,
      "loss": 3.5427,
      "step": 25650
    },
    {
      "epoch": 2.7661177483586266,
      "grad_norm": 0.5928051471710205,
      "learning_rate": 0.0004345587759939661,
      "loss": 3.5216,
      "step": 25700
    },
    {
      "epoch": 2.7714993003982347,
      "grad_norm": 0.6068760752677917,
      "learning_rate": 0.0004342355349639047,
      "loss": 3.5211,
      "step": 25750
    },
    {
      "epoch": 2.776880852437843,
      "grad_norm": 0.6098311543464661,
      "learning_rate": 0.0004339122939338433,
      "loss": 3.5345,
      "step": 25800
    },
    {
      "epoch": 2.7822624044774513,
      "grad_norm": 0.5788456201553345,
      "learning_rate": 0.00043358905290378184,
      "loss": 3.5233,
      "step": 25850
    },
    {
      "epoch": 2.7876439565170594,
      "grad_norm": 0.713739275932312,
      "learning_rate": 0.0004332658118737205,
      "loss": 3.5355,
      "step": 25900
    },
    {
      "epoch": 2.793025508556668,
      "grad_norm": 0.6027611494064331,
      "learning_rate": 0.0004329425708436591,
      "loss": 3.5222,
      "step": 25950
    },
    {
      "epoch": 2.798407060596276,
      "grad_norm": 0.5950246453285217,
      "learning_rate": 0.00043261932981359763,
      "loss": 3.5432,
      "step": 26000
    },
    {
      "epoch": 2.798407060596276,
      "eval_accuracy": 0.36878485109284703,
      "eval_loss": 3.5103273391723633,
      "eval_runtime": 184.1136,
      "eval_samples_per_second": 97.825,
      "eval_steps_per_second": 6.116,
      "step": 26000
    },
    {
      "epoch": 2.803788612635884,
      "grad_norm": 0.6367053985595703,
      "learning_rate": 0.0004322960887835362,
      "loss": 3.5476,
      "step": 26050
    },
    {
      "epoch": 2.8091701646754923,
      "grad_norm": 0.6352290511131287,
      "learning_rate": 0.00043197284775347476,
      "loss": 3.53,
      "step": 26100
    },
    {
      "epoch": 2.8145517167151004,
      "grad_norm": 0.6579016447067261,
      "learning_rate": 0.00043164960672341336,
      "loss": 3.544,
      "step": 26150
    },
    {
      "epoch": 2.819933268754709,
      "grad_norm": 0.7952849864959717,
      "learning_rate": 0.000431326365693352,
      "loss": 3.5409,
      "step": 26200
    },
    {
      "epoch": 2.825314820794317,
      "grad_norm": 0.5771870613098145,
      "learning_rate": 0.00043100312466329055,
      "loss": 3.5184,
      "step": 26250
    },
    {
      "epoch": 2.830696372833925,
      "grad_norm": 0.5636627078056335,
      "learning_rate": 0.00043067988363322914,
      "loss": 3.5284,
      "step": 26300
    },
    {
      "epoch": 2.8360779248735337,
      "grad_norm": 0.6355654001235962,
      "learning_rate": 0.00043035664260316774,
      "loss": 3.5191,
      "step": 26350
    },
    {
      "epoch": 2.841459476913142,
      "grad_norm": 0.6888496279716492,
      "learning_rate": 0.0004300334015731063,
      "loss": 3.5264,
      "step": 26400
    },
    {
      "epoch": 2.84684102895275,
      "grad_norm": 0.6041312217712402,
      "learning_rate": 0.0004297101605430449,
      "loss": 3.5108,
      "step": 26450
    },
    {
      "epoch": 2.852222580992358,
      "grad_norm": 0.5922994613647461,
      "learning_rate": 0.0004293869195129835,
      "loss": 3.5343,
      "step": 26500
    },
    {
      "epoch": 2.857604133031966,
      "grad_norm": 0.5739198923110962,
      "learning_rate": 0.00042906367848292206,
      "loss": 3.5263,
      "step": 26550
    },
    {
      "epoch": 2.8629856850715747,
      "grad_norm": 0.5892526507377625,
      "learning_rate": 0.00042874043745286066,
      "loss": 3.5245,
      "step": 26600
    },
    {
      "epoch": 2.868367237111183,
      "grad_norm": 0.6061168909072876,
      "learning_rate": 0.0004284171964227992,
      "loss": 3.5298,
      "step": 26650
    },
    {
      "epoch": 2.873748789150791,
      "grad_norm": 0.6621633768081665,
      "learning_rate": 0.0004280939553927378,
      "loss": 3.529,
      "step": 26700
    },
    {
      "epoch": 2.8791303411903995,
      "grad_norm": 0.6285065412521362,
      "learning_rate": 0.00042777071436267644,
      "loss": 3.5252,
      "step": 26750
    },
    {
      "epoch": 2.8845118932300076,
      "grad_norm": 0.6398993730545044,
      "learning_rate": 0.000427447473332615,
      "loss": 3.5238,
      "step": 26800
    },
    {
      "epoch": 2.8898934452696157,
      "grad_norm": 0.5967289805412292,
      "learning_rate": 0.0004271242323025536,
      "loss": 3.5406,
      "step": 26850
    },
    {
      "epoch": 2.895274997309224,
      "grad_norm": 0.6131772994995117,
      "learning_rate": 0.00042680099127249217,
      "loss": 3.5327,
      "step": 26900
    },
    {
      "epoch": 2.9006565493488323,
      "grad_norm": 0.5844256281852722,
      "learning_rate": 0.0004264777502424307,
      "loss": 3.5293,
      "step": 26950
    },
    {
      "epoch": 2.9060381013884404,
      "grad_norm": 0.5872825980186462,
      "learning_rate": 0.0004261545092123693,
      "loss": 3.5148,
      "step": 27000
    },
    {
      "epoch": 2.9060381013884404,
      "eval_accuracy": 0.3696145245441984,
      "eval_loss": 3.503678560256958,
      "eval_runtime": 184.108,
      "eval_samples_per_second": 97.828,
      "eval_steps_per_second": 6.116,
      "step": 27000
    },
    {
      "epoch": 2.9114196534280485,
      "grad_norm": 0.6736229062080383,
      "learning_rate": 0.00042583126818230795,
      "loss": 3.5232,
      "step": 27050
    },
    {
      "epoch": 2.9168012054676566,
      "grad_norm": 0.6699172258377075,
      "learning_rate": 0.0004255080271522465,
      "loss": 3.5455,
      "step": 27100
    },
    {
      "epoch": 2.922182757507265,
      "grad_norm": 0.6265247464179993,
      "learning_rate": 0.0004251847861221851,
      "loss": 3.5246,
      "step": 27150
    },
    {
      "epoch": 2.9275643095468733,
      "grad_norm": 0.6209573149681091,
      "learning_rate": 0.00042486154509212363,
      "loss": 3.5416,
      "step": 27200
    },
    {
      "epoch": 2.9329458615864814,
      "grad_norm": 0.6331267356872559,
      "learning_rate": 0.0004245383040620622,
      "loss": 3.5163,
      "step": 27250
    },
    {
      "epoch": 2.93832741362609,
      "grad_norm": 0.5998217463493347,
      "learning_rate": 0.0004242150630320009,
      "loss": 3.5196,
      "step": 27300
    },
    {
      "epoch": 2.943708965665698,
      "grad_norm": 0.6751472353935242,
      "learning_rate": 0.0004238918220019394,
      "loss": 3.5375,
      "step": 27350
    },
    {
      "epoch": 2.949090517705306,
      "grad_norm": 0.5609678626060486,
      "learning_rate": 0.000423568580971878,
      "loss": 3.5211,
      "step": 27400
    },
    {
      "epoch": 2.9544720697449143,
      "grad_norm": 0.6212835311889648,
      "learning_rate": 0.00042324533994181655,
      "loss": 3.54,
      "step": 27450
    },
    {
      "epoch": 2.9598536217845224,
      "grad_norm": 0.5910155177116394,
      "learning_rate": 0.00042292209891175514,
      "loss": 3.5154,
      "step": 27500
    },
    {
      "epoch": 2.965235173824131,
      "grad_norm": 0.6326806545257568,
      "learning_rate": 0.00042259885788169374,
      "loss": 3.5123,
      "step": 27550
    },
    {
      "epoch": 2.970616725863739,
      "grad_norm": 0.621877908706665,
      "learning_rate": 0.00042227561685163233,
      "loss": 3.5113,
      "step": 27600
    },
    {
      "epoch": 2.975998277903347,
      "grad_norm": 0.6195145845413208,
      "learning_rate": 0.00042195237582157093,
      "loss": 3.5333,
      "step": 27650
    },
    {
      "epoch": 2.9813798299429557,
      "grad_norm": 0.6369630098342896,
      "learning_rate": 0.0004216291347915095,
      "loss": 3.5293,
      "step": 27700
    },
    {
      "epoch": 2.986761381982564,
      "grad_norm": 0.6665059328079224,
      "learning_rate": 0.00042130589376144806,
      "loss": 3.5113,
      "step": 27750
    },
    {
      "epoch": 2.992142934022172,
      "grad_norm": 0.6052278876304626,
      "learning_rate": 0.00042098265273138666,
      "loss": 3.5249,
      "step": 27800
    },
    {
      "epoch": 2.9975244860617805,
      "grad_norm": 0.6172826290130615,
      "learning_rate": 0.0004206594117013252,
      "loss": 3.5439,
      "step": 27850
    },
    {
      "epoch": 3.0029060381013886,
      "grad_norm": 0.6113125681877136,
      "learning_rate": 0.00042033617067126385,
      "loss": 3.4818,
      "step": 27900
    },
    {
      "epoch": 3.0082875901409967,
      "grad_norm": 0.6252817511558533,
      "learning_rate": 0.00042001292964120244,
      "loss": 3.4347,
      "step": 27950
    },
    {
      "epoch": 3.0136691421806048,
      "grad_norm": 0.6247867345809937,
      "learning_rate": 0.000419689688611141,
      "loss": 3.4443,
      "step": 28000
    },
    {
      "epoch": 3.0136691421806048,
      "eval_accuracy": 0.3703793322215245,
      "eval_loss": 3.4979240894317627,
      "eval_runtime": 184.0259,
      "eval_samples_per_second": 97.872,
      "eval_steps_per_second": 6.119,
      "step": 28000
    },
    {
      "epoch": 3.0190506942202133,
      "grad_norm": 0.6074101328849792,
      "learning_rate": 0.0004193664475810796,
      "loss": 3.4253,
      "step": 28050
    },
    {
      "epoch": 3.0244322462598214,
      "grad_norm": 0.6723291277885437,
      "learning_rate": 0.00041904320655101817,
      "loss": 3.4329,
      "step": 28100
    },
    {
      "epoch": 3.0298137982994295,
      "grad_norm": 0.6392112374305725,
      "learning_rate": 0.0004187199655209567,
      "loss": 3.4219,
      "step": 28150
    },
    {
      "epoch": 3.0351953503390376,
      "grad_norm": 0.6137415766716003,
      "learning_rate": 0.00041839672449089536,
      "loss": 3.4483,
      "step": 28200
    },
    {
      "epoch": 3.040576902378646,
      "grad_norm": 0.5895624756813049,
      "learning_rate": 0.00041807348346083395,
      "loss": 3.438,
      "step": 28250
    },
    {
      "epoch": 3.0459584544182543,
      "grad_norm": 0.5900261402130127,
      "learning_rate": 0.0004177502424307725,
      "loss": 3.4519,
      "step": 28300
    },
    {
      "epoch": 3.0513400064578624,
      "grad_norm": 0.7037192583084106,
      "learning_rate": 0.0004174270014007111,
      "loss": 3.4238,
      "step": 28350
    },
    {
      "epoch": 3.0567215584974705,
      "grad_norm": 0.5817872881889343,
      "learning_rate": 0.00041710376037064963,
      "loss": 3.4601,
      "step": 28400
    },
    {
      "epoch": 3.062103110537079,
      "grad_norm": 0.5750336050987244,
      "learning_rate": 0.0004167805193405883,
      "loss": 3.4167,
      "step": 28450
    },
    {
      "epoch": 3.067484662576687,
      "grad_norm": 0.6156389713287354,
      "learning_rate": 0.0004164572783105269,
      "loss": 3.4348,
      "step": 28500
    },
    {
      "epoch": 3.0728662146162953,
      "grad_norm": 0.6573686599731445,
      "learning_rate": 0.0004161340372804654,
      "loss": 3.4436,
      "step": 28550
    },
    {
      "epoch": 3.0782477666559034,
      "grad_norm": 0.7452583909034729,
      "learning_rate": 0.000415810796250404,
      "loss": 3.4546,
      "step": 28600
    },
    {
      "epoch": 3.083629318695512,
      "grad_norm": 0.6089325547218323,
      "learning_rate": 0.0004154875552203426,
      "loss": 3.4576,
      "step": 28650
    },
    {
      "epoch": 3.08901087073512,
      "grad_norm": 0.6505357623100281,
      "learning_rate": 0.00041516431419028114,
      "loss": 3.4374,
      "step": 28700
    },
    {
      "epoch": 3.094392422774728,
      "grad_norm": 0.6136605739593506,
      "learning_rate": 0.0004148410731602198,
      "loss": 3.4633,
      "step": 28750
    },
    {
      "epoch": 3.0997739748143363,
      "grad_norm": 0.5932881236076355,
      "learning_rate": 0.0004145178321301584,
      "loss": 3.4561,
      "step": 28800
    },
    {
      "epoch": 3.105155526853945,
      "grad_norm": 0.7190307974815369,
      "learning_rate": 0.00041419459110009693,
      "loss": 3.4477,
      "step": 28850
    },
    {
      "epoch": 3.110537078893553,
      "grad_norm": 0.606170654296875,
      "learning_rate": 0.0004138713500700355,
      "loss": 3.4426,
      "step": 28900
    },
    {
      "epoch": 3.115918630933161,
      "grad_norm": 0.5953522324562073,
      "learning_rate": 0.00041354810903997406,
      "loss": 3.4471,
      "step": 28950
    },
    {
      "epoch": 3.121300182972769,
      "grad_norm": 0.5943603515625,
      "learning_rate": 0.00041322486800991266,
      "loss": 3.4418,
      "step": 29000
    },
    {
      "epoch": 3.121300182972769,
      "eval_accuracy": 0.37090521219854666,
      "eval_loss": 3.4966683387756348,
      "eval_runtime": 183.716,
      "eval_samples_per_second": 98.037,
      "eval_steps_per_second": 6.129,
      "step": 29000
    },
    {
      "epoch": 3.1266817350123777,
      "grad_norm": 0.627240002155304,
      "learning_rate": 0.0004129016269798513,
      "loss": 3.4602,
      "step": 29050
    },
    {
      "epoch": 3.132063287051986,
      "grad_norm": 0.6435880661010742,
      "learning_rate": 0.00041257838594978985,
      "loss": 3.4458,
      "step": 29100
    },
    {
      "epoch": 3.137444839091594,
      "grad_norm": 0.6063863635063171,
      "learning_rate": 0.0004122616097403297,
      "loss": 3.4403,
      "step": 29150
    },
    {
      "epoch": 3.1428263911312024,
      "grad_norm": 0.6707928776741028,
      "learning_rate": 0.00041193836871026825,
      "loss": 3.4477,
      "step": 29200
    },
    {
      "epoch": 3.1482079431708105,
      "grad_norm": 0.6290653944015503,
      "learning_rate": 0.00041161512768020684,
      "loss": 3.429,
      "step": 29250
    },
    {
      "epoch": 3.1535894952104186,
      "grad_norm": 0.6162157654762268,
      "learning_rate": 0.0004112918866501454,
      "loss": 3.4451,
      "step": 29300
    },
    {
      "epoch": 3.1589710472500268,
      "grad_norm": 0.6683251857757568,
      "learning_rate": 0.000410968645620084,
      "loss": 3.4513,
      "step": 29350
    },
    {
      "epoch": 3.1643525992896353,
      "grad_norm": 0.610889732837677,
      "learning_rate": 0.0004106454045900226,
      "loss": 3.4717,
      "step": 29400
    },
    {
      "epoch": 3.1697341513292434,
      "grad_norm": 0.6057432293891907,
      "learning_rate": 0.00041032216355996117,
      "loss": 3.4345,
      "step": 29450
    },
    {
      "epoch": 3.1751157033688515,
      "grad_norm": 0.6203987002372742,
      "learning_rate": 0.00040999892252989976,
      "loss": 3.4668,
      "step": 29500
    },
    {
      "epoch": 3.1804972554084596,
      "grad_norm": 0.5973538756370544,
      "learning_rate": 0.00040967568149983836,
      "loss": 3.4593,
      "step": 29550
    },
    {
      "epoch": 3.185878807448068,
      "grad_norm": 0.6059584021568298,
      "learning_rate": 0.0004093524404697769,
      "loss": 3.4469,
      "step": 29600
    },
    {
      "epoch": 3.1912603594876763,
      "grad_norm": 0.6397659778594971,
      "learning_rate": 0.0004090291994397155,
      "loss": 3.4574,
      "step": 29650
    },
    {
      "epoch": 3.1966419115272844,
      "grad_norm": 0.5780946612358093,
      "learning_rate": 0.00040870595840965414,
      "loss": 3.4531,
      "step": 29700
    },
    {
      "epoch": 3.2020234635668925,
      "grad_norm": 0.5984942317008972,
      "learning_rate": 0.0004083827173795927,
      "loss": 3.4469,
      "step": 29750
    },
    {
      "epoch": 3.207405015606501,
      "grad_norm": 0.6176190376281738,
      "learning_rate": 0.0004080594763495313,
      "loss": 3.4434,
      "step": 29800
    },
    {
      "epoch": 3.212786567646109,
      "grad_norm": 0.6225405931472778,
      "learning_rate": 0.0004077362353194698,
      "loss": 3.4401,
      "step": 29850
    },
    {
      "epoch": 3.2181681196857173,
      "grad_norm": 0.6519115567207336,
      "learning_rate": 0.0004074129942894084,
      "loss": 3.445,
      "step": 29900
    },
    {
      "epoch": 3.2235496717253254,
      "grad_norm": 0.5662197470664978,
      "learning_rate": 0.000407089753259347,
      "loss": 3.462,
      "step": 29950
    },
    {
      "epoch": 3.228931223764934,
      "grad_norm": 0.6033160090446472,
      "learning_rate": 0.0004067665122292856,
      "loss": 3.4421,
      "step": 30000
    },
    {
      "epoch": 3.228931223764934,
      "eval_accuracy": 0.3715893994331144,
      "eval_loss": 3.4919912815093994,
      "eval_runtime": 183.8505,
      "eval_samples_per_second": 97.965,
      "eval_steps_per_second": 6.125,
      "step": 30000
    },
    {
      "epoch": 3.234312775804542,
      "grad_norm": 0.5961911678314209,
      "learning_rate": 0.0004064432711992242,
      "loss": 3.4467,
      "step": 30050
    },
    {
      "epoch": 3.23969432784415,
      "grad_norm": 0.6307951211929321,
      "learning_rate": 0.0004061200301691628,
      "loss": 3.4622,
      "step": 30100
    },
    {
      "epoch": 3.2450758798837587,
      "grad_norm": 0.600445568561554,
      "learning_rate": 0.00040579678913910133,
      "loss": 3.457,
      "step": 30150
    },
    {
      "epoch": 3.250457431923367,
      "grad_norm": 0.5837706327438354,
      "learning_rate": 0.0004054735481090399,
      "loss": 3.4469,
      "step": 30200
    },
    {
      "epoch": 3.255838983962975,
      "grad_norm": 0.6140069961547852,
      "learning_rate": 0.0004051503070789786,
      "loss": 3.4566,
      "step": 30250
    },
    {
      "epoch": 3.261220536002583,
      "grad_norm": 0.6290550231933594,
      "learning_rate": 0.0004048270660489171,
      "loss": 3.4617,
      "step": 30300
    },
    {
      "epoch": 3.2666020880421915,
      "grad_norm": 0.6503620743751526,
      "learning_rate": 0.0004045038250188557,
      "loss": 3.4569,
      "step": 30350
    },
    {
      "epoch": 3.2719836400817996,
      "grad_norm": 0.5932647585868835,
      "learning_rate": 0.00040418058398879425,
      "loss": 3.471,
      "step": 30400
    },
    {
      "epoch": 3.2773651921214078,
      "grad_norm": 0.6258770823478699,
      "learning_rate": 0.00040385734295873284,
      "loss": 3.4586,
      "step": 30450
    },
    {
      "epoch": 3.282746744161016,
      "grad_norm": 0.6512026190757751,
      "learning_rate": 0.00040353410192867144,
      "loss": 3.4565,
      "step": 30500
    },
    {
      "epoch": 3.2881282962006244,
      "grad_norm": 0.6048060059547424,
      "learning_rate": 0.00040321086089861003,
      "loss": 3.4618,
      "step": 30550
    },
    {
      "epoch": 3.2935098482402325,
      "grad_norm": 0.6668233871459961,
      "learning_rate": 0.00040288761986854863,
      "loss": 3.465,
      "step": 30600
    },
    {
      "epoch": 3.2988914002798406,
      "grad_norm": 0.6197535991668701,
      "learning_rate": 0.0004025643788384872,
      "loss": 3.461,
      "step": 30650
    },
    {
      "epoch": 3.304272952319449,
      "grad_norm": 0.615963339805603,
      "learning_rate": 0.00040224113780842576,
      "loss": 3.4643,
      "step": 30700
    },
    {
      "epoch": 3.3096545043590573,
      "grad_norm": 0.6759068369865417,
      "learning_rate": 0.00040191789677836436,
      "loss": 3.4456,
      "step": 30750
    },
    {
      "epoch": 3.3150360563986654,
      "grad_norm": 0.6456696391105652,
      "learning_rate": 0.0004015946557483029,
      "loss": 3.4478,
      "step": 30800
    },
    {
      "epoch": 3.3204176084382735,
      "grad_norm": 0.6237897872924805,
      "learning_rate": 0.00040127141471824155,
      "loss": 3.4735,
      "step": 30850
    },
    {
      "epoch": 3.3257991604778816,
      "grad_norm": 0.6275989413261414,
      "learning_rate": 0.00040094817368818014,
      "loss": 3.4497,
      "step": 30900
    },
    {
      "epoch": 3.33118071251749,
      "grad_norm": 0.6218649744987488,
      "learning_rate": 0.0004006249326581187,
      "loss": 3.439,
      "step": 30950
    },
    {
      "epoch": 3.3365622645570983,
      "grad_norm": 0.6261662244796753,
      "learning_rate": 0.0004003016916280573,
      "loss": 3.4609,
      "step": 31000
    },
    {
      "epoch": 3.3365622645570983,
      "eval_accuracy": 0.37217786347351767,
      "eval_loss": 3.48396372795105,
      "eval_runtime": 183.9157,
      "eval_samples_per_second": 97.931,
      "eval_steps_per_second": 6.122,
      "step": 31000
    },
    {
      "epoch": 3.3419438165967064,
      "grad_norm": 0.6041734218597412,
      "learning_rate": 0.00039997845059799587,
      "loss": 3.4651,
      "step": 31050
    },
    {
      "epoch": 3.347325368636315,
      "grad_norm": 0.6341218948364258,
      "learning_rate": 0.00039965520956793447,
      "loss": 3.4617,
      "step": 31100
    },
    {
      "epoch": 3.352706920675923,
      "grad_norm": 0.608440637588501,
      "learning_rate": 0.00039933196853787306,
      "loss": 3.4483,
      "step": 31150
    },
    {
      "epoch": 3.358088472715531,
      "grad_norm": 0.6390861868858337,
      "learning_rate": 0.00039901519232841287,
      "loss": 3.4502,
      "step": 31200
    },
    {
      "epoch": 3.3634700247551392,
      "grad_norm": 0.6327866315841675,
      "learning_rate": 0.00039869195129835146,
      "loss": 3.4573,
      "step": 31250
    },
    {
      "epoch": 3.368851576794748,
      "grad_norm": 0.6456209421157837,
      "learning_rate": 0.00039836871026829,
      "loss": 3.4615,
      "step": 31300
    },
    {
      "epoch": 3.374233128834356,
      "grad_norm": 0.6339282393455505,
      "learning_rate": 0.0003980454692382286,
      "loss": 3.4601,
      "step": 31350
    },
    {
      "epoch": 3.379614680873964,
      "grad_norm": 0.6530771851539612,
      "learning_rate": 0.0003977222282081672,
      "loss": 3.462,
      "step": 31400
    },
    {
      "epoch": 3.384996232913572,
      "grad_norm": 0.6556322574615479,
      "learning_rate": 0.00039739898717810573,
      "loss": 3.4599,
      "step": 31450
    },
    {
      "epoch": 3.3903777849531807,
      "grad_norm": 0.5801333785057068,
      "learning_rate": 0.0003970757461480444,
      "loss": 3.4582,
      "step": 31500
    },
    {
      "epoch": 3.3957593369927888,
      "grad_norm": 0.6275391578674316,
      "learning_rate": 0.000396752505117983,
      "loss": 3.4545,
      "step": 31550
    },
    {
      "epoch": 3.401140889032397,
      "grad_norm": 0.6329793334007263,
      "learning_rate": 0.0003964292640879215,
      "loss": 3.4385,
      "step": 31600
    },
    {
      "epoch": 3.4065224410720054,
      "grad_norm": 0.673557460308075,
      "learning_rate": 0.0003961060230578601,
      "loss": 3.4474,
      "step": 31650
    },
    {
      "epoch": 3.4119039931116135,
      "grad_norm": 0.5910006761550903,
      "learning_rate": 0.00039578278202779865,
      "loss": 3.4565,
      "step": 31700
    },
    {
      "epoch": 3.4172855451512216,
      "grad_norm": 0.6645841002464294,
      "learning_rate": 0.00039545954099773725,
      "loss": 3.4446,
      "step": 31750
    },
    {
      "epoch": 3.4226670971908297,
      "grad_norm": 0.6200972199440002,
      "learning_rate": 0.0003951362999676759,
      "loss": 3.4456,
      "step": 31800
    },
    {
      "epoch": 3.428048649230438,
      "grad_norm": 0.619426429271698,
      "learning_rate": 0.00039481305893761444,
      "loss": 3.4494,
      "step": 31850
    },
    {
      "epoch": 3.4334302012700464,
      "grad_norm": 0.6536096334457397,
      "learning_rate": 0.00039448981790755303,
      "loss": 3.4568,
      "step": 31900
    },
    {
      "epoch": 3.4388117533096545,
      "grad_norm": 0.6858488917350769,
      "learning_rate": 0.0003941665768774916,
      "loss": 3.4585,
      "step": 31950
    },
    {
      "epoch": 3.4441933053492626,
      "grad_norm": 0.6529134511947632,
      "learning_rate": 0.00039384333584743016,
      "loss": 3.4816,
      "step": 32000
    },
    {
      "epoch": 3.4441933053492626,
      "eval_accuracy": 0.37303535206414956,
      "eval_loss": 3.4753060340881348,
      "eval_runtime": 184.1524,
      "eval_samples_per_second": 97.805,
      "eval_steps_per_second": 6.115,
      "step": 32000
    },
    {
      "epoch": 3.449574857388871,
      "grad_norm": 0.603148877620697,
      "learning_rate": 0.0003935200948173688,
      "loss": 3.4799,
      "step": 32050
    },
    {
      "epoch": 3.4549564094284793,
      "grad_norm": 0.5931141972541809,
      "learning_rate": 0.0003931968537873074,
      "loss": 3.4622,
      "step": 32100
    },
    {
      "epoch": 3.4603379614680874,
      "grad_norm": 0.6263653635978699,
      "learning_rate": 0.00039287361275724595,
      "loss": 3.4514,
      "step": 32150
    },
    {
      "epoch": 3.4657195135076955,
      "grad_norm": 0.577976644039154,
      "learning_rate": 0.00039255683654778576,
      "loss": 3.4615,
      "step": 32200
    },
    {
      "epoch": 3.471101065547304,
      "grad_norm": 0.6312876343727112,
      "learning_rate": 0.00039223359551772435,
      "loss": 3.4498,
      "step": 32250
    },
    {
      "epoch": 3.476482617586912,
      "grad_norm": 0.6513555645942688,
      "learning_rate": 0.00039191035448766294,
      "loss": 3.4574,
      "step": 32300
    },
    {
      "epoch": 3.4818641696265202,
      "grad_norm": 0.6254576444625854,
      "learning_rate": 0.0003915871134576015,
      "loss": 3.4464,
      "step": 32350
    },
    {
      "epoch": 3.4872457216661283,
      "grad_norm": 0.6119358539581299,
      "learning_rate": 0.0003912638724275401,
      "loss": 3.4409,
      "step": 32400
    },
    {
      "epoch": 3.492627273705737,
      "grad_norm": 0.595355749130249,
      "learning_rate": 0.00039094063139747873,
      "loss": 3.4514,
      "step": 32450
    },
    {
      "epoch": 3.498008825745345,
      "grad_norm": 0.593299150466919,
      "learning_rate": 0.00039061739036741727,
      "loss": 3.4527,
      "step": 32500
    },
    {
      "epoch": 3.503390377784953,
      "grad_norm": 0.5957909226417542,
      "learning_rate": 0.00039029414933735586,
      "loss": 3.4779,
      "step": 32550
    },
    {
      "epoch": 3.5087719298245617,
      "grad_norm": 0.6612210869789124,
      "learning_rate": 0.0003899709083072944,
      "loss": 3.4834,
      "step": 32600
    },
    {
      "epoch": 3.5141534818641698,
      "grad_norm": 0.6169410943984985,
      "learning_rate": 0.000389647667277233,
      "loss": 3.4637,
      "step": 32650
    },
    {
      "epoch": 3.519535033903778,
      "grad_norm": 0.6161982417106628,
      "learning_rate": 0.00038932442624717165,
      "loss": 3.4685,
      "step": 32700
    },
    {
      "epoch": 3.524916585943386,
      "grad_norm": 0.6278953552246094,
      "learning_rate": 0.0003890011852171102,
      "loss": 3.4564,
      "step": 32750
    },
    {
      "epoch": 3.530298137982994,
      "grad_norm": 0.6430034041404724,
      "learning_rate": 0.0003886779441870488,
      "loss": 3.4381,
      "step": 32800
    },
    {
      "epoch": 3.5356796900226026,
      "grad_norm": 0.6969859004020691,
      "learning_rate": 0.0003883547031569874,
      "loss": 3.4564,
      "step": 32850
    },
    {
      "epoch": 3.5410612420622107,
      "grad_norm": 0.658082127571106,
      "learning_rate": 0.0003880314621269259,
      "loss": 3.4579,
      "step": 32900
    },
    {
      "epoch": 3.546442794101819,
      "grad_norm": 0.694412887096405,
      "learning_rate": 0.0003877082210968645,
      "loss": 3.4765,
      "step": 32950
    },
    {
      "epoch": 3.5518243461414274,
      "grad_norm": 0.6462621092796326,
      "learning_rate": 0.00038738498006680316,
      "loss": 3.4794,
      "step": 33000
    },
    {
      "epoch": 3.5518243461414274,
      "eval_accuracy": 0.37347235397893935,
      "eval_loss": 3.472212791442871,
      "eval_runtime": 184.0445,
      "eval_samples_per_second": 97.862,
      "eval_steps_per_second": 6.118,
      "step": 33000
    },
    {
      "epoch": 3.5572058981810355,
      "grad_norm": 0.5765831470489502,
      "learning_rate": 0.0003870617390367417,
      "loss": 3.4711,
      "step": 33050
    },
    {
      "epoch": 3.5625874502206436,
      "grad_norm": 0.6224915981292725,
      "learning_rate": 0.0003867384980066803,
      "loss": 3.4347,
      "step": 33100
    },
    {
      "epoch": 3.5679690022602517,
      "grad_norm": 0.6201730370521545,
      "learning_rate": 0.00038641525697661884,
      "loss": 3.4569,
      "step": 33150
    },
    {
      "epoch": 3.57335055429986,
      "grad_norm": 0.5970399379730225,
      "learning_rate": 0.00038609201594655743,
      "loss": 3.4612,
      "step": 33200
    },
    {
      "epoch": 3.5787321063394684,
      "grad_norm": 0.6308869123458862,
      "learning_rate": 0.000385768774916496,
      "loss": 3.4586,
      "step": 33250
    },
    {
      "epoch": 3.5841136583790765,
      "grad_norm": 0.6279970407485962,
      "learning_rate": 0.0003854455338864346,
      "loss": 3.4408,
      "step": 33300
    },
    {
      "epoch": 3.5894952104186846,
      "grad_norm": 0.6459959149360657,
      "learning_rate": 0.0003851222928563732,
      "loss": 3.4556,
      "step": 33350
    },
    {
      "epoch": 3.594876762458293,
      "grad_norm": 0.6428601145744324,
      "learning_rate": 0.0003847990518263118,
      "loss": 3.4465,
      "step": 33400
    },
    {
      "epoch": 3.6002583144979012,
      "grad_norm": 0.6263073086738586,
      "learning_rate": 0.00038447581079625035,
      "loss": 3.4872,
      "step": 33450
    },
    {
      "epoch": 3.6056398665375093,
      "grad_norm": 0.5918198227882385,
      "learning_rate": 0.00038415256976618895,
      "loss": 3.464,
      "step": 33500
    },
    {
      "epoch": 3.611021418577118,
      "grad_norm": 0.6252931356430054,
      "learning_rate": 0.0003838293287361275,
      "loss": 3.4566,
      "step": 33550
    },
    {
      "epoch": 3.616402970616726,
      "grad_norm": 0.6774725914001465,
      "learning_rate": 0.00038350608770606613,
      "loss": 3.4422,
      "step": 33600
    },
    {
      "epoch": 3.621784522656334,
      "grad_norm": 0.6529746055603027,
      "learning_rate": 0.00038318284667600473,
      "loss": 3.4649,
      "step": 33650
    },
    {
      "epoch": 3.627166074695942,
      "grad_norm": 0.6907058954238892,
      "learning_rate": 0.00038285960564594327,
      "loss": 3.4681,
      "step": 33700
    },
    {
      "epoch": 3.6325476267355503,
      "grad_norm": 0.6776169538497925,
      "learning_rate": 0.00038253636461588186,
      "loss": 3.4437,
      "step": 33750
    },
    {
      "epoch": 3.637929178775159,
      "grad_norm": 0.6245766878128052,
      "learning_rate": 0.00038221312358582046,
      "loss": 3.4596,
      "step": 33800
    },
    {
      "epoch": 3.643310730814767,
      "grad_norm": 0.6095839738845825,
      "learning_rate": 0.00038188988255575905,
      "loss": 3.4536,
      "step": 33850
    },
    {
      "epoch": 3.648692282854375,
      "grad_norm": 0.5938378572463989,
      "learning_rate": 0.00038156664152569765,
      "loss": 3.4692,
      "step": 33900
    },
    {
      "epoch": 3.6540738348939836,
      "grad_norm": 0.6769381761550903,
      "learning_rate": 0.00038124340049563624,
      "loss": 3.4606,
      "step": 33950
    },
    {
      "epoch": 3.6594553869335917,
      "grad_norm": 0.6212217211723328,
      "learning_rate": 0.0003809201594655748,
      "loss": 3.4583,
      "step": 34000
    },
    {
      "epoch": 3.6594553869335917,
      "eval_accuracy": 0.3740060569638841,
      "eval_loss": 3.4647445678710938,
      "eval_runtime": 184.1271,
      "eval_samples_per_second": 97.818,
      "eval_steps_per_second": 6.115,
      "step": 34000
    },
    {
      "epoch": 3.6648369389732,
      "grad_norm": 0.6309048533439636,
      "learning_rate": 0.0003805969184355134,
      "loss": 3.4405,
      "step": 34050
    },
    {
      "epoch": 3.670218491012808,
      "grad_norm": 0.6173258423805237,
      "learning_rate": 0.0003802736774054519,
      "loss": 3.4541,
      "step": 34100
    },
    {
      "epoch": 3.675600043052416,
      "grad_norm": 0.6318550705909729,
      "learning_rate": 0.00037995043637539057,
      "loss": 3.4459,
      "step": 34150
    },
    {
      "epoch": 3.6809815950920246,
      "grad_norm": 0.6376035809516907,
      "learning_rate": 0.00037962719534532916,
      "loss": 3.4731,
      "step": 34200
    },
    {
      "epoch": 3.6863631471316327,
      "grad_norm": 0.6331673264503479,
      "learning_rate": 0.0003793039543152677,
      "loss": 3.4582,
      "step": 34250
    },
    {
      "epoch": 3.691744699171241,
      "grad_norm": 0.6228761076927185,
      "learning_rate": 0.0003789807132852063,
      "loss": 3.4523,
      "step": 34300
    },
    {
      "epoch": 3.6971262512108494,
      "grad_norm": 0.6354502439498901,
      "learning_rate": 0.0003786574722551449,
      "loss": 3.4473,
      "step": 34350
    },
    {
      "epoch": 3.7025078032504575,
      "grad_norm": 0.6158953309059143,
      "learning_rate": 0.00037833423122508343,
      "loss": 3.4475,
      "step": 34400
    },
    {
      "epoch": 3.7078893552900656,
      "grad_norm": 0.6677765250205994,
      "learning_rate": 0.0003780109901950221,
      "loss": 3.4577,
      "step": 34450
    },
    {
      "epoch": 3.713270907329674,
      "grad_norm": 0.6405243873596191,
      "learning_rate": 0.0003776877491649607,
      "loss": 3.4576,
      "step": 34500
    },
    {
      "epoch": 3.7186524593692822,
      "grad_norm": 0.655600905418396,
      "learning_rate": 0.0003773645081348992,
      "loss": 3.451,
      "step": 34550
    },
    {
      "epoch": 3.7240340114088903,
      "grad_norm": 0.6739150285720825,
      "learning_rate": 0.0003770412671048378,
      "loss": 3.4613,
      "step": 34600
    },
    {
      "epoch": 3.7294155634484984,
      "grad_norm": 0.639098048210144,
      "learning_rate": 0.00037671802607477635,
      "loss": 3.4704,
      "step": 34650
    },
    {
      "epoch": 3.7347971154881066,
      "grad_norm": 0.6063231825828552,
      "learning_rate": 0.000376394785044715,
      "loss": 3.4535,
      "step": 34700
    },
    {
      "epoch": 3.740178667527715,
      "grad_norm": 0.6125773191452026,
      "learning_rate": 0.0003760715440146536,
      "loss": 3.4561,
      "step": 34750
    },
    {
      "epoch": 3.745560219567323,
      "grad_norm": 0.6185235977172852,
      "learning_rate": 0.00037574830298459214,
      "loss": 3.4249,
      "step": 34800
    },
    {
      "epoch": 3.7509417716069313,
      "grad_norm": 0.6511775851249695,
      "learning_rate": 0.00037542506195453073,
      "loss": 3.4431,
      "step": 34850
    },
    {
      "epoch": 3.75632332364654,
      "grad_norm": 0.6607666015625,
      "learning_rate": 0.0003751018209244693,
      "loss": 3.4432,
      "step": 34900
    },
    {
      "epoch": 3.761704875686148,
      "grad_norm": 0.6207472681999207,
      "learning_rate": 0.00037477857989440787,
      "loss": 3.4738,
      "step": 34950
    },
    {
      "epoch": 3.767086427725756,
      "grad_norm": 0.6461946964263916,
      "learning_rate": 0.0003744553388643465,
      "loss": 3.4603,
      "step": 35000
    },
    {
      "epoch": 3.767086427725756,
      "eval_accuracy": 0.37505586116594763,
      "eval_loss": 3.4567039012908936,
      "eval_runtime": 184.0335,
      "eval_samples_per_second": 97.868,
      "eval_steps_per_second": 6.118,
      "step": 35000
    },
    {
      "epoch": 3.772467979765364,
      "grad_norm": 0.5804518461227417,
      "learning_rate": 0.0003741320978342851,
      "loss": 3.4409,
      "step": 35050
    },
    {
      "epoch": 3.7778495318049723,
      "grad_norm": 0.6300584673881531,
      "learning_rate": 0.00037380885680422365,
      "loss": 3.4357,
      "step": 35100
    },
    {
      "epoch": 3.783231083844581,
      "grad_norm": 0.6116212010383606,
      "learning_rate": 0.00037348561577416224,
      "loss": 3.4517,
      "step": 35150
    },
    {
      "epoch": 3.788612635884189,
      "grad_norm": 0.6359928846359253,
      "learning_rate": 0.0003731623747441008,
      "loss": 3.4482,
      "step": 35200
    },
    {
      "epoch": 3.793994187923797,
      "grad_norm": 0.6267709136009216,
      "learning_rate": 0.0003728391337140394,
      "loss": 3.454,
      "step": 35250
    },
    {
      "epoch": 3.7993757399634056,
      "grad_norm": 0.6079763770103455,
      "learning_rate": 0.00037251589268397803,
      "loss": 3.4645,
      "step": 35300
    },
    {
      "epoch": 3.8047572920030137,
      "grad_norm": 0.587371289730072,
      "learning_rate": 0.00037219265165391657,
      "loss": 3.4464,
      "step": 35350
    },
    {
      "epoch": 3.810138844042622,
      "grad_norm": 0.6431049704551697,
      "learning_rate": 0.00037186941062385516,
      "loss": 3.4454,
      "step": 35400
    },
    {
      "epoch": 3.8155203960822304,
      "grad_norm": 0.6467294096946716,
      "learning_rate": 0.0003715461695937937,
      "loss": 3.4644,
      "step": 35450
    },
    {
      "epoch": 3.8209019481218385,
      "grad_norm": 0.593024492263794,
      "learning_rate": 0.0003712229285637323,
      "loss": 3.4482,
      "step": 35500
    },
    {
      "epoch": 3.8262835001614466,
      "grad_norm": 0.6120133996009827,
      "learning_rate": 0.0003708996875336709,
      "loss": 3.4444,
      "step": 35550
    },
    {
      "epoch": 3.8316650522010547,
      "grad_norm": 0.6614435315132141,
      "learning_rate": 0.0003705764465036095,
      "loss": 3.456,
      "step": 35600
    },
    {
      "epoch": 3.837046604240663,
      "grad_norm": 0.6997734904289246,
      "learning_rate": 0.0003702532054735481,
      "loss": 3.463,
      "step": 35650
    },
    {
      "epoch": 3.8424281562802713,
      "grad_norm": 0.6492250561714172,
      "learning_rate": 0.0003699299644434867,
      "loss": 3.4551,
      "step": 35700
    },
    {
      "epoch": 3.8478097083198795,
      "grad_norm": 0.6521158814430237,
      "learning_rate": 0.0003696067234134252,
      "loss": 3.4588,
      "step": 35750
    },
    {
      "epoch": 3.8531912603594876,
      "grad_norm": 0.704318642616272,
      "learning_rate": 0.0003692834823833638,
      "loss": 3.4448,
      "step": 35800
    },
    {
      "epoch": 3.858572812399096,
      "grad_norm": 0.6067570447921753,
      "learning_rate": 0.00036896024135330246,
      "loss": 3.4478,
      "step": 35850
    },
    {
      "epoch": 3.863954364438704,
      "grad_norm": 0.5946357846260071,
      "learning_rate": 0.000368637000323241,
      "loss": 3.4567,
      "step": 35900
    },
    {
      "epoch": 3.8693359164783123,
      "grad_norm": 0.5989468693733215,
      "learning_rate": 0.0003683137592931796,
      "loss": 3.4345,
      "step": 35950
    },
    {
      "epoch": 3.8747174685179204,
      "grad_norm": 0.6543251276016235,
      "learning_rate": 0.00036799051826311814,
      "loss": 3.4737,
      "step": 36000
    },
    {
      "epoch": 3.8747174685179204,
      "eval_accuracy": 0.3751179019648897,
      "eval_loss": 3.4521384239196777,
      "eval_runtime": 184.0219,
      "eval_samples_per_second": 97.874,
      "eval_steps_per_second": 6.119,
      "step": 36000
    },
    {
      "epoch": 3.8800990205575285,
      "grad_norm": 0.6210534572601318,
      "learning_rate": 0.00036766727723305673,
      "loss": 3.4609,
      "step": 36050
    },
    {
      "epoch": 3.885480572597137,
      "grad_norm": 0.6016399264335632,
      "learning_rate": 0.0003673440362029953,
      "loss": 3.4462,
      "step": 36100
    },
    {
      "epoch": 3.890862124636745,
      "grad_norm": 0.5758877992630005,
      "learning_rate": 0.0003670207951729339,
      "loss": 3.4533,
      "step": 36150
    },
    {
      "epoch": 3.8962436766763533,
      "grad_norm": 0.6362075209617615,
      "learning_rate": 0.0003667040189634737,
      "loss": 3.4446,
      "step": 36200
    },
    {
      "epoch": 3.901625228715962,
      "grad_norm": 0.6003115177154541,
      "learning_rate": 0.0003663807779334123,
      "loss": 3.443,
      "step": 36250
    },
    {
      "epoch": 3.90700678075557,
      "grad_norm": 0.6679050922393799,
      "learning_rate": 0.0003660575369033509,
      "loss": 3.4462,
      "step": 36300
    },
    {
      "epoch": 3.912388332795178,
      "grad_norm": 0.594722330570221,
      "learning_rate": 0.0003657342958732895,
      "loss": 3.443,
      "step": 36350
    },
    {
      "epoch": 3.9177698848347866,
      "grad_norm": 0.6129584312438965,
      "learning_rate": 0.00036541105484322805,
      "loss": 3.4525,
      "step": 36400
    },
    {
      "epoch": 3.9231514368743947,
      "grad_norm": 0.6181273460388184,
      "learning_rate": 0.00036508781381316665,
      "loss": 3.4622,
      "step": 36450
    },
    {
      "epoch": 3.928532988914003,
      "grad_norm": 0.5942751169204712,
      "learning_rate": 0.0003647645727831053,
      "loss": 3.438,
      "step": 36500
    },
    {
      "epoch": 3.933914540953611,
      "grad_norm": 0.6921207308769226,
      "learning_rate": 0.00036444133175304384,
      "loss": 3.4407,
      "step": 36550
    },
    {
      "epoch": 3.939296092993219,
      "grad_norm": 0.6321521401405334,
      "learning_rate": 0.00036411809072298243,
      "loss": 3.4495,
      "step": 36600
    },
    {
      "epoch": 3.9446776450328276,
      "grad_norm": 0.5924572944641113,
      "learning_rate": 0.00036379484969292097,
      "loss": 3.4685,
      "step": 36650
    },
    {
      "epoch": 3.9500591970724357,
      "grad_norm": 0.6324974298477173,
      "learning_rate": 0.00036347160866285956,
      "loss": 3.4492,
      "step": 36700
    },
    {
      "epoch": 3.955440749112044,
      "grad_norm": 0.6024371385574341,
      "learning_rate": 0.0003631483676327981,
      "loss": 3.4469,
      "step": 36750
    },
    {
      "epoch": 3.9608223011516523,
      "grad_norm": 0.6214912533760071,
      "learning_rate": 0.00036282512660273675,
      "loss": 3.4471,
      "step": 36800
    },
    {
      "epoch": 3.9662038531912605,
      "grad_norm": 0.6133273839950562,
      "learning_rate": 0.00036250188557267535,
      "loss": 3.4311,
      "step": 36850
    },
    {
      "epoch": 3.9715854052308686,
      "grad_norm": 0.6150846481323242,
      "learning_rate": 0.0003621786445426139,
      "loss": 3.4502,
      "step": 36900
    },
    {
      "epoch": 3.9769669572704767,
      "grad_norm": 0.6610218286514282,
      "learning_rate": 0.0003618554035125525,
      "loss": 3.4418,
      "step": 36950
    },
    {
      "epoch": 3.9823485093100848,
      "grad_norm": 0.6100701689720154,
      "learning_rate": 0.0003615321624824911,
      "loss": 3.4409,
      "step": 37000
    },
    {
      "epoch": 3.9823485093100848,
      "eval_accuracy": 0.37635643623308696,
      "eval_loss": 3.445384979248047,
      "eval_runtime": 183.9782,
      "eval_samples_per_second": 97.897,
      "eval_steps_per_second": 6.12,
      "step": 37000
    },
    {
      "epoch": 3.9877300613496933,
      "grad_norm": 0.6746713519096375,
      "learning_rate": 0.0003612089214524296,
      "loss": 3.4474,
      "step": 37050
    },
    {
      "epoch": 3.9931116133893014,
      "grad_norm": 0.6174336671829224,
      "learning_rate": 0.00036088568042236827,
      "loss": 3.4605,
      "step": 37100
    },
    {
      "epoch": 3.9984931654289095,
      "grad_norm": 0.6373396515846252,
      "learning_rate": 0.00036056243939230686,
      "loss": 3.4367,
      "step": 37150
    },
    {
      "epoch": 4.003874717468518,
      "grad_norm": 0.6097313761711121,
      "learning_rate": 0.0003602391983622454,
      "loss": 3.3603,
      "step": 37200
    },
    {
      "epoch": 4.009256269508126,
      "grad_norm": 0.616503894329071,
      "learning_rate": 0.000359915957332184,
      "loss": 3.3383,
      "step": 37250
    },
    {
      "epoch": 4.014637821547734,
      "grad_norm": 0.6319054365158081,
      "learning_rate": 0.00035959271630212254,
      "loss": 3.3576,
      "step": 37300
    },
    {
      "epoch": 4.020019373587343,
      "grad_norm": 0.6271061301231384,
      "learning_rate": 0.00035926947527206113,
      "loss": 3.3484,
      "step": 37350
    },
    {
      "epoch": 4.0254009256269505,
      "grad_norm": 0.6490169167518616,
      "learning_rate": 0.0003589462342419998,
      "loss": 3.3653,
      "step": 37400
    },
    {
      "epoch": 4.030782477666559,
      "grad_norm": 0.6721447110176086,
      "learning_rate": 0.0003586229932119383,
      "loss": 3.3638,
      "step": 37450
    },
    {
      "epoch": 4.036164029706168,
      "grad_norm": 0.6335265636444092,
      "learning_rate": 0.0003582997521818769,
      "loss": 3.3448,
      "step": 37500
    },
    {
      "epoch": 4.041545581745775,
      "grad_norm": 0.6450674533843994,
      "learning_rate": 0.0003579765111518155,
      "loss": 3.3723,
      "step": 37550
    },
    {
      "epoch": 4.046927133785384,
      "grad_norm": 0.628890872001648,
      "learning_rate": 0.00035765327012175405,
      "loss": 3.3635,
      "step": 37600
    },
    {
      "epoch": 4.0523086858249915,
      "grad_norm": 0.6690309047698975,
      "learning_rate": 0.0003573300290916927,
      "loss": 3.36,
      "step": 37650
    },
    {
      "epoch": 4.0576902378646,
      "grad_norm": 0.7137919664382935,
      "learning_rate": 0.0003570067880616313,
      "loss": 3.354,
      "step": 37700
    },
    {
      "epoch": 4.063071789904209,
      "grad_norm": 0.5870485305786133,
      "learning_rate": 0.00035668354703156984,
      "loss": 3.3508,
      "step": 37750
    },
    {
      "epoch": 4.068453341943816,
      "grad_norm": 0.6416128873825073,
      "learning_rate": 0.00035636030600150843,
      "loss": 3.38,
      "step": 37800
    },
    {
      "epoch": 4.073834893983425,
      "grad_norm": 0.6050781011581421,
      "learning_rate": 0.00035603706497144697,
      "loss": 3.3651,
      "step": 37850
    },
    {
      "epoch": 4.079216446023033,
      "grad_norm": 0.7498401999473572,
      "learning_rate": 0.00035571382394138557,
      "loss": 3.3608,
      "step": 37900
    },
    {
      "epoch": 4.084597998062641,
      "grad_norm": 0.677819550037384,
      "learning_rate": 0.0003553905829113242,
      "loss": 3.3649,
      "step": 37950
    },
    {
      "epoch": 4.08997955010225,
      "grad_norm": 0.6850411295890808,
      "learning_rate": 0.00035506734188126275,
      "loss": 3.3859,
      "step": 38000
    },
    {
      "epoch": 4.08997955010225,
      "eval_accuracy": 0.3765667882238958,
      "eval_loss": 3.44905948638916,
      "eval_runtime": 183.9499,
      "eval_samples_per_second": 97.913,
      "eval_steps_per_second": 6.121,
      "step": 38000
    },
    {
      "epoch": 4.095361102141858,
      "grad_norm": 0.6295270323753357,
      "learning_rate": 0.00035474410085120135,
      "loss": 3.3661,
      "step": 38050
    },
    {
      "epoch": 4.100742654181466,
      "grad_norm": 0.6854814291000366,
      "learning_rate": 0.00035442085982113994,
      "loss": 3.3595,
      "step": 38100
    },
    {
      "epoch": 4.106124206221074,
      "grad_norm": 0.6787915229797363,
      "learning_rate": 0.0003540976187910785,
      "loss": 3.3717,
      "step": 38150
    },
    {
      "epoch": 4.111505758260682,
      "grad_norm": 0.6272234916687012,
      "learning_rate": 0.0003537808425816183,
      "loss": 3.3638,
      "step": 38200
    },
    {
      "epoch": 4.1168873103002905,
      "grad_norm": 0.6618531942367554,
      "learning_rate": 0.0003534576015515569,
      "loss": 3.3773,
      "step": 38250
    },
    {
      "epoch": 4.122268862339899,
      "grad_norm": 0.6481021642684937,
      "learning_rate": 0.00035313436052149553,
      "loss": 3.3632,
      "step": 38300
    },
    {
      "epoch": 4.127650414379507,
      "grad_norm": 0.6556547284126282,
      "learning_rate": 0.0003528111194914341,
      "loss": 3.3754,
      "step": 38350
    },
    {
      "epoch": 4.133031966419115,
      "grad_norm": 0.6624336838722229,
      "learning_rate": 0.00035248787846137267,
      "loss": 3.3718,
      "step": 38400
    },
    {
      "epoch": 4.138413518458724,
      "grad_norm": 0.6634644269943237,
      "learning_rate": 0.00035216463743131126,
      "loss": 3.3668,
      "step": 38450
    },
    {
      "epoch": 4.1437950704983315,
      "grad_norm": 0.6868744492530823,
      "learning_rate": 0.00035184786122185107,
      "loss": 3.3838,
      "step": 38500
    },
    {
      "epoch": 4.14917662253794,
      "grad_norm": 0.6564400792121887,
      "learning_rate": 0.00035152462019178967,
      "loss": 3.3774,
      "step": 38550
    },
    {
      "epoch": 4.154558174577549,
      "grad_norm": 0.6311826109886169,
      "learning_rate": 0.0003512013791617282,
      "loss": 3.3898,
      "step": 38600
    },
    {
      "epoch": 4.159939726617156,
      "grad_norm": 0.6743218898773193,
      "learning_rate": 0.0003508781381316668,
      "loss": 3.3713,
      "step": 38650
    },
    {
      "epoch": 4.165321278656765,
      "grad_norm": 0.667733371257782,
      "learning_rate": 0.00035055489710160545,
      "loss": 3.3862,
      "step": 38700
    },
    {
      "epoch": 4.1707028306963725,
      "grad_norm": 0.636284351348877,
      "learning_rate": 0.000350231656071544,
      "loss": 3.3903,
      "step": 38750
    },
    {
      "epoch": 4.176084382735981,
      "grad_norm": 0.6867841482162476,
      "learning_rate": 0.0003499084150414826,
      "loss": 3.3718,
      "step": 38800
    },
    {
      "epoch": 4.18146593477559,
      "grad_norm": 0.6667414903640747,
      "learning_rate": 0.0003495851740114211,
      "loss": 3.3924,
      "step": 38850
    },
    {
      "epoch": 4.186847486815197,
      "grad_norm": 0.648737370967865,
      "learning_rate": 0.0003492619329813597,
      "loss": 3.3737,
      "step": 38900
    },
    {
      "epoch": 4.192229038854806,
      "grad_norm": 0.6602607369422913,
      "learning_rate": 0.0003489386919512983,
      "loss": 3.3867,
      "step": 38950
    },
    {
      "epoch": 4.197610590894414,
      "grad_norm": 0.6070671081542969,
      "learning_rate": 0.0003486154509212369,
      "loss": 3.357,
      "step": 39000
    },
    {
      "epoch": 4.197610590894414,
      "eval_accuracy": 0.37727020701960673,
      "eval_loss": 3.444265842437744,
      "eval_runtime": 184.2214,
      "eval_samples_per_second": 97.768,
      "eval_steps_per_second": 6.112,
      "step": 39000
    },
    {
      "epoch": 4.202992142934022,
      "grad_norm": 0.6896142959594727,
      "learning_rate": 0.0003482922098911755,
      "loss": 3.3891,
      "step": 39050
    },
    {
      "epoch": 4.208373694973631,
      "grad_norm": 0.6785603761672974,
      "learning_rate": 0.0003479689688611141,
      "loss": 3.3845,
      "step": 39100
    },
    {
      "epoch": 4.213755247013238,
      "grad_norm": 0.6384092569351196,
      "learning_rate": 0.00034764572783105264,
      "loss": 3.373,
      "step": 39150
    },
    {
      "epoch": 4.219136799052847,
      "grad_norm": 0.6043327450752258,
      "learning_rate": 0.00034732248680099123,
      "loss": 3.3954,
      "step": 39200
    },
    {
      "epoch": 4.224518351092455,
      "grad_norm": 0.685096800327301,
      "learning_rate": 0.0003469992457709299,
      "loss": 3.3861,
      "step": 39250
    },
    {
      "epoch": 4.229899903132063,
      "grad_norm": 0.6767177581787109,
      "learning_rate": 0.0003466760047408684,
      "loss": 3.3673,
      "step": 39300
    },
    {
      "epoch": 4.2352814551716715,
      "grad_norm": 0.6274282932281494,
      "learning_rate": 0.000346352763710807,
      "loss": 3.4036,
      "step": 39350
    },
    {
      "epoch": 4.24066300721128,
      "grad_norm": 0.6397232413291931,
      "learning_rate": 0.00034602952268074556,
      "loss": 3.3791,
      "step": 39400
    },
    {
      "epoch": 4.246044559250888,
      "grad_norm": 0.6293929219245911,
      "learning_rate": 0.00034570628165068415,
      "loss": 3.3843,
      "step": 39450
    },
    {
      "epoch": 4.251426111290496,
      "grad_norm": 0.6140499711036682,
      "learning_rate": 0.0003453830406206227,
      "loss": 3.3778,
      "step": 39500
    },
    {
      "epoch": 4.256807663330104,
      "grad_norm": 0.6846749782562256,
      "learning_rate": 0.00034505979959056134,
      "loss": 3.3845,
      "step": 39550
    },
    {
      "epoch": 4.2621892153697125,
      "grad_norm": 0.7450625896453857,
      "learning_rate": 0.00034473655856049994,
      "loss": 3.4109,
      "step": 39600
    },
    {
      "epoch": 4.267570767409321,
      "grad_norm": 0.6172820329666138,
      "learning_rate": 0.0003444133175304385,
      "loss": 3.3923,
      "step": 39650
    },
    {
      "epoch": 4.272952319448929,
      "grad_norm": 0.637968897819519,
      "learning_rate": 0.00034409007650037707,
      "loss": 3.3849,
      "step": 39700
    },
    {
      "epoch": 4.278333871488537,
      "grad_norm": 0.6309500336647034,
      "learning_rate": 0.00034376683547031567,
      "loss": 3.3769,
      "step": 39750
    },
    {
      "epoch": 4.283715423528146,
      "grad_norm": 0.6331052184104919,
      "learning_rate": 0.0003434435944402542,
      "loss": 3.4032,
      "step": 39800
    },
    {
      "epoch": 4.2890969755677535,
      "grad_norm": 0.6239872574806213,
      "learning_rate": 0.00034312035341019286,
      "loss": 3.3782,
      "step": 39850
    },
    {
      "epoch": 4.294478527607362,
      "grad_norm": 0.6577105522155762,
      "learning_rate": 0.00034279711238013145,
      "loss": 3.3974,
      "step": 39900
    },
    {
      "epoch": 4.299860079646971,
      "grad_norm": 0.7016103863716125,
      "learning_rate": 0.00034247387135007,
      "loss": 3.3913,
      "step": 39950
    },
    {
      "epoch": 4.305241631686578,
      "grad_norm": 0.6544817686080933,
      "learning_rate": 0.0003421506303200086,
      "loss": 3.3844,
      "step": 40000
    },
    {
      "epoch": 4.305241631686578,
      "eval_accuracy": 0.37768645623282404,
      "eval_loss": 3.440420150756836,
      "eval_runtime": 183.8964,
      "eval_samples_per_second": 97.941,
      "eval_steps_per_second": 6.123,
      "step": 40000
    },
    {
      "epoch": 4.310623183726187,
      "grad_norm": 0.5991353988647461,
      "learning_rate": 0.0003418273892899471,
      "loss": 3.372,
      "step": 40050
    },
    {
      "epoch": 4.3160047357657945,
      "grad_norm": 0.6490135788917542,
      "learning_rate": 0.0003415041482598858,
      "loss": 3.3881,
      "step": 40100
    },
    {
      "epoch": 4.321386287805403,
      "grad_norm": 0.6313779950141907,
      "learning_rate": 0.00034118090722982437,
      "loss": 3.3807,
      "step": 40150
    },
    {
      "epoch": 4.326767839845012,
      "grad_norm": 0.6497783064842224,
      "learning_rate": 0.0003408576661997629,
      "loss": 3.4002,
      "step": 40200
    },
    {
      "epoch": 4.332149391884619,
      "grad_norm": 0.6726616024971008,
      "learning_rate": 0.0003405344251697015,
      "loss": 3.389,
      "step": 40250
    },
    {
      "epoch": 4.337530943924228,
      "grad_norm": 0.6246707439422607,
      "learning_rate": 0.0003402111841396401,
      "loss": 3.388,
      "step": 40300
    },
    {
      "epoch": 4.342912495963836,
      "grad_norm": 0.6213300824165344,
      "learning_rate": 0.00033988794310957864,
      "loss": 3.3913,
      "step": 40350
    },
    {
      "epoch": 4.348294048003444,
      "grad_norm": 0.6594297289848328,
      "learning_rate": 0.0003395647020795173,
      "loss": 3.3885,
      "step": 40400
    },
    {
      "epoch": 4.3536756000430525,
      "grad_norm": 0.7009629011154175,
      "learning_rate": 0.0003392414610494559,
      "loss": 3.3868,
      "step": 40450
    },
    {
      "epoch": 4.359057152082661,
      "grad_norm": 0.7008116841316223,
      "learning_rate": 0.0003389182200193944,
      "loss": 3.3758,
      "step": 40500
    },
    {
      "epoch": 4.364438704122269,
      "grad_norm": 0.6574599742889404,
      "learning_rate": 0.000338594978989333,
      "loss": 3.3836,
      "step": 40550
    },
    {
      "epoch": 4.369820256161877,
      "grad_norm": 0.6229692101478577,
      "learning_rate": 0.00033827173795927156,
      "loss": 3.3699,
      "step": 40600
    },
    {
      "epoch": 4.375201808201485,
      "grad_norm": 0.6436429023742676,
      "learning_rate": 0.00033794849692921015,
      "loss": 3.3934,
      "step": 40650
    },
    {
      "epoch": 4.3805833602410935,
      "grad_norm": 0.6658874154090881,
      "learning_rate": 0.0003376252558991488,
      "loss": 3.3773,
      "step": 40700
    },
    {
      "epoch": 4.385964912280702,
      "grad_norm": 0.7022170424461365,
      "learning_rate": 0.00033730201486908734,
      "loss": 3.388,
      "step": 40750
    },
    {
      "epoch": 4.39134646432031,
      "grad_norm": 0.7241979837417603,
      "learning_rate": 0.00033697877383902594,
      "loss": 3.3964,
      "step": 40800
    },
    {
      "epoch": 4.396728016359918,
      "grad_norm": 0.6586964726448059,
      "learning_rate": 0.00033665553280896453,
      "loss": 3.3916,
      "step": 40850
    },
    {
      "epoch": 4.402109568399527,
      "grad_norm": 0.6620526313781738,
      "learning_rate": 0.00033633229177890307,
      "loss": 3.3863,
      "step": 40900
    },
    {
      "epoch": 4.4074911204391345,
      "grad_norm": 0.6365939378738403,
      "learning_rate": 0.00033600905074884167,
      "loss": 3.4032,
      "step": 40950
    },
    {
      "epoch": 4.412872672478743,
      "grad_norm": 0.6840360760688782,
      "learning_rate": 0.0003356858097187803,
      "loss": 3.3732,
      "step": 41000
    },
    {
      "epoch": 4.412872672478743,
      "eval_accuracy": 0.37799035836004113,
      "eval_loss": 3.4344840049743652,
      "eval_runtime": 184.251,
      "eval_samples_per_second": 97.753,
      "eval_steps_per_second": 6.111,
      "step": 41000
    },
    {
      "epoch": 4.418254224518351,
      "grad_norm": 0.6512680053710938,
      "learning_rate": 0.00033536256868871886,
      "loss": 3.3769,
      "step": 41050
    },
    {
      "epoch": 4.423635776557959,
      "grad_norm": 0.685551106929779,
      "learning_rate": 0.00033503932765865745,
      "loss": 3.3775,
      "step": 41100
    },
    {
      "epoch": 4.429017328597568,
      "grad_norm": 0.6710072159767151,
      "learning_rate": 0.000334716086628596,
      "loss": 3.3951,
      "step": 41150
    },
    {
      "epoch": 4.4343988806371755,
      "grad_norm": 0.6576957106590271,
      "learning_rate": 0.00033439931041913585,
      "loss": 3.3848,
      "step": 41200
    },
    {
      "epoch": 4.439780432676784,
      "grad_norm": 0.6550228595733643,
      "learning_rate": 0.0003340760693890744,
      "loss": 3.4002,
      "step": 41250
    },
    {
      "epoch": 4.445161984716393,
      "grad_norm": 0.6091338992118835,
      "learning_rate": 0.000333752828359013,
      "loss": 3.3733,
      "step": 41300
    },
    {
      "epoch": 4.450543536756,
      "grad_norm": 0.7417656779289246,
      "learning_rate": 0.00033342958732895164,
      "loss": 3.4153,
      "step": 41350
    },
    {
      "epoch": 4.455925088795609,
      "grad_norm": 0.7040225267410278,
      "learning_rate": 0.0003331063462988902,
      "loss": 3.4027,
      "step": 41400
    },
    {
      "epoch": 4.461306640835216,
      "grad_norm": 0.6811996102333069,
      "learning_rate": 0.00033278310526882877,
      "loss": 3.3822,
      "step": 41450
    },
    {
      "epoch": 4.466688192874825,
      "grad_norm": 0.6715757846832275,
      "learning_rate": 0.0003324598642387673,
      "loss": 3.3809,
      "step": 41500
    },
    {
      "epoch": 4.4720697449144335,
      "grad_norm": 0.6532493829727173,
      "learning_rate": 0.0003321366232087059,
      "loss": 3.3898,
      "step": 41550
    },
    {
      "epoch": 4.477451296954041,
      "grad_norm": 0.6131067872047424,
      "learning_rate": 0.0003318133821786445,
      "loss": 3.3915,
      "step": 41600
    },
    {
      "epoch": 4.48283284899365,
      "grad_norm": 0.6319779753684998,
      "learning_rate": 0.0003314901411485831,
      "loss": 3.3959,
      "step": 41650
    },
    {
      "epoch": 4.488214401033258,
      "grad_norm": 0.657150149345398,
      "learning_rate": 0.0003311669001185217,
      "loss": 3.3982,
      "step": 41700
    },
    {
      "epoch": 4.493595953072866,
      "grad_norm": 0.6724982857704163,
      "learning_rate": 0.0003308436590884603,
      "loss": 3.3807,
      "step": 41750
    },
    {
      "epoch": 4.4989775051124745,
      "grad_norm": 0.6585769653320312,
      "learning_rate": 0.0003305204180583988,
      "loss": 3.4048,
      "step": 41800
    },
    {
      "epoch": 4.504359057152083,
      "grad_norm": 0.631426215171814,
      "learning_rate": 0.0003301971770283374,
      "loss": 3.4008,
      "step": 41850
    },
    {
      "epoch": 4.509740609191691,
      "grad_norm": 0.6903706789016724,
      "learning_rate": 0.00032987393599827607,
      "loss": 3.3761,
      "step": 41900
    },
    {
      "epoch": 4.515122161231299,
      "grad_norm": 0.681944727897644,
      "learning_rate": 0.0003295506949682146,
      "loss": 3.3784,
      "step": 41950
    },
    {
      "epoch": 4.520503713270907,
      "grad_norm": 0.6702012419700623,
      "learning_rate": 0.0003292274539381532,
      "loss": 3.3604,
      "step": 42000
    },
    {
      "epoch": 4.520503713270907,
      "eval_accuracy": 0.37882263948070005,
      "eval_loss": 3.429762601852417,
      "eval_runtime": 183.9756,
      "eval_samples_per_second": 97.899,
      "eval_steps_per_second": 6.12,
      "step": 42000
    },
    {
      "epoch": 4.5258852653105155,
      "grad_norm": 0.6558611989021301,
      "learning_rate": 0.00032890421290809174,
      "loss": 3.3941,
      "step": 42050
    },
    {
      "epoch": 4.531266817350124,
      "grad_norm": 0.667100191116333,
      "learning_rate": 0.00032858097187803034,
      "loss": 3.3923,
      "step": 42100
    },
    {
      "epoch": 4.536648369389732,
      "grad_norm": 0.6190410852432251,
      "learning_rate": 0.00032825773084796893,
      "loss": 3.3943,
      "step": 42150
    },
    {
      "epoch": 4.54202992142934,
      "grad_norm": 0.6272508502006531,
      "learning_rate": 0.00032793448981790753,
      "loss": 3.3995,
      "step": 42200
    },
    {
      "epoch": 4.547411473468949,
      "grad_norm": 0.6464133262634277,
      "learning_rate": 0.0003276112487878461,
      "loss": 3.3898,
      "step": 42250
    },
    {
      "epoch": 4.5527930255085565,
      "grad_norm": 0.6435190439224243,
      "learning_rate": 0.0003272880077577847,
      "loss": 3.3903,
      "step": 42300
    },
    {
      "epoch": 4.558174577548165,
      "grad_norm": 0.6348674893379211,
      "learning_rate": 0.00032696476672772326,
      "loss": 3.3946,
      "step": 42350
    },
    {
      "epoch": 4.563556129587774,
      "grad_norm": 0.6666122078895569,
      "learning_rate": 0.00032664152569766185,
      "loss": 3.3913,
      "step": 42400
    },
    {
      "epoch": 4.568937681627381,
      "grad_norm": 0.6309319138526917,
      "learning_rate": 0.0003263182846676004,
      "loss": 3.3888,
      "step": 42450
    },
    {
      "epoch": 4.57431923366699,
      "grad_norm": 0.6256023645401001,
      "learning_rate": 0.00032599504363753904,
      "loss": 3.383,
      "step": 42500
    },
    {
      "epoch": 4.579700785706597,
      "grad_norm": 0.6699577569961548,
      "learning_rate": 0.00032567180260747764,
      "loss": 3.3917,
      "step": 42550
    },
    {
      "epoch": 4.585082337746206,
      "grad_norm": 0.7181143164634705,
      "learning_rate": 0.0003253485615774162,
      "loss": 3.4018,
      "step": 42600
    },
    {
      "epoch": 4.5904638897858145,
      "grad_norm": 0.6433983445167542,
      "learning_rate": 0.00032502532054735477,
      "loss": 3.4049,
      "step": 42650
    },
    {
      "epoch": 4.595845441825422,
      "grad_norm": 0.6329094171524048,
      "learning_rate": 0.00032470207951729337,
      "loss": 3.392,
      "step": 42700
    },
    {
      "epoch": 4.601226993865031,
      "grad_norm": 0.6647828221321106,
      "learning_rate": 0.0003243788384872319,
      "loss": 3.3869,
      "step": 42750
    },
    {
      "epoch": 4.606608545904638,
      "grad_norm": 0.7901743054389954,
      "learning_rate": 0.00032405559745717056,
      "loss": 3.3815,
      "step": 42800
    },
    {
      "epoch": 4.611990097944247,
      "grad_norm": 0.6492461562156677,
      "learning_rate": 0.00032373235642710915,
      "loss": 3.4065,
      "step": 42850
    },
    {
      "epoch": 4.6173716499838555,
      "grad_norm": 0.6671076416969299,
      "learning_rate": 0.0003234091153970477,
      "loss": 3.3773,
      "step": 42900
    },
    {
      "epoch": 4.622753202023463,
      "grad_norm": 0.6292576789855957,
      "learning_rate": 0.0003230858743669863,
      "loss": 3.3814,
      "step": 42950
    },
    {
      "epoch": 4.628134754063072,
      "grad_norm": 0.6500989198684692,
      "learning_rate": 0.0003227626333369248,
      "loss": 3.3783,
      "step": 43000
    },
    {
      "epoch": 4.628134754063072,
      "eval_accuracy": 0.3791455558632847,
      "eval_loss": 3.422865629196167,
      "eval_runtime": 184.0608,
      "eval_samples_per_second": 97.854,
      "eval_steps_per_second": 6.118,
      "step": 43000
    },
    {
      "epoch": 4.63351630610268,
      "grad_norm": 0.6515994071960449,
      "learning_rate": 0.0003224393923068635,
      "loss": 3.3961,
      "step": 43050
    },
    {
      "epoch": 4.638897858142288,
      "grad_norm": 0.6892804503440857,
      "learning_rate": 0.00032211615127680207,
      "loss": 3.4116,
      "step": 43100
    },
    {
      "epoch": 4.6442794101818965,
      "grad_norm": 0.6345319747924805,
      "learning_rate": 0.0003217929102467406,
      "loss": 3.4015,
      "step": 43150
    },
    {
      "epoch": 4.649660962221505,
      "grad_norm": 0.6298359632492065,
      "learning_rate": 0.0003214696692166792,
      "loss": 3.398,
      "step": 43200
    },
    {
      "epoch": 4.655042514261113,
      "grad_norm": 0.6783555150032043,
      "learning_rate": 0.0003211464281866178,
      "loss": 3.3907,
      "step": 43250
    },
    {
      "epoch": 4.660424066300721,
      "grad_norm": 0.665116012096405,
      "learning_rate": 0.00032082318715655634,
      "loss": 3.39,
      "step": 43300
    },
    {
      "epoch": 4.665805618340329,
      "grad_norm": 0.6992970108985901,
      "learning_rate": 0.000320499946126495,
      "loss": 3.4063,
      "step": 43350
    },
    {
      "epoch": 4.6711871703799375,
      "grad_norm": 0.6457589268684387,
      "learning_rate": 0.0003201767050964336,
      "loss": 3.3833,
      "step": 43400
    },
    {
      "epoch": 4.676568722419546,
      "grad_norm": 0.640106201171875,
      "learning_rate": 0.0003198534640663721,
      "loss": 3.3711,
      "step": 43450
    },
    {
      "epoch": 4.681950274459154,
      "grad_norm": 0.6606915593147278,
      "learning_rate": 0.0003195302230363107,
      "loss": 3.3965,
      "step": 43500
    },
    {
      "epoch": 4.687331826498762,
      "grad_norm": 0.69615238904953,
      "learning_rate": 0.00031920698200624926,
      "loss": 3.3928,
      "step": 43550
    },
    {
      "epoch": 4.692713378538371,
      "grad_norm": 0.6826192140579224,
      "learning_rate": 0.00031888374097618785,
      "loss": 3.3754,
      "step": 43600
    },
    {
      "epoch": 4.6980949305779784,
      "grad_norm": 0.6870408058166504,
      "learning_rate": 0.0003185604999461265,
      "loss": 3.3999,
      "step": 43650
    },
    {
      "epoch": 4.703476482617587,
      "grad_norm": 0.6374434232711792,
      "learning_rate": 0.00031823725891606504,
      "loss": 3.3839,
      "step": 43700
    },
    {
      "epoch": 4.7088580346571955,
      "grad_norm": 0.7187692523002625,
      "learning_rate": 0.00031791401788600364,
      "loss": 3.4116,
      "step": 43750
    },
    {
      "epoch": 4.714239586696803,
      "grad_norm": 0.611941397190094,
      "learning_rate": 0.00031759077685594223,
      "loss": 3.3774,
      "step": 43800
    },
    {
      "epoch": 4.719621138736412,
      "grad_norm": 0.6382624506950378,
      "learning_rate": 0.00031726753582588077,
      "loss": 3.3839,
      "step": 43850
    },
    {
      "epoch": 4.725002690776019,
      "grad_norm": 0.6394631862640381,
      "learning_rate": 0.0003169442947958194,
      "loss": 3.3974,
      "step": 43900
    },
    {
      "epoch": 4.730384242815628,
      "grad_norm": 0.6874788403511047,
      "learning_rate": 0.000316621053765758,
      "loss": 3.3624,
      "step": 43950
    },
    {
      "epoch": 4.7357657948552365,
      "grad_norm": 0.6672455072402954,
      "learning_rate": 0.00031629781273569656,
      "loss": 3.3804,
      "step": 44000
    },
    {
      "epoch": 4.7357657948552365,
      "eval_accuracy": 0.37934928002793683,
      "eval_loss": 3.418901205062866,
      "eval_runtime": 187.113,
      "eval_samples_per_second": 96.257,
      "eval_steps_per_second": 6.018,
      "step": 44000
    },
    {
      "epoch": 4.741147346894844,
      "grad_norm": 0.7318994998931885,
      "learning_rate": 0.00031597457170563515,
      "loss": 3.4077,
      "step": 44050
    },
    {
      "epoch": 4.746528898934453,
      "grad_norm": 0.67451012134552,
      "learning_rate": 0.0003156513306755737,
      "loss": 3.3513,
      "step": 44100
    },
    {
      "epoch": 4.751910450974061,
      "grad_norm": 0.6773592233657837,
      "learning_rate": 0.0003153280896455123,
      "loss": 3.3947,
      "step": 44150
    },
    {
      "epoch": 4.757292003013669,
      "grad_norm": 0.6268738508224487,
      "learning_rate": 0.00031500484861545094,
      "loss": 3.3977,
      "step": 44200
    },
    {
      "epoch": 4.7626735550532775,
      "grad_norm": 0.642625093460083,
      "learning_rate": 0.0003146816075853895,
      "loss": 3.4018,
      "step": 44250
    },
    {
      "epoch": 4.768055107092886,
      "grad_norm": 0.6661955714225769,
      "learning_rate": 0.00031435836655532807,
      "loss": 3.3863,
      "step": 44300
    },
    {
      "epoch": 4.773436659132494,
      "grad_norm": 0.6564062237739563,
      "learning_rate": 0.00031403512552526667,
      "loss": 3.405,
      "step": 44350
    },
    {
      "epoch": 4.778818211172102,
      "grad_norm": 0.6889638304710388,
      "learning_rate": 0.00031371834931580647,
      "loss": 3.3918,
      "step": 44400
    },
    {
      "epoch": 4.78419976321171,
      "grad_norm": 0.6595639586448669,
      "learning_rate": 0.000313395108285745,
      "loss": 3.3985,
      "step": 44450
    },
    {
      "epoch": 4.7895813152513185,
      "grad_norm": 0.6616701483726501,
      "learning_rate": 0.0003130718672556836,
      "loss": 3.3835,
      "step": 44500
    },
    {
      "epoch": 4.794962867290927,
      "grad_norm": 0.7447769641876221,
      "learning_rate": 0.0003127486262256222,
      "loss": 3.3985,
      "step": 44550
    },
    {
      "epoch": 4.800344419330535,
      "grad_norm": 0.6897401213645935,
      "learning_rate": 0.0003124253851955608,
      "loss": 3.3878,
      "step": 44600
    },
    {
      "epoch": 4.805725971370143,
      "grad_norm": 0.6796373724937439,
      "learning_rate": 0.0003121021441654994,
      "loss": 3.4004,
      "step": 44650
    },
    {
      "epoch": 4.811107523409751,
      "grad_norm": 0.6741414666175842,
      "learning_rate": 0.000311778903135438,
      "loss": 3.3682,
      "step": 44700
    },
    {
      "epoch": 4.8164890754493594,
      "grad_norm": 0.6638854742050171,
      "learning_rate": 0.0003114556621053765,
      "loss": 3.3869,
      "step": 44750
    },
    {
      "epoch": 4.821870627488968,
      "grad_norm": 0.6820347905158997,
      "learning_rate": 0.0003111324210753151,
      "loss": 3.3839,
      "step": 44800
    },
    {
      "epoch": 4.827252179528576,
      "grad_norm": 0.654259443283081,
      "learning_rate": 0.00031080918004525377,
      "loss": 3.3973,
      "step": 44850
    },
    {
      "epoch": 4.832633731568184,
      "grad_norm": 0.6956598162651062,
      "learning_rate": 0.0003104859390151923,
      "loss": 3.3773,
      "step": 44900
    },
    {
      "epoch": 4.838015283607793,
      "grad_norm": 0.6783688068389893,
      "learning_rate": 0.0003101626979851309,
      "loss": 3.3959,
      "step": 44950
    },
    {
      "epoch": 4.8433968356474,
      "grad_norm": 0.7028309106826782,
      "learning_rate": 0.00030983945695506945,
      "loss": 3.3878,
      "step": 45000
    },
    {
      "epoch": 4.8433968356474,
      "eval_accuracy": 0.38028651983822453,
      "eval_loss": 3.413158655166626,
      "eval_runtime": 193.7668,
      "eval_samples_per_second": 92.952,
      "eval_steps_per_second": 5.811,
      "step": 45000
    },
    {
      "epoch": 4.848778387687009,
      "grad_norm": 0.6167437434196472,
      "learning_rate": 0.00030951621592500804,
      "loss": 3.3897,
      "step": 45050
    },
    {
      "epoch": 4.8541599397266175,
      "grad_norm": 0.665013313293457,
      "learning_rate": 0.00030919297489494663,
      "loss": 3.3895,
      "step": 45100
    },
    {
      "epoch": 4.859541491766225,
      "grad_norm": 0.6465608477592468,
      "learning_rate": 0.00030886973386488523,
      "loss": 3.3768,
      "step": 45150
    },
    {
      "epoch": 4.864923043805834,
      "grad_norm": 0.6652724146842957,
      "learning_rate": 0.0003085464928348238,
      "loss": 3.4032,
      "step": 45200
    },
    {
      "epoch": 4.870304595845441,
      "grad_norm": 0.708633542060852,
      "learning_rate": 0.0003082232518047624,
      "loss": 3.3766,
      "step": 45250
    },
    {
      "epoch": 4.87568614788505,
      "grad_norm": 0.6441171765327454,
      "learning_rate": 0.00030790001077470096,
      "loss": 3.3875,
      "step": 45300
    },
    {
      "epoch": 4.8810676999246585,
      "grad_norm": 0.7058818936347961,
      "learning_rate": 0.00030757676974463955,
      "loss": 3.3889,
      "step": 45350
    },
    {
      "epoch": 4.886449251964266,
      "grad_norm": 0.6632406711578369,
      "learning_rate": 0.0003072535287145781,
      "loss": 3.4068,
      "step": 45400
    },
    {
      "epoch": 4.891830804003875,
      "grad_norm": 0.6862095594406128,
      "learning_rate": 0.00030693028768451674,
      "loss": 3.3962,
      "step": 45450
    },
    {
      "epoch": 4.897212356043483,
      "grad_norm": 0.6520973443984985,
      "learning_rate": 0.00030660704665445534,
      "loss": 3.3811,
      "step": 45500
    },
    {
      "epoch": 4.902593908083091,
      "grad_norm": 0.7065536379814148,
      "learning_rate": 0.0003062838056243939,
      "loss": 3.3757,
      "step": 45550
    },
    {
      "epoch": 4.9079754601226995,
      "grad_norm": 0.657891035079956,
      "learning_rate": 0.00030596056459433247,
      "loss": 3.3771,
      "step": 45600
    },
    {
      "epoch": 4.913357012162308,
      "grad_norm": 0.6750816106796265,
      "learning_rate": 0.00030563732356427107,
      "loss": 3.3791,
      "step": 45650
    },
    {
      "epoch": 4.918738564201916,
      "grad_norm": 0.6979294419288635,
      "learning_rate": 0.00030531408253420966,
      "loss": 3.3923,
      "step": 45700
    },
    {
      "epoch": 4.924120116241524,
      "grad_norm": 0.7102238535881042,
      "learning_rate": 0.00030499084150414826,
      "loss": 3.3933,
      "step": 45750
    },
    {
      "epoch": 4.929501668281132,
      "grad_norm": 0.7194436192512512,
      "learning_rate": 0.00030466760047408685,
      "loss": 3.3841,
      "step": 45800
    },
    {
      "epoch": 4.9348832203207404,
      "grad_norm": 0.6603268980979919,
      "learning_rate": 0.0003043443594440254,
      "loss": 3.3808,
      "step": 45850
    },
    {
      "epoch": 4.940264772360349,
      "grad_norm": 0.6661944389343262,
      "learning_rate": 0.000304021118413964,
      "loss": 3.3871,
      "step": 45900
    },
    {
      "epoch": 4.945646324399957,
      "grad_norm": 0.9104317426681519,
      "learning_rate": 0.0003036978773839025,
      "loss": 3.3892,
      "step": 45950
    },
    {
      "epoch": 4.951027876439565,
      "grad_norm": 0.6507620215415955,
      "learning_rate": 0.0003033746363538412,
      "loss": 3.4043,
      "step": 46000
    },
    {
      "epoch": 4.951027876439565,
      "eval_accuracy": 0.38035475385177203,
      "eval_loss": 3.4086248874664307,
      "eval_runtime": 198.096,
      "eval_samples_per_second": 90.921,
      "eval_steps_per_second": 5.684,
      "step": 46000
    },
    {
      "epoch": 4.956409428479174,
      "grad_norm": 0.7103619575500488,
      "learning_rate": 0.00030305139532377977,
      "loss": 3.3997,
      "step": 46050
    },
    {
      "epoch": 4.961790980518781,
      "grad_norm": 0.6475976705551147,
      "learning_rate": 0.0003027281542937183,
      "loss": 3.3763,
      "step": 46100
    },
    {
      "epoch": 4.96717253255839,
      "grad_norm": 0.7033279538154602,
      "learning_rate": 0.0003024049132636569,
      "loss": 3.3817,
      "step": 46150
    },
    {
      "epoch": 4.9725540845979985,
      "grad_norm": 0.6471243500709534,
      "learning_rate": 0.0003020816722335955,
      "loss": 3.3947,
      "step": 46200
    },
    {
      "epoch": 4.977935636637606,
      "grad_norm": 0.655951976776123,
      "learning_rate": 0.00030175843120353404,
      "loss": 3.3898,
      "step": 46250
    },
    {
      "epoch": 4.983317188677215,
      "grad_norm": 0.6474477052688599,
      "learning_rate": 0.0003014351901734727,
      "loss": 3.4017,
      "step": 46300
    },
    {
      "epoch": 4.988698740716822,
      "grad_norm": 0.719261884689331,
      "learning_rate": 0.0003011119491434113,
      "loss": 3.3793,
      "step": 46350
    },
    {
      "epoch": 4.994080292756431,
      "grad_norm": 0.660807728767395,
      "learning_rate": 0.0003007887081133498,
      "loss": 3.4044,
      "step": 46400
    },
    {
      "epoch": 4.9994618447960395,
      "grad_norm": 0.7073203921318054,
      "learning_rate": 0.00030047193190388963,
      "loss": 3.4032,
      "step": 46450
    },
    {
      "epoch": 5.004843396835647,
      "grad_norm": 0.6822003126144409,
      "learning_rate": 0.0003001486908738282,
      "loss": 3.3069,
      "step": 46500
    },
    {
      "epoch": 5.010224948875256,
      "grad_norm": 0.6635767817497253,
      "learning_rate": 0.0002998254498437668,
      "loss": 3.302,
      "step": 46550
    },
    {
      "epoch": 5.015606500914864,
      "grad_norm": 0.6592814922332764,
      "learning_rate": 0.0002995022088137054,
      "loss": 3.293,
      "step": 46600
    },
    {
      "epoch": 5.020988052954472,
      "grad_norm": 0.6633601784706116,
      "learning_rate": 0.00029917896778364396,
      "loss": 3.3029,
      "step": 46650
    },
    {
      "epoch": 5.0263696049940805,
      "grad_norm": 0.6616302728652954,
      "learning_rate": 0.00029885572675358255,
      "loss": 3.2919,
      "step": 46700
    },
    {
      "epoch": 5.031751157033688,
      "grad_norm": 0.6922054290771484,
      "learning_rate": 0.00029853248572352114,
      "loss": 3.3035,
      "step": 46750
    },
    {
      "epoch": 5.037132709073297,
      "grad_norm": 0.7192270755767822,
      "learning_rate": 0.00029820924469345974,
      "loss": 3.2996,
      "step": 46800
    },
    {
      "epoch": 5.042514261112905,
      "grad_norm": 0.650638222694397,
      "learning_rate": 0.0002978860036633983,
      "loss": 3.3126,
      "step": 46850
    },
    {
      "epoch": 5.047895813152513,
      "grad_norm": 0.6890298128128052,
      "learning_rate": 0.00029756276263333693,
      "loss": 3.2806,
      "step": 46900
    },
    {
      "epoch": 5.0532773651921215,
      "grad_norm": 0.7163341641426086,
      "learning_rate": 0.00029723952160327547,
      "loss": 3.318,
      "step": 46950
    },
    {
      "epoch": 5.05865891723173,
      "grad_norm": 0.6692982316017151,
      "learning_rate": 0.00029691628057321406,
      "loss": 3.3278,
      "step": 47000
    },
    {
      "epoch": 5.05865891723173,
      "eval_accuracy": 0.38067071644953654,
      "eval_loss": 3.41097354888916,
      "eval_runtime": 199.5812,
      "eval_samples_per_second": 90.244,
      "eval_steps_per_second": 5.642,
      "step": 47000
    },
    {
      "epoch": 5.064040469271338,
      "grad_norm": 0.7078858613967896,
      "learning_rate": 0.00029659303954315266,
      "loss": 3.2976,
      "step": 47050
    },
    {
      "epoch": 5.069422021310946,
      "grad_norm": 0.6979808211326599,
      "learning_rate": 0.00029626979851309125,
      "loss": 3.2872,
      "step": 47100
    },
    {
      "epoch": 5.074803573350554,
      "grad_norm": 0.6969562768936157,
      "learning_rate": 0.00029594655748302985,
      "loss": 3.3122,
      "step": 47150
    },
    {
      "epoch": 5.080185125390162,
      "grad_norm": 0.6549120545387268,
      "learning_rate": 0.0002956233164529684,
      "loss": 3.3114,
      "step": 47200
    },
    {
      "epoch": 5.085566677429771,
      "grad_norm": 0.7672815322875977,
      "learning_rate": 0.000295300075422907,
      "loss": 3.3127,
      "step": 47250
    },
    {
      "epoch": 5.090948229469379,
      "grad_norm": 0.6978496313095093,
      "learning_rate": 0.0002949768343928456,
      "loss": 3.2989,
      "step": 47300
    },
    {
      "epoch": 5.096329781508987,
      "grad_norm": 0.7476425766944885,
      "learning_rate": 0.00029465359336278417,
      "loss": 3.3291,
      "step": 47350
    },
    {
      "epoch": 5.101711333548596,
      "grad_norm": 0.7071832418441772,
      "learning_rate": 0.0002943303523327227,
      "loss": 3.3004,
      "step": 47400
    },
    {
      "epoch": 5.107092885588203,
      "grad_norm": 0.6778539419174194,
      "learning_rate": 0.00029400711130266136,
      "loss": 3.308,
      "step": 47450
    },
    {
      "epoch": 5.112474437627812,
      "grad_norm": 0.6505990624427795,
      "learning_rate": 0.0002936838702725999,
      "loss": 3.3101,
      "step": 47500
    },
    {
      "epoch": 5.1178559896674205,
      "grad_norm": 0.7001203298568726,
      "learning_rate": 0.0002933606292425385,
      "loss": 3.2957,
      "step": 47550
    },
    {
      "epoch": 5.123237541707028,
      "grad_norm": 0.6422790884971619,
      "learning_rate": 0.0002930373882124771,
      "loss": 3.3269,
      "step": 47600
    },
    {
      "epoch": 5.128619093746637,
      "grad_norm": 0.6582990288734436,
      "learning_rate": 0.0002927141471824157,
      "loss": 3.3121,
      "step": 47650
    },
    {
      "epoch": 5.134000645786244,
      "grad_norm": 0.7403335571289062,
      "learning_rate": 0.0002923909061523542,
      "loss": 3.3141,
      "step": 47700
    },
    {
      "epoch": 5.139382197825853,
      "grad_norm": 0.6640191674232483,
      "learning_rate": 0.0002920676651222928,
      "loss": 3.303,
      "step": 47750
    },
    {
      "epoch": 5.1447637498654615,
      "grad_norm": 0.7148423790931702,
      "learning_rate": 0.0002917444240922314,
      "loss": 3.3169,
      "step": 47800
    },
    {
      "epoch": 5.150145301905069,
      "grad_norm": 0.7295341491699219,
      "learning_rate": 0.00029142118306216996,
      "loss": 3.293,
      "step": 47850
    },
    {
      "epoch": 5.155526853944678,
      "grad_norm": 0.7192745208740234,
      "learning_rate": 0.0002910979420321086,
      "loss": 3.3081,
      "step": 47900
    },
    {
      "epoch": 5.160908405984286,
      "grad_norm": 0.6744968891143799,
      "learning_rate": 0.00029077470100204715,
      "loss": 3.3324,
      "step": 47950
    },
    {
      "epoch": 5.166289958023894,
      "grad_norm": 0.6646089553833008,
      "learning_rate": 0.00029045145997198574,
      "loss": 3.3122,
      "step": 48000
    },
    {
      "epoch": 5.166289958023894,
      "eval_accuracy": 0.3812474459780558,
      "eval_loss": 3.4101686477661133,
      "eval_runtime": 185.879,
      "eval_samples_per_second": 96.896,
      "eval_steps_per_second": 6.058,
      "step": 48000
    },
    {
      "epoch": 5.1716715100635025,
      "grad_norm": 0.711849570274353,
      "learning_rate": 0.00029012821894192433,
      "loss": 3.3128,
      "step": 48050
    },
    {
      "epoch": 5.17705306210311,
      "grad_norm": 0.6339332461357117,
      "learning_rate": 0.00028980497791186293,
      "loss": 3.31,
      "step": 48100
    },
    {
      "epoch": 5.182434614142719,
      "grad_norm": 0.6571476459503174,
      "learning_rate": 0.0002894817368818015,
      "loss": 3.3193,
      "step": 48150
    },
    {
      "epoch": 5.187816166182327,
      "grad_norm": 0.6595004200935364,
      "learning_rate": 0.00028915849585174006,
      "loss": 3.3145,
      "step": 48200
    },
    {
      "epoch": 5.193197718221935,
      "grad_norm": 0.7411342859268188,
      "learning_rate": 0.00028883525482167866,
      "loss": 3.3061,
      "step": 48250
    },
    {
      "epoch": 5.198579270261543,
      "grad_norm": 0.6646034121513367,
      "learning_rate": 0.00028851201379161725,
      "loss": 3.3282,
      "step": 48300
    },
    {
      "epoch": 5.203960822301152,
      "grad_norm": 0.6964908838272095,
      "learning_rate": 0.00028818877276155585,
      "loss": 3.3222,
      "step": 48350
    },
    {
      "epoch": 5.20934237434076,
      "grad_norm": 0.6644064784049988,
      "learning_rate": 0.0002878655317314944,
      "loss": 3.336,
      "step": 48400
    },
    {
      "epoch": 5.214723926380368,
      "grad_norm": 0.6583344340324402,
      "learning_rate": 0.00028754229070143304,
      "loss": 3.3154,
      "step": 48450
    },
    {
      "epoch": 5.220105478419977,
      "grad_norm": 0.7045678496360779,
      "learning_rate": 0.0002872190496713716,
      "loss": 3.3211,
      "step": 48500
    },
    {
      "epoch": 5.225487030459584,
      "grad_norm": 0.7003862261772156,
      "learning_rate": 0.0002868958086413102,
      "loss": 3.3251,
      "step": 48550
    },
    {
      "epoch": 5.230868582499193,
      "grad_norm": 0.6430626511573792,
      "learning_rate": 0.00028657256761124877,
      "loss": 3.3206,
      "step": 48600
    },
    {
      "epoch": 5.236250134538801,
      "grad_norm": 0.6552683115005493,
      "learning_rate": 0.00028624932658118736,
      "loss": 3.3185,
      "step": 48650
    },
    {
      "epoch": 5.241631686578409,
      "grad_norm": 0.7269369959831238,
      "learning_rate": 0.0002859260855511259,
      "loss": 3.3237,
      "step": 48700
    },
    {
      "epoch": 5.247013238618018,
      "grad_norm": 0.714479386806488,
      "learning_rate": 0.0002856028445210645,
      "loss": 3.3193,
      "step": 48750
    },
    {
      "epoch": 5.252394790657625,
      "grad_norm": 0.7010520696640015,
      "learning_rate": 0.0002852796034910031,
      "loss": 3.3205,
      "step": 48800
    },
    {
      "epoch": 5.257776342697234,
      "grad_norm": 0.7351516485214233,
      "learning_rate": 0.0002849563624609417,
      "loss": 3.3165,
      "step": 48850
    },
    {
      "epoch": 5.2631578947368425,
      "grad_norm": 0.6864643692970276,
      "learning_rate": 0.0002846331214308803,
      "loss": 3.3195,
      "step": 48900
    },
    {
      "epoch": 5.26853944677645,
      "grad_norm": 0.6827585697174072,
      "learning_rate": 0.0002843098804008188,
      "loss": 3.3415,
      "step": 48950
    },
    {
      "epoch": 5.273920998816059,
      "grad_norm": 0.6624326109886169,
      "learning_rate": 0.00028398663937075747,
      "loss": 3.3188,
      "step": 49000
    },
    {
      "epoch": 5.273920998816059,
      "eval_accuracy": 0.3813056839259244,
      "eval_loss": 3.40633487701416,
      "eval_runtime": 199.34,
      "eval_samples_per_second": 90.353,
      "eval_steps_per_second": 5.649,
      "step": 49000
    },
    {
      "epoch": 5.279302550855666,
      "grad_norm": 0.6573712825775146,
      "learning_rate": 0.000283663398340696,
      "loss": 3.3268,
      "step": 49050
    },
    {
      "epoch": 5.284684102895275,
      "grad_norm": 0.6883729696273804,
      "learning_rate": 0.0002833401573106346,
      "loss": 3.3402,
      "step": 49100
    },
    {
      "epoch": 5.2900656549348835,
      "grad_norm": 0.6698530912399292,
      "learning_rate": 0.0002830169162805732,
      "loss": 3.3352,
      "step": 49150
    },
    {
      "epoch": 5.295447206974491,
      "grad_norm": 0.6954827904701233,
      "learning_rate": 0.0002826936752505118,
      "loss": 3.3171,
      "step": 49200
    },
    {
      "epoch": 5.3008287590141,
      "grad_norm": 0.7110809683799744,
      "learning_rate": 0.00028237043422045034,
      "loss": 3.3189,
      "step": 49250
    },
    {
      "epoch": 5.306210311053708,
      "grad_norm": 0.6629365086555481,
      "learning_rate": 0.00028204719319038893,
      "loss": 3.3285,
      "step": 49300
    },
    {
      "epoch": 5.311591863093316,
      "grad_norm": 0.6809476017951965,
      "learning_rate": 0.0002817239521603275,
      "loss": 3.3225,
      "step": 49350
    },
    {
      "epoch": 5.316973415132924,
      "grad_norm": 0.6580902934074402,
      "learning_rate": 0.0002814007111302661,
      "loss": 3.3194,
      "step": 49400
    },
    {
      "epoch": 5.322354967172533,
      "grad_norm": 0.7128238677978516,
      "learning_rate": 0.0002810774701002047,
      "loss": 3.3282,
      "step": 49450
    },
    {
      "epoch": 5.327736519212141,
      "grad_norm": 0.6528974771499634,
      "learning_rate": 0.00028075422907014325,
      "loss": 3.3327,
      "step": 49500
    },
    {
      "epoch": 5.333118071251749,
      "grad_norm": 0.758139967918396,
      "learning_rate": 0.00028043098804008185,
      "loss": 3.3183,
      "step": 49550
    },
    {
      "epoch": 5.338499623291357,
      "grad_norm": 0.6854447722434998,
      "learning_rate": 0.00028010774701002044,
      "loss": 3.3154,
      "step": 49600
    },
    {
      "epoch": 5.343881175330965,
      "grad_norm": 0.691390872001648,
      "learning_rate": 0.00027978450597995904,
      "loss": 3.3205,
      "step": 49650
    },
    {
      "epoch": 5.349262727370574,
      "grad_norm": 0.6922149062156677,
      "learning_rate": 0.0002794612649498976,
      "loss": 3.3463,
      "step": 49700
    },
    {
      "epoch": 5.354644279410182,
      "grad_norm": 0.7202023863792419,
      "learning_rate": 0.00027913802391983623,
      "loss": 3.3319,
      "step": 49750
    },
    {
      "epoch": 5.36002583144979,
      "grad_norm": 0.689845085144043,
      "learning_rate": 0.00027881478288977477,
      "loss": 3.3328,
      "step": 49800
    },
    {
      "epoch": 5.365407383489399,
      "grad_norm": 0.7027431130409241,
      "learning_rate": 0.00027849154185971336,
      "loss": 3.3299,
      "step": 49850
    },
    {
      "epoch": 5.370788935529006,
      "grad_norm": 0.680872917175293,
      "learning_rate": 0.00027816830082965196,
      "loss": 3.3684,
      "step": 49900
    },
    {
      "epoch": 5.376170487568615,
      "grad_norm": 0.7679448127746582,
      "learning_rate": 0.00027784505979959055,
      "loss": 3.3432,
      "step": 49950
    },
    {
      "epoch": 5.3815520396082235,
      "grad_norm": 0.7101251482963562,
      "learning_rate": 0.00027752181876952915,
      "loss": 3.322,
      "step": 50000
    },
    {
      "epoch": 5.3815520396082235,
      "eval_accuracy": 0.38162577533342584,
      "eval_loss": 3.401515483856201,
      "eval_runtime": 190.9924,
      "eval_samples_per_second": 94.302,
      "eval_steps_per_second": 5.896,
      "step": 50000
    },
    {
      "epoch": 5.386933591647831,
      "grad_norm": 0.7052157521247864,
      "learning_rate": 0.0002771985777394677,
      "loss": 3.3254,
      "step": 50050
    },
    {
      "epoch": 5.39231514368744,
      "grad_norm": 0.7004951238632202,
      "learning_rate": 0.0002768753367094063,
      "loss": 3.3293,
      "step": 50100
    },
    {
      "epoch": 5.397696695727047,
      "grad_norm": 0.6743636727333069,
      "learning_rate": 0.0002765520956793449,
      "loss": 3.3314,
      "step": 50150
    },
    {
      "epoch": 5.403078247766656,
      "grad_norm": 0.7241441011428833,
      "learning_rate": 0.00027622885464928347,
      "loss": 3.3284,
      "step": 50200
    },
    {
      "epoch": 5.4084597998062645,
      "grad_norm": 0.7167028188705444,
      "learning_rate": 0.000275905613619222,
      "loss": 3.3424,
      "step": 50250
    },
    {
      "epoch": 5.413841351845872,
      "grad_norm": 0.6798233389854431,
      "learning_rate": 0.00027558237258916066,
      "loss": 3.3289,
      "step": 50300
    },
    {
      "epoch": 5.419222903885481,
      "grad_norm": 0.6868151426315308,
      "learning_rate": 0.0002752591315590992,
      "loss": 3.3286,
      "step": 50350
    },
    {
      "epoch": 5.424604455925088,
      "grad_norm": 0.7040867209434509,
      "learning_rate": 0.0002749358905290378,
      "loss": 3.335,
      "step": 50400
    },
    {
      "epoch": 5.429986007964697,
      "grad_norm": 0.7537392377853394,
      "learning_rate": 0.0002746191143195776,
      "loss": 3.3278,
      "step": 50450
    },
    {
      "epoch": 5.435367560004305,
      "grad_norm": 0.6773185133934021,
      "learning_rate": 0.0002742958732895162,
      "loss": 3.3461,
      "step": 50500
    },
    {
      "epoch": 5.440749112043913,
      "grad_norm": 0.6652722954750061,
      "learning_rate": 0.0002739726322594548,
      "loss": 3.3419,
      "step": 50550
    },
    {
      "epoch": 5.446130664083522,
      "grad_norm": 0.7629380226135254,
      "learning_rate": 0.00027364939122939333,
      "loss": 3.3214,
      "step": 50600
    },
    {
      "epoch": 5.45151221612313,
      "grad_norm": 0.7377910017967224,
      "learning_rate": 0.0002733261501993319,
      "loss": 3.333,
      "step": 50650
    },
    {
      "epoch": 5.456893768162738,
      "grad_norm": 0.742663562297821,
      "learning_rate": 0.0002730029091692705,
      "loss": 3.3552,
      "step": 50700
    },
    {
      "epoch": 5.462275320202346,
      "grad_norm": 0.7353278398513794,
      "learning_rate": 0.0002726796681392091,
      "loss": 3.3478,
      "step": 50750
    },
    {
      "epoch": 5.467656872241955,
      "grad_norm": 0.7022518515586853,
      "learning_rate": 0.0002723564271091477,
      "loss": 3.3267,
      "step": 50800
    },
    {
      "epoch": 5.473038424281563,
      "grad_norm": 0.7559952735900879,
      "learning_rate": 0.0002720331860790863,
      "loss": 3.3459,
      "step": 50850
    },
    {
      "epoch": 5.478419976321171,
      "grad_norm": 0.6969453692436218,
      "learning_rate": 0.0002717164098696261,
      "loss": 3.3304,
      "step": 50900
    },
    {
      "epoch": 5.483801528360779,
      "grad_norm": 0.6914547085762024,
      "learning_rate": 0.00027139316883956465,
      "loss": 3.33,
      "step": 50950
    },
    {
      "epoch": 5.489183080400387,
      "grad_norm": 0.6893595457077026,
      "learning_rate": 0.00027106992780950325,
      "loss": 3.332,
      "step": 51000
    },
    {
      "epoch": 5.489183080400387,
      "eval_accuracy": 0.38202051127485587,
      "eval_loss": 3.398252010345459,
      "eval_runtime": 201.852,
      "eval_samples_per_second": 89.229,
      "eval_steps_per_second": 5.578,
      "step": 51000
    },
    {
      "epoch": 5.494564632439996,
      "grad_norm": 0.6733947992324829,
      "learning_rate": 0.00027074668677944184,
      "loss": 3.3173,
      "step": 51050
    },
    {
      "epoch": 5.499946184479604,
      "grad_norm": 0.6902599334716797,
      "learning_rate": 0.00027042344574938044,
      "loss": 3.3219,
      "step": 51100
    },
    {
      "epoch": 5.505327736519212,
      "grad_norm": 0.6864503026008606,
      "learning_rate": 0.000270100204719319,
      "loss": 3.3481,
      "step": 51150
    },
    {
      "epoch": 5.510709288558821,
      "grad_norm": 0.6970261931419373,
      "learning_rate": 0.0002697769636892576,
      "loss": 3.3118,
      "step": 51200
    },
    {
      "epoch": 5.516090840598428,
      "grad_norm": 0.6645552515983582,
      "learning_rate": 0.00026945372265919617,
      "loss": 3.3571,
      "step": 51250
    },
    {
      "epoch": 5.521472392638037,
      "grad_norm": 0.7391808032989502,
      "learning_rate": 0.00026913048162913476,
      "loss": 3.3199,
      "step": 51300
    },
    {
      "epoch": 5.5268539446776455,
      "grad_norm": 0.7733272314071655,
      "learning_rate": 0.00026880724059907336,
      "loss": 3.3215,
      "step": 51350
    },
    {
      "epoch": 5.532235496717253,
      "grad_norm": 0.6973010301589966,
      "learning_rate": 0.00026848399956901195,
      "loss": 3.3224,
      "step": 51400
    },
    {
      "epoch": 5.537617048756862,
      "grad_norm": 0.6550707221031189,
      "learning_rate": 0.0002681607585389505,
      "loss": 3.33,
      "step": 51450
    },
    {
      "epoch": 5.542998600796469,
      "grad_norm": 0.7332292795181274,
      "learning_rate": 0.0002678375175088891,
      "loss": 3.3384,
      "step": 51500
    },
    {
      "epoch": 5.548380152836078,
      "grad_norm": 0.6796571016311646,
      "learning_rate": 0.0002675142764788277,
      "loss": 3.3247,
      "step": 51550
    },
    {
      "epoch": 5.553761704875686,
      "grad_norm": 0.7083922624588013,
      "learning_rate": 0.0002671910354487663,
      "loss": 3.3291,
      "step": 51600
    },
    {
      "epoch": 5.559143256915294,
      "grad_norm": 0.6930578947067261,
      "learning_rate": 0.00026686779441870487,
      "loss": 3.3402,
      "step": 51650
    },
    {
      "epoch": 5.564524808954903,
      "grad_norm": 0.7235504388809204,
      "learning_rate": 0.0002665445533886434,
      "loss": 3.3437,
      "step": 51700
    },
    {
      "epoch": 5.569906360994511,
      "grad_norm": 0.6968651413917542,
      "learning_rate": 0.00026622131235858206,
      "loss": 3.3361,
      "step": 51750
    },
    {
      "epoch": 5.575287913034119,
      "grad_norm": 0.7153921723365784,
      "learning_rate": 0.0002658980713285206,
      "loss": 3.333,
      "step": 51800
    },
    {
      "epoch": 5.580669465073727,
      "grad_norm": 0.6755282282829285,
      "learning_rate": 0.0002655748302984592,
      "loss": 3.3317,
      "step": 51850
    },
    {
      "epoch": 5.586051017113336,
      "grad_norm": 0.6895524263381958,
      "learning_rate": 0.0002652515892683978,
      "loss": 3.3345,
      "step": 51900
    },
    {
      "epoch": 5.591432569152944,
      "grad_norm": 0.68429034948349,
      "learning_rate": 0.0002649283482383364,
      "loss": 3.338,
      "step": 51950
    },
    {
      "epoch": 5.596814121192552,
      "grad_norm": 0.6957405209541321,
      "learning_rate": 0.0002646051072082749,
      "loss": 3.3311,
      "step": 52000
    },
    {
      "epoch": 5.596814121192552,
      "eval_accuracy": 0.38275413557337923,
      "eval_loss": 3.392491340637207,
      "eval_runtime": 191.5635,
      "eval_samples_per_second": 94.021,
      "eval_steps_per_second": 5.878,
      "step": 52000
    },
    {
      "epoch": 5.60219567323216,
      "grad_norm": 0.7238175272941589,
      "learning_rate": 0.0002642818661782135,
      "loss": 3.3254,
      "step": 52050
    },
    {
      "epoch": 5.607577225271768,
      "grad_norm": 0.6958402991294861,
      "learning_rate": 0.0002639586251481521,
      "loss": 3.3376,
      "step": 52100
    },
    {
      "epoch": 5.612958777311377,
      "grad_norm": 0.7499992251396179,
      "learning_rate": 0.0002636353841180907,
      "loss": 3.3357,
      "step": 52150
    },
    {
      "epoch": 5.618340329350985,
      "grad_norm": 0.7231428027153015,
      "learning_rate": 0.0002633121430880293,
      "loss": 3.3384,
      "step": 52200
    },
    {
      "epoch": 5.623721881390593,
      "grad_norm": 0.7108846306800842,
      "learning_rate": 0.00026298890205796784,
      "loss": 3.3561,
      "step": 52250
    },
    {
      "epoch": 5.629103433430201,
      "grad_norm": 0.7232603430747986,
      "learning_rate": 0.00026266566102790644,
      "loss": 3.3199,
      "step": 52300
    },
    {
      "epoch": 5.634484985469809,
      "grad_norm": 0.7321612238883972,
      "learning_rate": 0.00026234241999784503,
      "loss": 3.323,
      "step": 52350
    },
    {
      "epoch": 5.639866537509418,
      "grad_norm": 0.7962086200714111,
      "learning_rate": 0.0002620191789677836,
      "loss": 3.3338,
      "step": 52400
    },
    {
      "epoch": 5.645248089549026,
      "grad_norm": 0.7023690342903137,
      "learning_rate": 0.00026169593793772217,
      "loss": 3.3323,
      "step": 52450
    },
    {
      "epoch": 5.650629641588634,
      "grad_norm": 0.7335500121116638,
      "learning_rate": 0.0002613726969076608,
      "loss": 3.3322,
      "step": 52500
    },
    {
      "epoch": 5.656011193628243,
      "grad_norm": 0.6866999864578247,
      "learning_rate": 0.00026104945587759936,
      "loss": 3.3515,
      "step": 52550
    },
    {
      "epoch": 5.66139274566785,
      "grad_norm": 0.7161104083061218,
      "learning_rate": 0.00026072621484753795,
      "loss": 3.3297,
      "step": 52600
    },
    {
      "epoch": 5.666774297707459,
      "grad_norm": 0.6917698383331299,
      "learning_rate": 0.00026040297381747655,
      "loss": 3.3367,
      "step": 52650
    },
    {
      "epoch": 5.672155849747067,
      "grad_norm": 0.7025923132896423,
      "learning_rate": 0.00026007973278741514,
      "loss": 3.3295,
      "step": 52700
    },
    {
      "epoch": 5.677537401786675,
      "grad_norm": 0.7026934623718262,
      "learning_rate": 0.00025976295657795495,
      "loss": 3.3362,
      "step": 52750
    },
    {
      "epoch": 5.682918953826284,
      "grad_norm": 0.7213480472564697,
      "learning_rate": 0.0002594397155478935,
      "loss": 3.3379,
      "step": 52800
    },
    {
      "epoch": 5.688300505865891,
      "grad_norm": 0.6878174543380737,
      "learning_rate": 0.00025911647451783214,
      "loss": 3.3462,
      "step": 52850
    },
    {
      "epoch": 5.6936820579055,
      "grad_norm": 0.6844722628593445,
      "learning_rate": 0.0002587932334877707,
      "loss": 3.3252,
      "step": 52900
    },
    {
      "epoch": 5.699063609945108,
      "grad_norm": 0.6641094088554382,
      "learning_rate": 0.00025846999245770927,
      "loss": 3.3371,
      "step": 52950
    },
    {
      "epoch": 5.704445161984716,
      "grad_norm": 0.7242318987846375,
      "learning_rate": 0.00025814675142764787,
      "loss": 3.3228,
      "step": 53000
    },
    {
      "epoch": 5.704445161984716,
      "eval_accuracy": 0.3832262323709331,
      "eval_loss": 3.388969659805298,
      "eval_runtime": 188.9762,
      "eval_samples_per_second": 95.308,
      "eval_steps_per_second": 5.958,
      "step": 53000
    },
    {
      "epoch": 5.709826714024325,
      "grad_norm": 0.7288863062858582,
      "learning_rate": 0.00025782351039758646,
      "loss": 3.3342,
      "step": 53050
    },
    {
      "epoch": 5.715208266063933,
      "grad_norm": 0.7472865581512451,
      "learning_rate": 0.000257500269367525,
      "loss": 3.3217,
      "step": 53100
    },
    {
      "epoch": 5.720589818103541,
      "grad_norm": 0.7225834727287292,
      "learning_rate": 0.0002571770283374636,
      "loss": 3.3413,
      "step": 53150
    },
    {
      "epoch": 5.725971370143149,
      "grad_norm": 0.6949664950370789,
      "learning_rate": 0.0002568537873074022,
      "loss": 3.3333,
      "step": 53200
    },
    {
      "epoch": 5.731352922182758,
      "grad_norm": 0.7040730714797974,
      "learning_rate": 0.0002565305462773408,
      "loss": 3.3353,
      "step": 53250
    },
    {
      "epoch": 5.736734474222366,
      "grad_norm": 0.702145516872406,
      "learning_rate": 0.0002562073052472794,
      "loss": 3.3436,
      "step": 53300
    },
    {
      "epoch": 5.742116026261974,
      "grad_norm": 0.7853330373764038,
      "learning_rate": 0.0002558840642172179,
      "loss": 3.3226,
      "step": 53350
    },
    {
      "epoch": 5.747497578301582,
      "grad_norm": 0.6927236914634705,
      "learning_rate": 0.00025556082318715657,
      "loss": 3.3244,
      "step": 53400
    },
    {
      "epoch": 5.75287913034119,
      "grad_norm": 0.750984251499176,
      "learning_rate": 0.0002552375821570951,
      "loss": 3.3357,
      "step": 53450
    },
    {
      "epoch": 5.758260682380799,
      "grad_norm": 0.7002302408218384,
      "learning_rate": 0.0002549143411270337,
      "loss": 3.3371,
      "step": 53500
    },
    {
      "epoch": 5.763642234420407,
      "grad_norm": 0.6801297664642334,
      "learning_rate": 0.0002545911000969723,
      "loss": 3.3583,
      "step": 53550
    },
    {
      "epoch": 5.769023786460015,
      "grad_norm": 0.6933255791664124,
      "learning_rate": 0.0002542678590669109,
      "loss": 3.3439,
      "step": 53600
    },
    {
      "epoch": 5.774405338499624,
      "grad_norm": 0.7271377444267273,
      "learning_rate": 0.00025394461803684943,
      "loss": 3.3243,
      "step": 53650
    },
    {
      "epoch": 5.779786890539231,
      "grad_norm": 0.7446125745773315,
      "learning_rate": 0.00025362137700678803,
      "loss": 3.3139,
      "step": 53700
    },
    {
      "epoch": 5.78516844257884,
      "grad_norm": 1.0740025043487549,
      "learning_rate": 0.0002532981359767266,
      "loss": 3.3248,
      "step": 53750
    },
    {
      "epoch": 5.790549994618448,
      "grad_norm": 0.6934852600097656,
      "learning_rate": 0.0002529748949466652,
      "loss": 3.3406,
      "step": 53800
    },
    {
      "epoch": 5.795931546658056,
      "grad_norm": 0.7243183851242065,
      "learning_rate": 0.0002526516539166038,
      "loss": 3.3292,
      "step": 53850
    },
    {
      "epoch": 5.801313098697665,
      "grad_norm": 0.6904602646827698,
      "learning_rate": 0.00025232841288654235,
      "loss": 3.3542,
      "step": 53900
    },
    {
      "epoch": 5.806694650737272,
      "grad_norm": 0.7039540410041809,
      "learning_rate": 0.00025200517185648095,
      "loss": 3.3325,
      "step": 53950
    },
    {
      "epoch": 5.812076202776881,
      "grad_norm": 0.7978979349136353,
      "learning_rate": 0.00025168193082641954,
      "loss": 3.3464,
      "step": 54000
    },
    {
      "epoch": 5.812076202776881,
      "eval_accuracy": 0.3834861300785854,
      "eval_loss": 3.384354591369629,
      "eval_runtime": 194.2742,
      "eval_samples_per_second": 92.709,
      "eval_steps_per_second": 5.796,
      "step": 54000
    },
    {
      "epoch": 5.817457754816489,
      "grad_norm": 0.7381291389465332,
      "learning_rate": 0.00025135868979635814,
      "loss": 3.3392,
      "step": 54050
    },
    {
      "epoch": 5.822839306856097,
      "grad_norm": 0.754283607006073,
      "learning_rate": 0.0002510354487662967,
      "loss": 3.3256,
      "step": 54100
    },
    {
      "epoch": 5.828220858895706,
      "grad_norm": 0.6771228313446045,
      "learning_rate": 0.0002507122077362353,
      "loss": 3.3277,
      "step": 54150
    },
    {
      "epoch": 5.833602410935313,
      "grad_norm": 0.7044920921325684,
      "learning_rate": 0.00025038896670617387,
      "loss": 3.3522,
      "step": 54200
    },
    {
      "epoch": 5.838983962974922,
      "grad_norm": 0.7235927581787109,
      "learning_rate": 0.00025006572567611246,
      "loss": 3.3345,
      "step": 54250
    },
    {
      "epoch": 5.84436551501453,
      "grad_norm": 0.7346377372741699,
      "learning_rate": 0.00024974248464605106,
      "loss": 3.327,
      "step": 54300
    },
    {
      "epoch": 5.849747067054138,
      "grad_norm": 0.6848078370094299,
      "learning_rate": 0.00024941924361598965,
      "loss": 3.3258,
      "step": 54350
    },
    {
      "epoch": 5.855128619093747,
      "grad_norm": 0.7794662714004517,
      "learning_rate": 0.00024909600258592825,
      "loss": 3.3286,
      "step": 54400
    },
    {
      "epoch": 5.860510171133355,
      "grad_norm": 0.7070016264915466,
      "learning_rate": 0.0002487727615558668,
      "loss": 3.3137,
      "step": 54450
    },
    {
      "epoch": 5.865891723172963,
      "grad_norm": 0.7206201553344727,
      "learning_rate": 0.0002484495205258054,
      "loss": 3.3227,
      "step": 54500
    },
    {
      "epoch": 5.871273275212571,
      "grad_norm": 0.7026396989822388,
      "learning_rate": 0.000248126279495744,
      "loss": 3.3311,
      "step": 54550
    },
    {
      "epoch": 5.87665482725218,
      "grad_norm": 0.66973876953125,
      "learning_rate": 0.00024780303846568257,
      "loss": 3.3422,
      "step": 54600
    },
    {
      "epoch": 5.882036379291788,
      "grad_norm": 0.6937663555145264,
      "learning_rate": 0.0002474797974356211,
      "loss": 3.3556,
      "step": 54650
    },
    {
      "epoch": 5.887417931331396,
      "grad_norm": 0.700392484664917,
      "learning_rate": 0.00024715655640555976,
      "loss": 3.3262,
      "step": 54700
    },
    {
      "epoch": 5.892799483371004,
      "grad_norm": 0.7096002101898193,
      "learning_rate": 0.0002468333153754983,
      "loss": 3.3324,
      "step": 54750
    },
    {
      "epoch": 5.898181035410612,
      "grad_norm": 0.6988920569419861,
      "learning_rate": 0.0002465100743454369,
      "loss": 3.3369,
      "step": 54800
    },
    {
      "epoch": 5.903562587450221,
      "grad_norm": 0.7343882918357849,
      "learning_rate": 0.0002461868333153755,
      "loss": 3.3277,
      "step": 54850
    },
    {
      "epoch": 5.9089441394898286,
      "grad_norm": 0.6897315979003906,
      "learning_rate": 0.0002458635922853141,
      "loss": 3.3348,
      "step": 54900
    },
    {
      "epoch": 5.914325691529437,
      "grad_norm": 0.7474579811096191,
      "learning_rate": 0.0002455403512552526,
      "loss": 3.3324,
      "step": 54950
    },
    {
      "epoch": 5.919707243569046,
      "grad_norm": 0.6951244473457336,
      "learning_rate": 0.0002452171102251912,
      "loss": 3.3198,
      "step": 55000
    },
    {
      "epoch": 5.919707243569046,
      "eval_accuracy": 0.3841209889020854,
      "eval_loss": 3.3801491260528564,
      "eval_runtime": 199.9228,
      "eval_samples_per_second": 90.09,
      "eval_steps_per_second": 5.632,
      "step": 55000
    },
    {
      "epoch": 5.925088795608653,
      "grad_norm": 0.7461682558059692,
      "learning_rate": 0.0002448938691951298,
      "loss": 3.3403,
      "step": 55050
    },
    {
      "epoch": 5.930470347648262,
      "grad_norm": 0.7283382415771484,
      "learning_rate": 0.0002445706281650684,
      "loss": 3.3248,
      "step": 55100
    },
    {
      "epoch": 5.93585189968787,
      "grad_norm": 0.724388837814331,
      "learning_rate": 0.000244247387135007,
      "loss": 3.3235,
      "step": 55150
    },
    {
      "epoch": 5.941233451727478,
      "grad_norm": 0.7141478657722473,
      "learning_rate": 0.00024392414610494557,
      "loss": 3.3314,
      "step": 55200
    },
    {
      "epoch": 5.946615003767087,
      "grad_norm": 0.7138928771018982,
      "learning_rate": 0.00024360090507488414,
      "loss": 3.3479,
      "step": 55250
    },
    {
      "epoch": 5.951996555806694,
      "grad_norm": 0.7258302569389343,
      "learning_rate": 0.00024327766404482273,
      "loss": 3.3137,
      "step": 55300
    },
    {
      "epoch": 5.957378107846303,
      "grad_norm": 0.737166702747345,
      "learning_rate": 0.0002429544230147613,
      "loss": 3.3365,
      "step": 55350
    },
    {
      "epoch": 5.962759659885911,
      "grad_norm": 0.7801724076271057,
      "learning_rate": 0.00024263118198469992,
      "loss": 3.3228,
      "step": 55400
    },
    {
      "epoch": 5.968141211925519,
      "grad_norm": 0.753193199634552,
      "learning_rate": 0.0002423079409546385,
      "loss": 3.3444,
      "step": 55450
    },
    {
      "epoch": 5.973522763965128,
      "grad_norm": 0.7042390704154968,
      "learning_rate": 0.00024198469992457706,
      "loss": 3.3412,
      "step": 55500
    },
    {
      "epoch": 5.978904316004736,
      "grad_norm": 0.731015682220459,
      "learning_rate": 0.00024166145889451568,
      "loss": 3.3314,
      "step": 55550
    },
    {
      "epoch": 5.984285868044344,
      "grad_norm": 0.6974270343780518,
      "learning_rate": 0.00024133821786445425,
      "loss": 3.3373,
      "step": 55600
    },
    {
      "epoch": 5.989667420083952,
      "grad_norm": 0.6975585222244263,
      "learning_rate": 0.0002410149768343928,
      "loss": 3.3336,
      "step": 55650
    },
    {
      "epoch": 5.995048972123561,
      "grad_norm": 0.7274820804595947,
      "learning_rate": 0.0002406917358043314,
      "loss": 3.3367,
      "step": 55700
    },
    {
      "epoch": 6.000430524163169,
      "grad_norm": 0.7174186110496521,
      "learning_rate": 0.00024036849477427,
      "loss": 3.3261,
      "step": 55750
    },
    {
      "epoch": 6.005812076202777,
      "grad_norm": 0.731120228767395,
      "learning_rate": 0.00024004525374420857,
      "loss": 3.2349,
      "step": 55800
    },
    {
      "epoch": 6.011193628242385,
      "grad_norm": 0.7165818214416504,
      "learning_rate": 0.00023972201271414716,
      "loss": 3.2397,
      "step": 55850
    },
    {
      "epoch": 6.016575180281993,
      "grad_norm": 0.7065151333808899,
      "learning_rate": 0.00023939877168408573,
      "loss": 3.245,
      "step": 55900
    },
    {
      "epoch": 6.021956732321602,
      "grad_norm": 0.7152194380760193,
      "learning_rate": 0.00023907553065402433,
      "loss": 3.2369,
      "step": 55950
    },
    {
      "epoch": 6.0273382843612096,
      "grad_norm": 0.701077401638031,
      "learning_rate": 0.00023875228962396292,
      "loss": 3.2471,
      "step": 56000
    },
    {
      "epoch": 6.0273382843612096,
      "eval_accuracy": 0.38438479811369897,
      "eval_loss": 3.3833868503570557,
      "eval_runtime": 189.39,
      "eval_samples_per_second": 95.1,
      "eval_steps_per_second": 5.945,
      "step": 56000
    },
    {
      "epoch": 6.032719836400818,
      "grad_norm": 0.7255508303642273,
      "learning_rate": 0.0002384290485939015,
      "loss": 3.2479,
      "step": 56050
    },
    {
      "epoch": 6.038101388440427,
      "grad_norm": 0.7346521615982056,
      "learning_rate": 0.00023810580756384006,
      "loss": 3.2378,
      "step": 56100
    },
    {
      "epoch": 6.043482940480034,
      "grad_norm": 0.7424272298812866,
      "learning_rate": 0.00023778256653377868,
      "loss": 3.2473,
      "step": 56150
    },
    {
      "epoch": 6.048864492519643,
      "grad_norm": 0.7344836592674255,
      "learning_rate": 0.00023745932550371725,
      "loss": 3.2532,
      "step": 56200
    },
    {
      "epoch": 6.0542460445592505,
      "grad_norm": 0.7402034401893616,
      "learning_rate": 0.00023713608447365584,
      "loss": 3.2613,
      "step": 56250
    },
    {
      "epoch": 6.059627596598859,
      "grad_norm": 0.7091254591941833,
      "learning_rate": 0.00023681284344359444,
      "loss": 3.244,
      "step": 56300
    },
    {
      "epoch": 6.065009148638468,
      "grad_norm": 0.7916795015335083,
      "learning_rate": 0.000236489602413533,
      "loss": 3.2501,
      "step": 56350
    },
    {
      "epoch": 6.070390700678075,
      "grad_norm": 0.7621213793754578,
      "learning_rate": 0.0002361663613834716,
      "loss": 3.2423,
      "step": 56400
    },
    {
      "epoch": 6.075772252717684,
      "grad_norm": 0.7175202965736389,
      "learning_rate": 0.00023584312035341017,
      "loss": 3.2649,
      "step": 56450
    },
    {
      "epoch": 6.081153804757292,
      "grad_norm": 0.7330465912818909,
      "learning_rate": 0.00023551987932334876,
      "loss": 3.2458,
      "step": 56500
    },
    {
      "epoch": 6.0865353567969,
      "grad_norm": 0.7004676461219788,
      "learning_rate": 0.00023519663829328735,
      "loss": 3.2766,
      "step": 56550
    },
    {
      "epoch": 6.091916908836509,
      "grad_norm": 0.7486772537231445,
      "learning_rate": 0.00023487339726322592,
      "loss": 3.2505,
      "step": 56600
    },
    {
      "epoch": 6.097298460876116,
      "grad_norm": 0.7543885111808777,
      "learning_rate": 0.0002345501562331645,
      "loss": 3.2639,
      "step": 56650
    },
    {
      "epoch": 6.102680012915725,
      "grad_norm": 0.8027951717376709,
      "learning_rate": 0.0002342269152031031,
      "loss": 3.2477,
      "step": 56700
    },
    {
      "epoch": 6.108061564955333,
      "grad_norm": 0.7289658784866333,
      "learning_rate": 0.00023390367417304168,
      "loss": 3.2684,
      "step": 56750
    },
    {
      "epoch": 6.113443116994941,
      "grad_norm": 0.7392014265060425,
      "learning_rate": 0.00023358043314298025,
      "loss": 3.2559,
      "step": 56800
    },
    {
      "epoch": 6.11882466903455,
      "grad_norm": 0.7510274052619934,
      "learning_rate": 0.00023325719211291887,
      "loss": 3.246,
      "step": 56850
    },
    {
      "epoch": 6.124206221074158,
      "grad_norm": 0.7307837605476379,
      "learning_rate": 0.00023293395108285744,
      "loss": 3.2656,
      "step": 56900
    },
    {
      "epoch": 6.129587773113766,
      "grad_norm": 0.6725836992263794,
      "learning_rate": 0.000232610710052796,
      "loss": 3.2716,
      "step": 56950
    },
    {
      "epoch": 6.134969325153374,
      "grad_norm": 0.7337178587913513,
      "learning_rate": 0.0002322874690227346,
      "loss": 3.2462,
      "step": 57000
    },
    {
      "epoch": 6.134969325153374,
      "eval_accuracy": 0.3844831289771711,
      "eval_loss": 3.380772113800049,
      "eval_runtime": 188.4731,
      "eval_samples_per_second": 95.563,
      "eval_steps_per_second": 5.974,
      "step": 57000
    },
    {
      "epoch": 6.140350877192983,
      "grad_norm": 0.748707115650177,
      "learning_rate": 0.0002319642279926732,
      "loss": 3.2595,
      "step": 57050
    },
    {
      "epoch": 6.1457324292325906,
      "grad_norm": 0.7352463603019714,
      "learning_rate": 0.00023164098696261176,
      "loss": 3.2753,
      "step": 57100
    },
    {
      "epoch": 6.151113981272199,
      "grad_norm": 0.7280080318450928,
      "learning_rate": 0.00023131774593255036,
      "loss": 3.2605,
      "step": 57150
    },
    {
      "epoch": 6.156495533311807,
      "grad_norm": 0.7265729308128357,
      "learning_rate": 0.00023099450490248892,
      "loss": 3.2595,
      "step": 57200
    },
    {
      "epoch": 6.161877085351415,
      "grad_norm": 0.7125341892242432,
      "learning_rate": 0.00023067126387242754,
      "loss": 3.271,
      "step": 57250
    },
    {
      "epoch": 6.167258637391024,
      "grad_norm": 0.7114881277084351,
      "learning_rate": 0.0002303480228423661,
      "loss": 3.2945,
      "step": 57300
    },
    {
      "epoch": 6.1726401894306315,
      "grad_norm": 0.7504659295082092,
      "learning_rate": 0.00023002478181230468,
      "loss": 3.2772,
      "step": 57350
    },
    {
      "epoch": 6.17802174147024,
      "grad_norm": 0.7812405228614807,
      "learning_rate": 0.00022970154078224327,
      "loss": 3.2607,
      "step": 57400
    },
    {
      "epoch": 6.183403293509849,
      "grad_norm": 0.7458269000053406,
      "learning_rate": 0.00022937829975218187,
      "loss": 3.2678,
      "step": 57450
    },
    {
      "epoch": 6.188784845549456,
      "grad_norm": 0.7154477834701538,
      "learning_rate": 0.00022905505872212044,
      "loss": 3.2845,
      "step": 57500
    },
    {
      "epoch": 6.194166397589065,
      "grad_norm": 0.73448246717453,
      "learning_rate": 0.00022873181769205903,
      "loss": 3.2689,
      "step": 57550
    },
    {
      "epoch": 6.1995479496286725,
      "grad_norm": 0.7485749125480652,
      "learning_rate": 0.0002284085766619976,
      "loss": 3.2522,
      "step": 57600
    },
    {
      "epoch": 6.204929501668281,
      "grad_norm": 0.7420584559440613,
      "learning_rate": 0.0002280853356319362,
      "loss": 3.2767,
      "step": 57650
    },
    {
      "epoch": 6.21031105370789,
      "grad_norm": 0.7274873852729797,
      "learning_rate": 0.0002277620946018748,
      "loss": 3.273,
      "step": 57700
    },
    {
      "epoch": 6.215692605747497,
      "grad_norm": 0.7140420079231262,
      "learning_rate": 0.00022743885357181336,
      "loss": 3.2707,
      "step": 57750
    },
    {
      "epoch": 6.221074157787106,
      "grad_norm": 0.7353839874267578,
      "learning_rate": 0.00022711561254175192,
      "loss": 3.2803,
      "step": 57800
    },
    {
      "epoch": 6.226455709826714,
      "grad_norm": 0.7341933250427246,
      "learning_rate": 0.00022679237151169054,
      "loss": 3.2767,
      "step": 57850
    },
    {
      "epoch": 6.231837261866322,
      "grad_norm": 0.7246152758598328,
      "learning_rate": 0.0002264691304816291,
      "loss": 3.2635,
      "step": 57900
    },
    {
      "epoch": 6.237218813905931,
      "grad_norm": 0.7108727097511292,
      "learning_rate": 0.00022614588945156768,
      "loss": 3.2653,
      "step": 57950
    },
    {
      "epoch": 6.242600365945538,
      "grad_norm": 0.7610341310501099,
      "learning_rate": 0.0002258226484215063,
      "loss": 3.2765,
      "step": 58000
    },
    {
      "epoch": 6.242600365945538,
      "eval_accuracy": 0.3848420094656223,
      "eval_loss": 3.3777780532836914,
      "eval_runtime": 192.1758,
      "eval_samples_per_second": 93.721,
      "eval_steps_per_second": 5.859,
      "step": 58000
    },
    {
      "epoch": 6.247981917985147,
      "grad_norm": 0.7457414269447327,
      "learning_rate": 0.0002255058722120461,
      "loss": 3.2722,
      "step": 58050
    },
    {
      "epoch": 6.253363470024755,
      "grad_norm": 0.7205162048339844,
      "learning_rate": 0.00022518263118198468,
      "loss": 3.2751,
      "step": 58100
    },
    {
      "epoch": 6.258745022064363,
      "grad_norm": 0.7465177178382874,
      "learning_rate": 0.00022485939015192327,
      "loss": 3.2776,
      "step": 58150
    },
    {
      "epoch": 6.264126574103972,
      "grad_norm": 0.7244702577590942,
      "learning_rate": 0.00022453614912186186,
      "loss": 3.2886,
      "step": 58200
    },
    {
      "epoch": 6.26950812614358,
      "grad_norm": 0.7464881539344788,
      "learning_rate": 0.00022421290809180043,
      "loss": 3.2689,
      "step": 58250
    },
    {
      "epoch": 6.274889678183188,
      "grad_norm": 0.7598362565040588,
      "learning_rate": 0.000223889667061739,
      "loss": 3.2748,
      "step": 58300
    },
    {
      "epoch": 6.280271230222796,
      "grad_norm": 0.7493430376052856,
      "learning_rate": 0.00022356642603167762,
      "loss": 3.28,
      "step": 58350
    },
    {
      "epoch": 6.285652782262405,
      "grad_norm": 0.7567138075828552,
      "learning_rate": 0.0002232431850016162,
      "loss": 3.2745,
      "step": 58400
    },
    {
      "epoch": 6.2910343343020125,
      "grad_norm": 0.7203346490859985,
      "learning_rate": 0.00022291994397155476,
      "loss": 3.2554,
      "step": 58450
    },
    {
      "epoch": 6.296415886341621,
      "grad_norm": 0.7478615045547485,
      "learning_rate": 0.00022259670294149338,
      "loss": 3.2619,
      "step": 58500
    },
    {
      "epoch": 6.301797438381229,
      "grad_norm": 0.7262988686561584,
      "learning_rate": 0.00022227346191143195,
      "loss": 3.2692,
      "step": 58550
    },
    {
      "epoch": 6.307178990420837,
      "grad_norm": 0.8011294007301331,
      "learning_rate": 0.00022195022088137051,
      "loss": 3.2777,
      "step": 58600
    },
    {
      "epoch": 6.312560542460446,
      "grad_norm": 0.75673907995224,
      "learning_rate": 0.0002216269798513091,
      "loss": 3.2734,
      "step": 58650
    },
    {
      "epoch": 6.3179420945000535,
      "grad_norm": 0.7286475896835327,
      "learning_rate": 0.00022130373882124768,
      "loss": 3.2771,
      "step": 58700
    },
    {
      "epoch": 6.323323646539662,
      "grad_norm": 0.7441202998161316,
      "learning_rate": 0.00022098049779118627,
      "loss": 3.2792,
      "step": 58750
    },
    {
      "epoch": 6.328705198579271,
      "grad_norm": 0.7292731404304504,
      "learning_rate": 0.00022065725676112487,
      "loss": 3.2711,
      "step": 58800
    },
    {
      "epoch": 6.334086750618878,
      "grad_norm": 0.7157315611839294,
      "learning_rate": 0.00022033401573106343,
      "loss": 3.2664,
      "step": 58850
    },
    {
      "epoch": 6.339468302658487,
      "grad_norm": 0.6826527714729309,
      "learning_rate": 0.000220010774701002,
      "loss": 3.2685,
      "step": 58900
    },
    {
      "epoch": 6.344849854698095,
      "grad_norm": 0.8083575367927551,
      "learning_rate": 0.00021968753367094062,
      "loss": 3.295,
      "step": 58950
    },
    {
      "epoch": 6.350231406737703,
      "grad_norm": 0.7405440211296082,
      "learning_rate": 0.0002193642926408792,
      "loss": 3.2901,
      "step": 59000
    },
    {
      "epoch": 6.350231406737703,
      "eval_accuracy": 0.38522750991158805,
      "eval_loss": 3.3743677139282227,
      "eval_runtime": 186.7829,
      "eval_samples_per_second": 96.427,
      "eval_steps_per_second": 6.028,
      "step": 59000
    },
    {
      "epoch": 6.355612958777312,
      "grad_norm": 0.8786008954048157,
      "learning_rate": 0.00021904105161081778,
      "loss": 3.2799,
      "step": 59050
    },
    {
      "epoch": 6.360994510816919,
      "grad_norm": 0.7826117277145386,
      "learning_rate": 0.00021871781058075638,
      "loss": 3.2976,
      "step": 59100
    },
    {
      "epoch": 6.366376062856528,
      "grad_norm": 0.7272822856903076,
      "learning_rate": 0.00021839456955069495,
      "loss": 3.2461,
      "step": 59150
    },
    {
      "epoch": 6.371757614896136,
      "grad_norm": 0.751649022102356,
      "learning_rate": 0.00021807132852063354,
      "loss": 3.2867,
      "step": 59200
    },
    {
      "epoch": 6.377139166935744,
      "grad_norm": 0.7731199860572815,
      "learning_rate": 0.0002177480874905721,
      "loss": 3.2932,
      "step": 59250
    },
    {
      "epoch": 6.382520718975353,
      "grad_norm": 0.7885883450508118,
      "learning_rate": 0.0002174248464605107,
      "loss": 3.2742,
      "step": 59300
    },
    {
      "epoch": 6.387902271014961,
      "grad_norm": 0.7639923095703125,
      "learning_rate": 0.0002171016054304493,
      "loss": 3.2692,
      "step": 59350
    },
    {
      "epoch": 6.393283823054569,
      "grad_norm": 0.7304225564002991,
      "learning_rate": 0.00021677836440038787,
      "loss": 3.2692,
      "step": 59400
    },
    {
      "epoch": 6.398665375094177,
      "grad_norm": 0.7894868850708008,
      "learning_rate": 0.00021645512337032643,
      "loss": 3.2803,
      "step": 59450
    },
    {
      "epoch": 6.404046927133785,
      "grad_norm": 0.8280077576637268,
      "learning_rate": 0.00021613188234026506,
      "loss": 3.2775,
      "step": 59500
    },
    {
      "epoch": 6.4094284791733935,
      "grad_norm": 0.7302403450012207,
      "learning_rate": 0.00021580864131020362,
      "loss": 3.2717,
      "step": 59550
    },
    {
      "epoch": 6.414810031213002,
      "grad_norm": 0.7687423825263977,
      "learning_rate": 0.0002154854002801422,
      "loss": 3.2619,
      "step": 59600
    },
    {
      "epoch": 6.42019158325261,
      "grad_norm": 0.7914033532142639,
      "learning_rate": 0.0002151621592500808,
      "loss": 3.272,
      "step": 59650
    },
    {
      "epoch": 6.425573135292218,
      "grad_norm": 0.7601446509361267,
      "learning_rate": 0.00021483891822001938,
      "loss": 3.2843,
      "step": 59700
    },
    {
      "epoch": 6.430954687331827,
      "grad_norm": 0.7262029051780701,
      "learning_rate": 0.00021451567718995795,
      "loss": 3.2697,
      "step": 59750
    },
    {
      "epoch": 6.4363362393714345,
      "grad_norm": 0.7383862733840942,
      "learning_rate": 0.00021419243615989654,
      "loss": 3.2684,
      "step": 59800
    },
    {
      "epoch": 6.441717791411043,
      "grad_norm": 0.7575372457504272,
      "learning_rate": 0.00021386919512983514,
      "loss": 3.2828,
      "step": 59850
    },
    {
      "epoch": 6.447099343450651,
      "grad_norm": 0.7728779315948486,
      "learning_rate": 0.0002135459540997737,
      "loss": 3.2929,
      "step": 59900
    },
    {
      "epoch": 6.452480895490259,
      "grad_norm": 0.8044180870056152,
      "learning_rate": 0.0002132227130697123,
      "loss": 3.2759,
      "step": 59950
    },
    {
      "epoch": 6.457862447529868,
      "grad_norm": 0.764613151550293,
      "learning_rate": 0.00021289947203965087,
      "loss": 3.278,
      "step": 60000
    },
    {
      "epoch": 6.457862447529868,
      "eval_accuracy": 0.385221099391207,
      "eval_loss": 3.372232675552368,
      "eval_runtime": 188.2877,
      "eval_samples_per_second": 95.657,
      "eval_steps_per_second": 5.98,
      "step": 60000
    },
    {
      "epoch": 6.4632439995694755,
      "grad_norm": 0.8027775287628174,
      "learning_rate": 0.0002125762310095895,
      "loss": 3.2873,
      "step": 60050
    },
    {
      "epoch": 6.468625551609084,
      "grad_norm": 0.7597294449806213,
      "learning_rate": 0.00021225298997952806,
      "loss": 3.2629,
      "step": 60100
    },
    {
      "epoch": 6.474007103648693,
      "grad_norm": 0.7523579597473145,
      "learning_rate": 0.00021193621377006786,
      "loss": 3.2758,
      "step": 60150
    },
    {
      "epoch": 6.4793886556883,
      "grad_norm": 0.748062789440155,
      "learning_rate": 0.00021161297274000646,
      "loss": 3.2877,
      "step": 60200
    },
    {
      "epoch": 6.484770207727909,
      "grad_norm": 0.7514104843139648,
      "learning_rate": 0.00021128973170994502,
      "loss": 3.2783,
      "step": 60250
    },
    {
      "epoch": 6.490151759767517,
      "grad_norm": 0.7939339280128479,
      "learning_rate": 0.00021096649067988362,
      "loss": 3.2913,
      "step": 60300
    },
    {
      "epoch": 6.495533311807125,
      "grad_norm": 0.8355913758277893,
      "learning_rate": 0.00021064324964982219,
      "loss": 3.2932,
      "step": 60350
    },
    {
      "epoch": 6.500914863846734,
      "grad_norm": 0.7865014672279358,
      "learning_rate": 0.00021032000861976078,
      "loss": 3.2765,
      "step": 60400
    },
    {
      "epoch": 6.506296415886341,
      "grad_norm": 0.7651088237762451,
      "learning_rate": 0.00020999676758969938,
      "loss": 3.2574,
      "step": 60450
    },
    {
      "epoch": 6.51167796792595,
      "grad_norm": 0.7261556386947632,
      "learning_rate": 0.00020967352655963794,
      "loss": 3.2843,
      "step": 60500
    },
    {
      "epoch": 6.517059519965558,
      "grad_norm": 0.7609688639640808,
      "learning_rate": 0.0002093502855295765,
      "loss": 3.28,
      "step": 60550
    },
    {
      "epoch": 6.522441072005166,
      "grad_norm": 0.7995643019676208,
      "learning_rate": 0.00020902704449951513,
      "loss": 3.2997,
      "step": 60600
    },
    {
      "epoch": 6.5278226240447745,
      "grad_norm": 0.7846376299858093,
      "learning_rate": 0.0002087038034694537,
      "loss": 3.2844,
      "step": 60650
    },
    {
      "epoch": 6.533204176084383,
      "grad_norm": 0.7783578634262085,
      "learning_rate": 0.00020838056243939227,
      "loss": 3.2709,
      "step": 60700
    },
    {
      "epoch": 6.538585728123991,
      "grad_norm": 0.7254753708839417,
      "learning_rate": 0.0002080573214093309,
      "loss": 3.2839,
      "step": 60750
    },
    {
      "epoch": 6.543967280163599,
      "grad_norm": 0.7896965742111206,
      "learning_rate": 0.00020773408037926946,
      "loss": 3.2801,
      "step": 60800
    },
    {
      "epoch": 6.549348832203208,
      "grad_norm": 0.7265011072158813,
      "learning_rate": 0.00020741083934920805,
      "loss": 3.2662,
      "step": 60850
    },
    {
      "epoch": 6.5547303842428155,
      "grad_norm": 0.7396041750907898,
      "learning_rate": 0.00020708759831914662,
      "loss": 3.2804,
      "step": 60900
    },
    {
      "epoch": 6.560111936282424,
      "grad_norm": 0.728546679019928,
      "learning_rate": 0.00020676435728908521,
      "loss": 3.2758,
      "step": 60950
    },
    {
      "epoch": 6.565493488322032,
      "grad_norm": 0.7289762496948242,
      "learning_rate": 0.0002064411162590238,
      "loss": 3.2745,
      "step": 61000
    },
    {
      "epoch": 6.565493488322032,
      "eval_accuracy": 0.38588616371751944,
      "eval_loss": 3.368147850036621,
      "eval_runtime": 194.6279,
      "eval_samples_per_second": 92.541,
      "eval_steps_per_second": 5.785,
      "step": 61000
    },
    {
      "epoch": 6.57087504036164,
      "grad_norm": 0.7441412806510925,
      "learning_rate": 0.00020611787522896238,
      "loss": 3.2974,
      "step": 61050
    },
    {
      "epoch": 6.576256592401249,
      "grad_norm": 0.7635152339935303,
      "learning_rate": 0.00020579463419890094,
      "loss": 3.2837,
      "step": 61100
    },
    {
      "epoch": 6.5816381444408565,
      "grad_norm": 0.7599185705184937,
      "learning_rate": 0.00020547139316883957,
      "loss": 3.285,
      "step": 61150
    },
    {
      "epoch": 6.587019696480465,
      "grad_norm": 0.7504415512084961,
      "learning_rate": 0.00020514815213877813,
      "loss": 3.2897,
      "step": 61200
    },
    {
      "epoch": 6.592401248520073,
      "grad_norm": 0.7235896587371826,
      "learning_rate": 0.0002048249111087167,
      "loss": 3.2752,
      "step": 61250
    },
    {
      "epoch": 6.597782800559681,
      "grad_norm": 0.8120146989822388,
      "learning_rate": 0.00020450167007865532,
      "loss": 3.2955,
      "step": 61300
    },
    {
      "epoch": 6.60316435259929,
      "grad_norm": 0.7295153737068176,
      "learning_rate": 0.0002041784290485939,
      "loss": 3.2929,
      "step": 61350
    },
    {
      "epoch": 6.608545904638898,
      "grad_norm": 0.8592133522033691,
      "learning_rate": 0.00020385518801853246,
      "loss": 3.269,
      "step": 61400
    },
    {
      "epoch": 6.613927456678506,
      "grad_norm": 0.7795992493629456,
      "learning_rate": 0.00020353194698847105,
      "loss": 3.2745,
      "step": 61450
    },
    {
      "epoch": 6.619309008718115,
      "grad_norm": 0.7527534365653992,
      "learning_rate": 0.00020320870595840965,
      "loss": 3.2848,
      "step": 61500
    },
    {
      "epoch": 6.624690560757722,
      "grad_norm": 0.7755993604660034,
      "learning_rate": 0.00020288546492834821,
      "loss": 3.2751,
      "step": 61550
    },
    {
      "epoch": 6.630072112797331,
      "grad_norm": 0.7324228286743164,
      "learning_rate": 0.0002025622238982868,
      "loss": 3.2978,
      "step": 61600
    },
    {
      "epoch": 6.635453664836939,
      "grad_norm": 0.8143682479858398,
      "learning_rate": 0.00020223898286822538,
      "loss": 3.2832,
      "step": 61650
    },
    {
      "epoch": 6.640835216876547,
      "grad_norm": 0.8126354217529297,
      "learning_rate": 0.00020191574183816397,
      "loss": 3.2677,
      "step": 61700
    },
    {
      "epoch": 6.6462167689161555,
      "grad_norm": 0.7952998280525208,
      "learning_rate": 0.00020159250080810257,
      "loss": 3.2809,
      "step": 61750
    },
    {
      "epoch": 6.651598320955763,
      "grad_norm": 0.761247992515564,
      "learning_rate": 0.00020126925977804113,
      "loss": 3.2664,
      "step": 61800
    },
    {
      "epoch": 6.656979872995372,
      "grad_norm": 0.7768645286560059,
      "learning_rate": 0.00020094601874797976,
      "loss": 3.2588,
      "step": 61850
    },
    {
      "epoch": 6.66236142503498,
      "grad_norm": 0.7526816129684448,
      "learning_rate": 0.00020062277771791832,
      "loss": 3.2952,
      "step": 61900
    },
    {
      "epoch": 6.667742977074588,
      "grad_norm": 0.7366494536399841,
      "learning_rate": 0.0002002995366878569,
      "loss": 3.2678,
      "step": 61950
    },
    {
      "epoch": 6.6731245291141965,
      "grad_norm": 1.4482053518295288,
      "learning_rate": 0.00019997629565779548,
      "loss": 3.2835,
      "step": 62000
    },
    {
      "epoch": 6.6731245291141965,
      "eval_accuracy": 0.38623950290869213,
      "eval_loss": 3.3651089668273926,
      "eval_runtime": 188.594,
      "eval_samples_per_second": 95.501,
      "eval_steps_per_second": 5.97,
      "step": 62000
    },
    {
      "epoch": 6.678506081153805,
      "grad_norm": 0.7577878832817078,
      "learning_rate": 0.00019965305462773405,
      "loss": 3.2835,
      "step": 62050
    },
    {
      "epoch": 6.683887633193413,
      "grad_norm": 0.7573139667510986,
      "learning_rate": 0.00019932981359767265,
      "loss": 3.2856,
      "step": 62100
    },
    {
      "epoch": 6.689269185233021,
      "grad_norm": 0.7512734532356262,
      "learning_rate": 0.00019900657256761124,
      "loss": 3.3055,
      "step": 62150
    },
    {
      "epoch": 6.69465073727263,
      "grad_norm": 0.6965559720993042,
      "learning_rate": 0.0001986833315375498,
      "loss": 3.2572,
      "step": 62200
    },
    {
      "epoch": 6.7000322893122375,
      "grad_norm": 0.7365757822990417,
      "learning_rate": 0.00019836009050748838,
      "loss": 3.2758,
      "step": 62250
    },
    {
      "epoch": 6.705413841351846,
      "grad_norm": 0.772959291934967,
      "learning_rate": 0.000198036849477427,
      "loss": 3.2722,
      "step": 62300
    },
    {
      "epoch": 6.710795393391454,
      "grad_norm": 0.7538803815841675,
      "learning_rate": 0.00019771360844736557,
      "loss": 3.2735,
      "step": 62350
    },
    {
      "epoch": 6.716176945431062,
      "grad_norm": 0.7666158080101013,
      "learning_rate": 0.0001973968322379054,
      "loss": 3.2707,
      "step": 62400
    },
    {
      "epoch": 6.721558497470671,
      "grad_norm": 0.7154910564422607,
      "learning_rate": 0.00019707359120784397,
      "loss": 3.2689,
      "step": 62450
    },
    {
      "epoch": 6.7269400495102785,
      "grad_norm": 0.7540467977523804,
      "learning_rate": 0.00019675035017778253,
      "loss": 3.288,
      "step": 62500
    },
    {
      "epoch": 6.732321601549887,
      "grad_norm": 0.7910266518592834,
      "learning_rate": 0.00019642710914772113,
      "loss": 3.2815,
      "step": 62550
    },
    {
      "epoch": 6.737703153589496,
      "grad_norm": 0.7217994332313538,
      "learning_rate": 0.00019610386811765972,
      "loss": 3.2911,
      "step": 62600
    },
    {
      "epoch": 6.743084705629103,
      "grad_norm": 0.7658746242523193,
      "learning_rate": 0.00019578062708759832,
      "loss": 3.2899,
      "step": 62650
    },
    {
      "epoch": 6.748466257668712,
      "grad_norm": 0.6802282929420471,
      "learning_rate": 0.00019545738605753689,
      "loss": 3.2835,
      "step": 62700
    },
    {
      "epoch": 6.75384780970832,
      "grad_norm": 0.7657431960105896,
      "learning_rate": 0.00019513414502747545,
      "loss": 3.2901,
      "step": 62750
    },
    {
      "epoch": 6.759229361747928,
      "grad_norm": 0.7852950096130371,
      "learning_rate": 0.00019481090399741408,
      "loss": 3.2826,
      "step": 62800
    },
    {
      "epoch": 6.7646109137875365,
      "grad_norm": 0.7820141911506653,
      "learning_rate": 0.00019448766296735264,
      "loss": 3.2888,
      "step": 62850
    },
    {
      "epoch": 6.769992465827144,
      "grad_norm": 0.7851532697677612,
      "learning_rate": 0.0001941644219372912,
      "loss": 3.2842,
      "step": 62900
    },
    {
      "epoch": 6.775374017866753,
      "grad_norm": 0.7769220471382141,
      "learning_rate": 0.00019384118090722983,
      "loss": 3.2763,
      "step": 62950
    },
    {
      "epoch": 6.780755569906361,
      "grad_norm": 0.8255255818367004,
      "learning_rate": 0.0001935179398771684,
      "loss": 3.2679,
      "step": 63000
    },
    {
      "epoch": 6.780755569906361,
      "eval_accuracy": 0.3866225043382382,
      "eval_loss": 3.3580121994018555,
      "eval_runtime": 192.4167,
      "eval_samples_per_second": 93.604,
      "eval_steps_per_second": 5.852,
      "step": 63000
    },
    {
      "epoch": 6.786137121945969,
      "grad_norm": 0.7955919504165649,
      "learning_rate": 0.00019319469884710697,
      "loss": 3.3156,
      "step": 63050
    },
    {
      "epoch": 6.7915186739855775,
      "grad_norm": 0.7468529343605042,
      "learning_rate": 0.00019287145781704556,
      "loss": 3.2845,
      "step": 63100
    },
    {
      "epoch": 6.796900226025185,
      "grad_norm": 0.7585172057151794,
      "learning_rate": 0.00019254821678698416,
      "loss": 3.2838,
      "step": 63150
    },
    {
      "epoch": 6.802281778064794,
      "grad_norm": 0.7644891142845154,
      "learning_rate": 0.00019222497575692272,
      "loss": 3.287,
      "step": 63200
    },
    {
      "epoch": 6.807663330104402,
      "grad_norm": 0.7604746222496033,
      "learning_rate": 0.00019190173472686132,
      "loss": 3.2754,
      "step": 63250
    },
    {
      "epoch": 6.813044882144011,
      "grad_norm": 0.7463005781173706,
      "learning_rate": 0.0001915784936967999,
      "loss": 3.2714,
      "step": 63300
    },
    {
      "epoch": 6.8184264341836185,
      "grad_norm": 0.7868977189064026,
      "learning_rate": 0.00019125525266673845,
      "loss": 3.2893,
      "step": 63350
    },
    {
      "epoch": 6.823807986223227,
      "grad_norm": 0.7975063920021057,
      "learning_rate": 0.00019093201163667708,
      "loss": 3.2875,
      "step": 63400
    },
    {
      "epoch": 6.829189538262835,
      "grad_norm": 0.7531560659408569,
      "learning_rate": 0.00019060877060661564,
      "loss": 3.2672,
      "step": 63450
    },
    {
      "epoch": 6.834571090302443,
      "grad_norm": 0.7574560046195984,
      "learning_rate": 0.0001902855295765542,
      "loss": 3.2879,
      "step": 63500
    },
    {
      "epoch": 6.839952642342052,
      "grad_norm": 0.7556299567222595,
      "learning_rate": 0.00018996228854649283,
      "loss": 3.2743,
      "step": 63550
    },
    {
      "epoch": 6.8453341943816595,
      "grad_norm": 0.7894273996353149,
      "learning_rate": 0.0001896390475164314,
      "loss": 3.2934,
      "step": 63600
    },
    {
      "epoch": 6.850715746421268,
      "grad_norm": 0.7319865822792053,
      "learning_rate": 0.00018931580648637,
      "loss": 3.2779,
      "step": 63650
    },
    {
      "epoch": 6.856097298460876,
      "grad_norm": 0.7557561993598938,
      "learning_rate": 0.00018899256545630856,
      "loss": 3.2673,
      "step": 63700
    },
    {
      "epoch": 6.861478850500484,
      "grad_norm": 0.7362945675849915,
      "learning_rate": 0.00018866932442624716,
      "loss": 3.2942,
      "step": 63750
    },
    {
      "epoch": 6.866860402540093,
      "grad_norm": 0.7775737643241882,
      "learning_rate": 0.00018834608339618575,
      "loss": 3.2851,
      "step": 63800
    },
    {
      "epoch": 6.8722419545797,
      "grad_norm": 0.7811369895935059,
      "learning_rate": 0.00018802284236612432,
      "loss": 3.2999,
      "step": 63850
    },
    {
      "epoch": 6.877623506619309,
      "grad_norm": 0.8266394734382629,
      "learning_rate": 0.0001876996013360629,
      "loss": 3.2762,
      "step": 63900
    },
    {
      "epoch": 6.8830050586589175,
      "grad_norm": 0.7973335981369019,
      "learning_rate": 0.0001873763603060015,
      "loss": 3.2975,
      "step": 63950
    },
    {
      "epoch": 6.888386610698525,
      "grad_norm": 0.7815412282943726,
      "learning_rate": 0.00018705311927594008,
      "loss": 3.2874,
      "step": 64000
    },
    {
      "epoch": 6.888386610698525,
      "eval_accuracy": 0.3871754388843261,
      "eval_loss": 3.35444712638855,
      "eval_runtime": 184.7276,
      "eval_samples_per_second": 97.5,
      "eval_steps_per_second": 6.095,
      "step": 64000
    },
    {
      "epoch": 6.893768162738134,
      "grad_norm": 0.7830866575241089,
      "learning_rate": 0.00018672987824587864,
      "loss": 3.2963,
      "step": 64050
    },
    {
      "epoch": 6.899149714777742,
      "grad_norm": 0.7359564900398254,
      "learning_rate": 0.00018640663721581727,
      "loss": 3.273,
      "step": 64100
    },
    {
      "epoch": 6.90453126681735,
      "grad_norm": 0.7692825198173523,
      "learning_rate": 0.00018608339618575583,
      "loss": 3.3013,
      "step": 64150
    },
    {
      "epoch": 6.9099128188569585,
      "grad_norm": 0.7478352189064026,
      "learning_rate": 0.0001857601551556944,
      "loss": 3.3113,
      "step": 64200
    },
    {
      "epoch": 6.915294370896566,
      "grad_norm": 0.7497650980949402,
      "learning_rate": 0.000185436914125633,
      "loss": 3.2845,
      "step": 64250
    },
    {
      "epoch": 6.920675922936175,
      "grad_norm": 0.7364691495895386,
      "learning_rate": 0.0001851136730955716,
      "loss": 3.2899,
      "step": 64300
    },
    {
      "epoch": 6.926057474975783,
      "grad_norm": 0.7794714570045471,
      "learning_rate": 0.00018479043206551016,
      "loss": 3.3022,
      "step": 64350
    },
    {
      "epoch": 6.931439027015391,
      "grad_norm": 0.794359564781189,
      "learning_rate": 0.00018446719103544875,
      "loss": 3.2822,
      "step": 64400
    },
    {
      "epoch": 6.9368205790549995,
      "grad_norm": 0.7515893578529358,
      "learning_rate": 0.00018414395000538732,
      "loss": 3.2808,
      "step": 64450
    },
    {
      "epoch": 6.942202131094608,
      "grad_norm": 0.7882388234138489,
      "learning_rate": 0.00018382070897532591,
      "loss": 3.2947,
      "step": 64500
    },
    {
      "epoch": 6.947583683134216,
      "grad_norm": 0.7737299203872681,
      "learning_rate": 0.0001834974679452645,
      "loss": 3.2901,
      "step": 64550
    },
    {
      "epoch": 6.952965235173824,
      "grad_norm": 0.7482253909111023,
      "learning_rate": 0.00018317422691520308,
      "loss": 3.2742,
      "step": 64600
    },
    {
      "epoch": 6.958346787213433,
      "grad_norm": 0.7834679484367371,
      "learning_rate": 0.0001828509858851417,
      "loss": 3.2763,
      "step": 64650
    },
    {
      "epoch": 6.9637283392530405,
      "grad_norm": 0.8253349661827087,
      "learning_rate": 0.00018252774485508027,
      "loss": 3.2844,
      "step": 64700
    },
    {
      "epoch": 6.969109891292649,
      "grad_norm": 0.7387650012969971,
      "learning_rate": 0.00018221096864562007,
      "loss": 3.2848,
      "step": 64750
    },
    {
      "epoch": 6.974491443332257,
      "grad_norm": 0.7605555653572083,
      "learning_rate": 0.00018188772761555867,
      "loss": 3.2779,
      "step": 64800
    },
    {
      "epoch": 6.979872995371865,
      "grad_norm": 0.7691448926925659,
      "learning_rate": 0.00018156448658549723,
      "loss": 3.2882,
      "step": 64850
    },
    {
      "epoch": 6.985254547411474,
      "grad_norm": 0.7307049632072449,
      "learning_rate": 0.00018124124555543583,
      "loss": 3.259,
      "step": 64900
    },
    {
      "epoch": 6.990636099451081,
      "grad_norm": 0.8200287818908691,
      "learning_rate": 0.0001809180045253744,
      "loss": 3.2969,
      "step": 64950
    },
    {
      "epoch": 6.99601765149069,
      "grad_norm": 0.7977699637413025,
      "learning_rate": 0.00018059476349531296,
      "loss": 3.2851,
      "step": 65000
    },
    {
      "epoch": 6.99601765149069,
      "eval_accuracy": 0.387498789878462,
      "eval_loss": 3.3516526222229004,
      "eval_runtime": 184.2063,
      "eval_samples_per_second": 97.776,
      "eval_steps_per_second": 6.113,
      "step": 65000
    },
    {
      "epoch": 7.0013992035302985,
      "grad_norm": 0.772916853427887,
      "learning_rate": 0.00018027152246525159,
      "loss": 3.2622,
      "step": 65050
    },
    {
      "epoch": 7.006780755569906,
      "grad_norm": 0.7312952876091003,
      "learning_rate": 0.00017994828143519015,
      "loss": 3.2046,
      "step": 65100
    },
    {
      "epoch": 7.012162307609515,
      "grad_norm": 0.7804595232009888,
      "learning_rate": 0.00017962504040512872,
      "loss": 3.2036,
      "step": 65150
    },
    {
      "epoch": 7.017543859649122,
      "grad_norm": 0.7901257276535034,
      "learning_rate": 0.00017930179937506734,
      "loss": 3.1934,
      "step": 65200
    },
    {
      "epoch": 7.022925411688731,
      "grad_norm": 0.8498135209083557,
      "learning_rate": 0.0001789785583450059,
      "loss": 3.1921,
      "step": 65250
    },
    {
      "epoch": 7.0283069637283395,
      "grad_norm": 0.8015549182891846,
      "learning_rate": 0.00017865531731494448,
      "loss": 3.1861,
      "step": 65300
    },
    {
      "epoch": 7.033688515767947,
      "grad_norm": 0.8239368796348572,
      "learning_rate": 0.00017833207628488307,
      "loss": 3.1952,
      "step": 65350
    },
    {
      "epoch": 7.039070067807556,
      "grad_norm": 0.7737782001495361,
      "learning_rate": 0.00017800883525482167,
      "loss": 3.1989,
      "step": 65400
    },
    {
      "epoch": 7.044451619847164,
      "grad_norm": 0.793728232383728,
      "learning_rate": 0.00017768559422476026,
      "loss": 3.2056,
      "step": 65450
    },
    {
      "epoch": 7.049833171886772,
      "grad_norm": 0.7889693379402161,
      "learning_rate": 0.00017736235319469883,
      "loss": 3.2121,
      "step": 65500
    },
    {
      "epoch": 7.0552147239263805,
      "grad_norm": 0.8259330987930298,
      "learning_rate": 0.0001770391121646374,
      "loss": 3.2038,
      "step": 65550
    },
    {
      "epoch": 7.060596275965988,
      "grad_norm": 0.7371861934661865,
      "learning_rate": 0.00017671587113457602,
      "loss": 3.193,
      "step": 65600
    },
    {
      "epoch": 7.065977828005597,
      "grad_norm": 0.8284192681312561,
      "learning_rate": 0.0001763926301045146,
      "loss": 3.2233,
      "step": 65650
    },
    {
      "epoch": 7.071359380045205,
      "grad_norm": 0.773147463798523,
      "learning_rate": 0.00017606938907445315,
      "loss": 3.207,
      "step": 65700
    },
    {
      "epoch": 7.076740932084813,
      "grad_norm": 0.7993577718734741,
      "learning_rate": 0.00017574614804439178,
      "loss": 3.2146,
      "step": 65750
    },
    {
      "epoch": 7.0821224841244215,
      "grad_norm": 0.7624171376228333,
      "learning_rate": 0.00017542290701433034,
      "loss": 3.2135,
      "step": 65800
    },
    {
      "epoch": 7.08750403616403,
      "grad_norm": 0.7635763883590698,
      "learning_rate": 0.0001750996659842689,
      "loss": 3.212,
      "step": 65850
    },
    {
      "epoch": 7.092885588203638,
      "grad_norm": 0.7676170468330383,
      "learning_rate": 0.0001747764249542075,
      "loss": 3.2148,
      "step": 65900
    },
    {
      "epoch": 7.098267140243246,
      "grad_norm": 0.7932909727096558,
      "learning_rate": 0.0001744531839241461,
      "loss": 3.2171,
      "step": 65950
    },
    {
      "epoch": 7.103648692282855,
      "grad_norm": 0.7969586849212646,
      "learning_rate": 0.00017412994289408467,
      "loss": 3.2044,
      "step": 66000
    },
    {
      "epoch": 7.103648692282855,
      "eval_accuracy": 0.3870951444002312,
      "eval_loss": 3.3580446243286133,
      "eval_runtime": 184.1534,
      "eval_samples_per_second": 97.804,
      "eval_steps_per_second": 6.114,
      "step": 66000
    },
    {
      "epoch": 7.109030244322462,
      "grad_norm": 0.7822796702384949,
      "learning_rate": 0.00017380670186402326,
      "loss": 3.2098,
      "step": 66050
    },
    {
      "epoch": 7.114411796362071,
      "grad_norm": 0.7503549456596375,
      "learning_rate": 0.00017348346083396183,
      "loss": 3.227,
      "step": 66100
    },
    {
      "epoch": 7.119793348401679,
      "grad_norm": 0.762039840221405,
      "learning_rate": 0.00017316021980390042,
      "loss": 3.2055,
      "step": 66150
    },
    {
      "epoch": 7.125174900441287,
      "grad_norm": 0.790627121925354,
      "learning_rate": 0.00017283697877383902,
      "loss": 3.219,
      "step": 66200
    },
    {
      "epoch": 7.130556452480896,
      "grad_norm": 0.7792108058929443,
      "learning_rate": 0.0001725137377437776,
      "loss": 3.2048,
      "step": 66250
    },
    {
      "epoch": 7.135938004520503,
      "grad_norm": 0.7453012466430664,
      "learning_rate": 0.00017219049671371615,
      "loss": 3.2094,
      "step": 66300
    },
    {
      "epoch": 7.141319556560112,
      "grad_norm": 0.7889172434806824,
      "learning_rate": 0.00017186725568365478,
      "loss": 3.2263,
      "step": 66350
    },
    {
      "epoch": 7.1467011085997205,
      "grad_norm": 0.7993358969688416,
      "learning_rate": 0.00017154401465359334,
      "loss": 3.2168,
      "step": 66400
    },
    {
      "epoch": 7.152082660639328,
      "grad_norm": 0.7981687784194946,
      "learning_rate": 0.00017122077362353194,
      "loss": 3.2196,
      "step": 66450
    },
    {
      "epoch": 7.157464212678937,
      "grad_norm": 0.7833508849143982,
      "learning_rate": 0.00017089753259347053,
      "loss": 3.2391,
      "step": 66500
    },
    {
      "epoch": 7.162845764718545,
      "grad_norm": 0.7907221913337708,
      "learning_rate": 0.0001705742915634091,
      "loss": 3.2111,
      "step": 66550
    },
    {
      "epoch": 7.168227316758153,
      "grad_norm": 0.7734149098396301,
      "learning_rate": 0.0001702510505333477,
      "loss": 3.2202,
      "step": 66600
    },
    {
      "epoch": 7.1736088687977615,
      "grad_norm": 0.8130728602409363,
      "learning_rate": 0.00016992780950328626,
      "loss": 3.2062,
      "step": 66650
    },
    {
      "epoch": 7.178990420837369,
      "grad_norm": 0.7960207462310791,
      "learning_rate": 0.00016960456847322486,
      "loss": 3.2225,
      "step": 66700
    },
    {
      "epoch": 7.184371972876978,
      "grad_norm": 0.8986379504203796,
      "learning_rate": 0.00016928132744316345,
      "loss": 3.2393,
      "step": 66750
    },
    {
      "epoch": 7.189753524916586,
      "grad_norm": 0.8172544836997986,
      "learning_rate": 0.00016895808641310202,
      "loss": 3.2239,
      "step": 66800
    },
    {
      "epoch": 7.195135076956194,
      "grad_norm": 0.799328088760376,
      "learning_rate": 0.0001686348453830406,
      "loss": 3.2271,
      "step": 66850
    },
    {
      "epoch": 7.2005166289958025,
      "grad_norm": 0.7701752185821533,
      "learning_rate": 0.0001683116043529792,
      "loss": 3.2282,
      "step": 66900
    },
    {
      "epoch": 7.205898181035411,
      "grad_norm": 0.7652912735939026,
      "learning_rate": 0.00016798836332291778,
      "loss": 3.2173,
      "step": 66950
    },
    {
      "epoch": 7.211279733075019,
      "grad_norm": 0.7946365475654602,
      "learning_rate": 0.00016766512229285634,
      "loss": 3.2129,
      "step": 67000
    },
    {
      "epoch": 7.211279733075019,
      "eval_accuracy": 0.38767372102784325,
      "eval_loss": 3.3563520908355713,
      "eval_runtime": 184.2801,
      "eval_samples_per_second": 97.737,
      "eval_steps_per_second": 6.11,
      "step": 67000
    },
    {
      "epoch": 7.216661285114627,
      "grad_norm": 0.7742193937301636,
      "learning_rate": 0.00016734188126279494,
      "loss": 3.2287,
      "step": 67050
    },
    {
      "epoch": 7.222042837154235,
      "grad_norm": 0.8450984954833984,
      "learning_rate": 0.00016701864023273353,
      "loss": 3.2366,
      "step": 67100
    },
    {
      "epoch": 7.2274243891938434,
      "grad_norm": 0.8045157790184021,
      "learning_rate": 0.0001666953992026721,
      "loss": 3.2365,
      "step": 67150
    },
    {
      "epoch": 7.232805941233452,
      "grad_norm": 0.7791523337364197,
      "learning_rate": 0.0001663721581726107,
      "loss": 3.2124,
      "step": 67200
    },
    {
      "epoch": 7.23818749327306,
      "grad_norm": 0.7885828018188477,
      "learning_rate": 0.00016604891714254926,
      "loss": 3.2219,
      "step": 67250
    },
    {
      "epoch": 7.243569045312668,
      "grad_norm": 0.7954239845275879,
      "learning_rate": 0.00016572567611248786,
      "loss": 3.2375,
      "step": 67300
    },
    {
      "epoch": 7.248950597352277,
      "grad_norm": 0.7877938151359558,
      "learning_rate": 0.00016540243508242645,
      "loss": 3.2234,
      "step": 67350
    },
    {
      "epoch": 7.254332149391884,
      "grad_norm": 0.7998811602592468,
      "learning_rate": 0.00016507919405236502,
      "loss": 3.2081,
      "step": 67400
    },
    {
      "epoch": 7.259713701431493,
      "grad_norm": 0.8449048399925232,
      "learning_rate": 0.00016476241784290485,
      "loss": 3.2318,
      "step": 67450
    },
    {
      "epoch": 7.265095253471101,
      "grad_norm": 0.7570925951004028,
      "learning_rate": 0.00016443917681284342,
      "loss": 3.2161,
      "step": 67500
    },
    {
      "epoch": 7.270476805510709,
      "grad_norm": 0.7902700901031494,
      "learning_rate": 0.00016411593578278202,
      "loss": 3.2189,
      "step": 67550
    },
    {
      "epoch": 7.275858357550318,
      "grad_norm": 0.826016366481781,
      "learning_rate": 0.0001637926947527206,
      "loss": 3.2271,
      "step": 67600
    },
    {
      "epoch": 7.281239909589925,
      "grad_norm": 0.8010029792785645,
      "learning_rate": 0.00016346945372265918,
      "loss": 3.2322,
      "step": 67650
    },
    {
      "epoch": 7.286621461629534,
      "grad_norm": 0.7508180141448975,
      "learning_rate": 0.00016314621269259777,
      "loss": 3.2327,
      "step": 67700
    },
    {
      "epoch": 7.2920030136691425,
      "grad_norm": 0.8016991019248962,
      "learning_rate": 0.00016282297166253634,
      "loss": 3.2142,
      "step": 67750
    },
    {
      "epoch": 7.29738456570875,
      "grad_norm": 0.8436378240585327,
      "learning_rate": 0.00016249973063247494,
      "loss": 3.231,
      "step": 67800
    },
    {
      "epoch": 7.302766117748359,
      "grad_norm": 0.7990714311599731,
      "learning_rate": 0.00016217648960241353,
      "loss": 3.2214,
      "step": 67850
    },
    {
      "epoch": 7.308147669787967,
      "grad_norm": 0.7937726378440857,
      "learning_rate": 0.0001618532485723521,
      "loss": 3.236,
      "step": 67900
    },
    {
      "epoch": 7.313529221827575,
      "grad_norm": 0.7853524088859558,
      "learning_rate": 0.00016153000754229067,
      "loss": 3.2419,
      "step": 67950
    },
    {
      "epoch": 7.3189107738671835,
      "grad_norm": 0.7580708861351013,
      "learning_rate": 0.0001612067665122293,
      "loss": 3.2354,
      "step": 68000
    },
    {
      "epoch": 7.3189107738671835,
      "eval_accuracy": 0.38814092844544557,
      "eval_loss": 3.3522469997406006,
      "eval_runtime": 183.9875,
      "eval_samples_per_second": 97.893,
      "eval_steps_per_second": 6.12,
      "step": 68000
    },
    {
      "epoch": 7.324292325906791,
      "grad_norm": 0.8346601128578186,
      "learning_rate": 0.00016088352548216785,
      "loss": 3.2385,
      "step": 68050
    },
    {
      "epoch": 7.3296738779464,
      "grad_norm": 0.7762712836265564,
      "learning_rate": 0.00016056028445210642,
      "loss": 3.2109,
      "step": 68100
    },
    {
      "epoch": 7.335055429986008,
      "grad_norm": 0.8089279532432556,
      "learning_rate": 0.00016023704342204504,
      "loss": 3.2334,
      "step": 68150
    },
    {
      "epoch": 7.340436982025616,
      "grad_norm": 0.8109912276268005,
      "learning_rate": 0.0001599138023919836,
      "loss": 3.2374,
      "step": 68200
    },
    {
      "epoch": 7.3458185340652244,
      "grad_norm": 0.8497414588928223,
      "learning_rate": 0.0001595905613619222,
      "loss": 3.2401,
      "step": 68250
    },
    {
      "epoch": 7.351200086104833,
      "grad_norm": 0.7507008910179138,
      "learning_rate": 0.00015926732033186077,
      "loss": 3.2027,
      "step": 68300
    },
    {
      "epoch": 7.356581638144441,
      "grad_norm": 0.8215854167938232,
      "learning_rate": 0.00015894407930179934,
      "loss": 3.2319,
      "step": 68350
    },
    {
      "epoch": 7.361963190184049,
      "grad_norm": 0.7927557229995728,
      "learning_rate": 0.00015862083827173796,
      "loss": 3.2038,
      "step": 68400
    },
    {
      "epoch": 7.367344742223658,
      "grad_norm": 0.8084812760353088,
      "learning_rate": 0.00015829759724167653,
      "loss": 3.2206,
      "step": 68450
    },
    {
      "epoch": 7.372726294263265,
      "grad_norm": 0.8100261092185974,
      "learning_rate": 0.0001579743562116151,
      "loss": 3.2477,
      "step": 68500
    },
    {
      "epoch": 7.378107846302874,
      "grad_norm": 0.8010745048522949,
      "learning_rate": 0.00015765111518155372,
      "loss": 3.2386,
      "step": 68550
    },
    {
      "epoch": 7.383489398342482,
      "grad_norm": 0.8051914572715759,
      "learning_rate": 0.0001573278741514923,
      "loss": 3.2236,
      "step": 68600
    },
    {
      "epoch": 7.38887095038209,
      "grad_norm": 0.8149938583374023,
      "learning_rate": 0.00015700463312143085,
      "loss": 3.2192,
      "step": 68650
    },
    {
      "epoch": 7.394252502421699,
      "grad_norm": 0.7863763570785522,
      "learning_rate": 0.00015668139209136945,
      "loss": 3.2272,
      "step": 68700
    },
    {
      "epoch": 7.399634054461306,
      "grad_norm": 0.7954878807067871,
      "learning_rate": 0.00015635815106130804,
      "loss": 3.2188,
      "step": 68750
    },
    {
      "epoch": 7.405015606500915,
      "grad_norm": 0.7986774444580078,
      "learning_rate": 0.0001560349100312466,
      "loss": 3.2228,
      "step": 68800
    },
    {
      "epoch": 7.4103971585405235,
      "grad_norm": 0.8086570501327515,
      "learning_rate": 0.0001557116690011852,
      "loss": 3.2245,
      "step": 68850
    },
    {
      "epoch": 7.415778710580131,
      "grad_norm": 0.7661340832710266,
      "learning_rate": 0.00015538842797112377,
      "loss": 3.2345,
      "step": 68900
    },
    {
      "epoch": 7.42116026261974,
      "grad_norm": 0.8363234400749207,
      "learning_rate": 0.00015506518694106237,
      "loss": 3.2041,
      "step": 68950
    },
    {
      "epoch": 7.426541814659347,
      "grad_norm": 0.8017078638076782,
      "learning_rate": 0.00015474194591100096,
      "loss": 3.2336,
      "step": 69000
    },
    {
      "epoch": 7.426541814659347,
      "eval_accuracy": 0.3885608718568485,
      "eval_loss": 3.349102020263672,
      "eval_runtime": 184.3375,
      "eval_samples_per_second": 97.707,
      "eval_steps_per_second": 6.108,
      "step": 69000
    },
    {
      "epoch": 7.431923366698956,
      "grad_norm": 0.7868145108222961,
      "learning_rate": 0.00015441870488093953,
      "loss": 3.2277,
      "step": 69050
    },
    {
      "epoch": 7.4373049187385645,
      "grad_norm": 0.8340752720832825,
      "learning_rate": 0.0001540954638508781,
      "loss": 3.209,
      "step": 69100
    },
    {
      "epoch": 7.442686470778172,
      "grad_norm": 0.7953523993492126,
      "learning_rate": 0.00015377222282081672,
      "loss": 3.2225,
      "step": 69150
    },
    {
      "epoch": 7.448068022817781,
      "grad_norm": 0.7729095220565796,
      "learning_rate": 0.0001534489817907553,
      "loss": 3.2206,
      "step": 69200
    },
    {
      "epoch": 7.453449574857389,
      "grad_norm": 0.8650263547897339,
      "learning_rate": 0.00015312574076069388,
      "loss": 3.2377,
      "step": 69250
    },
    {
      "epoch": 7.458831126896997,
      "grad_norm": 0.8277882933616638,
      "learning_rate": 0.00015280249973063248,
      "loss": 3.2176,
      "step": 69300
    },
    {
      "epoch": 7.4642126789366054,
      "grad_norm": 0.822074294090271,
      "learning_rate": 0.00015247925870057104,
      "loss": 3.2341,
      "step": 69350
    },
    {
      "epoch": 7.469594230976213,
      "grad_norm": 0.7791675329208374,
      "learning_rate": 0.00015215601767050964,
      "loss": 3.2068,
      "step": 69400
    },
    {
      "epoch": 7.474975783015822,
      "grad_norm": 0.7947674989700317,
      "learning_rate": 0.0001518327766404482,
      "loss": 3.2185,
      "step": 69450
    },
    {
      "epoch": 7.48035733505543,
      "grad_norm": 0.7704381942749023,
      "learning_rate": 0.0001515095356103868,
      "loss": 3.2421,
      "step": 69500
    },
    {
      "epoch": 7.485738887095038,
      "grad_norm": 0.8594529032707214,
      "learning_rate": 0.0001511862945803254,
      "loss": 3.2176,
      "step": 69550
    },
    {
      "epoch": 7.491120439134646,
      "grad_norm": 0.875919759273529,
      "learning_rate": 0.00015086305355026396,
      "loss": 3.2391,
      "step": 69600
    },
    {
      "epoch": 7.496501991174255,
      "grad_norm": 0.7897230386734009,
      "learning_rate": 0.00015053981252020253,
      "loss": 3.2268,
      "step": 69650
    },
    {
      "epoch": 7.501883543213863,
      "grad_norm": 0.7850515246391296,
      "learning_rate": 0.00015021657149014115,
      "loss": 3.2283,
      "step": 69700
    },
    {
      "epoch": 7.507265095253471,
      "grad_norm": 0.8492069244384766,
      "learning_rate": 0.00014989333046007972,
      "loss": 3.2267,
      "step": 69750
    },
    {
      "epoch": 7.51264664729308,
      "grad_norm": 0.7624311447143555,
      "learning_rate": 0.00014957008943001832,
      "loss": 3.2418,
      "step": 69800
    },
    {
      "epoch": 7.518028199332687,
      "grad_norm": 0.8296546936035156,
      "learning_rate": 0.00014924684839995688,
      "loss": 3.2418,
      "step": 69850
    },
    {
      "epoch": 7.523409751372296,
      "grad_norm": 0.8326157927513123,
      "learning_rate": 0.00014892360736989548,
      "loss": 3.2455,
      "step": 69900
    },
    {
      "epoch": 7.528791303411904,
      "grad_norm": 0.7885107398033142,
      "learning_rate": 0.00014860036633983407,
      "loss": 3.225,
      "step": 69950
    },
    {
      "epoch": 7.534172855451512,
      "grad_norm": 0.8314936757087708,
      "learning_rate": 0.00014827712530977264,
      "loss": 3.248,
      "step": 70000
    },
    {
      "epoch": 7.534172855451512,
      "eval_accuracy": 0.38848285908339775,
      "eval_loss": 3.3449923992156982,
      "eval_runtime": 184.4098,
      "eval_samples_per_second": 97.668,
      "eval_steps_per_second": 6.106,
      "step": 70000
    },
    {
      "epoch": 7.539554407491121,
      "grad_norm": 0.8363484144210815,
      "learning_rate": 0.00014795388427971123,
      "loss": 3.2345,
      "step": 70050
    },
    {
      "epoch": 7.544935959530728,
      "grad_norm": 0.8624311685562134,
      "learning_rate": 0.0001476306432496498,
      "loss": 3.2354,
      "step": 70100
    },
    {
      "epoch": 7.550317511570337,
      "grad_norm": 0.8793414831161499,
      "learning_rate": 0.0001473074022195884,
      "loss": 3.2252,
      "step": 70150
    },
    {
      "epoch": 7.5556990636099455,
      "grad_norm": 0.8028104305267334,
      "learning_rate": 0.00014698416118952696,
      "loss": 3.224,
      "step": 70200
    },
    {
      "epoch": 7.561080615649553,
      "grad_norm": 0.8962158560752869,
      "learning_rate": 0.00014666092015946556,
      "loss": 3.2391,
      "step": 70250
    },
    {
      "epoch": 7.566462167689162,
      "grad_norm": 0.8170205950737,
      "learning_rate": 0.00014633767912940415,
      "loss": 3.2286,
      "step": 70300
    },
    {
      "epoch": 7.57184371972877,
      "grad_norm": 0.8123867511749268,
      "learning_rate": 0.00014601443809934272,
      "loss": 3.2429,
      "step": 70350
    },
    {
      "epoch": 7.577225271768378,
      "grad_norm": 0.8006405830383301,
      "learning_rate": 0.00014569119706928132,
      "loss": 3.2192,
      "step": 70400
    },
    {
      "epoch": 7.5826068238079865,
      "grad_norm": 0.7982984185218811,
      "learning_rate": 0.0001453679560392199,
      "loss": 3.2262,
      "step": 70450
    },
    {
      "epoch": 7.587988375847594,
      "grad_norm": 0.8028621077537537,
      "learning_rate": 0.00014504471500915848,
      "loss": 3.2402,
      "step": 70500
    },
    {
      "epoch": 7.593369927887203,
      "grad_norm": 0.8029682636260986,
      "learning_rate": 0.00014472147397909707,
      "loss": 3.224,
      "step": 70550
    },
    {
      "epoch": 7.598751479926811,
      "grad_norm": 0.8404017090797424,
      "learning_rate": 0.00014439823294903564,
      "loss": 3.2194,
      "step": 70600
    },
    {
      "epoch": 7.604133031966419,
      "grad_norm": 0.8200294375419617,
      "learning_rate": 0.00014407499191897423,
      "loss": 3.2311,
      "step": 70650
    },
    {
      "epoch": 7.609514584006027,
      "grad_norm": 0.8295644521713257,
      "learning_rate": 0.00014375821570951404,
      "loss": 3.2191,
      "step": 70700
    },
    {
      "epoch": 7.614896136045635,
      "grad_norm": 0.7847108244895935,
      "learning_rate": 0.00014343497467945264,
      "loss": 3.2449,
      "step": 70750
    },
    {
      "epoch": 7.620277688085244,
      "grad_norm": 0.7970316410064697,
      "learning_rate": 0.00014311173364939123,
      "loss": 3.2381,
      "step": 70800
    },
    {
      "epoch": 7.625659240124852,
      "grad_norm": 0.8130841851234436,
      "learning_rate": 0.0001427884926193298,
      "loss": 3.2396,
      "step": 70850
    },
    {
      "epoch": 7.63104079216446,
      "grad_norm": 0.8365374207496643,
      "learning_rate": 0.0001424652515892684,
      "loss": 3.2361,
      "step": 70900
    },
    {
      "epoch": 7.636422344204068,
      "grad_norm": 0.8164535760879517,
      "learning_rate": 0.000142142010559207,
      "loss": 3.2207,
      "step": 70950
    },
    {
      "epoch": 7.641803896243677,
      "grad_norm": 0.7715213298797607,
      "learning_rate": 0.00014181876952914555,
      "loss": 3.236,
      "step": 71000
    },
    {
      "epoch": 7.641803896243677,
      "eval_accuracy": 0.3893314381372288,
      "eval_loss": 3.342097043991089,
      "eval_runtime": 184.1655,
      "eval_samples_per_second": 97.798,
      "eval_steps_per_second": 6.114,
      "step": 71000
    },
    {
      "epoch": 7.647185448283285,
      "grad_norm": 0.8150928020477295,
      "learning_rate": 0.00014149552849908415,
      "loss": 3.2389,
      "step": 71050
    },
    {
      "epoch": 7.652567000322893,
      "grad_norm": 0.8463813066482544,
      "learning_rate": 0.00014117228746902272,
      "loss": 3.2239,
      "step": 71100
    },
    {
      "epoch": 7.657948552362502,
      "grad_norm": 0.8165767192840576,
      "learning_rate": 0.0001408490464389613,
      "loss": 3.2345,
      "step": 71150
    },
    {
      "epoch": 7.663330104402109,
      "grad_norm": 0.7792957425117493,
      "learning_rate": 0.00014052580540889988,
      "loss": 3.2337,
      "step": 71200
    },
    {
      "epoch": 7.668711656441718,
      "grad_norm": 0.8562263250350952,
      "learning_rate": 0.00014020256437883847,
      "loss": 3.2301,
      "step": 71250
    },
    {
      "epoch": 7.674093208481326,
      "grad_norm": 0.8173615336418152,
      "learning_rate": 0.00013987932334877707,
      "loss": 3.253,
      "step": 71300
    },
    {
      "epoch": 7.679474760520934,
      "grad_norm": 0.8515146374702454,
      "learning_rate": 0.00013955608231871564,
      "loss": 3.2273,
      "step": 71350
    },
    {
      "epoch": 7.684856312560543,
      "grad_norm": 0.8647320866584778,
      "learning_rate": 0.00013923284128865423,
      "loss": 3.2307,
      "step": 71400
    },
    {
      "epoch": 7.69023786460015,
      "grad_norm": 0.7763474583625793,
      "learning_rate": 0.00013890960025859283,
      "loss": 3.2102,
      "step": 71450
    },
    {
      "epoch": 7.695619416639759,
      "grad_norm": 0.8475902676582336,
      "learning_rate": 0.0001385863592285314,
      "loss": 3.2317,
      "step": 71500
    },
    {
      "epoch": 7.7010009686793675,
      "grad_norm": 0.8322192430496216,
      "learning_rate": 0.00013826311819847,
      "loss": 3.2211,
      "step": 71550
    },
    {
      "epoch": 7.706382520718975,
      "grad_norm": 0.829203188419342,
      "learning_rate": 0.00013793987716840858,
      "loss": 3.2386,
      "step": 71600
    },
    {
      "epoch": 7.711764072758584,
      "grad_norm": 0.7769204378128052,
      "learning_rate": 0.00013761663613834715,
      "loss": 3.2391,
      "step": 71650
    },
    {
      "epoch": 7.717145624798192,
      "grad_norm": 0.7986106872558594,
      "learning_rate": 0.00013729339510828572,
      "loss": 3.2313,
      "step": 71700
    },
    {
      "epoch": 7.7225271768378,
      "grad_norm": 0.8263389468193054,
      "learning_rate": 0.0001369701540782243,
      "loss": 3.2256,
      "step": 71750
    },
    {
      "epoch": 7.727908728877408,
      "grad_norm": 0.9005453586578369,
      "learning_rate": 0.0001366469130481629,
      "loss": 3.2214,
      "step": 71800
    },
    {
      "epoch": 7.733290280917016,
      "grad_norm": 0.8094209432601929,
      "learning_rate": 0.00013632367201810147,
      "loss": 3.2158,
      "step": 71850
    },
    {
      "epoch": 7.738671832956625,
      "grad_norm": 0.8051961660385132,
      "learning_rate": 0.00013600043098804007,
      "loss": 3.2131,
      "step": 71900
    },
    {
      "epoch": 7.744053384996233,
      "grad_norm": 0.8231179118156433,
      "learning_rate": 0.00013567718995797866,
      "loss": 3.2328,
      "step": 71950
    },
    {
      "epoch": 7.749434937035841,
      "grad_norm": 0.8281155824661255,
      "learning_rate": 0.00013535394892791723,
      "loss": 3.23,
      "step": 72000
    },
    {
      "epoch": 7.749434937035841,
      "eval_accuracy": 0.3895979636710377,
      "eval_loss": 3.337785243988037,
      "eval_runtime": 184.2677,
      "eval_samples_per_second": 97.744,
      "eval_steps_per_second": 6.111,
      "step": 72000
    },
    {
      "epoch": 7.754816489075449,
      "grad_norm": 0.8005532622337341,
      "learning_rate": 0.00013503070789785583,
      "loss": 3.2217,
      "step": 72050
    },
    {
      "epoch": 7.760198041115058,
      "grad_norm": 0.8101332187652588,
      "learning_rate": 0.00013470746686779442,
      "loss": 3.2538,
      "step": 72100
    },
    {
      "epoch": 7.765579593154666,
      "grad_norm": 0.8367613554000854,
      "learning_rate": 0.000134384225837733,
      "loss": 3.2371,
      "step": 72150
    },
    {
      "epoch": 7.770961145194274,
      "grad_norm": 0.7983720898628235,
      "learning_rate": 0.00013406098480767158,
      "loss": 3.2248,
      "step": 72200
    },
    {
      "epoch": 7.776342697233883,
      "grad_norm": 0.7747823596000671,
      "learning_rate": 0.00013373774377761015,
      "loss": 3.2392,
      "step": 72250
    },
    {
      "epoch": 7.78172424927349,
      "grad_norm": 0.8430274128913879,
      "learning_rate": 0.00013341450274754874,
      "loss": 3.2214,
      "step": 72300
    },
    {
      "epoch": 7.787105801313099,
      "grad_norm": 0.842402994632721,
      "learning_rate": 0.0001330912617174873,
      "loss": 3.2491,
      "step": 72350
    },
    {
      "epoch": 7.792487353352707,
      "grad_norm": 0.8318753242492676,
      "learning_rate": 0.0001327680206874259,
      "loss": 3.2319,
      "step": 72400
    },
    {
      "epoch": 7.797868905392315,
      "grad_norm": 0.8246398568153381,
      "learning_rate": 0.0001324447796573645,
      "loss": 3.2323,
      "step": 72450
    },
    {
      "epoch": 7.803250457431924,
      "grad_norm": 0.8268391489982605,
      "learning_rate": 0.00013212153862730307,
      "loss": 3.2313,
      "step": 72500
    },
    {
      "epoch": 7.808632009471531,
      "grad_norm": 0.8265095353126526,
      "learning_rate": 0.00013179829759724166,
      "loss": 3.2238,
      "step": 72550
    },
    {
      "epoch": 7.81401356151114,
      "grad_norm": 0.8295255899429321,
      "learning_rate": 0.00013147505656718026,
      "loss": 3.2425,
      "step": 72600
    },
    {
      "epoch": 7.819395113550748,
      "grad_norm": 0.799663245677948,
      "learning_rate": 0.00013115181553711883,
      "loss": 3.2226,
      "step": 72650
    },
    {
      "epoch": 7.824776665590356,
      "grad_norm": 0.7989450097084045,
      "learning_rate": 0.00013082857450705742,
      "loss": 3.2288,
      "step": 72700
    },
    {
      "epoch": 7.830158217629965,
      "grad_norm": 0.8295192718505859,
      "learning_rate": 0.00013050533347699602,
      "loss": 3.2492,
      "step": 72750
    },
    {
      "epoch": 7.835539769669572,
      "grad_norm": 0.816441535949707,
      "learning_rate": 0.00013018209244693458,
      "loss": 3.2311,
      "step": 72800
    },
    {
      "epoch": 7.840921321709181,
      "grad_norm": 0.8152210712432861,
      "learning_rate": 0.00012985885141687318,
      "loss": 3.2138,
      "step": 72850
    },
    {
      "epoch": 7.846302873748789,
      "grad_norm": 0.8321298360824585,
      "learning_rate": 0.00012953561038681175,
      "loss": 3.2425,
      "step": 72900
    },
    {
      "epoch": 7.851684425788397,
      "grad_norm": 0.8091616034507751,
      "learning_rate": 0.00012921236935675034,
      "loss": 3.2217,
      "step": 72950
    },
    {
      "epoch": 7.857065977828006,
      "grad_norm": 0.8621963262557983,
      "learning_rate": 0.0001288891283266889,
      "loss": 3.2388,
      "step": 73000
    },
    {
      "epoch": 7.857065977828006,
      "eval_accuracy": 0.3900583259567077,
      "eval_loss": 3.3344674110412598,
      "eval_runtime": 184.2911,
      "eval_samples_per_second": 97.731,
      "eval_steps_per_second": 6.11,
      "step": 73000
    },
    {
      "epoch": 7.862447529867614,
      "grad_norm": 0.8108441829681396,
      "learning_rate": 0.0001285658872966275,
      "loss": 3.2499,
      "step": 73050
    },
    {
      "epoch": 7.867829081907222,
      "grad_norm": 0.8185024261474609,
      "learning_rate": 0.00012824911108716734,
      "loss": 3.2295,
      "step": 73100
    },
    {
      "epoch": 7.87321063394683,
      "grad_norm": 0.8024446368217468,
      "learning_rate": 0.0001279258700571059,
      "loss": 3.2286,
      "step": 73150
    },
    {
      "epoch": 7.878592185986438,
      "grad_norm": 0.8261426091194153,
      "learning_rate": 0.0001276026290270445,
      "loss": 3.2313,
      "step": 73200
    },
    {
      "epoch": 7.883973738026047,
      "grad_norm": 0.8925754427909851,
      "learning_rate": 0.00012727938799698307,
      "loss": 3.2384,
      "step": 73250
    },
    {
      "epoch": 7.889355290065655,
      "grad_norm": 0.8534994721412659,
      "learning_rate": 0.00012695614696692166,
      "loss": 3.2534,
      "step": 73300
    },
    {
      "epoch": 7.894736842105263,
      "grad_norm": 0.8808272480964661,
      "learning_rate": 0.00012663290593686023,
      "loss": 3.2354,
      "step": 73350
    },
    {
      "epoch": 7.900118394144871,
      "grad_norm": 0.8486775755882263,
      "learning_rate": 0.00012630966490679882,
      "loss": 3.2403,
      "step": 73400
    },
    {
      "epoch": 7.90549994618448,
      "grad_norm": 0.847869336605072,
      "learning_rate": 0.0001259864238767374,
      "loss": 3.2474,
      "step": 73450
    },
    {
      "epoch": 7.910881498224088,
      "grad_norm": 0.8287285566329956,
      "learning_rate": 0.00012566318284667598,
      "loss": 3.2237,
      "step": 73500
    },
    {
      "epoch": 7.916263050263696,
      "grad_norm": 0.8208566308021545,
      "learning_rate": 0.00012533994181661458,
      "loss": 3.2389,
      "step": 73550
    },
    {
      "epoch": 7.921644602303305,
      "grad_norm": 0.8634383678436279,
      "learning_rate": 0.00012501670078655317,
      "loss": 3.2308,
      "step": 73600
    },
    {
      "epoch": 7.927026154342912,
      "grad_norm": 0.8156846165657043,
      "learning_rate": 0.00012469345975649174,
      "loss": 3.2476,
      "step": 73650
    },
    {
      "epoch": 7.932407706382521,
      "grad_norm": 0.8197507858276367,
      "learning_rate": 0.00012437021872643034,
      "loss": 3.2483,
      "step": 73700
    },
    {
      "epoch": 7.937789258422129,
      "grad_norm": 0.8078182935714722,
      "learning_rate": 0.00012404697769636893,
      "loss": 3.2445,
      "step": 73750
    },
    {
      "epoch": 7.943170810461737,
      "grad_norm": 0.8170192241668701,
      "learning_rate": 0.0001237237366663075,
      "loss": 3.2446,
      "step": 73800
    },
    {
      "epoch": 7.948552362501346,
      "grad_norm": 0.8175060153007507,
      "learning_rate": 0.0001234004956362461,
      "loss": 3.244,
      "step": 73850
    },
    {
      "epoch": 7.953933914540953,
      "grad_norm": 0.801184892654419,
      "learning_rate": 0.00012307725460618466,
      "loss": 3.2372,
      "step": 73900
    },
    {
      "epoch": 7.959315466580562,
      "grad_norm": 0.7885869741439819,
      "learning_rate": 0.00012275401357612326,
      "loss": 3.2359,
      "step": 73950
    },
    {
      "epoch": 7.96469701862017,
      "grad_norm": 0.8788338303565979,
      "learning_rate": 0.00012243077254606182,
      "loss": 3.2461,
      "step": 74000
    },
    {
      "epoch": 7.96469701862017,
      "eval_accuracy": 0.39032430822607755,
      "eval_loss": 3.330679416656494,
      "eval_runtime": 184.4108,
      "eval_samples_per_second": 97.668,
      "eval_steps_per_second": 6.106,
      "step": 74000
    },
    {
      "epoch": 7.970078570659778,
      "grad_norm": 0.8148208260536194,
      "learning_rate": 0.00012210753151600042,
      "loss": 3.2302,
      "step": 74050
    },
    {
      "epoch": 7.975460122699387,
      "grad_norm": 0.801490068435669,
      "learning_rate": 0.00012178429048593901,
      "loss": 3.2336,
      "step": 74100
    },
    {
      "epoch": 7.980841674738995,
      "grad_norm": 0.8880549073219299,
      "learning_rate": 0.00012146104945587758,
      "loss": 3.2235,
      "step": 74150
    },
    {
      "epoch": 7.986223226778603,
      "grad_norm": 0.8098456859588623,
      "learning_rate": 0.00012113780842581617,
      "loss": 3.2255,
      "step": 74200
    },
    {
      "epoch": 7.991604778818211,
      "grad_norm": 0.7982596158981323,
      "learning_rate": 0.00012081456739575477,
      "loss": 3.2478,
      "step": 74250
    },
    {
      "epoch": 7.996986330857819,
      "grad_norm": 0.8505976796150208,
      "learning_rate": 0.00012049132636569334,
      "loss": 3.2093,
      "step": 74300
    },
    {
      "epoch": 8.002367882897428,
      "grad_norm": 0.789911150932312,
      "learning_rate": 0.00012016808533563193,
      "loss": 3.1971,
      "step": 74350
    },
    {
      "epoch": 8.007749434937036,
      "grad_norm": 0.8825169205665588,
      "learning_rate": 0.00011984484430557051,
      "loss": 3.1314,
      "step": 74400
    },
    {
      "epoch": 8.013130986976645,
      "grad_norm": 0.8828396797180176,
      "learning_rate": 0.0001195216032755091,
      "loss": 3.1597,
      "step": 74450
    },
    {
      "epoch": 8.018512539016251,
      "grad_norm": 0.8076496720314026,
      "learning_rate": 0.00011919836224544767,
      "loss": 3.149,
      "step": 74500
    },
    {
      "epoch": 8.02389409105586,
      "grad_norm": 0.8241142630577087,
      "learning_rate": 0.00011887512121538627,
      "loss": 3.1524,
      "step": 74550
    },
    {
      "epoch": 8.029275643095469,
      "grad_norm": 0.8329049944877625,
      "learning_rate": 0.00011855188018532485,
      "loss": 3.1615,
      "step": 74600
    },
    {
      "epoch": 8.034657195135077,
      "grad_norm": 0.8177894949913025,
      "learning_rate": 0.00011822863915526343,
      "loss": 3.1619,
      "step": 74650
    },
    {
      "epoch": 8.040038747174686,
      "grad_norm": 0.8933939933776855,
      "learning_rate": 0.00011790539812520201,
      "loss": 3.1675,
      "step": 74700
    },
    {
      "epoch": 8.045420299214294,
      "grad_norm": 0.8176130652427673,
      "learning_rate": 0.00011758215709514061,
      "loss": 3.1678,
      "step": 74750
    },
    {
      "epoch": 8.050801851253901,
      "grad_norm": 0.8829118013381958,
      "learning_rate": 0.00011725891606507917,
      "loss": 3.1649,
      "step": 74800
    },
    {
      "epoch": 8.05618340329351,
      "grad_norm": 0.8359997272491455,
      "learning_rate": 0.00011693567503501777,
      "loss": 3.1727,
      "step": 74850
    },
    {
      "epoch": 8.061564955333118,
      "grad_norm": 0.8410435914993286,
      "learning_rate": 0.00011661243400495635,
      "loss": 3.1713,
      "step": 74900
    },
    {
      "epoch": 8.066946507372727,
      "grad_norm": 0.8701024055480957,
      "learning_rate": 0.00011628919297489493,
      "loss": 3.16,
      "step": 74950
    },
    {
      "epoch": 8.072328059412335,
      "grad_norm": 0.8318552374839783,
      "learning_rate": 0.00011596595194483351,
      "loss": 3.1724,
      "step": 75000
    },
    {
      "epoch": 8.072328059412335,
      "eval_accuracy": 0.39030214303696337,
      "eval_loss": 3.337031841278076,
      "eval_runtime": 184.0069,
      "eval_samples_per_second": 97.882,
      "eval_steps_per_second": 6.119,
      "step": 75000
    },
    {
      "epoch": 8.077709611451942,
      "grad_norm": 0.8474840521812439,
      "learning_rate": 0.00011564271091477211,
      "loss": 3.1606,
      "step": 75050
    },
    {
      "epoch": 8.08309116349155,
      "grad_norm": 0.797174334526062,
      "learning_rate": 0.0001153194698847107,
      "loss": 3.1648,
      "step": 75100
    },
    {
      "epoch": 8.088472715531159,
      "grad_norm": 0.8385491371154785,
      "learning_rate": 0.00011499622885464927,
      "loss": 3.1626,
      "step": 75150
    },
    {
      "epoch": 8.093854267570768,
      "grad_norm": 0.8174505233764648,
      "learning_rate": 0.00011467298782458786,
      "loss": 3.1472,
      "step": 75200
    },
    {
      "epoch": 8.099235819610376,
      "grad_norm": 0.8357768058776855,
      "learning_rate": 0.00011434974679452645,
      "loss": 3.1589,
      "step": 75250
    },
    {
      "epoch": 8.104617371649983,
      "grad_norm": 0.8152772188186646,
      "learning_rate": 0.00011402650576446503,
      "loss": 3.1688,
      "step": 75300
    },
    {
      "epoch": 8.109998923689592,
      "grad_norm": 0.8109443783760071,
      "learning_rate": 0.00011370326473440361,
      "loss": 3.1918,
      "step": 75350
    },
    {
      "epoch": 8.1153804757292,
      "grad_norm": 0.8386532664299011,
      "learning_rate": 0.0001133800237043422,
      "loss": 3.1642,
      "step": 75400
    },
    {
      "epoch": 8.120762027768809,
      "grad_norm": 0.8513779044151306,
      "learning_rate": 0.00011305678267428077,
      "loss": 3.1596,
      "step": 75450
    },
    {
      "epoch": 8.126143579808417,
      "grad_norm": 0.8601181507110596,
      "learning_rate": 0.00011273354164421936,
      "loss": 3.1653,
      "step": 75500
    },
    {
      "epoch": 8.131525131848026,
      "grad_norm": 0.8629764914512634,
      "learning_rate": 0.00011241030061415795,
      "loss": 3.1424,
      "step": 75550
    },
    {
      "epoch": 8.136906683887632,
      "grad_norm": 0.802759051322937,
      "learning_rate": 0.00011208705958409654,
      "loss": 3.1587,
      "step": 75600
    },
    {
      "epoch": 8.142288235927241,
      "grad_norm": 0.802954375743866,
      "learning_rate": 0.00011176381855403511,
      "loss": 3.1612,
      "step": 75650
    },
    {
      "epoch": 8.14766978796685,
      "grad_norm": 0.8517444729804993,
      "learning_rate": 0.0001114405775239737,
      "loss": 3.1701,
      "step": 75700
    },
    {
      "epoch": 8.153051340006458,
      "grad_norm": 0.8181762099266052,
      "learning_rate": 0.00011111733649391228,
      "loss": 3.1885,
      "step": 75750
    },
    {
      "epoch": 8.158432892046067,
      "grad_norm": 0.9671795964241028,
      "learning_rate": 0.00011079409546385086,
      "loss": 3.1693,
      "step": 75800
    },
    {
      "epoch": 8.163814444085673,
      "grad_norm": 0.8326493501663208,
      "learning_rate": 0.00011047085443378945,
      "loss": 3.1591,
      "step": 75850
    },
    {
      "epoch": 8.169195996125282,
      "grad_norm": 0.8220226764678955,
      "learning_rate": 0.00011014761340372804,
      "loss": 3.1689,
      "step": 75900
    },
    {
      "epoch": 8.17457754816489,
      "grad_norm": 0.8172966241836548,
      "learning_rate": 0.00010982437237366661,
      "loss": 3.1804,
      "step": 75950
    },
    {
      "epoch": 8.1799591002045,
      "grad_norm": 0.8367289900779724,
      "learning_rate": 0.0001095011313436052,
      "loss": 3.1694,
      "step": 76000
    },
    {
      "epoch": 8.1799591002045,
      "eval_accuracy": 0.39044371774978565,
      "eval_loss": 3.3348476886749268,
      "eval_runtime": 184.0996,
      "eval_samples_per_second": 97.833,
      "eval_steps_per_second": 6.116,
      "step": 76000
    },
    {
      "epoch": 8.185340652244108,
      "grad_norm": 0.867770254611969,
      "learning_rate": 0.0001091778903135438,
      "loss": 3.1709,
      "step": 76050
    },
    {
      "epoch": 8.190722204283716,
      "grad_norm": 0.8174957036972046,
      "learning_rate": 0.00010885464928348238,
      "loss": 3.1657,
      "step": 76100
    },
    {
      "epoch": 8.196103756323323,
      "grad_norm": 0.8688750267028809,
      "learning_rate": 0.00010853140825342096,
      "loss": 3.184,
      "step": 76150
    },
    {
      "epoch": 8.201485308362932,
      "grad_norm": 0.8073158860206604,
      "learning_rate": 0.00010820816722335954,
      "loss": 3.1731,
      "step": 76200
    },
    {
      "epoch": 8.20686686040254,
      "grad_norm": 0.8150644302368164,
      "learning_rate": 0.00010788492619329814,
      "loss": 3.1678,
      "step": 76250
    },
    {
      "epoch": 8.212248412442149,
      "grad_norm": 0.8680436611175537,
      "learning_rate": 0.0001075616851632367,
      "loss": 3.1677,
      "step": 76300
    },
    {
      "epoch": 8.217629964481757,
      "grad_norm": 0.8610132932662964,
      "learning_rate": 0.0001072384441331753,
      "loss": 3.1698,
      "step": 76350
    },
    {
      "epoch": 8.223011516521364,
      "grad_norm": 0.876266360282898,
      "learning_rate": 0.00010691520310311388,
      "loss": 3.1722,
      "step": 76400
    },
    {
      "epoch": 8.228393068560973,
      "grad_norm": 0.8002988696098328,
      "learning_rate": 0.00010659196207305246,
      "loss": 3.1719,
      "step": 76450
    },
    {
      "epoch": 8.233774620600581,
      "grad_norm": 0.8171218037605286,
      "learning_rate": 0.00010626872104299104,
      "loss": 3.1757,
      "step": 76500
    },
    {
      "epoch": 8.23915617264019,
      "grad_norm": 0.8452271223068237,
      "learning_rate": 0.00010594548001292964,
      "loss": 3.1647,
      "step": 76550
    },
    {
      "epoch": 8.244537724679798,
      "grad_norm": 0.7982640862464905,
      "learning_rate": 0.00010562223898286823,
      "loss": 3.1728,
      "step": 76600
    },
    {
      "epoch": 8.249919276719407,
      "grad_norm": 0.900266170501709,
      "learning_rate": 0.0001052989979528068,
      "loss": 3.1745,
      "step": 76650
    },
    {
      "epoch": 8.255300828759013,
      "grad_norm": 0.8423385620117188,
      "learning_rate": 0.00010497575692274539,
      "loss": 3.171,
      "step": 76700
    },
    {
      "epoch": 8.260682380798622,
      "grad_norm": 0.8466810584068298,
      "learning_rate": 0.00010465251589268397,
      "loss": 3.1862,
      "step": 76750
    },
    {
      "epoch": 8.26606393283823,
      "grad_norm": 0.8790857195854187,
      "learning_rate": 0.00010432927486262254,
      "loss": 3.1706,
      "step": 76800
    },
    {
      "epoch": 8.27144548487784,
      "grad_norm": 0.8655875325202942,
      "learning_rate": 0.00010400603383256114,
      "loss": 3.19,
      "step": 76850
    },
    {
      "epoch": 8.276827036917448,
      "grad_norm": 0.8340526819229126,
      "learning_rate": 0.00010368279280249973,
      "loss": 3.1719,
      "step": 76900
    },
    {
      "epoch": 8.282208588957054,
      "grad_norm": 0.8651326298713684,
      "learning_rate": 0.0001033595517724383,
      "loss": 3.1874,
      "step": 76950
    },
    {
      "epoch": 8.287590140996663,
      "grad_norm": 0.8310624957084656,
      "learning_rate": 0.00010303631074237689,
      "loss": 3.1762,
      "step": 77000
    },
    {
      "epoch": 8.287590140996663,
      "eval_accuracy": 0.3909473238848058,
      "eval_loss": 3.3315067291259766,
      "eval_runtime": 184.2409,
      "eval_samples_per_second": 97.758,
      "eval_steps_per_second": 6.112,
      "step": 77000
    },
    {
      "epoch": 8.292971693036272,
      "grad_norm": 0.81512451171875,
      "learning_rate": 0.00010271306971231547,
      "loss": 3.1735,
      "step": 77050
    },
    {
      "epoch": 8.29835324507588,
      "grad_norm": 0.8186869621276855,
      "learning_rate": 0.00010238982868225407,
      "loss": 3.1694,
      "step": 77100
    },
    {
      "epoch": 8.303734797115489,
      "grad_norm": 0.8105502724647522,
      "learning_rate": 0.00010207305247279387,
      "loss": 3.1624,
      "step": 77150
    },
    {
      "epoch": 8.309116349155097,
      "grad_norm": 0.8091331124305725,
      "learning_rate": 0.00010174981144273246,
      "loss": 3.1758,
      "step": 77200
    },
    {
      "epoch": 8.314497901194704,
      "grad_norm": 0.8343396186828613,
      "learning_rate": 0.00010142657041267104,
      "loss": 3.1684,
      "step": 77250
    },
    {
      "epoch": 8.319879453234313,
      "grad_norm": 0.8179338574409485,
      "learning_rate": 0.00010110332938260962,
      "loss": 3.176,
      "step": 77300
    },
    {
      "epoch": 8.325261005273921,
      "grad_norm": 0.843681812286377,
      "learning_rate": 0.00010078008835254821,
      "loss": 3.1666,
      "step": 77350
    },
    {
      "epoch": 8.33064255731353,
      "grad_norm": 0.8351903557777405,
      "learning_rate": 0.0001004568473224868,
      "loss": 3.1841,
      "step": 77400
    },
    {
      "epoch": 8.336024109353138,
      "grad_norm": 0.8067243695259094,
      "learning_rate": 0.00010013360629242537,
      "loss": 3.1686,
      "step": 77450
    },
    {
      "epoch": 8.341405661392745,
      "grad_norm": 0.8965536952018738,
      "learning_rate": 9.981036526236396e-05,
      "loss": 3.1798,
      "step": 77500
    },
    {
      "epoch": 8.346787213432354,
      "grad_norm": 0.8381859064102173,
      "learning_rate": 9.948712423230255e-05,
      "loss": 3.1662,
      "step": 77550
    },
    {
      "epoch": 8.352168765471962,
      "grad_norm": 0.818365216255188,
      "learning_rate": 9.916388320224112e-05,
      "loss": 3.1703,
      "step": 77600
    },
    {
      "epoch": 8.35755031751157,
      "grad_norm": 0.8831731081008911,
      "learning_rate": 9.884064217217971e-05,
      "loss": 3.1836,
      "step": 77650
    },
    {
      "epoch": 8.36293186955118,
      "grad_norm": 0.8498688340187073,
      "learning_rate": 9.851740114211831e-05,
      "loss": 3.1865,
      "step": 77700
    },
    {
      "epoch": 8.368313421590786,
      "grad_norm": 0.8524741530418396,
      "learning_rate": 9.819416011205688e-05,
      "loss": 3.1761,
      "step": 77750
    },
    {
      "epoch": 8.373694973630395,
      "grad_norm": 0.8825742602348328,
      "learning_rate": 9.787091908199547e-05,
      "loss": 3.1814,
      "step": 77800
    },
    {
      "epoch": 8.379076525670003,
      "grad_norm": 0.8668566346168518,
      "learning_rate": 9.754767805193405e-05,
      "loss": 3.1825,
      "step": 77850
    },
    {
      "epoch": 8.384458077709612,
      "grad_norm": 0.8514609932899475,
      "learning_rate": 9.722443702187265e-05,
      "loss": 3.1754,
      "step": 77900
    },
    {
      "epoch": 8.38983962974922,
      "grad_norm": 0.8545790314674377,
      "learning_rate": 9.690119599181121e-05,
      "loss": 3.1654,
      "step": 77950
    },
    {
      "epoch": 8.395221181788829,
      "grad_norm": 0.8557784557342529,
      "learning_rate": 9.657795496174981e-05,
      "loss": 3.189,
      "step": 78000
    },
    {
      "epoch": 8.395221181788829,
      "eval_accuracy": 0.3909818755031308,
      "eval_loss": 3.3283352851867676,
      "eval_runtime": 184.5595,
      "eval_samples_per_second": 97.589,
      "eval_steps_per_second": 6.101,
      "step": 78000
    },
    {
      "epoch": 8.400602733828435,
      "grad_norm": 0.8296381235122681,
      "learning_rate": 9.625471393168839e-05,
      "loss": 3.1827,
      "step": 78050
    },
    {
      "epoch": 8.405984285868044,
      "grad_norm": 0.8438946604728699,
      "learning_rate": 9.593147290162697e-05,
      "loss": 3.177,
      "step": 78100
    },
    {
      "epoch": 8.411365837907653,
      "grad_norm": 0.8910739421844482,
      "learning_rate": 9.560823187156555e-05,
      "loss": 3.1869,
      "step": 78150
    },
    {
      "epoch": 8.416747389947261,
      "grad_norm": 0.8340214490890503,
      "learning_rate": 9.529145566210537e-05,
      "loss": 3.1738,
      "step": 78200
    },
    {
      "epoch": 8.42212894198687,
      "grad_norm": 0.8570651412010193,
      "learning_rate": 9.496821463204395e-05,
      "loss": 3.1653,
      "step": 78250
    },
    {
      "epoch": 8.427510494026476,
      "grad_norm": 0.7945685386657715,
      "learning_rate": 9.464497360198253e-05,
      "loss": 3.1648,
      "step": 78300
    },
    {
      "epoch": 8.432892046066085,
      "grad_norm": 0.7929884195327759,
      "learning_rate": 9.432173257192113e-05,
      "loss": 3.1835,
      "step": 78350
    },
    {
      "epoch": 8.438273598105694,
      "grad_norm": 0.8434079885482788,
      "learning_rate": 9.39984915418597e-05,
      "loss": 3.1889,
      "step": 78400
    },
    {
      "epoch": 8.443655150145302,
      "grad_norm": 0.8700017333030701,
      "learning_rate": 9.367525051179829e-05,
      "loss": 3.1838,
      "step": 78450
    },
    {
      "epoch": 8.44903670218491,
      "grad_norm": 0.8488359451293945,
      "learning_rate": 9.335200948173688e-05,
      "loss": 3.1703,
      "step": 78500
    },
    {
      "epoch": 8.45441825422452,
      "grad_norm": 0.8352469801902771,
      "learning_rate": 9.302876845167545e-05,
      "loss": 3.1804,
      "step": 78550
    },
    {
      "epoch": 8.459799806264126,
      "grad_norm": 0.8654531240463257,
      "learning_rate": 9.270552742161403e-05,
      "loss": 3.1943,
      "step": 78600
    },
    {
      "epoch": 8.465181358303735,
      "grad_norm": 0.8791605234146118,
      "learning_rate": 9.238228639155263e-05,
      "loss": 3.188,
      "step": 78650
    },
    {
      "epoch": 8.470562910343343,
      "grad_norm": 0.8812597393989563,
      "learning_rate": 9.205904536149122e-05,
      "loss": 3.1927,
      "step": 78700
    },
    {
      "epoch": 8.475944462382952,
      "grad_norm": 0.8423329591751099,
      "learning_rate": 9.173580433142979e-05,
      "loss": 3.1938,
      "step": 78750
    },
    {
      "epoch": 8.48132601442256,
      "grad_norm": 0.8337947726249695,
      "learning_rate": 9.141256330136838e-05,
      "loss": 3.1701,
      "step": 78800
    },
    {
      "epoch": 8.486707566462167,
      "grad_norm": 0.8361125588417053,
      "learning_rate": 9.108932227130697e-05,
      "loss": 3.1804,
      "step": 78850
    },
    {
      "epoch": 8.492089118501776,
      "grad_norm": 0.8721863031387329,
      "learning_rate": 9.076608124124555e-05,
      "loss": 3.1894,
      "step": 78900
    },
    {
      "epoch": 8.497470670541384,
      "grad_norm": 0.8422899842262268,
      "learning_rate": 9.044284021118413e-05,
      "loss": 3.1731,
      "step": 78950
    },
    {
      "epoch": 8.502852222580993,
      "grad_norm": 0.8389232754707336,
      "learning_rate": 9.011959918112272e-05,
      "loss": 3.1824,
      "step": 79000
    },
    {
      "epoch": 8.502852222580993,
      "eval_accuracy": 0.3915263351239691,
      "eval_loss": 3.3262722492218018,
      "eval_runtime": 184.1816,
      "eval_samples_per_second": 97.789,
      "eval_steps_per_second": 6.114,
      "step": 79000
    },
    {
      "epoch": 8.508233774620601,
      "grad_norm": 0.873683750629425,
      "learning_rate": 8.979635815106129e-05,
      "loss": 3.1926,
      "step": 79050
    },
    {
      "epoch": 8.513615326660208,
      "grad_norm": 0.830884575843811,
      "learning_rate": 8.947311712099989e-05,
      "loss": 3.1841,
      "step": 79100
    },
    {
      "epoch": 8.518996878699816,
      "grad_norm": 0.8546009063720703,
      "learning_rate": 8.914987609093847e-05,
      "loss": 3.1837,
      "step": 79150
    },
    {
      "epoch": 8.524378430739425,
      "grad_norm": 0.846790075302124,
      "learning_rate": 8.882663506087706e-05,
      "loss": 3.1835,
      "step": 79200
    },
    {
      "epoch": 8.529759982779034,
      "grad_norm": 0.8802809715270996,
      "learning_rate": 8.850339403081563e-05,
      "loss": 3.1913,
      "step": 79250
    },
    {
      "epoch": 8.535141534818642,
      "grad_norm": 0.8223275542259216,
      "learning_rate": 8.818015300075422e-05,
      "loss": 3.1623,
      "step": 79300
    },
    {
      "epoch": 8.54052308685825,
      "grad_norm": 0.8552097082138062,
      "learning_rate": 8.785691197069282e-05,
      "loss": 3.1966,
      "step": 79350
    },
    {
      "epoch": 8.545904638897857,
      "grad_norm": 0.8838527798652649,
      "learning_rate": 8.753367094063139e-05,
      "loss": 3.1862,
      "step": 79400
    },
    {
      "epoch": 8.551286190937466,
      "grad_norm": 0.8592061996459961,
      "learning_rate": 8.721042991056998e-05,
      "loss": 3.1825,
      "step": 79450
    },
    {
      "epoch": 8.556667742977075,
      "grad_norm": 0.851314902305603,
      "learning_rate": 8.688718888050856e-05,
      "loss": 3.1777,
      "step": 79500
    },
    {
      "epoch": 8.562049295016683,
      "grad_norm": 0.844480037689209,
      "learning_rate": 8.656394785044713e-05,
      "loss": 3.1848,
      "step": 79550
    },
    {
      "epoch": 8.567430847056292,
      "grad_norm": 0.8165605068206787,
      "learning_rate": 8.624070682038572e-05,
      "loss": 3.169,
      "step": 79600
    },
    {
      "epoch": 8.572812399095898,
      "grad_norm": 0.8470700979232788,
      "learning_rate": 8.591746579032432e-05,
      "loss": 3.2068,
      "step": 79650
    },
    {
      "epoch": 8.578193951135507,
      "grad_norm": 0.8461559414863586,
      "learning_rate": 8.55942247602629e-05,
      "loss": 3.1851,
      "step": 79700
    },
    {
      "epoch": 8.583575503175116,
      "grad_norm": 0.8437050580978394,
      "learning_rate": 8.527098373020148e-05,
      "loss": 3.1709,
      "step": 79750
    },
    {
      "epoch": 8.588957055214724,
      "grad_norm": 0.8412305116653442,
      "learning_rate": 8.494774270014006e-05,
      "loss": 3.1833,
      "step": 79800
    },
    {
      "epoch": 8.594338607254333,
      "grad_norm": 0.8022212982177734,
      "learning_rate": 8.462450167007866e-05,
      "loss": 3.1834,
      "step": 79850
    },
    {
      "epoch": 8.599720159293941,
      "grad_norm": 0.8677747845649719,
      "learning_rate": 8.430126064001722e-05,
      "loss": 3.1931,
      "step": 79900
    },
    {
      "epoch": 8.605101711333548,
      "grad_norm": 0.868531346321106,
      "learning_rate": 8.397801960995582e-05,
      "loss": 3.1696,
      "step": 79950
    },
    {
      "epoch": 8.610483263373157,
      "grad_norm": 0.8119288682937622,
      "learning_rate": 8.36547785798944e-05,
      "loss": 3.177,
      "step": 80000
    },
    {
      "epoch": 8.610483263373157,
      "eval_accuracy": 0.3919830032114534,
      "eval_loss": 3.3223683834075928,
      "eval_runtime": 184.3641,
      "eval_samples_per_second": 97.693,
      "eval_steps_per_second": 6.107,
      "step": 80000
    },
    {
      "epoch": 8.615864815412765,
      "grad_norm": 0.8955973386764526,
      "learning_rate": 8.333153754983298e-05,
      "loss": 3.1842,
      "step": 80050
    },
    {
      "epoch": 8.621246367452374,
      "grad_norm": 0.8263280987739563,
      "learning_rate": 8.300829651977156e-05,
      "loss": 3.2,
      "step": 80100
    },
    {
      "epoch": 8.626627919491982,
      "grad_norm": 0.884416401386261,
      "learning_rate": 8.268505548971016e-05,
      "loss": 3.1753,
      "step": 80150
    },
    {
      "epoch": 8.632009471531589,
      "grad_norm": 0.8650568723678589,
      "learning_rate": 8.236181445964875e-05,
      "loss": 3.1893,
      "step": 80200
    },
    {
      "epoch": 8.637391023571197,
      "grad_norm": 0.8660522699356079,
      "learning_rate": 8.203857342958732e-05,
      "loss": 3.2008,
      "step": 80250
    },
    {
      "epoch": 8.642772575610806,
      "grad_norm": 0.8859735131263733,
      "learning_rate": 8.171533239952591e-05,
      "loss": 3.1896,
      "step": 80300
    },
    {
      "epoch": 8.648154127650415,
      "grad_norm": 0.8549911975860596,
      "learning_rate": 8.13920913694645e-05,
      "loss": 3.1869,
      "step": 80350
    },
    {
      "epoch": 8.653535679690023,
      "grad_norm": 0.8870061635971069,
      "learning_rate": 8.106885033940308e-05,
      "loss": 3.1667,
      "step": 80400
    },
    {
      "epoch": 8.658917231729632,
      "grad_norm": 0.9229688048362732,
      "learning_rate": 8.074560930934166e-05,
      "loss": 3.1749,
      "step": 80450
    },
    {
      "epoch": 8.664298783769238,
      "grad_norm": 0.8397411108016968,
      "learning_rate": 8.042236827928025e-05,
      "loss": 3.1902,
      "step": 80500
    },
    {
      "epoch": 8.669680335808847,
      "grad_norm": 0.8459243178367615,
      "learning_rate": 8.009912724921882e-05,
      "loss": 3.1882,
      "step": 80550
    },
    {
      "epoch": 8.675061887848456,
      "grad_norm": 0.8853002786636353,
      "learning_rate": 7.977588621915741e-05,
      "loss": 3.1731,
      "step": 80600
    },
    {
      "epoch": 8.680443439888064,
      "grad_norm": 0.8556126356124878,
      "learning_rate": 7.9452645189096e-05,
      "loss": 3.1946,
      "step": 80650
    },
    {
      "epoch": 8.685824991927673,
      "grad_norm": 0.8417733907699585,
      "learning_rate": 7.912940415903459e-05,
      "loss": 3.172,
      "step": 80700
    },
    {
      "epoch": 8.69120654396728,
      "grad_norm": 0.8256852030754089,
      "learning_rate": 7.880616312897316e-05,
      "loss": 3.1831,
      "step": 80750
    },
    {
      "epoch": 8.696588096006888,
      "grad_norm": 0.867015540599823,
      "learning_rate": 7.848292209891175e-05,
      "loss": 3.1747,
      "step": 80800
    },
    {
      "epoch": 8.701969648046497,
      "grad_norm": 0.8519831299781799,
      "learning_rate": 7.815968106885033e-05,
      "loss": 3.1896,
      "step": 80850
    },
    {
      "epoch": 8.707351200086105,
      "grad_norm": 0.8134785890579224,
      "learning_rate": 7.783644003878891e-05,
      "loss": 3.1954,
      "step": 80900
    },
    {
      "epoch": 8.712732752125714,
      "grad_norm": 0.8457087874412537,
      "learning_rate": 7.75131990087275e-05,
      "loss": 3.1833,
      "step": 80950
    },
    {
      "epoch": 8.718114304165322,
      "grad_norm": 0.8263185620307922,
      "learning_rate": 7.718995797866609e-05,
      "loss": 3.1689,
      "step": 81000
    },
    {
      "epoch": 8.718114304165322,
      "eval_accuracy": 0.3922501806625892,
      "eval_loss": 3.3187267780303955,
      "eval_runtime": 184.2483,
      "eval_samples_per_second": 97.754,
      "eval_steps_per_second": 6.111,
      "step": 81000
    },
    {
      "epoch": 8.723495856204929,
      "grad_norm": 0.8558651804924011,
      "learning_rate": 7.686671694860466e-05,
      "loss": 3.1719,
      "step": 81050
    },
    {
      "epoch": 8.728877408244538,
      "grad_norm": 0.8859996795654297,
      "learning_rate": 7.654347591854325e-05,
      "loss": 3.1918,
      "step": 81100
    },
    {
      "epoch": 8.734258960284146,
      "grad_norm": 0.866734504699707,
      "learning_rate": 7.622023488848185e-05,
      "loss": 3.1812,
      "step": 81150
    },
    {
      "epoch": 8.739640512323755,
      "grad_norm": 0.8730282783508301,
      "learning_rate": 7.589699385842043e-05,
      "loss": 3.1857,
      "step": 81200
    },
    {
      "epoch": 8.745022064363363,
      "grad_norm": 0.859002947807312,
      "learning_rate": 7.557375282835901e-05,
      "loss": 3.1815,
      "step": 81250
    },
    {
      "epoch": 8.75040361640297,
      "grad_norm": 0.8896213173866272,
      "learning_rate": 7.525051179829759e-05,
      "loss": 3.1755,
      "step": 81300
    },
    {
      "epoch": 8.755785168442578,
      "grad_norm": 0.823047935962677,
      "learning_rate": 7.492727076823617e-05,
      "loss": 3.1745,
      "step": 81350
    },
    {
      "epoch": 8.761166720482187,
      "grad_norm": 0.886212170124054,
      "learning_rate": 7.460402973817477e-05,
      "loss": 3.1854,
      "step": 81400
    },
    {
      "epoch": 8.766548272521796,
      "grad_norm": 0.804756224155426,
      "learning_rate": 7.428078870811335e-05,
      "loss": 3.1966,
      "step": 81450
    },
    {
      "epoch": 8.771929824561404,
      "grad_norm": 0.8283006548881531,
      "learning_rate": 7.395754767805193e-05,
      "loss": 3.1695,
      "step": 81500
    },
    {
      "epoch": 8.777311376601011,
      "grad_norm": 0.8722686767578125,
      "learning_rate": 7.363430664799051e-05,
      "loss": 3.184,
      "step": 81550
    },
    {
      "epoch": 8.78269292864062,
      "grad_norm": 0.8794624209403992,
      "learning_rate": 7.331106561792909e-05,
      "loss": 3.1916,
      "step": 81600
    },
    {
      "epoch": 8.788074480680228,
      "grad_norm": 0.901197612285614,
      "learning_rate": 7.298782458786768e-05,
      "loss": 3.1784,
      "step": 81650
    },
    {
      "epoch": 8.793456032719837,
      "grad_norm": 0.8781687617301941,
      "learning_rate": 7.266458355780627e-05,
      "loss": 3.1752,
      "step": 81700
    },
    {
      "epoch": 8.798837584759445,
      "grad_norm": 0.850771963596344,
      "learning_rate": 7.234134252774485e-05,
      "loss": 3.1971,
      "step": 81750
    },
    {
      "epoch": 8.804219136799054,
      "grad_norm": 0.8805223107337952,
      "learning_rate": 7.201810149768343e-05,
      "loss": 3.1785,
      "step": 81800
    },
    {
      "epoch": 8.80960068883866,
      "grad_norm": 0.8875316381454468,
      "learning_rate": 7.169486046762201e-05,
      "loss": 3.1975,
      "step": 81850
    },
    {
      "epoch": 8.814982240878269,
      "grad_norm": 0.8701105713844299,
      "learning_rate": 7.13716194375606e-05,
      "loss": 3.1866,
      "step": 81900
    },
    {
      "epoch": 8.820363792917878,
      "grad_norm": 0.893210232257843,
      "learning_rate": 7.104837840749918e-05,
      "loss": 3.1831,
      "step": 81950
    },
    {
      "epoch": 8.825745344957486,
      "grad_norm": 0.8357200622558594,
      "learning_rate": 7.072513737743778e-05,
      "loss": 3.1958,
      "step": 82000
    },
    {
      "epoch": 8.825745344957486,
      "eval_accuracy": 0.3924972573294793,
      "eval_loss": 3.313840866088867,
      "eval_runtime": 184.6029,
      "eval_samples_per_second": 97.566,
      "eval_steps_per_second": 6.1,
      "step": 82000
    },
    {
      "epoch": 8.831126896997095,
      "grad_norm": 0.8606798052787781,
      "learning_rate": 7.040189634737636e-05,
      "loss": 3.1693,
      "step": 82050
    },
    {
      "epoch": 8.836508449036701,
      "grad_norm": 0.8660017251968384,
      "learning_rate": 7.007865531731494e-05,
      "loss": 3.1813,
      "step": 82100
    },
    {
      "epoch": 8.84189000107631,
      "grad_norm": 0.8230769634246826,
      "learning_rate": 6.975541428725352e-05,
      "loss": 3.1784,
      "step": 82150
    },
    {
      "epoch": 8.847271553115919,
      "grad_norm": 0.8528738617897034,
      "learning_rate": 6.94321732571921e-05,
      "loss": 3.1826,
      "step": 82200
    },
    {
      "epoch": 8.852653105155527,
      "grad_norm": 0.8775320649147034,
      "learning_rate": 6.911539704773192e-05,
      "loss": 3.1863,
      "step": 82250
    },
    {
      "epoch": 8.858034657195136,
      "grad_norm": 0.8920121192932129,
      "learning_rate": 6.879862083827173e-05,
      "loss": 3.1782,
      "step": 82300
    },
    {
      "epoch": 8.863416209234742,
      "grad_norm": 0.862159788608551,
      "learning_rate": 6.847537980821031e-05,
      "loss": 3.1767,
      "step": 82350
    },
    {
      "epoch": 8.868797761274351,
      "grad_norm": 0.8304673433303833,
      "learning_rate": 6.81521387781489e-05,
      "loss": 3.1786,
      "step": 82400
    },
    {
      "epoch": 8.87417931331396,
      "grad_norm": 0.8507606983184814,
      "learning_rate": 6.782889774808749e-05,
      "loss": 3.1984,
      "step": 82450
    },
    {
      "epoch": 8.879560865353568,
      "grad_norm": 0.8573129773139954,
      "learning_rate": 6.750565671802607e-05,
      "loss": 3.1856,
      "step": 82500
    },
    {
      "epoch": 8.884942417393177,
      "grad_norm": 0.8511037826538086,
      "learning_rate": 6.718241568796465e-05,
      "loss": 3.1965,
      "step": 82550
    },
    {
      "epoch": 8.890323969432785,
      "grad_norm": 0.8584494590759277,
      "learning_rate": 6.685917465790323e-05,
      "loss": 3.1857,
      "step": 82600
    },
    {
      "epoch": 8.895705521472392,
      "grad_norm": 0.8637450337409973,
      "learning_rate": 6.653593362784182e-05,
      "loss": 3.1872,
      "step": 82650
    },
    {
      "epoch": 8.901087073512,
      "grad_norm": 0.8655752539634705,
      "learning_rate": 6.62126925977804e-05,
      "loss": 3.1928,
      "step": 82700
    },
    {
      "epoch": 8.906468625551609,
      "grad_norm": 0.8922742009162903,
      "learning_rate": 6.588945156771899e-05,
      "loss": 3.1891,
      "step": 82750
    },
    {
      "epoch": 8.911850177591218,
      "grad_norm": 0.8720827102661133,
      "learning_rate": 6.556621053765757e-05,
      "loss": 3.1739,
      "step": 82800
    },
    {
      "epoch": 8.917231729630826,
      "grad_norm": 0.8619447350502014,
      "learning_rate": 6.524296950759615e-05,
      "loss": 3.1852,
      "step": 82850
    },
    {
      "epoch": 8.922613281670433,
      "grad_norm": 0.8647319078445435,
      "learning_rate": 6.491972847753474e-05,
      "loss": 3.1866,
      "step": 82900
    },
    {
      "epoch": 8.927994833710041,
      "grad_norm": 0.8366991281509399,
      "learning_rate": 6.459648744747333e-05,
      "loss": 3.1841,
      "step": 82950
    },
    {
      "epoch": 8.93337638574965,
      "grad_norm": 0.8512721657752991,
      "learning_rate": 6.427324641741192e-05,
      "loss": 3.19,
      "step": 83000
    },
    {
      "epoch": 8.93337638574965,
      "eval_accuracy": 0.3930222680833989,
      "eval_loss": 3.3104777336120605,
      "eval_runtime": 184.1918,
      "eval_samples_per_second": 97.784,
      "eval_steps_per_second": 6.113,
      "step": 83000
    },
    {
      "epoch": 8.938757937789259,
      "grad_norm": 0.8859108090400696,
      "learning_rate": 6.39500053873505e-05,
      "loss": 3.1835,
      "step": 83050
    },
    {
      "epoch": 8.944139489828867,
      "grad_norm": 0.806945264339447,
      "learning_rate": 6.362676435728908e-05,
      "loss": 3.1788,
      "step": 83100
    },
    {
      "epoch": 8.949521041868476,
      "grad_norm": 0.8606882691383362,
      "learning_rate": 6.330352332722766e-05,
      "loss": 3.1901,
      "step": 83150
    },
    {
      "epoch": 8.954902593908082,
      "grad_norm": 0.8900209069252014,
      "learning_rate": 6.298028229716624e-05,
      "loss": 3.1796,
      "step": 83200
    },
    {
      "epoch": 8.960284145947691,
      "grad_norm": 0.8802340626716614,
      "learning_rate": 6.265704126710484e-05,
      "loss": 3.1873,
      "step": 83250
    },
    {
      "epoch": 8.9656656979873,
      "grad_norm": 0.8899419903755188,
      "learning_rate": 6.233380023704342e-05,
      "loss": 3.172,
      "step": 83300
    },
    {
      "epoch": 8.971047250026908,
      "grad_norm": 0.8502005338668823,
      "learning_rate": 6.2010559206982e-05,
      "loss": 3.1858,
      "step": 83350
    },
    {
      "epoch": 8.976428802066517,
      "grad_norm": 0.8451051712036133,
      "learning_rate": 6.168731817692058e-05,
      "loss": 3.1964,
      "step": 83400
    },
    {
      "epoch": 8.981810354106123,
      "grad_norm": 0.8235495090484619,
      "learning_rate": 6.136407714685916e-05,
      "loss": 3.1582,
      "step": 83450
    },
    {
      "epoch": 8.987191906145732,
      "grad_norm": 0.8478332161903381,
      "learning_rate": 6.104083611679776e-05,
      "loss": 3.1831,
      "step": 83500
    },
    {
      "epoch": 8.99257345818534,
      "grad_norm": 0.8355794548988342,
      "learning_rate": 6.071759508673634e-05,
      "loss": 3.1688,
      "step": 83550
    },
    {
      "epoch": 8.997955010224949,
      "grad_norm": 0.8118848204612732,
      "learning_rate": 6.039435405667492e-05,
      "loss": 3.1696,
      "step": 83600
    },
    {
      "epoch": 9.003336562264558,
      "grad_norm": 0.8942427635192871,
      "learning_rate": 6.007111302661351e-05,
      "loss": 3.1326,
      "step": 83650
    },
    {
      "epoch": 9.008718114304166,
      "grad_norm": 0.8640168309211731,
      "learning_rate": 5.974787199655209e-05,
      "loss": 3.1232,
      "step": 83700
    },
    {
      "epoch": 9.014099666343773,
      "grad_norm": 0.8216053247451782,
      "learning_rate": 5.942463096649068e-05,
      "loss": 3.1065,
      "step": 83750
    },
    {
      "epoch": 9.019481218383381,
      "grad_norm": 0.8465819358825684,
      "learning_rate": 5.910138993642926e-05,
      "loss": 3.1345,
      "step": 83800
    },
    {
      "epoch": 9.02486277042299,
      "grad_norm": 0.867476224899292,
      "learning_rate": 5.877814890636784e-05,
      "loss": 3.12,
      "step": 83850
    },
    {
      "epoch": 9.030244322462599,
      "grad_norm": 0.8455935120582581,
      "learning_rate": 5.845490787630643e-05,
      "loss": 3.1415,
      "step": 83900
    },
    {
      "epoch": 9.035625874502207,
      "grad_norm": 0.8670642971992493,
      "learning_rate": 5.813166684624501e-05,
      "loss": 3.116,
      "step": 83950
    },
    {
      "epoch": 9.041007426541814,
      "grad_norm": 0.8342292308807373,
      "learning_rate": 5.7808425816183596e-05,
      "loss": 3.1358,
      "step": 84000
    },
    {
      "epoch": 9.041007426541814,
      "eval_accuracy": 0.3929042710472324,
      "eval_loss": 3.3151280879974365,
      "eval_runtime": 184.2636,
      "eval_samples_per_second": 97.746,
      "eval_steps_per_second": 6.111,
      "step": 84000
    },
    {
      "epoch": 9.046388978581422,
      "grad_norm": 0.8715645670890808,
      "learning_rate": 5.748518478612218e-05,
      "loss": 3.1291,
      "step": 84050
    },
    {
      "epoch": 9.051770530621031,
      "grad_norm": 0.8914241790771484,
      "learning_rate": 5.716194375606076e-05,
      "loss": 3.1402,
      "step": 84100
    },
    {
      "epoch": 9.05715208266064,
      "grad_norm": 0.858453094959259,
      "learning_rate": 5.6838702725999346e-05,
      "loss": 3.1246,
      "step": 84150
    },
    {
      "epoch": 9.062533634700248,
      "grad_norm": 0.8855215907096863,
      "learning_rate": 5.651546169593793e-05,
      "loss": 3.1253,
      "step": 84200
    },
    {
      "epoch": 9.067915186739857,
      "grad_norm": 0.8425812721252441,
      "learning_rate": 5.619222066587652e-05,
      "loss": 3.1279,
      "step": 84250
    },
    {
      "epoch": 9.073296738779463,
      "grad_norm": 0.8643115758895874,
      "learning_rate": 5.58689796358151e-05,
      "loss": 3.1084,
      "step": 84300
    },
    {
      "epoch": 9.078678290819072,
      "grad_norm": 0.8656173348426819,
      "learning_rate": 5.554573860575369e-05,
      "loss": 3.1296,
      "step": 84350
    },
    {
      "epoch": 9.08405984285868,
      "grad_norm": 0.9199602603912354,
      "learning_rate": 5.522249757569227e-05,
      "loss": 3.1334,
      "step": 84400
    },
    {
      "epoch": 9.089441394898289,
      "grad_norm": 0.8965559005737305,
      "learning_rate": 5.489925654563085e-05,
      "loss": 3.1125,
      "step": 84450
    },
    {
      "epoch": 9.094822946937898,
      "grad_norm": 0.8846606612205505,
      "learning_rate": 5.457601551556944e-05,
      "loss": 3.1313,
      "step": 84500
    },
    {
      "epoch": 9.100204498977504,
      "grad_norm": 0.8777433633804321,
      "learning_rate": 5.425277448550802e-05,
      "loss": 3.12,
      "step": 84550
    },
    {
      "epoch": 9.105586051017113,
      "grad_norm": 0.8635158538818359,
      "learning_rate": 5.392953345544661e-05,
      "loss": 3.1257,
      "step": 84600
    },
    {
      "epoch": 9.110967603056721,
      "grad_norm": 0.8319160342216492,
      "learning_rate": 5.360629242538519e-05,
      "loss": 3.1321,
      "step": 84650
    },
    {
      "epoch": 9.11634915509633,
      "grad_norm": 0.9073628187179565,
      "learning_rate": 5.328305139532377e-05,
      "loss": 3.1134,
      "step": 84700
    },
    {
      "epoch": 9.121730707135939,
      "grad_norm": 0.9041227102279663,
      "learning_rate": 5.295981036526236e-05,
      "loss": 3.1358,
      "step": 84750
    },
    {
      "epoch": 9.127112259175545,
      "grad_norm": 0.8468520045280457,
      "learning_rate": 5.263656933520094e-05,
      "loss": 3.1141,
      "step": 84800
    },
    {
      "epoch": 9.132493811215154,
      "grad_norm": 0.8852857947349548,
      "learning_rate": 5.231332830513953e-05,
      "loss": 3.1271,
      "step": 84850
    },
    {
      "epoch": 9.137875363254762,
      "grad_norm": 0.8501249551773071,
      "learning_rate": 5.199008727507811e-05,
      "loss": 3.1384,
      "step": 84900
    },
    {
      "epoch": 9.143256915294371,
      "grad_norm": 0.8438030481338501,
      "learning_rate": 5.166684624501669e-05,
      "loss": 3.1273,
      "step": 84950
    },
    {
      "epoch": 9.14863846733398,
      "grad_norm": 0.835564374923706,
      "learning_rate": 5.1343605214955286e-05,
      "loss": 3.1403,
      "step": 85000
    },
    {
      "epoch": 9.14863846733398,
      "eval_accuracy": 0.3929898895228302,
      "eval_loss": 3.313596248626709,
      "eval_runtime": 184.3369,
      "eval_samples_per_second": 97.707,
      "eval_steps_per_second": 6.108,
      "step": 85000
    },
    {
      "epoch": 9.154020019373588,
      "grad_norm": 0.8682938814163208,
      "learning_rate": 5.102036418489387e-05,
      "loss": 3.1296,
      "step": 85050
    },
    {
      "epoch": 9.159401571413195,
      "grad_norm": 0.8778191208839417,
      "learning_rate": 5.0697123154832455e-05,
      "loss": 3.1107,
      "step": 85100
    },
    {
      "epoch": 9.164783123452803,
      "grad_norm": 0.8837754130363464,
      "learning_rate": 5.0373882124771036e-05,
      "loss": 3.1349,
      "step": 85150
    },
    {
      "epoch": 9.170164675492412,
      "grad_norm": 0.8667919039726257,
      "learning_rate": 5.005064109470962e-05,
      "loss": 3.1386,
      "step": 85200
    },
    {
      "epoch": 9.17554622753202,
      "grad_norm": 0.8677342534065247,
      "learning_rate": 4.9727400064648205e-05,
      "loss": 3.1204,
      "step": 85250
    },
    {
      "epoch": 9.180927779571629,
      "grad_norm": 0.8167387843132019,
      "learning_rate": 4.9404159034586786e-05,
      "loss": 3.1318,
      "step": 85300
    },
    {
      "epoch": 9.186309331611236,
      "grad_norm": 0.8357968926429749,
      "learning_rate": 4.9080918004525374e-05,
      "loss": 3.1465,
      "step": 85350
    },
    {
      "epoch": 9.191690883650844,
      "grad_norm": 0.8523465394973755,
      "learning_rate": 4.8757676974463955e-05,
      "loss": 3.1166,
      "step": 85400
    },
    {
      "epoch": 9.197072435690453,
      "grad_norm": 0.8360924124717712,
      "learning_rate": 4.8434435944402536e-05,
      "loss": 3.1252,
      "step": 85450
    },
    {
      "epoch": 9.202453987730062,
      "grad_norm": 0.8361141681671143,
      "learning_rate": 4.8111194914341124e-05,
      "loss": 3.1253,
      "step": 85500
    },
    {
      "epoch": 9.20783553976967,
      "grad_norm": 0.8459249138832092,
      "learning_rate": 4.7787953884279705e-05,
      "loss": 3.147,
      "step": 85550
    },
    {
      "epoch": 9.213217091809279,
      "grad_norm": 0.8506575226783752,
      "learning_rate": 4.746471285421829e-05,
      "loss": 3.1452,
      "step": 85600
    },
    {
      "epoch": 9.218598643848885,
      "grad_norm": 0.8473270535469055,
      "learning_rate": 4.7141471824156874e-05,
      "loss": 3.125,
      "step": 85650
    },
    {
      "epoch": 9.223980195888494,
      "grad_norm": 0.8816428780555725,
      "learning_rate": 4.6818230794095455e-05,
      "loss": 3.1292,
      "step": 85700
    },
    {
      "epoch": 9.229361747928102,
      "grad_norm": 0.8742560744285583,
      "learning_rate": 4.649498976403404e-05,
      "loss": 3.1272,
      "step": 85750
    },
    {
      "epoch": 9.234743299967711,
      "grad_norm": 0.8595829010009766,
      "learning_rate": 4.6171748733972624e-05,
      "loss": 3.1182,
      "step": 85800
    },
    {
      "epoch": 9.24012485200732,
      "grad_norm": 0.8732437491416931,
      "learning_rate": 4.584850770391122e-05,
      "loss": 3.1204,
      "step": 85850
    },
    {
      "epoch": 9.245506404046926,
      "grad_norm": 0.9042378067970276,
      "learning_rate": 4.55252666738498e-05,
      "loss": 3.1246,
      "step": 85900
    },
    {
      "epoch": 9.250887956086535,
      "grad_norm": 0.8542734980583191,
      "learning_rate": 4.520202564378838e-05,
      "loss": 3.1341,
      "step": 85950
    },
    {
      "epoch": 9.256269508126143,
      "grad_norm": 0.8934568166732788,
      "learning_rate": 4.487878461372697e-05,
      "loss": 3.134,
      "step": 86000
    },
    {
      "epoch": 9.256269508126143,
      "eval_accuracy": 0.3932922705096179,
      "eval_loss": 3.3110179901123047,
      "eval_runtime": 184.382,
      "eval_samples_per_second": 97.683,
      "eval_steps_per_second": 6.107,
      "step": 86000
    },
    {
      "epoch": 9.261651060165752,
      "grad_norm": 0.9050253629684448,
      "learning_rate": 4.455554358366555e-05,
      "loss": 3.1333,
      "step": 86050
    },
    {
      "epoch": 9.26703261220536,
      "grad_norm": 0.8234208822250366,
      "learning_rate": 4.423230255360414e-05,
      "loss": 3.1308,
      "step": 86100
    },
    {
      "epoch": 9.272414164244967,
      "grad_norm": 0.8595186471939087,
      "learning_rate": 4.390906152354272e-05,
      "loss": 3.1312,
      "step": 86150
    },
    {
      "epoch": 9.277795716284576,
      "grad_norm": 0.8379352688789368,
      "learning_rate": 4.35858204934813e-05,
      "loss": 3.1341,
      "step": 86200
    },
    {
      "epoch": 9.283177268324184,
      "grad_norm": 0.8624082803726196,
      "learning_rate": 4.326257946341989e-05,
      "loss": 3.1355,
      "step": 86250
    },
    {
      "epoch": 9.288558820363793,
      "grad_norm": 0.8926985263824463,
      "learning_rate": 4.29458032539597e-05,
      "loss": 3.1407,
      "step": 86300
    },
    {
      "epoch": 9.293940372403402,
      "grad_norm": 0.8962697386741638,
      "learning_rate": 4.262256222389828e-05,
      "loss": 3.1232,
      "step": 86350
    },
    {
      "epoch": 9.29932192444301,
      "grad_norm": 0.9258967041969299,
      "learning_rate": 4.229932119383687e-05,
      "loss": 3.1364,
      "step": 86400
    },
    {
      "epoch": 9.304703476482617,
      "grad_norm": 0.8489583134651184,
      "learning_rate": 4.197608016377545e-05,
      "loss": 3.1333,
      "step": 86450
    },
    {
      "epoch": 9.310085028522225,
      "grad_norm": 0.8634685277938843,
      "learning_rate": 4.165283913371403e-05,
      "loss": 3.136,
      "step": 86500
    },
    {
      "epoch": 9.315466580561834,
      "grad_norm": 0.8660027384757996,
      "learning_rate": 4.132959810365262e-05,
      "loss": 3.14,
      "step": 86550
    },
    {
      "epoch": 9.320848132601443,
      "grad_norm": 0.8571211099624634,
      "learning_rate": 4.10063570735912e-05,
      "loss": 3.1432,
      "step": 86600
    },
    {
      "epoch": 9.326229684641051,
      "grad_norm": 0.9084333181381226,
      "learning_rate": 4.068311604352979e-05,
      "loss": 3.1309,
      "step": 86650
    },
    {
      "epoch": 9.331611236680658,
      "grad_norm": 0.8751624226570129,
      "learning_rate": 4.035987501346837e-05,
      "loss": 3.1271,
      "step": 86700
    },
    {
      "epoch": 9.336992788720266,
      "grad_norm": 0.869376540184021,
      "learning_rate": 4.003663398340695e-05,
      "loss": 3.1238,
      "step": 86750
    },
    {
      "epoch": 9.342374340759875,
      "grad_norm": 0.8726515769958496,
      "learning_rate": 3.9713392953345546e-05,
      "loss": 3.1344,
      "step": 86800
    },
    {
      "epoch": 9.347755892799483,
      "grad_norm": 0.8668906092643738,
      "learning_rate": 3.939015192328413e-05,
      "loss": 3.1187,
      "step": 86850
    },
    {
      "epoch": 9.353137444839092,
      "grad_norm": 0.8793606758117676,
      "learning_rate": 3.9066910893222715e-05,
      "loss": 3.1371,
      "step": 86900
    },
    {
      "epoch": 9.3585189968787,
      "grad_norm": 0.8585626482963562,
      "learning_rate": 3.8743669863161296e-05,
      "loss": 3.1358,
      "step": 86950
    },
    {
      "epoch": 9.363900548918307,
      "grad_norm": 0.8712215423583984,
      "learning_rate": 3.842042883309988e-05,
      "loss": 3.1278,
      "step": 87000
    },
    {
      "epoch": 9.363900548918307,
      "eval_accuracy": 0.3934513383373783,
      "eval_loss": 3.3093960285186768,
      "eval_runtime": 184.0879,
      "eval_samples_per_second": 97.839,
      "eval_steps_per_second": 6.117,
      "step": 87000
    },
    {
      "epoch": 9.369282100957916,
      "grad_norm": 0.8879653215408325,
      "learning_rate": 3.8097187803038465e-05,
      "loss": 3.1306,
      "step": 87050
    },
    {
      "epoch": 9.374663652997524,
      "grad_norm": 0.834726870059967,
      "learning_rate": 3.7773946772977047e-05,
      "loss": 3.1368,
      "step": 87100
    },
    {
      "epoch": 9.380045205037133,
      "grad_norm": 0.8986821174621582,
      "learning_rate": 3.745070574291563e-05,
      "loss": 3.1283,
      "step": 87150
    },
    {
      "epoch": 9.385426757076742,
      "grad_norm": 0.8669679760932922,
      "learning_rate": 3.7127464712854216e-05,
      "loss": 3.1371,
      "step": 87200
    },
    {
      "epoch": 9.390808309116348,
      "grad_norm": 0.8674023151397705,
      "learning_rate": 3.6804223682792803e-05,
      "loss": 3.1329,
      "step": 87250
    },
    {
      "epoch": 9.396189861155957,
      "grad_norm": 0.8706688284873962,
      "learning_rate": 3.6480982652731385e-05,
      "loss": 3.1172,
      "step": 87300
    },
    {
      "epoch": 9.401571413195565,
      "grad_norm": 0.8382830023765564,
      "learning_rate": 3.6157741622669966e-05,
      "loss": 3.1403,
      "step": 87350
    },
    {
      "epoch": 9.406952965235174,
      "grad_norm": 0.8705534338951111,
      "learning_rate": 3.5834500592608554e-05,
      "loss": 3.1206,
      "step": 87400
    },
    {
      "epoch": 9.412334517274783,
      "grad_norm": 0.858039379119873,
      "learning_rate": 3.5511259562547135e-05,
      "loss": 3.1333,
      "step": 87450
    },
    {
      "epoch": 9.417716069314391,
      "grad_norm": 0.8743853569030762,
      "learning_rate": 3.518801853248572e-05,
      "loss": 3.1398,
      "step": 87500
    },
    {
      "epoch": 9.423097621353998,
      "grad_norm": 0.877098023891449,
      "learning_rate": 3.4864777502424304e-05,
      "loss": 3.1105,
      "step": 87550
    },
    {
      "epoch": 9.428479173393606,
      "grad_norm": 0.8397947549819946,
      "learning_rate": 3.4541536472362885e-05,
      "loss": 3.1293,
      "step": 87600
    },
    {
      "epoch": 9.433860725433215,
      "grad_norm": 0.8355966210365295,
      "learning_rate": 3.421829544230147e-05,
      "loss": 3.1187,
      "step": 87650
    },
    {
      "epoch": 9.439242277472824,
      "grad_norm": 0.8401076793670654,
      "learning_rate": 3.389505441224006e-05,
      "loss": 3.1384,
      "step": 87700
    },
    {
      "epoch": 9.444623829512432,
      "grad_norm": 0.884679913520813,
      "learning_rate": 3.357181338217864e-05,
      "loss": 3.1217,
      "step": 87750
    },
    {
      "epoch": 9.450005381552039,
      "grad_norm": 0.8887282013893127,
      "learning_rate": 3.324857235211722e-05,
      "loss": 3.139,
      "step": 87800
    },
    {
      "epoch": 9.455386933591647,
      "grad_norm": 0.9014291167259216,
      "learning_rate": 3.292533132205581e-05,
      "loss": 3.1258,
      "step": 87850
    },
    {
      "epoch": 9.460768485631256,
      "grad_norm": 0.8660255670547485,
      "learning_rate": 3.260209029199439e-05,
      "loss": 3.1426,
      "step": 87900
    },
    {
      "epoch": 9.466150037670864,
      "grad_norm": 0.8759139180183411,
      "learning_rate": 3.227884926193298e-05,
      "loss": 3.1339,
      "step": 87950
    },
    {
      "epoch": 9.471531589710473,
      "grad_norm": 0.8805860877037048,
      "learning_rate": 3.195560823187157e-05,
      "loss": 3.1249,
      "step": 88000
    },
    {
      "epoch": 9.471531589710473,
      "eval_accuracy": 0.3938332532380462,
      "eval_loss": 3.306671380996704,
      "eval_runtime": 184.2724,
      "eval_samples_per_second": 97.741,
      "eval_steps_per_second": 6.111,
      "step": 88000
    },
    {
      "epoch": 9.476913141750082,
      "grad_norm": 0.8956539034843445,
      "learning_rate": 3.163236720181014e-05,
      "loss": 3.1245,
      "step": 88050
    },
    {
      "epoch": 9.482294693789688,
      "grad_norm": 0.8722838163375854,
      "learning_rate": 3.130912617174873e-05,
      "loss": 3.1224,
      "step": 88100
    },
    {
      "epoch": 9.487676245829297,
      "grad_norm": 0.8407906889915466,
      "learning_rate": 3.098588514168732e-05,
      "loss": 3.1403,
      "step": 88150
    },
    {
      "epoch": 9.493057797868905,
      "grad_norm": 0.8775299787521362,
      "learning_rate": 3.06626441116259e-05,
      "loss": 3.1226,
      "step": 88200
    },
    {
      "epoch": 9.498439349908514,
      "grad_norm": 0.8461452722549438,
      "learning_rate": 3.0339403081564487e-05,
      "loss": 3.1247,
      "step": 88250
    },
    {
      "epoch": 9.503820901948123,
      "grad_norm": 0.8859723210334778,
      "learning_rate": 3.00226268721043e-05,
      "loss": 3.1371,
      "step": 88300
    },
    {
      "epoch": 9.50920245398773,
      "grad_norm": 0.8755336403846741,
      "learning_rate": 2.9699385842042878e-05,
      "loss": 3.1311,
      "step": 88350
    },
    {
      "epoch": 9.514584006027338,
      "grad_norm": 0.8738422393798828,
      "learning_rate": 2.9376144811981465e-05,
      "loss": 3.1044,
      "step": 88400
    },
    {
      "epoch": 9.519965558066946,
      "grad_norm": 0.8402886390686035,
      "learning_rate": 2.905290378192005e-05,
      "loss": 3.1261,
      "step": 88450
    },
    {
      "epoch": 9.525347110106555,
      "grad_norm": 0.864729106426239,
      "learning_rate": 2.8729662751858634e-05,
      "loss": 3.1396,
      "step": 88500
    },
    {
      "epoch": 9.530728662146164,
      "grad_norm": 0.8861854076385498,
      "learning_rate": 2.840642172179722e-05,
      "loss": 3.1289,
      "step": 88550
    },
    {
      "epoch": 9.536110214185772,
      "grad_norm": 0.8754816651344299,
      "learning_rate": 2.80831806917358e-05,
      "loss": 3.1336,
      "step": 88600
    },
    {
      "epoch": 9.541491766225379,
      "grad_norm": 0.8888688087463379,
      "learning_rate": 2.7759939661674384e-05,
      "loss": 3.1075,
      "step": 88650
    },
    {
      "epoch": 9.546873318264987,
      "grad_norm": 0.9083170890808105,
      "learning_rate": 2.743669863161297e-05,
      "loss": 3.1002,
      "step": 88700
    },
    {
      "epoch": 9.552254870304596,
      "grad_norm": 0.8670967817306519,
      "learning_rate": 2.7113457601551557e-05,
      "loss": 3.1508,
      "step": 88750
    },
    {
      "epoch": 9.557636422344205,
      "grad_norm": 0.8296001553535461,
      "learning_rate": 2.679021657149014e-05,
      "loss": 3.1298,
      "step": 88800
    },
    {
      "epoch": 9.563017974383813,
      "grad_norm": 0.8574001789093018,
      "learning_rate": 2.6466975541428722e-05,
      "loss": 3.1314,
      "step": 88850
    },
    {
      "epoch": 9.56839952642342,
      "grad_norm": 0.8960815668106079,
      "learning_rate": 2.6143734511367307e-05,
      "loss": 3.1413,
      "step": 88900
    },
    {
      "epoch": 9.573781078463028,
      "grad_norm": 0.8822285532951355,
      "learning_rate": 2.582049348130589e-05,
      "loss": 3.1233,
      "step": 88950
    },
    {
      "epoch": 9.579162630502637,
      "grad_norm": 0.9091222286224365,
      "learning_rate": 2.5497252451244476e-05,
      "loss": 3.1465,
      "step": 89000
    },
    {
      "epoch": 9.579162630502637,
      "eval_accuracy": 0.39419256833804867,
      "eval_loss": 3.3047590255737305,
      "eval_runtime": 184.4605,
      "eval_samples_per_second": 97.642,
      "eval_steps_per_second": 6.104,
      "step": 89000
    },
    {
      "epoch": 9.584544182542245,
      "grad_norm": 0.8732985854148865,
      "learning_rate": 2.517401142118306e-05,
      "loss": 3.13,
      "step": 89050
    },
    {
      "epoch": 9.589925734581854,
      "grad_norm": 0.8681031465530396,
      "learning_rate": 2.485077039112164e-05,
      "loss": 3.1443,
      "step": 89100
    },
    {
      "epoch": 9.59530728662146,
      "grad_norm": 0.8383533954620361,
      "learning_rate": 2.4527529361060226e-05,
      "loss": 3.1611,
      "step": 89150
    },
    {
      "epoch": 9.60068883866107,
      "grad_norm": 0.8887944221496582,
      "learning_rate": 2.4204288330998814e-05,
      "loss": 3.142,
      "step": 89200
    },
    {
      "epoch": 9.606070390700678,
      "grad_norm": 0.8535773158073425,
      "learning_rate": 2.38810473009374e-05,
      "loss": 3.1385,
      "step": 89250
    },
    {
      "epoch": 9.611451942740286,
      "grad_norm": 0.8394609093666077,
      "learning_rate": 2.3557806270875983e-05,
      "loss": 3.1001,
      "step": 89300
    },
    {
      "epoch": 9.616833494779895,
      "grad_norm": 0.8773378729820251,
      "learning_rate": 2.3234565240814564e-05,
      "loss": 3.1121,
      "step": 89350
    },
    {
      "epoch": 9.622215046819504,
      "grad_norm": 0.9561459422111511,
      "learning_rate": 2.291132421075315e-05,
      "loss": 3.1426,
      "step": 89400
    },
    {
      "epoch": 9.62759659885911,
      "grad_norm": 0.8678971529006958,
      "learning_rate": 2.2588083180691733e-05,
      "loss": 3.1337,
      "step": 89450
    },
    {
      "epoch": 9.632978150898719,
      "grad_norm": 0.8844343423843384,
      "learning_rate": 2.2264842150630318e-05,
      "loss": 3.1244,
      "step": 89500
    },
    {
      "epoch": 9.638359702938327,
      "grad_norm": 0.864477276802063,
      "learning_rate": 2.1941601120568905e-05,
      "loss": 3.1263,
      "step": 89550
    },
    {
      "epoch": 9.643741254977936,
      "grad_norm": 0.8690125942230225,
      "learning_rate": 2.1618360090507483e-05,
      "loss": 3.136,
      "step": 89600
    },
    {
      "epoch": 9.649122807017545,
      "grad_norm": 0.833332896232605,
      "learning_rate": 2.129511906044607e-05,
      "loss": 3.1272,
      "step": 89650
    },
    {
      "epoch": 9.654504359057151,
      "grad_norm": 0.8772496581077576,
      "learning_rate": 2.0971878030384655e-05,
      "loss": 3.1436,
      "step": 89700
    },
    {
      "epoch": 9.65988591109676,
      "grad_norm": 0.8652644157409668,
      "learning_rate": 2.064863700032324e-05,
      "loss": 3.1265,
      "step": 89750
    },
    {
      "epoch": 9.665267463136368,
      "grad_norm": 0.938653826713562,
      "learning_rate": 2.0325395970261824e-05,
      "loss": 3.1498,
      "step": 89800
    },
    {
      "epoch": 9.670649015175977,
      "grad_norm": 0.8508879542350769,
      "learning_rate": 2.0002154940200406e-05,
      "loss": 3.1376,
      "step": 89850
    },
    {
      "epoch": 9.676030567215586,
      "grad_norm": 0.8924562335014343,
      "learning_rate": 1.967891391013899e-05,
      "loss": 3.1288,
      "step": 89900
    },
    {
      "epoch": 9.681412119255192,
      "grad_norm": 0.8946857452392578,
      "learning_rate": 1.9355672880077575e-05,
      "loss": 3.1253,
      "step": 89950
    },
    {
      "epoch": 9.6867936712948,
      "grad_norm": 0.8995295763015747,
      "learning_rate": 1.9032431850016162e-05,
      "loss": 3.1254,
      "step": 90000
    },
    {
      "epoch": 9.6867936712948,
      "eval_accuracy": 0.39432588543139707,
      "eval_loss": 3.3027193546295166,
      "eval_runtime": 184.3883,
      "eval_samples_per_second": 97.68,
      "eval_steps_per_second": 6.107,
      "step": 90000
    },
    {
      "epoch": 9.69217522333441,
      "grad_norm": 0.8993360996246338,
      "learning_rate": 1.8709190819954744e-05,
      "loss": 3.1467,
      "step": 90050
    },
    {
      "epoch": 9.697556775374018,
      "grad_norm": 0.8606274127960205,
      "learning_rate": 1.8385949789893328e-05,
      "loss": 3.1526,
      "step": 90100
    },
    {
      "epoch": 9.702938327413626,
      "grad_norm": 0.8745395541191101,
      "learning_rate": 1.8062708759831913e-05,
      "loss": 3.1173,
      "step": 90150
    },
    {
      "epoch": 9.708319879453235,
      "grad_norm": 0.8948554396629333,
      "learning_rate": 1.7739467729770497e-05,
      "loss": 3.1215,
      "step": 90200
    },
    {
      "epoch": 9.713701431492842,
      "grad_norm": 0.883072018623352,
      "learning_rate": 1.741622669970908e-05,
      "loss": 3.1228,
      "step": 90250
    },
    {
      "epoch": 9.71908298353245,
      "grad_norm": 0.8493356704711914,
      "learning_rate": 1.7092985669647666e-05,
      "loss": 3.1414,
      "step": 90300
    },
    {
      "epoch": 9.724464535572059,
      "grad_norm": 0.883306622505188,
      "learning_rate": 1.677620946018748e-05,
      "loss": 3.147,
      "step": 90350
    },
    {
      "epoch": 9.729846087611667,
      "grad_norm": 0.8442389965057373,
      "learning_rate": 1.6452968430126064e-05,
      "loss": 3.1385,
      "step": 90400
    },
    {
      "epoch": 9.735227639651276,
      "grad_norm": 0.8308068513870239,
      "learning_rate": 1.6129727400064645e-05,
      "loss": 3.1375,
      "step": 90450
    },
    {
      "epoch": 9.740609191690883,
      "grad_norm": 0.8331390619277954,
      "learning_rate": 1.580648637000323e-05,
      "loss": 3.1137,
      "step": 90500
    },
    {
      "epoch": 9.745990743730491,
      "grad_norm": 0.8690379858016968,
      "learning_rate": 1.5483245339941817e-05,
      "loss": 3.1201,
      "step": 90550
    },
    {
      "epoch": 9.7513722957701,
      "grad_norm": 0.863037645816803,
      "learning_rate": 1.5160004309880398e-05,
      "loss": 3.118,
      "step": 90600
    },
    {
      "epoch": 9.756753847809708,
      "grad_norm": 0.8669984340667725,
      "learning_rate": 1.4836763279818985e-05,
      "loss": 3.1345,
      "step": 90650
    },
    {
      "epoch": 9.762135399849317,
      "grad_norm": 0.8747707605361938,
      "learning_rate": 1.4513522249757567e-05,
      "loss": 3.1197,
      "step": 90700
    },
    {
      "epoch": 9.767516951888926,
      "grad_norm": 0.8724974989891052,
      "learning_rate": 1.4190281219696152e-05,
      "loss": 3.1121,
      "step": 90750
    },
    {
      "epoch": 9.772898503928532,
      "grad_norm": 0.8932517170906067,
      "learning_rate": 1.3867040189634736e-05,
      "loss": 3.1189,
      "step": 90800
    },
    {
      "epoch": 9.77828005596814,
      "grad_norm": 0.8532176613807678,
      "learning_rate": 1.3543799159573321e-05,
      "loss": 3.1356,
      "step": 90850
    },
    {
      "epoch": 9.78366160800775,
      "grad_norm": 0.8784541487693787,
      "learning_rate": 1.3220558129511905e-05,
      "loss": 3.1326,
      "step": 90900
    },
    {
      "epoch": 9.789043160047358,
      "grad_norm": 0.8870171904563904,
      "learning_rate": 1.2897317099450488e-05,
      "loss": 3.12,
      "step": 90950
    },
    {
      "epoch": 9.794424712086967,
      "grad_norm": 0.8743824362754822,
      "learning_rate": 1.2574076069389073e-05,
      "loss": 3.1472,
      "step": 91000
    },
    {
      "epoch": 9.794424712086967,
      "eval_accuracy": 0.3945699198174284,
      "eval_loss": 3.3005518913269043,
      "eval_runtime": 184.3084,
      "eval_samples_per_second": 97.722,
      "eval_steps_per_second": 6.109,
      "step": 91000
    },
    {
      "epoch": 9.799806264126573,
      "grad_norm": 0.8313182592391968,
      "learning_rate": 1.2250835039327659e-05,
      "loss": 3.1266,
      "step": 91050
    },
    {
      "epoch": 9.805187816166182,
      "grad_norm": 0.9377496242523193,
      "learning_rate": 1.1927594009266242e-05,
      "loss": 3.135,
      "step": 91100
    },
    {
      "epoch": 9.81056936820579,
      "grad_norm": 0.9074418544769287,
      "learning_rate": 1.1604352979204826e-05,
      "loss": 3.1189,
      "step": 91150
    },
    {
      "epoch": 9.815950920245399,
      "grad_norm": 0.853302001953125,
      "learning_rate": 1.1281111949143409e-05,
      "loss": 3.1365,
      "step": 91200
    },
    {
      "epoch": 9.821332472285007,
      "grad_norm": 0.8685314655303955,
      "learning_rate": 1.0957870919081995e-05,
      "loss": 3.1225,
      "step": 91250
    },
    {
      "epoch": 9.826714024324616,
      "grad_norm": 0.881120502948761,
      "learning_rate": 1.063462988902058e-05,
      "loss": 3.1181,
      "step": 91300
    },
    {
      "epoch": 9.832095576364223,
      "grad_norm": 0.8497725129127502,
      "learning_rate": 1.0311388858959162e-05,
      "loss": 3.1433,
      "step": 91350
    },
    {
      "epoch": 9.837477128403831,
      "grad_norm": 0.9383324980735779,
      "learning_rate": 9.988147828897747e-06,
      "loss": 3.1183,
      "step": 91400
    },
    {
      "epoch": 9.84285868044344,
      "grad_norm": 0.8237226009368896,
      "learning_rate": 9.66490679883633e-06,
      "loss": 3.1254,
      "step": 91450
    },
    {
      "epoch": 9.848240232483048,
      "grad_norm": 0.901576042175293,
      "learning_rate": 9.341665768774916e-06,
      "loss": 3.1293,
      "step": 91500
    },
    {
      "epoch": 9.853621784522657,
      "grad_norm": 0.847665011882782,
      "learning_rate": 9.018424738713499e-06,
      "loss": 3.1271,
      "step": 91550
    },
    {
      "epoch": 9.859003336562264,
      "grad_norm": 0.8652023673057556,
      "learning_rate": 8.695183708652085e-06,
      "loss": 3.125,
      "step": 91600
    },
    {
      "epoch": 9.864384888601872,
      "grad_norm": 0.8745918273925781,
      "learning_rate": 8.37194267859067e-06,
      "loss": 3.1323,
      "step": 91650
    },
    {
      "epoch": 9.869766440641481,
      "grad_norm": 0.894797146320343,
      "learning_rate": 8.048701648529252e-06,
      "loss": 3.1449,
      "step": 91700
    },
    {
      "epoch": 9.87514799268109,
      "grad_norm": 0.8950286507606506,
      "learning_rate": 7.725460618467837e-06,
      "loss": 3.1282,
      "step": 91750
    },
    {
      "epoch": 9.880529544720698,
      "grad_norm": 0.8526635766029358,
      "learning_rate": 7.40221958840642e-06,
      "loss": 3.1304,
      "step": 91800
    },
    {
      "epoch": 9.885911096760307,
      "grad_norm": 0.8808081150054932,
      "learning_rate": 7.078978558345006e-06,
      "loss": 3.1167,
      "step": 91850
    },
    {
      "epoch": 9.891292648799913,
      "grad_norm": 0.8495019674301147,
      "learning_rate": 6.75573752828359e-06,
      "loss": 3.112,
      "step": 91900
    },
    {
      "epoch": 9.896674200839522,
      "grad_norm": 0.885815441608429,
      "learning_rate": 6.432496498222174e-06,
      "loss": 3.1232,
      "step": 91950
    },
    {
      "epoch": 9.90205575287913,
      "grad_norm": 0.8117711544036865,
      "learning_rate": 6.1092554681607575e-06,
      "loss": 3.1401,
      "step": 92000
    },
    {
      "epoch": 9.90205575287913,
      "eval_accuracy": 0.39471442815822166,
      "eval_loss": 3.2991368770599365,
      "eval_runtime": 184.2736,
      "eval_samples_per_second": 97.741,
      "eval_steps_per_second": 6.11,
      "step": 92000
    },
    {
      "epoch": 9.907437304918739,
      "grad_norm": 0.8294122219085693,
      "learning_rate": 5.792479258700571e-06,
      "loss": 3.1165,
      "step": 92050
    },
    {
      "epoch": 9.912818856958348,
      "grad_norm": 0.8506512641906738,
      "learning_rate": 5.469238228639154e-06,
      "loss": 3.1345,
      "step": 92100
    },
    {
      "epoch": 9.918200408997954,
      "grad_norm": 0.8442684412002563,
      "learning_rate": 5.145997198577739e-06,
      "loss": 3.1116,
      "step": 92150
    },
    {
      "epoch": 9.923581961037563,
      "grad_norm": 0.9040493965148926,
      "learning_rate": 4.822756168516323e-06,
      "loss": 3.139,
      "step": 92200
    },
    {
      "epoch": 9.928963513077171,
      "grad_norm": 0.8724876046180725,
      "learning_rate": 4.499515138454908e-06,
      "loss": 3.1114,
      "step": 92250
    },
    {
      "epoch": 9.93434506511678,
      "grad_norm": 0.8581605553627014,
      "learning_rate": 4.1762741083934915e-06,
      "loss": 3.124,
      "step": 92300
    },
    {
      "epoch": 9.939726617156388,
      "grad_norm": 0.9030176997184753,
      "learning_rate": 3.853033078332076e-06,
      "loss": 3.12,
      "step": 92350
    },
    {
      "epoch": 9.945108169195997,
      "grad_norm": 0.8440685272216797,
      "learning_rate": 3.52979204827066e-06,
      "loss": 3.1374,
      "step": 92400
    },
    {
      "epoch": 9.950489721235604,
      "grad_norm": 0.9154611229896545,
      "learning_rate": 3.206551018209244e-06,
      "loss": 3.1071,
      "step": 92450
    },
    {
      "epoch": 9.955871273275212,
      "grad_norm": 0.8942306041717529,
      "learning_rate": 2.8833099881478286e-06,
      "loss": 3.1052,
      "step": 92500
    },
    {
      "epoch": 9.961252825314821,
      "grad_norm": 0.8529806137084961,
      "learning_rate": 2.5600689580864127e-06,
      "loss": 3.1339,
      "step": 92550
    },
    {
      "epoch": 9.96663437735443,
      "grad_norm": 0.8863028883934021,
      "learning_rate": 2.2368279280249972e-06,
      "loss": 3.1404,
      "step": 92600
    },
    {
      "epoch": 9.972015929394038,
      "grad_norm": 0.8491096496582031,
      "learning_rate": 1.9135868979635813e-06,
      "loss": 3.114,
      "step": 92650
    },
    {
      "epoch": 9.977397481433645,
      "grad_norm": 0.8925456404685974,
      "learning_rate": 1.5903458679021656e-06,
      "loss": 3.1131,
      "step": 92700
    },
    {
      "epoch": 9.982779033473253,
      "grad_norm": 0.8471712470054626,
      "learning_rate": 1.2671048378407496e-06,
      "loss": 3.137,
      "step": 92750
    },
    {
      "epoch": 9.988160585512862,
      "grad_norm": 0.8420938849449158,
      "learning_rate": 9.438638077793341e-07,
      "loss": 3.1183,
      "step": 92800
    },
    {
      "epoch": 9.99354213755247,
      "grad_norm": 0.8698363304138184,
      "learning_rate": 6.206227777179182e-07,
      "loss": 3.1384,
      "step": 92850
    },
    {
      "epoch": 9.998923689592079,
      "grad_norm": 0.8495257496833801,
      "learning_rate": 2.9738174765650254e-07,
      "loss": 3.1249,
      "step": 92900
    },
    {
      "epoch": 10.0,
      "step": 92910,
      "total_flos": 7.7681598529536e+17,
      "train_loss": 3.454725488776245,
      "train_runtime": 80292.4403,
      "train_samples_per_second": 37.027,
      "train_steps_per_second": 1.157
    }
  ],
  "logging_steps": 50,
  "max_steps": 92910,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 10,
  "save_steps": 10000,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 7.7681598529536e+17,
  "train_batch_size": 32,
  "trial_name": null,
  "trial_params": null
}