{
  "best_metric": 3.3042829036712646,
  "best_model_checkpoint": "/scratch/cl5625/exceptions/models/100M_634/checkpoint-90000",
  "epoch": 10.0,
  "eval_steps": 1000,
  "global_step": 92910,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.005381552039608223,
      "grad_norm": 1.1389577388763428,
      "learning_rate": 0.0003,
      "loss": 8.5052,
      "step": 50
    },
    {
      "epoch": 0.010763104079216447,
      "grad_norm": 1.4862205982208252,
      "learning_rate": 0.0006,
      "loss": 6.906,
      "step": 100
    },
    {
      "epoch": 0.01614465611882467,
      "grad_norm": 2.1330480575561523,
      "learning_rate": 0.0005996767589699385,
      "loss": 6.4617,
      "step": 150
    },
    {
      "epoch": 0.021526208158432893,
      "grad_norm": 1.5365614891052246,
      "learning_rate": 0.0005993535179398771,
      "loss": 6.2047,
      "step": 200
    },
    {
      "epoch": 0.026907760198041114,
      "grad_norm": 0.7671149373054504,
      "learning_rate": 0.0005990302769098158,
      "loss": 6.0677,
      "step": 250
    },
    {
      "epoch": 0.03228931223764934,
      "grad_norm": 1.5403108596801758,
      "learning_rate": 0.0005987070358797543,
      "loss": 5.9679,
      "step": 300
    },
    {
      "epoch": 0.03767086427725756,
      "grad_norm": 1.5307084321975708,
      "learning_rate": 0.0005983837948496929,
      "loss": 5.8497,
      "step": 350
    },
    {
      "epoch": 0.04305241631686579,
      "grad_norm": 1.5531766414642334,
      "learning_rate": 0.0005980605538196314,
      "loss": 5.7938,
      "step": 400
    },
    {
      "epoch": 0.048433968356474004,
      "grad_norm": 1.1513768434524536,
      "learning_rate": 0.0005977373127895701,
      "loss": 5.7165,
      "step": 450
    },
    {
      "epoch": 0.05381552039608223,
      "grad_norm": 3.338592290878296,
      "learning_rate": 0.0005974140717595086,
      "loss": 5.6419,
      "step": 500
    },
    {
      "epoch": 0.05919707243569045,
      "grad_norm": 1.1218396425247192,
      "learning_rate": 0.0005970908307294472,
      "loss": 5.582,
      "step": 550
    },
    {
      "epoch": 0.06457862447529868,
      "grad_norm": 1.3364015817642212,
      "learning_rate": 0.0005967675896993858,
      "loss": 5.5154,
      "step": 600
    },
    {
      "epoch": 0.0699601765149069,
      "grad_norm": 0.95203697681427,
      "learning_rate": 0.0005964443486693243,
      "loss": 5.4434,
      "step": 650
    },
    {
      "epoch": 0.07534172855451512,
      "grad_norm": 1.0771853923797607,
      "learning_rate": 0.000596121107639263,
      "loss": 5.3774,
      "step": 700
    },
    {
      "epoch": 0.08072328059412334,
      "grad_norm": 1.2210040092468262,
      "learning_rate": 0.0005957978666092015,
      "loss": 5.3284,
      "step": 750
    },
    {
      "epoch": 0.08610483263373157,
      "grad_norm": 1.3904883861541748,
      "learning_rate": 0.0005954746255791401,
      "loss": 5.261,
      "step": 800
    },
    {
      "epoch": 0.09148638467333979,
      "grad_norm": 1.2741485834121704,
      "learning_rate": 0.0005951513845490787,
      "loss": 5.1816,
      "step": 850
    },
    {
      "epoch": 0.09686793671294801,
      "grad_norm": 1.1257421970367432,
      "learning_rate": 0.0005948281435190174,
      "loss": 5.1634,
      "step": 900
    },
    {
      "epoch": 0.10224948875255624,
      "grad_norm": 1.3853353261947632,
      "learning_rate": 0.0005945049024889559,
      "loss": 5.1229,
      "step": 950
    },
    {
      "epoch": 0.10763104079216446,
      "grad_norm": 1.3206759691238403,
      "learning_rate": 0.0005941816614588944,
      "loss": 5.0748,
      "step": 1000
    },
    {
      "epoch": 0.10763104079216446,
      "eval_accuracy": 0.22910678308026808,
      "eval_loss": 5.006535053253174,
      "eval_runtime": 185.9654,
      "eval_samples_per_second": 96.851,
      "eval_steps_per_second": 6.055,
      "step": 1000
    },
    {
      "epoch": 0.11301259283177269,
      "grad_norm": 1.2257087230682373,
      "learning_rate": 0.000593858420428833,
      "loss": 5.0404,
      "step": 1050
    },
    {
      "epoch": 0.1183941448713809,
      "grad_norm": 1.3605040311813354,
      "learning_rate": 0.0005935351793987716,
      "loss": 5.006,
      "step": 1100
    },
    {
      "epoch": 0.12377569691098914,
      "grad_norm": 1.2069852352142334,
      "learning_rate": 0.0005932119383687103,
      "loss": 4.9862,
      "step": 1150
    },
    {
      "epoch": 0.12915724895059735,
      "grad_norm": 1.3661524057388306,
      "learning_rate": 0.0005928886973386488,
      "loss": 4.958,
      "step": 1200
    },
    {
      "epoch": 0.13453880099020557,
      "grad_norm": 1.0284018516540527,
      "learning_rate": 0.0005925654563085874,
      "loss": 4.9351,
      "step": 1250
    },
    {
      "epoch": 0.1399203530298138,
      "grad_norm": 1.1849380731582642,
      "learning_rate": 0.000592242215278526,
      "loss": 4.9032,
      "step": 1300
    },
    {
      "epoch": 0.14530190506942203,
      "grad_norm": 1.0142698287963867,
      "learning_rate": 0.0005919189742484645,
      "loss": 4.8849,
      "step": 1350
    },
    {
      "epoch": 0.15068345710903025,
      "grad_norm": 1.38875150680542,
      "learning_rate": 0.0005915957332184032,
      "loss": 4.856,
      "step": 1400
    },
    {
      "epoch": 0.15606500914863847,
      "grad_norm": 1.2343246936798096,
      "learning_rate": 0.0005912724921883417,
      "loss": 4.7995,
      "step": 1450
    },
    {
      "epoch": 0.16144656118824668,
      "grad_norm": 1.0096136331558228,
      "learning_rate": 0.0005909492511582803,
      "loss": 4.8143,
      "step": 1500
    },
    {
      "epoch": 0.1668281132278549,
      "grad_norm": 1.0158966779708862,
      "learning_rate": 0.0005906260101282189,
      "loss": 4.7838,
      "step": 1550
    },
    {
      "epoch": 0.17220966526746315,
      "grad_norm": 1.140776515007019,
      "learning_rate": 0.0005903027690981575,
      "loss": 4.7439,
      "step": 1600
    },
    {
      "epoch": 0.17759121730707136,
      "grad_norm": 1.2190929651260376,
      "learning_rate": 0.000589979528068096,
      "loss": 4.732,
      "step": 1650
    },
    {
      "epoch": 0.18297276934667958,
      "grad_norm": 1.0543434619903564,
      "learning_rate": 0.0005896562870380347,
      "loss": 4.7037,
      "step": 1700
    },
    {
      "epoch": 0.1883543213862878,
      "grad_norm": 0.956109344959259,
      "learning_rate": 0.0005893330460079732,
      "loss": 4.6887,
      "step": 1750
    },
    {
      "epoch": 0.19373587342589602,
      "grad_norm": 1.1073485612869263,
      "learning_rate": 0.0005890098049779118,
      "loss": 4.6667,
      "step": 1800
    },
    {
      "epoch": 0.19911742546550426,
      "grad_norm": 1.0319463014602661,
      "learning_rate": 0.0005886865639478504,
      "loss": 4.6366,
      "step": 1850
    },
    {
      "epoch": 0.20449897750511248,
      "grad_norm": 0.8771703243255615,
      "learning_rate": 0.0005883633229177889,
      "loss": 4.6215,
      "step": 1900
    },
    {
      "epoch": 0.2098805295447207,
      "grad_norm": 1.013555645942688,
      "learning_rate": 0.0005880400818877276,
      "loss": 4.6009,
      "step": 1950
    },
    {
      "epoch": 0.2152620815843289,
      "grad_norm": 0.9236723184585571,
      "learning_rate": 0.0005877168408576662,
      "loss": 4.5964,
      "step": 2000
    },
    {
      "epoch": 0.2152620815843289,
      "eval_accuracy": 0.2713005022697045,
      "eval_loss": 4.502102375030518,
      "eval_runtime": 186.0916,
      "eval_samples_per_second": 96.786,
      "eval_steps_per_second": 6.051,
      "step": 2000
    },
    {
      "epoch": 0.22064363362393713,
      "grad_norm": 1.0886815786361694,
      "learning_rate": 0.0005873935998276048,
      "loss": 4.5705,
      "step": 2050
    },
    {
      "epoch": 0.22602518566354537,
      "grad_norm": 1.0850309133529663,
      "learning_rate": 0.0005870703587975433,
      "loss": 4.563,
      "step": 2100
    },
    {
      "epoch": 0.2314067377031536,
      "grad_norm": 1.1473363637924194,
      "learning_rate": 0.0005867471177674818,
      "loss": 4.533,
      "step": 2150
    },
    {
      "epoch": 0.2367882897427618,
      "grad_norm": 0.8018024563789368,
      "learning_rate": 0.0005864238767374205,
      "loss": 4.5027,
      "step": 2200
    },
    {
      "epoch": 0.24216984178237003,
      "grad_norm": 0.8182715177536011,
      "learning_rate": 0.0005861006357073591,
      "loss": 4.4948,
      "step": 2250
    },
    {
      "epoch": 0.24755139382197827,
      "grad_norm": 0.9111860394477844,
      "learning_rate": 0.0005857773946772977,
      "loss": 4.4747,
      "step": 2300
    },
    {
      "epoch": 0.2529329458615865,
      "grad_norm": 0.7015730142593384,
      "learning_rate": 0.0005854541536472362,
      "loss": 4.4586,
      "step": 2350
    },
    {
      "epoch": 0.2583144979011947,
      "grad_norm": 1.0801239013671875,
      "learning_rate": 0.0005851309126171749,
      "loss": 4.4289,
      "step": 2400
    },
    {
      "epoch": 0.2636960499408029,
      "grad_norm": 0.8448882699012756,
      "learning_rate": 0.0005848076715871134,
      "loss": 4.4382,
      "step": 2450
    },
    {
      "epoch": 0.26907760198041114,
      "grad_norm": 1.0425266027450562,
      "learning_rate": 0.000584484430557052,
      "loss": 4.422,
      "step": 2500
    },
    {
      "epoch": 0.27445915402001936,
      "grad_norm": 0.808894157409668,
      "learning_rate": 0.0005841611895269906,
      "loss": 4.4208,
      "step": 2550
    },
    {
      "epoch": 0.2798407060596276,
      "grad_norm": 0.9117922782897949,
      "learning_rate": 0.0005838379484969291,
      "loss": 4.3788,
      "step": 2600
    },
    {
      "epoch": 0.2852222580992358,
      "grad_norm": 0.73955899477005,
      "learning_rate": 0.0005835147074668678,
      "loss": 4.4037,
      "step": 2650
    },
    {
      "epoch": 0.29060381013884407,
      "grad_norm": 0.9478733539581299,
      "learning_rate": 0.0005831914664368063,
      "loss": 4.3699,
      "step": 2700
    },
    {
      "epoch": 0.2959853621784523,
      "grad_norm": 0.7702047228813171,
      "learning_rate": 0.0005828682254067449,
      "loss": 4.3461,
      "step": 2750
    },
    {
      "epoch": 0.3013669142180605,
      "grad_norm": 0.9874959588050842,
      "learning_rate": 0.0005825449843766835,
      "loss": 4.3641,
      "step": 2800
    },
    {
      "epoch": 0.3067484662576687,
      "grad_norm": 0.7669680118560791,
      "learning_rate": 0.0005822217433466221,
      "loss": 4.3359,
      "step": 2850
    },
    {
      "epoch": 0.31213001829727693,
      "grad_norm": 0.9215088486671448,
      "learning_rate": 0.0005818985023165607,
      "loss": 4.3242,
      "step": 2900
    },
    {
      "epoch": 0.31751157033688515,
      "grad_norm": 0.7664759755134583,
      "learning_rate": 0.0005815752612864992,
      "loss": 4.3235,
      "step": 2950
    },
    {
      "epoch": 0.32289312237649337,
      "grad_norm": 0.8173506259918213,
      "learning_rate": 0.0005812520202564378,
      "loss": 4.3306,
      "step": 3000
    },
    {
      "epoch": 0.32289312237649337,
      "eval_accuracy": 0.2993057841038869,
      "eval_loss": 4.235345363616943,
      "eval_runtime": 185.8452,
      "eval_samples_per_second": 96.914,
      "eval_steps_per_second": 6.059,
      "step": 3000
    },
    {
      "epoch": 0.3282746744161016,
      "grad_norm": 0.6858223080635071,
      "learning_rate": 0.0005809287792263764,
      "loss": 4.2718,
      "step": 3050
    },
    {
      "epoch": 0.3336562264557098,
      "grad_norm": 0.8953812122344971,
      "learning_rate": 0.0005806055381963151,
      "loss": 4.2606,
      "step": 3100
    },
    {
      "epoch": 0.3390377784953181,
      "grad_norm": 0.9922242164611816,
      "learning_rate": 0.0005802822971662536,
      "loss": 4.292,
      "step": 3150
    },
    {
      "epoch": 0.3444193305349263,
      "grad_norm": 0.7395849823951721,
      "learning_rate": 0.0005799590561361922,
      "loss": 4.2681,
      "step": 3200
    },
    {
      "epoch": 0.3498008825745345,
      "grad_norm": 0.7973000407218933,
      "learning_rate": 0.0005796358151061307,
      "loss": 4.2476,
      "step": 3250
    },
    {
      "epoch": 0.35518243461414273,
      "grad_norm": 0.7861300706863403,
      "learning_rate": 0.0005793125740760694,
      "loss": 4.2516,
      "step": 3300
    },
    {
      "epoch": 0.36056398665375095,
      "grad_norm": 0.6836803555488586,
      "learning_rate": 0.0005789893330460079,
      "loss": 4.2519,
      "step": 3350
    },
    {
      "epoch": 0.36594553869335916,
      "grad_norm": 0.7144234776496887,
      "learning_rate": 0.0005786660920159465,
      "loss": 4.2446,
      "step": 3400
    },
    {
      "epoch": 0.3713270907329674,
      "grad_norm": 0.5956302881240845,
      "learning_rate": 0.0005783428509858851,
      "loss": 4.2266,
      "step": 3450
    },
    {
      "epoch": 0.3767086427725756,
      "grad_norm": 0.7246383428573608,
      "learning_rate": 0.0005780196099558237,
      "loss": 4.2074,
      "step": 3500
    },
    {
      "epoch": 0.3820901948121838,
      "grad_norm": 0.8335678577423096,
      "learning_rate": 0.0005776963689257623,
      "loss": 4.1944,
      "step": 3550
    },
    {
      "epoch": 0.38747174685179203,
      "grad_norm": 0.6303760409355164,
      "learning_rate": 0.0005773731278957008,
      "loss": 4.2191,
      "step": 3600
    },
    {
      "epoch": 0.3928532988914003,
      "grad_norm": 0.7886384725570679,
      "learning_rate": 0.0005770498868656394,
      "loss": 4.2131,
      "step": 3650
    },
    {
      "epoch": 0.3982348509310085,
      "grad_norm": 0.6572263836860657,
      "learning_rate": 0.000576726645835578,
      "loss": 4.1996,
      "step": 3700
    },
    {
      "epoch": 0.40361640297061674,
      "grad_norm": 0.7456958889961243,
      "learning_rate": 0.0005764034048055167,
      "loss": 4.1868,
      "step": 3750
    },
    {
      "epoch": 0.40899795501022496,
      "grad_norm": 0.6404446959495544,
      "learning_rate": 0.0005760801637754552,
      "loss": 4.1974,
      "step": 3800
    },
    {
      "epoch": 0.4143795070498332,
      "grad_norm": 0.8347035646438599,
      "learning_rate": 0.0005757569227453937,
      "loss": 4.184,
      "step": 3850
    },
    {
      "epoch": 0.4197610590894414,
      "grad_norm": 0.7075282335281372,
      "learning_rate": 0.0005754336817153324,
      "loss": 4.1561,
      "step": 3900
    },
    {
      "epoch": 0.4251426111290496,
      "grad_norm": 0.653554379940033,
      "learning_rate": 0.0005751104406852709,
      "loss": 4.1588,
      "step": 3950
    },
    {
      "epoch": 0.4305241631686578,
      "grad_norm": 0.7061605453491211,
      "learning_rate": 0.0005747871996552096,
      "loss": 4.1576,
      "step": 4000
    },
    {
      "epoch": 0.4305241631686578,
      "eval_accuracy": 0.31300332771199507,
      "eval_loss": 4.08618688583374,
      "eval_runtime": 185.7796,
      "eval_samples_per_second": 96.948,
      "eval_steps_per_second": 6.061,
      "step": 4000
    },
    {
      "epoch": 0.43590571520826604,
      "grad_norm": 0.6937496066093445,
      "learning_rate": 0.0005744639586251481,
      "loss": 4.1512,
      "step": 4050
    },
    {
      "epoch": 0.44128726724787426,
      "grad_norm": 0.6226463913917542,
      "learning_rate": 0.0005741407175950867,
      "loss": 4.1668,
      "step": 4100
    },
    {
      "epoch": 0.44666881928748253,
      "grad_norm": 0.7388604283332825,
      "learning_rate": 0.0005738174765650253,
      "loss": 4.1155,
      "step": 4150
    },
    {
      "epoch": 0.45205037132709075,
      "grad_norm": 0.6093653440475464,
      "learning_rate": 0.0005734942355349638,
      "loss": 4.1378,
      "step": 4200
    },
    {
      "epoch": 0.45743192336669897,
      "grad_norm": 0.8184195160865784,
      "learning_rate": 0.0005731709945049025,
      "loss": 4.1264,
      "step": 4250
    },
    {
      "epoch": 0.4628134754063072,
      "grad_norm": 0.6735671758651733,
      "learning_rate": 0.000572847753474841,
      "loss": 4.1366,
      "step": 4300
    },
    {
      "epoch": 0.4681950274459154,
      "grad_norm": 0.7445463538169861,
      "learning_rate": 0.0005725245124447796,
      "loss": 4.1291,
      "step": 4350
    },
    {
      "epoch": 0.4735765794855236,
      "grad_norm": 0.6650310158729553,
      "learning_rate": 0.0005722012714147182,
      "loss": 4.1092,
      "step": 4400
    },
    {
      "epoch": 0.47895813152513184,
      "grad_norm": 0.7259877920150757,
      "learning_rate": 0.0005718780303846568,
      "loss": 4.0984,
      "step": 4450
    },
    {
      "epoch": 0.48433968356474005,
      "grad_norm": 0.6843159794807434,
      "learning_rate": 0.0005715547893545953,
      "loss": 4.0989,
      "step": 4500
    },
    {
      "epoch": 0.48972123560434827,
      "grad_norm": 0.6148675680160522,
      "learning_rate": 0.000571231548324534,
      "loss": 4.0952,
      "step": 4550
    },
    {
      "epoch": 0.49510278764395654,
      "grad_norm": 0.6599589586257935,
      "learning_rate": 0.0005709083072944725,
      "loss": 4.1067,
      "step": 4600
    },
    {
      "epoch": 0.5004843396835648,
      "grad_norm": 0.6732610464096069,
      "learning_rate": 0.0005705850662644111,
      "loss": 4.0761,
      "step": 4650
    },
    {
      "epoch": 0.505865891723173,
      "grad_norm": 0.6415411233901978,
      "learning_rate": 0.0005702618252343497,
      "loss": 4.0965,
      "step": 4700
    },
    {
      "epoch": 0.5112474437627812,
      "grad_norm": 0.7083958387374878,
      "learning_rate": 0.0005699385842042882,
      "loss": 4.101,
      "step": 4750
    },
    {
      "epoch": 0.5166289958023894,
      "grad_norm": 0.5860052108764648,
      "learning_rate": 0.0005696153431742269,
      "loss": 4.0796,
      "step": 4800
    },
    {
      "epoch": 0.5220105478419976,
      "grad_norm": 0.5789269208908081,
      "learning_rate": 0.0005692921021441655,
      "loss": 4.0813,
      "step": 4850
    },
    {
      "epoch": 0.5273920998816058,
      "grad_norm": 0.615975558757782,
      "learning_rate": 0.0005689688611141041,
      "loss": 4.0611,
      "step": 4900
    },
    {
      "epoch": 0.5327736519212141,
      "grad_norm": 0.6871863603591919,
      "learning_rate": 0.0005686456200840426,
      "loss": 4.0634,
      "step": 4950
    },
    {
      "epoch": 0.5381552039608223,
      "grad_norm": 0.6862363219261169,
      "learning_rate": 0.0005683223790539811,
      "loss": 4.0428,
      "step": 5000
    },
    {
      "epoch": 0.5381552039608223,
      "eval_accuracy": 0.3217770484030144,
      "eval_loss": 3.9907963275909424,
      "eval_runtime": 185.8994,
      "eval_samples_per_second": 96.886,
      "eval_steps_per_second": 6.057,
      "step": 5000
    },
    {
      "epoch": 0.5435367560004305,
      "grad_norm": 0.7013775706291199,
      "learning_rate": 0.0005679991380239198,
      "loss": 4.0758,
      "step": 5050
    },
    {
      "epoch": 0.5489183080400387,
      "grad_norm": 0.6106124520301819,
      "learning_rate": 0.0005676758969938584,
      "loss": 4.0382,
      "step": 5100
    },
    {
      "epoch": 0.5542998600796469,
      "grad_norm": 0.7806007266044617,
      "learning_rate": 0.000567352655963797,
      "loss": 4.0572,
      "step": 5150
    },
    {
      "epoch": 0.5596814121192552,
      "grad_norm": 0.6152966022491455,
      "learning_rate": 0.0005670294149337355,
      "loss": 4.0474,
      "step": 5200
    },
    {
      "epoch": 0.5650629641588634,
      "grad_norm": 0.66466224193573,
      "learning_rate": 0.0005667061739036742,
      "loss": 4.0388,
      "step": 5250
    },
    {
      "epoch": 0.5704445161984716,
      "grad_norm": 0.6064108610153198,
      "learning_rate": 0.0005663829328736127,
      "loss": 4.0523,
      "step": 5300
    },
    {
      "epoch": 0.5758260682380799,
      "grad_norm": 0.584842324256897,
      "learning_rate": 0.0005660596918435512,
      "loss": 4.0395,
      "step": 5350
    },
    {
      "epoch": 0.5812076202776881,
      "grad_norm": 0.6716340184211731,
      "learning_rate": 0.0005657364508134899,
      "loss": 4.0226,
      "step": 5400
    },
    {
      "epoch": 0.5865891723172963,
      "grad_norm": 0.5199147462844849,
      "learning_rate": 0.0005654132097834284,
      "loss": 4.0405,
      "step": 5450
    },
    {
      "epoch": 0.5919707243569046,
      "grad_norm": 0.6156800389289856,
      "learning_rate": 0.0005650899687533671,
      "loss": 4.0224,
      "step": 5500
    },
    {
      "epoch": 0.5973522763965128,
      "grad_norm": 0.7844805121421814,
      "learning_rate": 0.0005647667277233056,
      "loss": 4.0402,
      "step": 5550
    },
    {
      "epoch": 0.602733828436121,
      "grad_norm": 0.6903187036514282,
      "learning_rate": 0.0005644434866932442,
      "loss": 4.0098,
      "step": 5600
    },
    {
      "epoch": 0.6081153804757292,
      "grad_norm": 0.5811914801597595,
      "learning_rate": 0.0005641202456631828,
      "loss": 3.9956,
      "step": 5650
    },
    {
      "epoch": 0.6134969325153374,
      "grad_norm": 0.6932799220085144,
      "learning_rate": 0.0005637970046331214,
      "loss": 4.0024,
      "step": 5700
    },
    {
      "epoch": 0.6188784845549457,
      "grad_norm": 0.5665867924690247,
      "learning_rate": 0.00056347376360306,
      "loss": 4.0135,
      "step": 5750
    },
    {
      "epoch": 0.6242600365945539,
      "grad_norm": 0.6506261825561523,
      "learning_rate": 0.0005631505225729985,
      "loss": 4.0038,
      "step": 5800
    },
    {
      "epoch": 0.6296415886341621,
      "grad_norm": 0.6578322052955627,
      "learning_rate": 0.0005628272815429371,
      "loss": 3.9714,
      "step": 5850
    },
    {
      "epoch": 0.6350231406737703,
      "grad_norm": 0.6603026390075684,
      "learning_rate": 0.0005625040405128757,
      "loss": 3.9947,
      "step": 5900
    },
    {
      "epoch": 0.6404046927133785,
      "grad_norm": 0.5821710228919983,
      "learning_rate": 0.0005621807994828143,
      "loss": 3.9957,
      "step": 5950
    },
    {
      "epoch": 0.6457862447529867,
      "grad_norm": 0.6551323533058167,
      "learning_rate": 0.0005618575584527529,
      "loss": 3.9743,
      "step": 6000
    },
    {
      "epoch": 0.6457862447529867,
      "eval_accuracy": 0.328154646959061,
      "eval_loss": 3.9180314540863037,
      "eval_runtime": 185.5441,
      "eval_samples_per_second": 97.071,
      "eval_steps_per_second": 6.069,
      "step": 6000
    },
    {
      "epoch": 0.651167796792595,
      "grad_norm": 0.5838072896003723,
      "learning_rate": 0.0005615343174226915,
      "loss": 3.9985,
      "step": 6050
    },
    {
      "epoch": 0.6565493488322032,
      "grad_norm": 0.6038544774055481,
      "learning_rate": 0.00056121107639263,
      "loss": 3.9749,
      "step": 6100
    },
    {
      "epoch": 0.6619309008718114,
      "grad_norm": 0.6246265769004822,
      "learning_rate": 0.0005608878353625687,
      "loss": 3.9658,
      "step": 6150
    },
    {
      "epoch": 0.6673124529114196,
      "grad_norm": 0.5856127738952637,
      "learning_rate": 0.0005605645943325072,
      "loss": 3.9441,
      "step": 6200
    },
    {
      "epoch": 0.6726940049510278,
      "grad_norm": 0.6326770782470703,
      "learning_rate": 0.0005602413533024458,
      "loss": 3.9462,
      "step": 6250
    },
    {
      "epoch": 0.6780755569906362,
      "grad_norm": 0.5586721301078796,
      "learning_rate": 0.0005599181122723844,
      "loss": 3.9659,
      "step": 6300
    },
    {
      "epoch": 0.6834571090302444,
      "grad_norm": 0.678005576133728,
      "learning_rate": 0.000559594871242323,
      "loss": 3.9687,
      "step": 6350
    },
    {
      "epoch": 0.6888386610698526,
      "grad_norm": 0.5352863073348999,
      "learning_rate": 0.0005592780950328628,
      "loss": 3.9488,
      "step": 6400
    },
    {
      "epoch": 0.6942202131094608,
      "grad_norm": 0.6165626645088196,
      "learning_rate": 0.0005589548540028014,
      "loss": 3.9647,
      "step": 6450
    },
    {
      "epoch": 0.699601765149069,
      "grad_norm": 0.7808535695075989,
      "learning_rate": 0.0005586316129727399,
      "loss": 3.9401,
      "step": 6500
    },
    {
      "epoch": 0.7049833171886772,
      "grad_norm": 0.5731953978538513,
      "learning_rate": 0.0005583083719426786,
      "loss": 3.9532,
      "step": 6550
    },
    {
      "epoch": 0.7103648692282855,
      "grad_norm": 0.5794577598571777,
      "learning_rate": 0.0005579851309126171,
      "loss": 3.9458,
      "step": 6600
    },
    {
      "epoch": 0.7157464212678937,
      "grad_norm": 0.7212978601455688,
      "learning_rate": 0.0005576618898825558,
      "loss": 3.9614,
      "step": 6650
    },
    {
      "epoch": 0.7211279733075019,
      "grad_norm": 0.5762929916381836,
      "learning_rate": 0.0005573386488524943,
      "loss": 3.9581,
      "step": 6700
    },
    {
      "epoch": 0.7265095253471101,
      "grad_norm": 0.590490460395813,
      "learning_rate": 0.0005570154078224328,
      "loss": 3.9396,
      "step": 6750
    },
    {
      "epoch": 0.7318910773867183,
      "grad_norm": 0.6199917793273926,
      "learning_rate": 0.0005566921667923715,
      "loss": 3.9453,
      "step": 6800
    },
    {
      "epoch": 0.7372726294263265,
      "grad_norm": 0.5691436529159546,
      "learning_rate": 0.00055636892576231,
      "loss": 3.9668,
      "step": 6850
    },
    {
      "epoch": 0.7426541814659348,
      "grad_norm": 0.6361265182495117,
      "learning_rate": 0.0005560521495528498,
      "loss": 3.9277,
      "step": 6900
    },
    {
      "epoch": 0.748035733505543,
      "grad_norm": 0.5649009943008423,
      "learning_rate": 0.0005557289085227884,
      "loss": 3.9271,
      "step": 6950
    },
    {
      "epoch": 0.7534172855451512,
      "grad_norm": 0.5851559638977051,
      "learning_rate": 0.000555405667492727,
      "loss": 3.9413,
      "step": 7000
    },
    {
      "epoch": 0.7534172855451512,
      "eval_accuracy": 0.3330810775454574,
      "eval_loss": 3.862299919128418,
      "eval_runtime": 186.0578,
      "eval_samples_per_second": 96.803,
      "eval_steps_per_second": 6.052,
      "step": 7000
    },
    {
      "epoch": 0.7587988375847594,
      "grad_norm": 0.6089013814926147,
      "learning_rate": 0.0005550824264626657,
      "loss": 3.9151,
      "step": 7050
    },
    {
      "epoch": 0.7641803896243676,
      "grad_norm": 0.58931565284729,
      "learning_rate": 0.0005547591854326042,
      "loss": 3.9221,
      "step": 7100
    },
    {
      "epoch": 0.7695619416639758,
      "grad_norm": 0.642694890499115,
      "learning_rate": 0.0005544359444025428,
      "loss": 3.9117,
      "step": 7150
    },
    {
      "epoch": 0.7749434937035841,
      "grad_norm": 0.6255139112472534,
      "learning_rate": 0.0005541127033724813,
      "loss": 3.8988,
      "step": 7200
    },
    {
      "epoch": 0.7803250457431924,
      "grad_norm": 0.5693017244338989,
      "learning_rate": 0.0005537894623424199,
      "loss": 3.9269,
      "step": 7250
    },
    {
      "epoch": 0.7857065977828006,
      "grad_norm": 0.5148153305053711,
      "learning_rate": 0.0005534662213123586,
      "loss": 3.9041,
      "step": 7300
    },
    {
      "epoch": 0.7910881498224088,
      "grad_norm": 0.642090916633606,
      "learning_rate": 0.0005531429802822971,
      "loss": 3.9016,
      "step": 7350
    },
    {
      "epoch": 0.796469701862017,
      "grad_norm": 0.5472738742828369,
      "learning_rate": 0.0005528197392522357,
      "loss": 3.9163,
      "step": 7400
    },
    {
      "epoch": 0.8018512539016253,
      "grad_norm": 0.5779740810394287,
      "learning_rate": 0.0005524964982221743,
      "loss": 3.9119,
      "step": 7450
    },
    {
      "epoch": 0.8072328059412335,
      "grad_norm": 0.6258902549743652,
      "learning_rate": 0.0005521732571921129,
      "loss": 3.9153,
      "step": 7500
    },
    {
      "epoch": 0.8126143579808417,
      "grad_norm": 0.6392936706542969,
      "learning_rate": 0.0005518500161620514,
      "loss": 3.9107,
      "step": 7550
    },
    {
      "epoch": 0.8179959100204499,
      "grad_norm": 0.5404233336448669,
      "learning_rate": 0.00055152677513199,
      "loss": 3.9086,
      "step": 7600
    },
    {
      "epoch": 0.8233774620600581,
      "grad_norm": 0.6467403173446655,
      "learning_rate": 0.0005512035341019286,
      "loss": 3.9028,
      "step": 7650
    },
    {
      "epoch": 0.8287590140996663,
      "grad_norm": 0.6213066577911377,
      "learning_rate": 0.0005508802930718672,
      "loss": 3.8878,
      "step": 7700
    },
    {
      "epoch": 0.8341405661392746,
      "grad_norm": 0.5488181114196777,
      "learning_rate": 0.0005505570520418058,
      "loss": 3.9123,
      "step": 7750
    },
    {
      "epoch": 0.8395221181788828,
      "grad_norm": 0.5627690553665161,
      "learning_rate": 0.0005502338110117443,
      "loss": 3.9014,
      "step": 7800
    },
    {
      "epoch": 0.844903670218491,
      "grad_norm": 0.6541978716850281,
      "learning_rate": 0.000549910569981683,
      "loss": 3.8914,
      "step": 7850
    },
    {
      "epoch": 0.8502852222580992,
      "grad_norm": 0.5998304486274719,
      "learning_rate": 0.0005495873289516215,
      "loss": 3.8891,
      "step": 7900
    },
    {
      "epoch": 0.8556667742977074,
      "grad_norm": 0.6240373253822327,
      "learning_rate": 0.0005492640879215602,
      "loss": 3.8755,
      "step": 7950
    },
    {
      "epoch": 0.8610483263373157,
      "grad_norm": 0.5167590379714966,
      "learning_rate": 0.0005489408468914987,
      "loss": 3.909,
      "step": 8000
    },
    {
      "epoch": 0.8610483263373157,
      "eval_accuracy": 0.3374016596294002,
      "eval_loss": 3.817283868789673,
      "eval_runtime": 185.7884,
      "eval_samples_per_second": 96.944,
      "eval_steps_per_second": 6.061,
      "step": 8000
    },
    {
      "epoch": 0.8664298783769239,
      "grad_norm": 0.5772181153297424,
      "learning_rate": 0.0005486176058614372,
      "loss": 3.8942,
      "step": 8050
    },
    {
      "epoch": 0.8718114304165321,
      "grad_norm": 0.664053738117218,
      "learning_rate": 0.0005482943648313759,
      "loss": 3.8782,
      "step": 8100
    },
    {
      "epoch": 0.8771929824561403,
      "grad_norm": 0.5265839695930481,
      "learning_rate": 0.0005479711238013145,
      "loss": 3.8637,
      "step": 8150
    },
    {
      "epoch": 0.8825745344957485,
      "grad_norm": 0.6400346755981445,
      "learning_rate": 0.0005476478827712531,
      "loss": 3.8946,
      "step": 8200
    },
    {
      "epoch": 0.8879560865353568,
      "grad_norm": 0.5701442956924438,
      "learning_rate": 0.0005473246417411916,
      "loss": 3.8681,
      "step": 8250
    },
    {
      "epoch": 0.8933376385749651,
      "grad_norm": 0.5726491808891296,
      "learning_rate": 0.0005470014007111302,
      "loss": 3.8608,
      "step": 8300
    },
    {
      "epoch": 0.8987191906145733,
      "grad_norm": 0.6093343496322632,
      "learning_rate": 0.0005466781596810688,
      "loss": 3.8689,
      "step": 8350
    },
    {
      "epoch": 0.9041007426541815,
      "grad_norm": 0.5987808704376221,
      "learning_rate": 0.0005463549186510073,
      "loss": 3.8585,
      "step": 8400
    },
    {
      "epoch": 0.9094822946937897,
      "grad_norm": 0.5874572992324829,
      "learning_rate": 0.000546031677620946,
      "loss": 3.8732,
      "step": 8450
    },
    {
      "epoch": 0.9148638467333979,
      "grad_norm": 0.6034915447235107,
      "learning_rate": 0.0005457084365908845,
      "loss": 3.8582,
      "step": 8500
    },
    {
      "epoch": 0.9202453987730062,
      "grad_norm": 0.5764786005020142,
      "learning_rate": 0.0005453851955608232,
      "loss": 3.8754,
      "step": 8550
    },
    {
      "epoch": 0.9256269508126144,
      "grad_norm": 0.6109842658042908,
      "learning_rate": 0.0005450619545307617,
      "loss": 3.8798,
      "step": 8600
    },
    {
      "epoch": 0.9310085028522226,
      "grad_norm": 0.5353456735610962,
      "learning_rate": 0.0005447387135007003,
      "loss": 3.849,
      "step": 8650
    },
    {
      "epoch": 0.9363900548918308,
      "grad_norm": 0.611107349395752,
      "learning_rate": 0.0005444154724706389,
      "loss": 3.8501,
      "step": 8700
    },
    {
      "epoch": 0.941771606931439,
      "grad_norm": 0.5343599319458008,
      "learning_rate": 0.0005440922314405775,
      "loss": 3.8621,
      "step": 8750
    },
    {
      "epoch": 0.9471531589710472,
      "grad_norm": 0.5218559503555298,
      "learning_rate": 0.0005437689904105161,
      "loss": 3.8507,
      "step": 8800
    },
    {
      "epoch": 0.9525347110106555,
      "grad_norm": 0.6227349042892456,
      "learning_rate": 0.0005434457493804546,
      "loss": 3.8473,
      "step": 8850
    },
    {
      "epoch": 0.9579162630502637,
      "grad_norm": 0.6495899558067322,
      "learning_rate": 0.0005431225083503932,
      "loss": 3.8443,
      "step": 8900
    },
    {
      "epoch": 0.9632978150898719,
      "grad_norm": 0.6086428165435791,
      "learning_rate": 0.0005427992673203318,
      "loss": 3.8482,
      "step": 8950
    },
    {
      "epoch": 0.9686793671294801,
      "grad_norm": 0.6047572493553162,
      "learning_rate": 0.0005424760262902704,
      "loss": 3.8455,
      "step": 9000
    },
    {
      "epoch": 0.9686793671294801,
      "eval_accuracy": 0.34146506032788615,
      "eval_loss": 3.7796390056610107,
      "eval_runtime": 185.4939,
      "eval_samples_per_second": 97.098,
      "eval_steps_per_second": 6.07,
      "step": 9000
    },
    {
      "epoch": 0.9740609191690883,
      "grad_norm": 0.5650177597999573,
      "learning_rate": 0.000542152785260209,
      "loss": 3.8553,
      "step": 9050
    },
    {
      "epoch": 0.9794424712086965,
      "grad_norm": 0.5810967683792114,
      "learning_rate": 0.0005418295442301476,
      "loss": 3.845,
      "step": 9100
    },
    {
      "epoch": 0.9848240232483048,
      "grad_norm": 0.5728610754013062,
      "learning_rate": 0.0005415063032000861,
      "loss": 3.8188,
      "step": 9150
    },
    {
      "epoch": 0.9902055752879131,
      "grad_norm": 0.6356510519981384,
      "learning_rate": 0.0005411830621700248,
      "loss": 3.8348,
      "step": 9200
    },
    {
      "epoch": 0.9955871273275213,
      "grad_norm": 0.6879794597625732,
      "learning_rate": 0.0005408598211399633,
      "loss": 3.8424,
      "step": 9250
    },
    {
      "epoch": 1.0009686793671295,
      "grad_norm": 0.6967470645904541,
      "learning_rate": 0.0005405365801099019,
      "loss": 3.8109,
      "step": 9300
    },
    {
      "epoch": 1.0063502314067376,
      "grad_norm": 0.5728958249092102,
      "learning_rate": 0.0005402133390798405,
      "loss": 3.7712,
      "step": 9350
    },
    {
      "epoch": 1.011731783446346,
      "grad_norm": 0.578126847743988,
      "learning_rate": 0.000539890098049779,
      "loss": 3.7635,
      "step": 9400
    },
    {
      "epoch": 1.017113335485954,
      "grad_norm": 0.5918346643447876,
      "learning_rate": 0.0005395668570197177,
      "loss": 3.7685,
      "step": 9450
    },
    {
      "epoch": 1.0224948875255624,
      "grad_norm": 0.6019548177719116,
      "learning_rate": 0.0005392436159896562,
      "loss": 3.7635,
      "step": 9500
    },
    {
      "epoch": 1.0278764395651705,
      "grad_norm": 0.5777577757835388,
      "learning_rate": 0.0005389203749595948,
      "loss": 3.7783,
      "step": 9550
    },
    {
      "epoch": 1.0332579916047788,
      "grad_norm": 0.6189695596694946,
      "learning_rate": 0.0005385971339295334,
      "loss": 3.7787,
      "step": 9600
    },
    {
      "epoch": 1.0386395436443872,
      "grad_norm": 0.8434962630271912,
      "learning_rate": 0.000538273892899472,
      "loss": 3.7783,
      "step": 9650
    },
    {
      "epoch": 1.0440210956839953,
      "grad_norm": 0.5343806147575378,
      "learning_rate": 0.0005379506518694106,
      "loss": 3.7722,
      "step": 9700
    },
    {
      "epoch": 1.0494026477236036,
      "grad_norm": 0.5421159863471985,
      "learning_rate": 0.0005376274108393491,
      "loss": 3.7604,
      "step": 9750
    },
    {
      "epoch": 1.0547841997632117,
      "grad_norm": 0.5804476737976074,
      "learning_rate": 0.0005373041698092877,
      "loss": 3.7799,
      "step": 9800
    },
    {
      "epoch": 1.06016575180282,
      "grad_norm": 0.5530180335044861,
      "learning_rate": 0.0005369809287792263,
      "loss": 3.7526,
      "step": 9850
    },
    {
      "epoch": 1.0655473038424281,
      "grad_norm": 0.5803855657577515,
      "learning_rate": 0.000536657687749165,
      "loss": 3.7531,
      "step": 9900
    },
    {
      "epoch": 1.0709288558820365,
      "grad_norm": 0.5368837118148804,
      "learning_rate": 0.0005363344467191035,
      "loss": 3.7517,
      "step": 9950
    },
    {
      "epoch": 1.0763104079216446,
      "grad_norm": 0.5844222903251648,
      "learning_rate": 0.000536011205689042,
      "loss": 3.7684,
      "step": 10000
    },
    {
      "epoch": 1.0763104079216446,
      "eval_accuracy": 0.34386139976863456,
      "eval_loss": 3.7503113746643066,
      "eval_runtime": 186.0934,
      "eval_samples_per_second": 96.785,
      "eval_steps_per_second": 6.051,
      "step": 10000
    },
    {
      "epoch": 1.081691959961253,
      "grad_norm": 0.5897488594055176,
      "learning_rate": 0.0005356879646589807,
      "loss": 3.7688,
      "step": 10050
    },
    {
      "epoch": 1.087073512000861,
      "grad_norm": 0.587064266204834,
      "learning_rate": 0.0005353647236289192,
      "loss": 3.7777,
      "step": 10100
    },
    {
      "epoch": 1.0924550640404693,
      "grad_norm": 0.6990731358528137,
      "learning_rate": 0.0005350414825988579,
      "loss": 3.7557,
      "step": 10150
    },
    {
      "epoch": 1.0978366160800774,
      "grad_norm": 0.567280113697052,
      "learning_rate": 0.0005347182415687964,
      "loss": 3.7779,
      "step": 10200
    },
    {
      "epoch": 1.1032181681196858,
      "grad_norm": 0.5530185103416443,
      "learning_rate": 0.000534395000538735,
      "loss": 3.7549,
      "step": 10250
    },
    {
      "epoch": 1.1085997201592939,
      "grad_norm": 0.5777807235717773,
      "learning_rate": 0.0005340717595086736,
      "loss": 3.7602,
      "step": 10300
    },
    {
      "epoch": 1.1139812721989022,
      "grad_norm": 0.551662027835846,
      "learning_rate": 0.0005337485184786122,
      "loss": 3.7587,
      "step": 10350
    },
    {
      "epoch": 1.1193628242385103,
      "grad_norm": 0.5891280770301819,
      "learning_rate": 0.0005334252774485507,
      "loss": 3.7473,
      "step": 10400
    },
    {
      "epoch": 1.1247443762781186,
      "grad_norm": 0.577476978302002,
      "learning_rate": 0.0005331020364184894,
      "loss": 3.7638,
      "step": 10450
    },
    {
      "epoch": 1.1301259283177267,
      "grad_norm": 0.5577187538146973,
      "learning_rate": 0.0005327787953884279,
      "loss": 3.7381,
      "step": 10500
    },
    {
      "epoch": 1.135507480357335,
      "grad_norm": 0.6008526682853699,
      "learning_rate": 0.0005324555543583665,
      "loss": 3.7491,
      "step": 10550
    },
    {
      "epoch": 1.1408890323969434,
      "grad_norm": 0.5358019471168518,
      "learning_rate": 0.0005321323133283051,
      "loss": 3.7495,
      "step": 10600
    },
    {
      "epoch": 1.1462705844365515,
      "grad_norm": 0.6261143088340759,
      "learning_rate": 0.0005318090722982436,
      "loss": 3.7599,
      "step": 10650
    },
    {
      "epoch": 1.1516521364761596,
      "grad_norm": 0.6221857666969299,
      "learning_rate": 0.0005314858312681823,
      "loss": 3.7695,
      "step": 10700
    },
    {
      "epoch": 1.157033688515768,
      "grad_norm": 0.5364183187484741,
      "learning_rate": 0.0005311625902381209,
      "loss": 3.7519,
      "step": 10750
    },
    {
      "epoch": 1.1624152405553763,
      "grad_norm": 0.6161372065544128,
      "learning_rate": 0.0005308393492080595,
      "loss": 3.7665,
      "step": 10800
    },
    {
      "epoch": 1.1677967925949844,
      "grad_norm": 0.5029717683792114,
      "learning_rate": 0.000530516108177998,
      "loss": 3.7672,
      "step": 10850
    },
    {
      "epoch": 1.1731783446345927,
      "grad_norm": 0.5811365842819214,
      "learning_rate": 0.0005301928671479365,
      "loss": 3.7564,
      "step": 10900
    },
    {
      "epoch": 1.1785598966742008,
      "grad_norm": 0.5604847073554993,
      "learning_rate": 0.0005298760909384765,
      "loss": 3.7559,
      "step": 10950
    },
    {
      "epoch": 1.1839414487138091,
      "grad_norm": 0.5864007472991943,
      "learning_rate": 0.000529552849908415,
      "loss": 3.7602,
      "step": 11000
    },
    {
      "epoch": 1.1839414487138091,
      "eval_accuracy": 0.34641246092163075,
      "eval_loss": 3.7251904010772705,
      "eval_runtime": 185.8514,
      "eval_samples_per_second": 96.911,
      "eval_steps_per_second": 6.059,
      "step": 11000
    },
    {
      "epoch": 1.1893230007534172,
      "grad_norm": 0.56771320104599,
      "learning_rate": 0.0005292296088783535,
      "loss": 3.7464,
      "step": 11050
    },
    {
      "epoch": 1.1947045527930256,
      "grad_norm": 0.5401942133903503,
      "learning_rate": 0.0005289063678482922,
      "loss": 3.7565,
      "step": 11100
    },
    {
      "epoch": 1.2000861048326337,
      "grad_norm": 0.68538498878479,
      "learning_rate": 0.0005285831268182307,
      "loss": 3.7393,
      "step": 11150
    },
    {
      "epoch": 1.205467656872242,
      "grad_norm": 0.613574743270874,
      "learning_rate": 0.0005282598857881694,
      "loss": 3.7285,
      "step": 11200
    },
    {
      "epoch": 1.21084920891185,
      "grad_norm": 0.5576608777046204,
      "learning_rate": 0.0005279366447581079,
      "loss": 3.7502,
      "step": 11250
    },
    {
      "epoch": 1.2162307609514584,
      "grad_norm": 0.630245566368103,
      "learning_rate": 0.0005276134037280465,
      "loss": 3.7341,
      "step": 11300
    },
    {
      "epoch": 1.2216123129910665,
      "grad_norm": 0.5435159206390381,
      "learning_rate": 0.0005272901626979851,
      "loss": 3.7389,
      "step": 11350
    },
    {
      "epoch": 1.2269938650306749,
      "grad_norm": 0.5722889304161072,
      "learning_rate": 0.0005269669216679236,
      "loss": 3.7662,
      "step": 11400
    },
    {
      "epoch": 1.232375417070283,
      "grad_norm": 0.603398859500885,
      "learning_rate": 0.0005266436806378623,
      "loss": 3.7472,
      "step": 11450
    },
    {
      "epoch": 1.2377569691098913,
      "grad_norm": 0.5980027318000793,
      "learning_rate": 0.0005263204396078008,
      "loss": 3.7515,
      "step": 11500
    },
    {
      "epoch": 1.2431385211494996,
      "grad_norm": 0.5623506903648376,
      "learning_rate": 0.0005259971985777394,
      "loss": 3.7515,
      "step": 11550
    },
    {
      "epoch": 1.2485200731891077,
      "grad_norm": 0.6053345203399658,
      "learning_rate": 0.000525673957547678,
      "loss": 3.7355,
      "step": 11600
    },
    {
      "epoch": 1.2539016252287158,
      "grad_norm": 0.5745285749435425,
      "learning_rate": 0.0005253507165176167,
      "loss": 3.7466,
      "step": 11650
    },
    {
      "epoch": 1.2592831772683242,
      "grad_norm": 0.6120426058769226,
      "learning_rate": 0.0005250274754875552,
      "loss": 3.7443,
      "step": 11700
    },
    {
      "epoch": 1.2646647293079325,
      "grad_norm": 0.6028602123260498,
      "learning_rate": 0.0005247042344574938,
      "loss": 3.7214,
      "step": 11750
    },
    {
      "epoch": 1.2700462813475406,
      "grad_norm": 0.6016854643821716,
      "learning_rate": 0.0005243809934274323,
      "loss": 3.7382,
      "step": 11800
    },
    {
      "epoch": 1.275427833387149,
      "grad_norm": 0.552103579044342,
      "learning_rate": 0.0005240577523973709,
      "loss": 3.7606,
      "step": 11850
    },
    {
      "epoch": 1.280809385426757,
      "grad_norm": 0.6014559864997864,
      "learning_rate": 0.0005237345113673095,
      "loss": 3.7147,
      "step": 11900
    },
    {
      "epoch": 1.2861909374663654,
      "grad_norm": 0.5359417796134949,
      "learning_rate": 0.0005234112703372481,
      "loss": 3.7522,
      "step": 11950
    },
    {
      "epoch": 1.2915724895059735,
      "grad_norm": 0.6179295778274536,
      "learning_rate": 0.0005230880293071867,
      "loss": 3.7325,
      "step": 12000
    },
    {
      "epoch": 1.2915724895059735,
      "eval_accuracy": 0.3487582767695454,
      "eval_loss": 3.699467182159424,
      "eval_runtime": 185.7871,
      "eval_samples_per_second": 96.944,
      "eval_steps_per_second": 6.061,
      "step": 12000
    },
    {
      "epoch": 1.2969540415455818,
      "grad_norm": 0.5950626134872437,
      "learning_rate": 0.0005227647882771253,
      "loss": 3.7338,
      "step": 12050
    },
    {
      "epoch": 1.30233559358519,
      "grad_norm": 0.5883234739303589,
      "learning_rate": 0.0005224415472470639,
      "loss": 3.7309,
      "step": 12100
    },
    {
      "epoch": 1.3077171456247982,
      "grad_norm": 0.5880520343780518,
      "learning_rate": 0.0005221183062170024,
      "loss": 3.7314,
      "step": 12150
    },
    {
      "epoch": 1.3130986976644063,
      "grad_norm": 0.5612831711769104,
      "learning_rate": 0.0005217950651869409,
      "loss": 3.7308,
      "step": 12200
    },
    {
      "epoch": 1.3184802497040147,
      "grad_norm": 0.5617820024490356,
      "learning_rate": 0.0005214718241568796,
      "loss": 3.7172,
      "step": 12250
    },
    {
      "epoch": 1.3238618017436228,
      "grad_norm": 0.5105074644088745,
      "learning_rate": 0.0005211485831268182,
      "loss": 3.7292,
      "step": 12300
    },
    {
      "epoch": 1.329243353783231,
      "grad_norm": 0.5460646748542786,
      "learning_rate": 0.0005208253420967568,
      "loss": 3.7361,
      "step": 12350
    },
    {
      "epoch": 1.3346249058228392,
      "grad_norm": 0.5298845767974854,
      "learning_rate": 0.0005205021010666953,
      "loss": 3.7267,
      "step": 12400
    },
    {
      "epoch": 1.3400064578624475,
      "grad_norm": 0.5352583527565002,
      "learning_rate": 0.0005201788600366339,
      "loss": 3.7299,
      "step": 12450
    },
    {
      "epoch": 1.3453880099020559,
      "grad_norm": 0.5907976627349854,
      "learning_rate": 0.0005198556190065725,
      "loss": 3.7166,
      "step": 12500
    },
    {
      "epoch": 1.350769561941664,
      "grad_norm": 0.5930103659629822,
      "learning_rate": 0.0005195323779765112,
      "loss": 3.7296,
      "step": 12550
    },
    {
      "epoch": 1.356151113981272,
      "grad_norm": 0.5607978701591492,
      "learning_rate": 0.0005192091369464497,
      "loss": 3.7252,
      "step": 12600
    },
    {
      "epoch": 1.3615326660208804,
      "grad_norm": 0.5358693599700928,
      "learning_rate": 0.0005188858959163882,
      "loss": 3.7199,
      "step": 12650
    },
    {
      "epoch": 1.3669142180604887,
      "grad_norm": 0.5345573425292969,
      "learning_rate": 0.0005185626548863269,
      "loss": 3.7042,
      "step": 12700
    },
    {
      "epoch": 1.3722957701000968,
      "grad_norm": 0.5242289900779724,
      "learning_rate": 0.0005182394138562654,
      "loss": 3.7147,
      "step": 12750
    },
    {
      "epoch": 1.3776773221397052,
      "grad_norm": 0.5639330744743347,
      "learning_rate": 0.0005179161728262041,
      "loss": 3.728,
      "step": 12800
    },
    {
      "epoch": 1.3830588741793133,
      "grad_norm": 0.5567278265953064,
      "learning_rate": 0.0005175929317961426,
      "loss": 3.7172,
      "step": 12850
    },
    {
      "epoch": 1.3884404262189216,
      "grad_norm": 0.5644634962081909,
      "learning_rate": 0.0005172696907660812,
      "loss": 3.7168,
      "step": 12900
    },
    {
      "epoch": 1.3938219782585297,
      "grad_norm": 0.5825825333595276,
      "learning_rate": 0.0005169464497360198,
      "loss": 3.7322,
      "step": 12950
    },
    {
      "epoch": 1.399203530298138,
      "grad_norm": 0.5421366691589355,
      "learning_rate": 0.0005166232087059583,
      "loss": 3.6961,
      "step": 13000
    },
    {
      "epoch": 1.399203530298138,
      "eval_accuracy": 0.3509230769063611,
      "eval_loss": 3.6781833171844482,
      "eval_runtime": 185.9918,
      "eval_samples_per_second": 96.838,
      "eval_steps_per_second": 6.054,
      "step": 13000
    },
    {
      "epoch": 1.4045850823377461,
      "grad_norm": 0.5267746448516846,
      "learning_rate": 0.0005162999676758969,
      "loss": 3.7055,
      "step": 13050
    },
    {
      "epoch": 1.4099666343773545,
      "grad_norm": 0.5988380908966064,
      "learning_rate": 0.0005159767266458355,
      "loss": 3.7208,
      "step": 13100
    },
    {
      "epoch": 1.4153481864169626,
      "grad_norm": 0.5496768951416016,
      "learning_rate": 0.0005156534856157741,
      "loss": 3.7161,
      "step": 13150
    },
    {
      "epoch": 1.420729738456571,
      "grad_norm": 0.5630384087562561,
      "learning_rate": 0.000515336709406314,
      "loss": 3.7256,
      "step": 13200
    },
    {
      "epoch": 1.426111290496179,
      "grad_norm": 0.5719070434570312,
      "learning_rate": 0.0005150134683762525,
      "loss": 3.704,
      "step": 13250
    },
    {
      "epoch": 1.4314928425357873,
      "grad_norm": 0.5153568983078003,
      "learning_rate": 0.0005146902273461911,
      "loss": 3.7044,
      "step": 13300
    },
    {
      "epoch": 1.4368743945753955,
      "grad_norm": 0.7232791781425476,
      "learning_rate": 0.0005143669863161297,
      "loss": 3.7047,
      "step": 13350
    },
    {
      "epoch": 1.4422559466150038,
      "grad_norm": 0.5646175146102905,
      "learning_rate": 0.0005140437452860683,
      "loss": 3.6984,
      "step": 13400
    },
    {
      "epoch": 1.447637498654612,
      "grad_norm": 0.5818318128585815,
      "learning_rate": 0.0005137205042560069,
      "loss": 3.7065,
      "step": 13450
    },
    {
      "epoch": 1.4530190506942202,
      "grad_norm": 0.6322121620178223,
      "learning_rate": 0.0005133972632259455,
      "loss": 3.7061,
      "step": 13500
    },
    {
      "epoch": 1.4584006027338283,
      "grad_norm": 0.5849289298057556,
      "learning_rate": 0.000513074022195884,
      "loss": 3.695,
      "step": 13550
    },
    {
      "epoch": 1.4637821547734367,
      "grad_norm": 0.5713497400283813,
      "learning_rate": 0.0005127507811658226,
      "loss": 3.7212,
      "step": 13600
    },
    {
      "epoch": 1.469163706813045,
      "grad_norm": 0.5640777349472046,
      "learning_rate": 0.0005124275401357612,
      "loss": 3.7175,
      "step": 13650
    },
    {
      "epoch": 1.474545258852653,
      "grad_norm": 0.5338093042373657,
      "learning_rate": 0.0005121042991056997,
      "loss": 3.6805,
      "step": 13700
    },
    {
      "epoch": 1.4799268108922612,
      "grad_norm": 0.5648130774497986,
      "learning_rate": 0.0005117810580756384,
      "loss": 3.6969,
      "step": 13750
    },
    {
      "epoch": 1.4853083629318695,
      "grad_norm": 0.5654157400131226,
      "learning_rate": 0.0005114578170455769,
      "loss": 3.7033,
      "step": 13800
    },
    {
      "epoch": 1.4906899149714778,
      "grad_norm": 0.5628203749656677,
      "learning_rate": 0.0005111345760155156,
      "loss": 3.7013,
      "step": 13850
    },
    {
      "epoch": 1.496071467011086,
      "grad_norm": 0.50674968957901,
      "learning_rate": 0.0005108113349854541,
      "loss": 3.6946,
      "step": 13900
    },
    {
      "epoch": 1.501453019050694,
      "grad_norm": 0.5956733822822571,
      "learning_rate": 0.0005104880939553926,
      "loss": 3.7041,
      "step": 13950
    },
    {
      "epoch": 1.5068345710903024,
      "grad_norm": 0.6542813181877136,
      "learning_rate": 0.0005101648529253313,
      "loss": 3.7076,
      "step": 14000
    },
    {
      "epoch": 1.5068345710903024,
      "eval_accuracy": 0.35286100981342017,
      "eval_loss": 3.6598849296569824,
      "eval_runtime": 185.9366,
      "eval_samples_per_second": 96.866,
      "eval_steps_per_second": 6.056,
      "step": 14000
    },
    {
      "epoch": 1.5122161231299107,
      "grad_norm": 0.546301007270813,
      "learning_rate": 0.0005098416118952699,
      "loss": 3.6987,
      "step": 14050
    },
    {
      "epoch": 1.5175976751695188,
      "grad_norm": 0.591005265712738,
      "learning_rate": 0.0005095183708652085,
      "loss": 3.6962,
      "step": 14100
    },
    {
      "epoch": 1.5229792272091272,
      "grad_norm": 0.6005271077156067,
      "learning_rate": 0.000509195129835147,
      "loss": 3.7156,
      "step": 14150
    },
    {
      "epoch": 1.5283607792487355,
      "grad_norm": 0.5267531871795654,
      "learning_rate": 0.0005088718888050856,
      "loss": 3.6867,
      "step": 14200
    },
    {
      "epoch": 1.5337423312883436,
      "grad_norm": 0.6189490556716919,
      "learning_rate": 0.0005085486477750242,
      "loss": 3.6786,
      "step": 14250
    },
    {
      "epoch": 1.5391238833279517,
      "grad_norm": 0.5419500470161438,
      "learning_rate": 0.0005082254067449629,
      "loss": 3.6646,
      "step": 14300
    },
    {
      "epoch": 1.54450543536756,
      "grad_norm": 0.5924189686775208,
      "learning_rate": 0.0005079021657149014,
      "loss": 3.6909,
      "step": 14350
    },
    {
      "epoch": 1.5498869874071683,
      "grad_norm": 0.5669459104537964,
      "learning_rate": 0.0005075789246848399,
      "loss": 3.6889,
      "step": 14400
    },
    {
      "epoch": 1.5552685394467765,
      "grad_norm": 0.5875310301780701,
      "learning_rate": 0.0005072556836547785,
      "loss": 3.7056,
      "step": 14450
    },
    {
      "epoch": 1.5606500914863846,
      "grad_norm": 0.6247833967208862,
      "learning_rate": 0.0005069324426247171,
      "loss": 3.7029,
      "step": 14500
    },
    {
      "epoch": 1.566031643525993,
      "grad_norm": 0.5183871984481812,
      "learning_rate": 0.0005066092015946557,
      "loss": 3.6777,
      "step": 14550
    },
    {
      "epoch": 1.5714131955656012,
      "grad_norm": 0.6246943473815918,
      "learning_rate": 0.0005062859605645943,
      "loss": 3.6889,
      "step": 14600
    },
    {
      "epoch": 1.5767947476052093,
      "grad_norm": 0.6321129202842712,
      "learning_rate": 0.0005059627195345329,
      "loss": 3.6937,
      "step": 14650
    },
    {
      "epoch": 1.5821762996448174,
      "grad_norm": 0.5750228762626648,
      "learning_rate": 0.0005056394785044715,
      "loss": 3.6996,
      "step": 14700
    },
    {
      "epoch": 1.5875578516844258,
      "grad_norm": 0.547227144241333,
      "learning_rate": 0.00050531623747441,
      "loss": 3.6826,
      "step": 14750
    },
    {
      "epoch": 1.592939403724034,
      "grad_norm": 0.5726338624954224,
      "learning_rate": 0.0005049929964443486,
      "loss": 3.697,
      "step": 14800
    },
    {
      "epoch": 1.5983209557636422,
      "grad_norm": 0.6113284230232239,
      "learning_rate": 0.0005046697554142871,
      "loss": 3.6812,
      "step": 14850
    },
    {
      "epoch": 1.6037025078032503,
      "grad_norm": 0.5327293276786804,
      "learning_rate": 0.0005043465143842258,
      "loss": 3.6838,
      "step": 14900
    },
    {
      "epoch": 1.6090840598428586,
      "grad_norm": 0.538948655128479,
      "learning_rate": 0.0005040232733541644,
      "loss": 3.6746,
      "step": 14950
    },
    {
      "epoch": 1.614465611882467,
      "grad_norm": 0.6053603887557983,
      "learning_rate": 0.000503700032324103,
      "loss": 3.6889,
      "step": 15000
    },
    {
      "epoch": 1.614465611882467,
      "eval_accuracy": 0.35477558234959916,
      "eval_loss": 3.6398208141326904,
      "eval_runtime": 185.6794,
      "eval_samples_per_second": 97.001,
      "eval_steps_per_second": 6.064,
      "step": 15000
    },
    {
      "epoch": 1.619847163922075,
      "grad_norm": 0.5984382629394531,
      "learning_rate": 0.0005033767912940415,
      "loss": 3.7012,
      "step": 15050
    },
    {
      "epoch": 1.6252287159616834,
      "grad_norm": 0.5529466867446899,
      "learning_rate": 0.0005030535502639802,
      "loss": 3.6761,
      "step": 15100
    },
    {
      "epoch": 1.6306102680012917,
      "grad_norm": 0.5890504121780396,
      "learning_rate": 0.0005027303092339187,
      "loss": 3.6811,
      "step": 15150
    },
    {
      "epoch": 1.6359918200408998,
      "grad_norm": 0.5618547797203064,
      "learning_rate": 0.0005024135330244585,
      "loss": 3.7078,
      "step": 15200
    },
    {
      "epoch": 1.641373372080508,
      "grad_norm": 0.573171854019165,
      "learning_rate": 0.0005020902919943972,
      "loss": 3.6741,
      "step": 15250
    },
    {
      "epoch": 1.6467549241201163,
      "grad_norm": 0.5540993213653564,
      "learning_rate": 0.0005017670509643357,
      "loss": 3.6934,
      "step": 15300
    },
    {
      "epoch": 1.6521364761597246,
      "grad_norm": 0.5482232570648193,
      "learning_rate": 0.0005014438099342743,
      "loss": 3.6715,
      "step": 15350
    },
    {
      "epoch": 1.6575180281993327,
      "grad_norm": 0.5765377879142761,
      "learning_rate": 0.0005011205689042129,
      "loss": 3.6925,
      "step": 15400
    },
    {
      "epoch": 1.6628995802389408,
      "grad_norm": 0.7304377555847168,
      "learning_rate": 0.0005007973278741514,
      "loss": 3.6821,
      "step": 15450
    },
    {
      "epoch": 1.6682811322785491,
      "grad_norm": 0.5593311786651611,
      "learning_rate": 0.00050047408684409,
      "loss": 3.6681,
      "step": 15500
    },
    {
      "epoch": 1.6736626843181575,
      "grad_norm": 0.6046788096427917,
      "learning_rate": 0.0005001508458140286,
      "loss": 3.6896,
      "step": 15550
    },
    {
      "epoch": 1.6790442363577656,
      "grad_norm": 0.582626461982727,
      "learning_rate": 0.0004998276047839673,
      "loss": 3.6741,
      "step": 15600
    },
    {
      "epoch": 1.6844257883973737,
      "grad_norm": 0.5432196259498596,
      "learning_rate": 0.0004995043637539058,
      "loss": 3.6854,
      "step": 15650
    },
    {
      "epoch": 1.689807340436982,
      "grad_norm": 0.5370159149169922,
      "learning_rate": 0.0004991811227238443,
      "loss": 3.6448,
      "step": 15700
    },
    {
      "epoch": 1.6951888924765903,
      "grad_norm": 0.5261459350585938,
      "learning_rate": 0.0004988578816937829,
      "loss": 3.6643,
      "step": 15750
    },
    {
      "epoch": 1.7005704445161984,
      "grad_norm": 0.5695435404777527,
      "learning_rate": 0.0004985346406637215,
      "loss": 3.6577,
      "step": 15800
    },
    {
      "epoch": 1.7059519965558065,
      "grad_norm": 0.5931348204612732,
      "learning_rate": 0.0004982113996336602,
      "loss": 3.665,
      "step": 15850
    },
    {
      "epoch": 1.7113335485954149,
      "grad_norm": 0.5031052231788635,
      "learning_rate": 0.0004978881586035987,
      "loss": 3.6667,
      "step": 15900
    },
    {
      "epoch": 1.7167151006350232,
      "grad_norm": 0.6221879124641418,
      "learning_rate": 0.0004975649175735373,
      "loss": 3.6842,
      "step": 15950
    },
    {
      "epoch": 1.7220966526746313,
      "grad_norm": 0.5991718769073486,
      "learning_rate": 0.0004972416765434759,
      "loss": 3.6505,
      "step": 16000
    },
    {
      "epoch": 1.7220966526746313,
      "eval_accuracy": 0.3570600093158986,
      "eval_loss": 3.623628854751587,
      "eval_runtime": 185.7758,
      "eval_samples_per_second": 96.95,
      "eval_steps_per_second": 6.061,
      "step": 16000
    },
    {
      "epoch": 1.7274782047142396,
      "grad_norm": 0.5452643036842346,
      "learning_rate": 0.0004969184355134145,
      "loss": 3.6726,
      "step": 16050
    },
    {
      "epoch": 1.732859756753848,
      "grad_norm": 0.5266141295433044,
      "learning_rate": 0.0004965951944833531,
      "loss": 3.6763,
      "step": 16100
    },
    {
      "epoch": 1.738241308793456,
      "grad_norm": 0.651315450668335,
      "learning_rate": 0.0004962719534532916,
      "loss": 3.675,
      "step": 16150
    },
    {
      "epoch": 1.7436228608330642,
      "grad_norm": 0.5942135453224182,
      "learning_rate": 0.0004959487124232302,
      "loss": 3.6654,
      "step": 16200
    },
    {
      "epoch": 1.7490044128726725,
      "grad_norm": 0.5807824730873108,
      "learning_rate": 0.0004956254713931688,
      "loss": 3.6828,
      "step": 16250
    },
    {
      "epoch": 1.7543859649122808,
      "grad_norm": 0.5484274625778198,
      "learning_rate": 0.0004953022303631074,
      "loss": 3.6735,
      "step": 16300
    },
    {
      "epoch": 1.759767516951889,
      "grad_norm": 0.5886914730072021,
      "learning_rate": 0.0004949789893330459,
      "loss": 3.6589,
      "step": 16350
    },
    {
      "epoch": 1.765149068991497,
      "grad_norm": 0.6030225157737732,
      "learning_rate": 0.0004946557483029846,
      "loss": 3.6505,
      "step": 16400
    },
    {
      "epoch": 1.7705306210311054,
      "grad_norm": 0.6266860365867615,
      "learning_rate": 0.0004943325072729231,
      "loss": 3.6659,
      "step": 16450
    },
    {
      "epoch": 1.7759121730707137,
      "grad_norm": 0.566052258014679,
      "learning_rate": 0.0004940092662428617,
      "loss": 3.6637,
      "step": 16500
    },
    {
      "epoch": 1.7812937251103218,
      "grad_norm": 0.6370800733566284,
      "learning_rate": 0.0004936860252128003,
      "loss": 3.6638,
      "step": 16550
    },
    {
      "epoch": 1.78667527714993,
      "grad_norm": 0.5721974968910217,
      "learning_rate": 0.0004933627841827388,
      "loss": 3.6617,
      "step": 16600
    },
    {
      "epoch": 1.7920568291895382,
      "grad_norm": 0.5607995986938477,
      "learning_rate": 0.0004930395431526775,
      "loss": 3.6738,
      "step": 16650
    },
    {
      "epoch": 1.7974383812291466,
      "grad_norm": 0.527906596660614,
      "learning_rate": 0.0004927163021226161,
      "loss": 3.6635,
      "step": 16700
    },
    {
      "epoch": 1.8028199332687547,
      "grad_norm": 0.5315662622451782,
      "learning_rate": 0.0004923930610925547,
      "loss": 3.6553,
      "step": 16750
    },
    {
      "epoch": 1.8082014853083628,
      "grad_norm": 0.5804619193077087,
      "learning_rate": 0.0004920698200624932,
      "loss": 3.6581,
      "step": 16800
    },
    {
      "epoch": 1.813583037347971,
      "grad_norm": 0.5657117962837219,
      "learning_rate": 0.0004917465790324317,
      "loss": 3.6406,
      "step": 16850
    },
    {
      "epoch": 1.8189645893875794,
      "grad_norm": 0.5681677460670471,
      "learning_rate": 0.0004914233380023704,
      "loss": 3.659,
      "step": 16900
    },
    {
      "epoch": 1.8243461414271875,
      "grad_norm": 0.5640608668327332,
      "learning_rate": 0.0004911000969723089,
      "loss": 3.645,
      "step": 16950
    },
    {
      "epoch": 1.8297276934667959,
      "grad_norm": 0.6046940684318542,
      "learning_rate": 0.0004907768559422476,
      "loss": 3.6661,
      "step": 17000
    },
    {
      "epoch": 1.8297276934667959,
      "eval_accuracy": 0.3582614929493511,
      "eval_loss": 3.6084086894989014,
      "eval_runtime": 185.9078,
      "eval_samples_per_second": 96.881,
      "eval_steps_per_second": 6.057,
      "step": 17000
    },
    {
      "epoch": 1.8351092455064042,
      "grad_norm": 0.5117312073707581,
      "learning_rate": 0.0004904536149121861,
      "loss": 3.651,
      "step": 17050
    },
    {
      "epoch": 1.8404907975460123,
      "grad_norm": 0.5253987908363342,
      "learning_rate": 0.0004901303738821248,
      "loss": 3.6479,
      "step": 17100
    },
    {
      "epoch": 1.8458723495856204,
      "grad_norm": 0.53453528881073,
      "learning_rate": 0.0004898071328520633,
      "loss": 3.6582,
      "step": 17150
    },
    {
      "epoch": 1.8512539016252287,
      "grad_norm": 0.5506715774536133,
      "learning_rate": 0.0004894838918220019,
      "loss": 3.6515,
      "step": 17200
    },
    {
      "epoch": 1.856635453664837,
      "grad_norm": 0.5895119309425354,
      "learning_rate": 0.0004891606507919405,
      "loss": 3.6478,
      "step": 17250
    },
    {
      "epoch": 1.8620170057044452,
      "grad_norm": 0.5970625281333923,
      "learning_rate": 0.0004888438745824803,
      "loss": 3.6516,
      "step": 17300
    },
    {
      "epoch": 1.8673985577440533,
      "grad_norm": 0.5360919833183289,
      "learning_rate": 0.0004885206335524189,
      "loss": 3.6499,
      "step": 17350
    },
    {
      "epoch": 1.8727801097836616,
      "grad_norm": 0.5222302675247192,
      "learning_rate": 0.0004881973925223575,
      "loss": 3.6353,
      "step": 17400
    },
    {
      "epoch": 1.87816166182327,
      "grad_norm": 0.6156639456748962,
      "learning_rate": 0.00048787415149229604,
      "loss": 3.667,
      "step": 17450
    },
    {
      "epoch": 1.883543213862878,
      "grad_norm": 0.526008129119873,
      "learning_rate": 0.00048755091046223464,
      "loss": 3.6511,
      "step": 17500
    },
    {
      "epoch": 1.8889247659024861,
      "grad_norm": 0.6767090559005737,
      "learning_rate": 0.0004872276694321732,
      "loss": 3.6405,
      "step": 17550
    },
    {
      "epoch": 1.8943063179420945,
      "grad_norm": 0.549778163433075,
      "learning_rate": 0.00048690442840211177,
      "loss": 3.6507,
      "step": 17600
    },
    {
      "epoch": 1.8996878699817028,
      "grad_norm": 0.5188384056091309,
      "learning_rate": 0.0004865811873720504,
      "loss": 3.6435,
      "step": 17650
    },
    {
      "epoch": 1.905069422021311,
      "grad_norm": 0.5517076253890991,
      "learning_rate": 0.00048625794634198896,
      "loss": 3.6274,
      "step": 17700
    },
    {
      "epoch": 1.910450974060919,
      "grad_norm": 0.5760367512702942,
      "learning_rate": 0.00048593470531192756,
      "loss": 3.6328,
      "step": 17750
    },
    {
      "epoch": 1.9158325261005273,
      "grad_norm": 0.5754712224006653,
      "learning_rate": 0.00048561146428186615,
      "loss": 3.6353,
      "step": 17800
    },
    {
      "epoch": 1.9212140781401357,
      "grad_norm": 0.5988501310348511,
      "learning_rate": 0.0004852882232518047,
      "loss": 3.6348,
      "step": 17850
    },
    {
      "epoch": 1.9265956301797438,
      "grad_norm": 0.5351828932762146,
      "learning_rate": 0.00048496498222174334,
      "loss": 3.6331,
      "step": 17900
    },
    {
      "epoch": 1.931977182219352,
      "grad_norm": 0.5268933773040771,
      "learning_rate": 0.00048464174119168193,
      "loss": 3.6448,
      "step": 17950
    },
    {
      "epoch": 1.9373587342589604,
      "grad_norm": 0.6077684164047241,
      "learning_rate": 0.0004843185001616205,
      "loss": 3.632,
      "step": 18000
    },
    {
      "epoch": 1.9373587342589604,
      "eval_accuracy": 0.3596397548312778,
      "eval_loss": 3.59277081489563,
      "eval_runtime": 185.933,
      "eval_samples_per_second": 96.868,
      "eval_steps_per_second": 6.056,
      "step": 18000
    },
    {
      "epoch": 1.9427402862985685,
      "grad_norm": 0.5173344016075134,
      "learning_rate": 0.00048399525913155907,
      "loss": 3.6406,
      "step": 18050
    },
    {
      "epoch": 1.9481218383381766,
      "grad_norm": 0.5971124172210693,
      "learning_rate": 0.0004836720181014976,
      "loss": 3.6353,
      "step": 18100
    },
    {
      "epoch": 1.953503390377785,
      "grad_norm": 0.6185870170593262,
      "learning_rate": 0.0004833487770714362,
      "loss": 3.636,
      "step": 18150
    },
    {
      "epoch": 1.9588849424173933,
      "grad_norm": 0.5207540392875671,
      "learning_rate": 0.00048302553604137485,
      "loss": 3.6362,
      "step": 18200
    },
    {
      "epoch": 1.9642664944570014,
      "grad_norm": 0.5831176042556763,
      "learning_rate": 0.0004827022950113134,
      "loss": 3.6283,
      "step": 18250
    },
    {
      "epoch": 1.9696480464966095,
      "grad_norm": 0.5826441645622253,
      "learning_rate": 0.000482379053981252,
      "loss": 3.6284,
      "step": 18300
    },
    {
      "epoch": 1.9750295985362178,
      "grad_norm": 0.6504409909248352,
      "learning_rate": 0.0004820558129511906,
      "loss": 3.6394,
      "step": 18350
    },
    {
      "epoch": 1.9804111505758262,
      "grad_norm": 0.6334496736526489,
      "learning_rate": 0.0004817325719211291,
      "loss": 3.6339,
      "step": 18400
    },
    {
      "epoch": 1.9857927026154343,
      "grad_norm": 0.5437799692153931,
      "learning_rate": 0.0004814093308910677,
      "loss": 3.6688,
      "step": 18450
    },
    {
      "epoch": 1.9911742546550424,
      "grad_norm": 0.6565464735031128,
      "learning_rate": 0.00048108608986100637,
      "loss": 3.6526,
      "step": 18500
    },
    {
      "epoch": 1.9965558066946507,
      "grad_norm": 0.61882483959198,
      "learning_rate": 0.0004807628488309449,
      "loss": 3.63,
      "step": 18550
    },
    {
      "epoch": 2.001937358734259,
      "grad_norm": 0.6012552380561829,
      "learning_rate": 0.0004804396078008835,
      "loss": 3.6087,
      "step": 18600
    },
    {
      "epoch": 2.007318910773867,
      "grad_norm": 0.5909253358840942,
      "learning_rate": 0.00048011636677082204,
      "loss": 3.5392,
      "step": 18650
    },
    {
      "epoch": 2.0127004628134753,
      "grad_norm": 0.6307559609413147,
      "learning_rate": 0.00047979312574076064,
      "loss": 3.5291,
      "step": 18700
    },
    {
      "epoch": 2.018082014853084,
      "grad_norm": 0.6008300185203552,
      "learning_rate": 0.0004794698847106992,
      "loss": 3.5677,
      "step": 18750
    },
    {
      "epoch": 2.023463566892692,
      "grad_norm": 0.542984127998352,
      "learning_rate": 0.0004791466436806378,
      "loss": 3.5274,
      "step": 18800
    },
    {
      "epoch": 2.0288451189323,
      "grad_norm": 0.6137868762016296,
      "learning_rate": 0.0004788234026505764,
      "loss": 3.5492,
      "step": 18850
    },
    {
      "epoch": 2.034226670971908,
      "grad_norm": 0.5777990221977234,
      "learning_rate": 0.00047850016162051496,
      "loss": 3.5728,
      "step": 18900
    },
    {
      "epoch": 2.0396082230115167,
      "grad_norm": 0.5741727948188782,
      "learning_rate": 0.00047817692059045356,
      "loss": 3.5381,
      "step": 18950
    },
    {
      "epoch": 2.044989775051125,
      "grad_norm": 0.5765773057937622,
      "learning_rate": 0.00047785367956039215,
      "loss": 3.556,
      "step": 19000
    },
    {
      "epoch": 2.044989775051125,
      "eval_accuracy": 0.3612977978993268,
      "eval_loss": 3.5807430744171143,
      "eval_runtime": 185.6154,
      "eval_samples_per_second": 97.034,
      "eval_steps_per_second": 6.066,
      "step": 19000
    },
    {
      "epoch": 2.050371327090733,
      "grad_norm": 0.5706212520599365,
      "learning_rate": 0.00047753043853033075,
      "loss": 3.5532,
      "step": 19050
    },
    {
      "epoch": 2.055752879130341,
      "grad_norm": 0.5706073045730591,
      "learning_rate": 0.00047720719750026934,
      "loss": 3.5484,
      "step": 19100
    },
    {
      "epoch": 2.0611344311699495,
      "grad_norm": 0.5682757496833801,
      "learning_rate": 0.00047688395647020793,
      "loss": 3.553,
      "step": 19150
    },
    {
      "epoch": 2.0665159832095576,
      "grad_norm": 0.6125665903091431,
      "learning_rate": 0.0004765607154401465,
      "loss": 3.5582,
      "step": 19200
    },
    {
      "epoch": 2.0718975352491658,
      "grad_norm": 0.549346923828125,
      "learning_rate": 0.00047623747441008507,
      "loss": 3.5432,
      "step": 19250
    },
    {
      "epoch": 2.0772790872887743,
      "grad_norm": 0.5912544131278992,
      "learning_rate": 0.0004759142333800236,
      "loss": 3.5497,
      "step": 19300
    },
    {
      "epoch": 2.0826606393283824,
      "grad_norm": 0.6138653755187988,
      "learning_rate": 0.00047559099234996226,
      "loss": 3.5694,
      "step": 19350
    },
    {
      "epoch": 2.0880421913679905,
      "grad_norm": 0.5887025594711304,
      "learning_rate": 0.000475274216140502,
      "loss": 3.5669,
      "step": 19400
    },
    {
      "epoch": 2.0934237434075986,
      "grad_norm": 0.5469015836715698,
      "learning_rate": 0.00047495097511044066,
      "loss": 3.5798,
      "step": 19450
    },
    {
      "epoch": 2.098805295447207,
      "grad_norm": 0.5285310745239258,
      "learning_rate": 0.00047462773408037925,
      "loss": 3.5473,
      "step": 19500
    },
    {
      "epoch": 2.1041868474868153,
      "grad_norm": 0.5509555339813232,
      "learning_rate": 0.0004743044930503178,
      "loss": 3.561,
      "step": 19550
    },
    {
      "epoch": 2.1095683995264234,
      "grad_norm": 0.5694973468780518,
      "learning_rate": 0.0004739812520202564,
      "loss": 3.5548,
      "step": 19600
    },
    {
      "epoch": 2.1149499515660315,
      "grad_norm": 0.5243295431137085,
      "learning_rate": 0.000473658010990195,
      "loss": 3.5487,
      "step": 19650
    },
    {
      "epoch": 2.12033150360564,
      "grad_norm": 0.5723719596862793,
      "learning_rate": 0.0004733347699601336,
      "loss": 3.5476,
      "step": 19700
    },
    {
      "epoch": 2.125713055645248,
      "grad_norm": 0.5722881555557251,
      "learning_rate": 0.0004730115289300722,
      "loss": 3.5597,
      "step": 19750
    },
    {
      "epoch": 2.1310946076848563,
      "grad_norm": 0.6043785810470581,
      "learning_rate": 0.00047268828790001077,
      "loss": 3.5595,
      "step": 19800
    },
    {
      "epoch": 2.1364761597244644,
      "grad_norm": 0.6125651597976685,
      "learning_rate": 0.0004723650468699493,
      "loss": 3.561,
      "step": 19850
    },
    {
      "epoch": 2.141857711764073,
      "grad_norm": 0.5642448663711548,
      "learning_rate": 0.0004720418058398879,
      "loss": 3.5608,
      "step": 19900
    },
    {
      "epoch": 2.147239263803681,
      "grad_norm": 0.5554956793785095,
      "learning_rate": 0.00047171856480982644,
      "loss": 3.5475,
      "step": 19950
    },
    {
      "epoch": 2.152620815843289,
      "grad_norm": 0.5562686324119568,
      "learning_rate": 0.0004713953237797651,
      "loss": 3.5508,
      "step": 20000
    },
    {
      "epoch": 2.152620815843289,
      "eval_accuracy": 0.3621442038954016,
      "eval_loss": 3.5728707313537598,
      "eval_runtime": 186.0392,
      "eval_samples_per_second": 96.813,
      "eval_steps_per_second": 6.052,
      "step": 20000
    },
    {
      "epoch": 2.1580023678828972,
      "grad_norm": 0.5398040413856506,
      "learning_rate": 0.0004710720827497037,
      "loss": 3.5505,
      "step": 20050
    },
    {
      "epoch": 2.163383919922506,
      "grad_norm": 0.6134650111198425,
      "learning_rate": 0.00047074884171964223,
      "loss": 3.5716,
      "step": 20100
    },
    {
      "epoch": 2.168765471962114,
      "grad_norm": 0.5275301933288574,
      "learning_rate": 0.0004704256006895808,
      "loss": 3.5617,
      "step": 20150
    },
    {
      "epoch": 2.174147024001722,
      "grad_norm": 0.5557535290718079,
      "learning_rate": 0.00047010235965951936,
      "loss": 3.5682,
      "step": 20200
    },
    {
      "epoch": 2.1795285760413305,
      "grad_norm": 0.5642773509025574,
      "learning_rate": 0.00046977911862945796,
      "loss": 3.5501,
      "step": 20250
    },
    {
      "epoch": 2.1849101280809387,
      "grad_norm": 0.575050950050354,
      "learning_rate": 0.0004694558775993966,
      "loss": 3.5572,
      "step": 20300
    },
    {
      "epoch": 2.1902916801205468,
      "grad_norm": 0.6553691029548645,
      "learning_rate": 0.00046913263656933515,
      "loss": 3.5591,
      "step": 20350
    },
    {
      "epoch": 2.195673232160155,
      "grad_norm": 0.5227494835853577,
      "learning_rate": 0.00046880939553927374,
      "loss": 3.5549,
      "step": 20400
    },
    {
      "epoch": 2.2010547841997634,
      "grad_norm": 0.6033456325531006,
      "learning_rate": 0.00046848615450921234,
      "loss": 3.5702,
      "step": 20450
    },
    {
      "epoch": 2.2064363362393715,
      "grad_norm": 0.595843493938446,
      "learning_rate": 0.0004681629134791509,
      "loss": 3.5607,
      "step": 20500
    },
    {
      "epoch": 2.2118178882789796,
      "grad_norm": 0.5602710843086243,
      "learning_rate": 0.00046783967244908947,
      "loss": 3.543,
      "step": 20550
    },
    {
      "epoch": 2.2171994403185877,
      "grad_norm": 0.5685939788818359,
      "learning_rate": 0.0004675164314190281,
      "loss": 3.5438,
      "step": 20600
    },
    {
      "epoch": 2.2225809923581963,
      "grad_norm": 0.6096265912055969,
      "learning_rate": 0.00046719319038896666,
      "loss": 3.5558,
      "step": 20650
    },
    {
      "epoch": 2.2279625443978044,
      "grad_norm": 0.5968151092529297,
      "learning_rate": 0.00046686994935890526,
      "loss": 3.5674,
      "step": 20700
    },
    {
      "epoch": 2.2333440964374125,
      "grad_norm": 0.606177568435669,
      "learning_rate": 0.0004665467083288438,
      "loss": 3.5616,
      "step": 20750
    },
    {
      "epoch": 2.2387256484770206,
      "grad_norm": 0.6146690845489502,
      "learning_rate": 0.0004662234672987824,
      "loss": 3.5619,
      "step": 20800
    },
    {
      "epoch": 2.244107200516629,
      "grad_norm": 0.6297053098678589,
      "learning_rate": 0.00046590022626872104,
      "loss": 3.5537,
      "step": 20850
    },
    {
      "epoch": 2.2494887525562373,
      "grad_norm": 0.5573744773864746,
      "learning_rate": 0.0004655769852386596,
      "loss": 3.5374,
      "step": 20900
    },
    {
      "epoch": 2.2548703045958454,
      "grad_norm": 0.6048101186752319,
      "learning_rate": 0.0004652537442085982,
      "loss": 3.5613,
      "step": 20950
    },
    {
      "epoch": 2.2602518566354535,
      "grad_norm": 0.5728991627693176,
      "learning_rate": 0.00046493050317853677,
      "loss": 3.5622,
      "step": 21000
    },
    {
      "epoch": 2.2602518566354535,
      "eval_accuracy": 0.3636318792353575,
      "eval_loss": 3.563586950302124,
      "eval_runtime": 185.6753,
      "eval_samples_per_second": 97.003,
      "eval_steps_per_second": 6.064,
      "step": 21000
    },
    {
      "epoch": 2.265633408675062,
      "grad_norm": 0.5742579698562622,
      "learning_rate": 0.0004646072621484753,
      "loss": 3.5566,
      "step": 21050
    },
    {
      "epoch": 2.27101496071467,
      "grad_norm": 0.5929555892944336,
      "learning_rate": 0.0004642840211184139,
      "loss": 3.567,
      "step": 21100
    },
    {
      "epoch": 2.2763965127542782,
      "grad_norm": 0.6576393246650696,
      "learning_rate": 0.00046396078008835255,
      "loss": 3.5667,
      "step": 21150
    },
    {
      "epoch": 2.281778064793887,
      "grad_norm": 0.5954951643943787,
      "learning_rate": 0.0004636375390582911,
      "loss": 3.5553,
      "step": 21200
    },
    {
      "epoch": 2.287159616833495,
      "grad_norm": 0.5955581068992615,
      "learning_rate": 0.0004633142980282297,
      "loss": 3.556,
      "step": 21250
    },
    {
      "epoch": 2.292541168873103,
      "grad_norm": 0.5565381646156311,
      "learning_rate": 0.00046299105699816823,
      "loss": 3.5642,
      "step": 21300
    },
    {
      "epoch": 2.297922720912711,
      "grad_norm": 0.6055693030357361,
      "learning_rate": 0.0004626678159681068,
      "loss": 3.563,
      "step": 21350
    },
    {
      "epoch": 2.303304272952319,
      "grad_norm": 0.5389019250869751,
      "learning_rate": 0.0004623445749380454,
      "loss": 3.5641,
      "step": 21400
    },
    {
      "epoch": 2.3086858249919278,
      "grad_norm": 0.5748974084854126,
      "learning_rate": 0.0004620277987285852,
      "loss": 3.5613,
      "step": 21450
    },
    {
      "epoch": 2.314067377031536,
      "grad_norm": 0.5780556797981262,
      "learning_rate": 0.0004617045576985239,
      "loss": 3.57,
      "step": 21500
    },
    {
      "epoch": 2.319448929071144,
      "grad_norm": 0.6296783685684204,
      "learning_rate": 0.0004613813166684624,
      "loss": 3.5733,
      "step": 21550
    },
    {
      "epoch": 2.3248304811107525,
      "grad_norm": 0.5802305340766907,
      "learning_rate": 0.000461058075638401,
      "loss": 3.5614,
      "step": 21600
    },
    {
      "epoch": 2.3302120331503606,
      "grad_norm": 0.5666017532348633,
      "learning_rate": 0.00046073483460833955,
      "loss": 3.5643,
      "step": 21650
    },
    {
      "epoch": 2.3355935851899687,
      "grad_norm": 0.568427562713623,
      "learning_rate": 0.00046041159357827814,
      "loss": 3.5737,
      "step": 21700
    },
    {
      "epoch": 2.340975137229577,
      "grad_norm": 0.6071015000343323,
      "learning_rate": 0.00046008835254821674,
      "loss": 3.5514,
      "step": 21750
    },
    {
      "epoch": 2.3463566892691854,
      "grad_norm": 0.6334245800971985,
      "learning_rate": 0.0004597651115181554,
      "loss": 3.5512,
      "step": 21800
    },
    {
      "epoch": 2.3517382413087935,
      "grad_norm": 0.5655507445335388,
      "learning_rate": 0.00045944187048809393,
      "loss": 3.552,
      "step": 21850
    },
    {
      "epoch": 2.3571197933484016,
      "grad_norm": 0.5736246705055237,
      "learning_rate": 0.0004591186294580325,
      "loss": 3.555,
      "step": 21900
    },
    {
      "epoch": 2.3625013453880097,
      "grad_norm": 0.5438986420631409,
      "learning_rate": 0.00045879538842797106,
      "loss": 3.5701,
      "step": 21950
    },
    {
      "epoch": 2.3678828974276183,
      "grad_norm": 0.575109601020813,
      "learning_rate": 0.00045847214739790966,
      "loss": 3.5648,
      "step": 22000
    },
    {
      "epoch": 2.3678828974276183,
      "eval_accuracy": 0.3642226249864048,
      "eval_loss": 3.553886890411377,
      "eval_runtime": 185.8849,
      "eval_samples_per_second": 96.893,
      "eval_steps_per_second": 6.058,
      "step": 22000
    },
    {
      "epoch": 2.3732644494672264,
      "grad_norm": 0.6126470565795898,
      "learning_rate": 0.0004581489063678482,
      "loss": 3.557,
      "step": 22050
    },
    {
      "epoch": 2.3786460015068345,
      "grad_norm": 0.5555316805839539,
      "learning_rate": 0.00045782566533778685,
      "loss": 3.5466,
      "step": 22100
    },
    {
      "epoch": 2.384027553546443,
      "grad_norm": 0.6888968348503113,
      "learning_rate": 0.00045750242430772544,
      "loss": 3.582,
      "step": 22150
    },
    {
      "epoch": 2.389409105586051,
      "grad_norm": 0.5778998136520386,
      "learning_rate": 0.000457179183277664,
      "loss": 3.5692,
      "step": 22200
    },
    {
      "epoch": 2.3947906576256592,
      "grad_norm": 0.5521149635314941,
      "learning_rate": 0.0004568559422476026,
      "loss": 3.5661,
      "step": 22250
    },
    {
      "epoch": 2.4001722096652673,
      "grad_norm": 0.5564000606536865,
      "learning_rate": 0.00045653270121754117,
      "loss": 3.5691,
      "step": 22300
    },
    {
      "epoch": 2.4055537617048754,
      "grad_norm": 0.6178456544876099,
      "learning_rate": 0.0004562094601874797,
      "loss": 3.5468,
      "step": 22350
    },
    {
      "epoch": 2.410935313744484,
      "grad_norm": 0.5419647097587585,
      "learning_rate": 0.00045588621915741836,
      "loss": 3.5399,
      "step": 22400
    },
    {
      "epoch": 2.416316865784092,
      "grad_norm": 0.610287070274353,
      "learning_rate": 0.00045556297812735696,
      "loss": 3.5709,
      "step": 22450
    },
    {
      "epoch": 2.4216984178237,
      "grad_norm": 0.5580914616584778,
      "learning_rate": 0.0004552397370972955,
      "loss": 3.5685,
      "step": 22500
    },
    {
      "epoch": 2.4270799698633088,
      "grad_norm": 0.61723393201828,
      "learning_rate": 0.0004549164960672341,
      "loss": 3.5457,
      "step": 22550
    },
    {
      "epoch": 2.432461521902917,
      "grad_norm": 0.6177042722702026,
      "learning_rate": 0.00045459325503717263,
      "loss": 3.5508,
      "step": 22600
    },
    {
      "epoch": 2.437843073942525,
      "grad_norm": 0.6010410189628601,
      "learning_rate": 0.0004542700140071113,
      "loss": 3.5576,
      "step": 22650
    },
    {
      "epoch": 2.443224625982133,
      "grad_norm": 0.6373485326766968,
      "learning_rate": 0.0004539467729770499,
      "loss": 3.5532,
      "step": 22700
    },
    {
      "epoch": 2.4486061780217416,
      "grad_norm": 0.6607969403266907,
      "learning_rate": 0.0004536235319469884,
      "loss": 3.5495,
      "step": 22750
    },
    {
      "epoch": 2.4539877300613497,
      "grad_norm": 0.6011232137680054,
      "learning_rate": 0.000453300290916927,
      "loss": 3.5516,
      "step": 22800
    },
    {
      "epoch": 2.459369282100958,
      "grad_norm": 0.5890867114067078,
      "learning_rate": 0.0004529770498868656,
      "loss": 3.5347,
      "step": 22850
    },
    {
      "epoch": 2.464750834140566,
      "grad_norm": 0.6360806226730347,
      "learning_rate": 0.00045265380885680414,
      "loss": 3.5605,
      "step": 22900
    },
    {
      "epoch": 2.4701323861801745,
      "grad_norm": 0.5945587754249573,
      "learning_rate": 0.0004523305678267428,
      "loss": 3.5578,
      "step": 22950
    },
    {
      "epoch": 2.4755139382197826,
      "grad_norm": 0.5702919363975525,
      "learning_rate": 0.0004520073267966814,
      "loss": 3.5531,
      "step": 23000
    },
    {
      "epoch": 2.4755139382197826,
      "eval_accuracy": 0.365281990642596,
      "eval_loss": 3.543813943862915,
      "eval_runtime": 185.6123,
      "eval_samples_per_second": 97.036,
      "eval_steps_per_second": 6.066,
      "step": 23000
    },
    {
      "epoch": 2.4808954902593907,
      "grad_norm": 0.5587766766548157,
      "learning_rate": 0.00045168408576661993,
      "loss": 3.5543,
      "step": 23050
    },
    {
      "epoch": 2.4862770422989993,
      "grad_norm": 0.5266115069389343,
      "learning_rate": 0.0004513608447365585,
      "loss": 3.5552,
      "step": 23100
    },
    {
      "epoch": 2.4916585943386074,
      "grad_norm": 0.576671838760376,
      "learning_rate": 0.00045103760370649706,
      "loss": 3.5369,
      "step": 23150
    },
    {
      "epoch": 2.4970401463782155,
      "grad_norm": 0.5916807651519775,
      "learning_rate": 0.00045071436267643566,
      "loss": 3.5638,
      "step": 23200
    },
    {
      "epoch": 2.5024216984178236,
      "grad_norm": 0.5508329272270203,
      "learning_rate": 0.0004503911216463743,
      "loss": 3.5624,
      "step": 23250
    },
    {
      "epoch": 2.5078032504574317,
      "grad_norm": 0.5628139972686768,
      "learning_rate": 0.00045006788061631285,
      "loss": 3.5627,
      "step": 23300
    },
    {
      "epoch": 2.5131848024970402,
      "grad_norm": 0.624021053314209,
      "learning_rate": 0.00044974463958625144,
      "loss": 3.5427,
      "step": 23350
    },
    {
      "epoch": 2.5185663545366483,
      "grad_norm": 0.6096554398536682,
      "learning_rate": 0.00044942786337679125,
      "loss": 3.5448,
      "step": 23400
    },
    {
      "epoch": 2.5239479065762565,
      "grad_norm": 0.5920078754425049,
      "learning_rate": 0.00044910462234672984,
      "loss": 3.5484,
      "step": 23450
    },
    {
      "epoch": 2.529329458615865,
      "grad_norm": 0.6553821563720703,
      "learning_rate": 0.0004487813813166684,
      "loss": 3.5353,
      "step": 23500
    },
    {
      "epoch": 2.534711010655473,
      "grad_norm": 0.5930430293083191,
      "learning_rate": 0.000448458140286607,
      "loss": 3.5546,
      "step": 23550
    },
    {
      "epoch": 2.540092562695081,
      "grad_norm": 0.6248340606689453,
      "learning_rate": 0.00044813489925654563,
      "loss": 3.5508,
      "step": 23600
    },
    {
      "epoch": 2.5454741147346893,
      "grad_norm": 0.5694260597229004,
      "learning_rate": 0.00044781165822648417,
      "loss": 3.5432,
      "step": 23650
    },
    {
      "epoch": 2.550855666774298,
      "grad_norm": 0.567634642124176,
      "learning_rate": 0.00044748841719642276,
      "loss": 3.5365,
      "step": 23700
    },
    {
      "epoch": 2.556237218813906,
      "grad_norm": 0.6009625792503357,
      "learning_rate": 0.00044716517616636136,
      "loss": 3.5423,
      "step": 23750
    },
    {
      "epoch": 2.561618770853514,
      "grad_norm": 0.6289762258529663,
      "learning_rate": 0.0004468419351362999,
      "loss": 3.5488,
      "step": 23800
    },
    {
      "epoch": 2.567000322893122,
      "grad_norm": 0.5698253512382507,
      "learning_rate": 0.0004465186941062385,
      "loss": 3.5633,
      "step": 23850
    },
    {
      "epoch": 2.5723818749327307,
      "grad_norm": 0.6483665108680725,
      "learning_rate": 0.00044619545307617714,
      "loss": 3.5449,
      "step": 23900
    },
    {
      "epoch": 2.577763426972339,
      "grad_norm": 0.6585438251495361,
      "learning_rate": 0.0004458722120461157,
      "loss": 3.5465,
      "step": 23950
    },
    {
      "epoch": 2.583144979011947,
      "grad_norm": 0.675150454044342,
      "learning_rate": 0.0004455489710160543,
      "loss": 3.5501,
      "step": 24000
    },
    {
      "epoch": 2.583144979011947,
      "eval_accuracy": 0.36640165865152424,
      "eval_loss": 3.5321218967437744,
      "eval_runtime": 185.966,
      "eval_samples_per_second": 96.851,
      "eval_steps_per_second": 6.055,
      "step": 24000
    },
    {
      "epoch": 2.5885265310515555,
      "grad_norm": 0.6245909333229065,
      "learning_rate": 0.0004452257299859928,
      "loss": 3.5548,
      "step": 24050
    },
    {
      "epoch": 2.5939080830911636,
      "grad_norm": 0.5637868046760559,
      "learning_rate": 0.0004449024889559314,
      "loss": 3.5412,
      "step": 24100
    },
    {
      "epoch": 2.5992896351307717,
      "grad_norm": 0.6341053247451782,
      "learning_rate": 0.00044457924792587,
      "loss": 3.5338,
      "step": 24150
    },
    {
      "epoch": 2.60467118717038,
      "grad_norm": 0.5826786756515503,
      "learning_rate": 0.0004442560068958086,
      "loss": 3.552,
      "step": 24200
    },
    {
      "epoch": 2.610052739209988,
      "grad_norm": 0.6191914081573486,
      "learning_rate": 0.0004439327658657472,
      "loss": 3.5523,
      "step": 24250
    },
    {
      "epoch": 2.6154342912495965,
      "grad_norm": 0.6265237331390381,
      "learning_rate": 0.0004436095248356858,
      "loss": 3.5333,
      "step": 24300
    },
    {
      "epoch": 2.6208158432892046,
      "grad_norm": 0.6389064192771912,
      "learning_rate": 0.00044328628380562433,
      "loss": 3.5371,
      "step": 24350
    },
    {
      "epoch": 2.6261973953288127,
      "grad_norm": 0.5712819695472717,
      "learning_rate": 0.0004429630427755629,
      "loss": 3.5349,
      "step": 24400
    },
    {
      "epoch": 2.6315789473684212,
      "grad_norm": 0.6732001900672913,
      "learning_rate": 0.0004426398017455016,
      "loss": 3.564,
      "step": 24450
    },
    {
      "epoch": 2.6369604994080293,
      "grad_norm": 0.6007581949234009,
      "learning_rate": 0.0004423165607154401,
      "loss": 3.5587,
      "step": 24500
    },
    {
      "epoch": 2.6423420514476375,
      "grad_norm": 0.5638666152954102,
      "learning_rate": 0.0004419933196853787,
      "loss": 3.5373,
      "step": 24550
    },
    {
      "epoch": 2.6477236034872456,
      "grad_norm": 0.5620011687278748,
      "learning_rate": 0.00044167007865531725,
      "loss": 3.5265,
      "step": 24600
    },
    {
      "epoch": 2.653105155526854,
      "grad_norm": 0.5940476059913635,
      "learning_rate": 0.00044134683762525584,
      "loss": 3.5463,
      "step": 24650
    },
    {
      "epoch": 2.658486707566462,
      "grad_norm": 0.5919187664985657,
      "learning_rate": 0.00044102359659519444,
      "loss": 3.5395,
      "step": 24700
    },
    {
      "epoch": 2.6638682596060703,
      "grad_norm": 0.54522305727005,
      "learning_rate": 0.00044070035556513303,
      "loss": 3.5499,
      "step": 24750
    },
    {
      "epoch": 2.6692498116456784,
      "grad_norm": 0.5974709987640381,
      "learning_rate": 0.00044037711453507163,
      "loss": 3.5335,
      "step": 24800
    },
    {
      "epoch": 2.674631363685287,
      "grad_norm": 0.6616361141204834,
      "learning_rate": 0.0004400538735050102,
      "loss": 3.5379,
      "step": 24850
    },
    {
      "epoch": 2.680012915724895,
      "grad_norm": 0.564704179763794,
      "learning_rate": 0.00043973063247494876,
      "loss": 3.5367,
      "step": 24900
    },
    {
      "epoch": 2.685394467764503,
      "grad_norm": 0.5614447593688965,
      "learning_rate": 0.00043940739144488736,
      "loss": 3.533,
      "step": 24950
    },
    {
      "epoch": 2.6907760198041117,
      "grad_norm": 0.6085561513900757,
      "learning_rate": 0.0004390841504148259,
      "loss": 3.552,
      "step": 25000
    },
    {
      "epoch": 2.6907760198041117,
      "eval_accuracy": 0.3673672568655315,
      "eval_loss": 3.5229270458221436,
      "eval_runtime": 185.6006,
      "eval_samples_per_second": 97.042,
      "eval_steps_per_second": 6.067,
      "step": 25000
    },
    {
      "epoch": 2.69615757184372,
      "grad_norm": 0.6482565999031067,
      "learning_rate": 0.00043876090938476455,
      "loss": 3.5513,
      "step": 25050
    },
    {
      "epoch": 2.701539123883328,
      "grad_norm": 0.5925959348678589,
      "learning_rate": 0.00043843766835470314,
      "loss": 3.5509,
      "step": 25100
    },
    {
      "epoch": 2.706920675922936,
      "grad_norm": 0.6123073697090149,
      "learning_rate": 0.0004381144273246417,
      "loss": 3.5455,
      "step": 25150
    },
    {
      "epoch": 2.712302227962544,
      "grad_norm": 0.5789749622344971,
      "learning_rate": 0.0004377911862945803,
      "loss": 3.5609,
      "step": 25200
    },
    {
      "epoch": 2.7176837800021527,
      "grad_norm": 0.6142999529838562,
      "learning_rate": 0.00043746794526451887,
      "loss": 3.5204,
      "step": 25250
    },
    {
      "epoch": 2.723065332041761,
      "grad_norm": 0.5735086798667908,
      "learning_rate": 0.00043714470423445747,
      "loss": 3.542,
      "step": 25300
    },
    {
      "epoch": 2.728446884081369,
      "grad_norm": 0.6224695444107056,
      "learning_rate": 0.00043682146320439606,
      "loss": 3.5578,
      "step": 25350
    },
    {
      "epoch": 2.7338284361209775,
      "grad_norm": 0.5777645111083984,
      "learning_rate": 0.00043649822217433466,
      "loss": 3.562,
      "step": 25400
    },
    {
      "epoch": 2.7392099881605856,
      "grad_norm": 0.6380708813667297,
      "learning_rate": 0.0004361749811442732,
      "loss": 3.5356,
      "step": 25450
    },
    {
      "epoch": 2.7445915402001937,
      "grad_norm": 0.5977588891983032,
      "learning_rate": 0.0004358517401142118,
      "loss": 3.5414,
      "step": 25500
    },
    {
      "epoch": 2.749973092239802,
      "grad_norm": 0.6192581057548523,
      "learning_rate": 0.00043552849908415033,
      "loss": 3.5448,
      "step": 25550
    },
    {
      "epoch": 2.7553546442794103,
      "grad_norm": 0.6031454205513,
      "learning_rate": 0.000435205258054089,
      "loss": 3.5291,
      "step": 25600
    },
    {
      "epoch": 2.7607361963190185,
      "grad_norm": 0.5716226100921631,
      "learning_rate": 0.0004348820170240276,
      "loss": 3.5462,
      "step": 25650
    },
    {
      "epoch": 2.7661177483586266,
      "grad_norm": 0.6212171316146851,
      "learning_rate": 0.0004345587759939661,
      "loss": 3.5397,
      "step": 25700
    },
    {
      "epoch": 2.7714993003982347,
      "grad_norm": 0.5980427265167236,
      "learning_rate": 0.0004342355349639047,
      "loss": 3.5132,
      "step": 25750
    },
    {
      "epoch": 2.776880852437843,
      "grad_norm": 0.5769115686416626,
      "learning_rate": 0.0004339122939338433,
      "loss": 3.5475,
      "step": 25800
    },
    {
      "epoch": 2.7822624044774513,
      "grad_norm": 0.6191630363464355,
      "learning_rate": 0.00043358905290378184,
      "loss": 3.5445,
      "step": 25850
    },
    {
      "epoch": 2.7876439565170594,
      "grad_norm": 0.6642897725105286,
      "learning_rate": 0.0004332658118737205,
      "loss": 3.51,
      "step": 25900
    },
    {
      "epoch": 2.793025508556668,
      "grad_norm": 0.572578489780426,
      "learning_rate": 0.0004329425708436591,
      "loss": 3.5336,
      "step": 25950
    },
    {
      "epoch": 2.798407060596276,
      "grad_norm": 0.612603485584259,
      "learning_rate": 0.00043261932981359763,
      "loss": 3.5491,
      "step": 26000
    },
    {
      "epoch": 2.798407060596276,
      "eval_accuracy": 0.3676925636116481,
      "eval_loss": 3.516078472137451,
      "eval_runtime": 186.0579,
      "eval_samples_per_second": 96.803,
      "eval_steps_per_second": 6.052,
      "step": 26000
    },
    {
      "epoch": 2.803788612635884,
      "grad_norm": 0.6107763051986694,
      "learning_rate": 0.0004322960887835362,
      "loss": 3.5175,
      "step": 26050
    },
    {
      "epoch": 2.8091701646754923,
      "grad_norm": 0.6011694073677063,
      "learning_rate": 0.00043197284775347476,
      "loss": 3.5276,
      "step": 26100
    },
    {
      "epoch": 2.8145517167151004,
      "grad_norm": 0.643610954284668,
      "learning_rate": 0.00043164960672341336,
      "loss": 3.5262,
      "step": 26150
    },
    {
      "epoch": 2.819933268754709,
      "grad_norm": 0.5838670134544373,
      "learning_rate": 0.000431326365693352,
      "loss": 3.5273,
      "step": 26200
    },
    {
      "epoch": 2.825314820794317,
      "grad_norm": 0.7368820309638977,
      "learning_rate": 0.00043100312466329055,
      "loss": 3.5346,
      "step": 26250
    },
    {
      "epoch": 2.830696372833925,
      "grad_norm": 0.5959314107894897,
      "learning_rate": 0.00043067988363322914,
      "loss": 3.5348,
      "step": 26300
    },
    {
      "epoch": 2.8360779248735337,
      "grad_norm": 0.5832627415657043,
      "learning_rate": 0.00043035664260316774,
      "loss": 3.5421,
      "step": 26350
    },
    {
      "epoch": 2.841459476913142,
      "grad_norm": 0.5884088277816772,
      "learning_rate": 0.0004300334015731063,
      "loss": 3.5316,
      "step": 26400
    },
    {
      "epoch": 2.84684102895275,
      "grad_norm": 0.637690007686615,
      "learning_rate": 0.0004297101605430449,
      "loss": 3.5328,
      "step": 26450
    },
    {
      "epoch": 2.852222580992358,
      "grad_norm": 0.5828847289085388,
      "learning_rate": 0.0004293869195129835,
      "loss": 3.5344,
      "step": 26500
    },
    {
      "epoch": 2.857604133031966,
      "grad_norm": 0.5727975964546204,
      "learning_rate": 0.00042906367848292206,
      "loss": 3.5344,
      "step": 26550
    },
    {
      "epoch": 2.8629856850715747,
      "grad_norm": 0.6908379793167114,
      "learning_rate": 0.00042874043745286066,
      "loss": 3.5393,
      "step": 26600
    },
    {
      "epoch": 2.868367237111183,
      "grad_norm": 0.6023114323616028,
      "learning_rate": 0.0004284171964227992,
      "loss": 3.5453,
      "step": 26650
    },
    {
      "epoch": 2.873748789150791,
      "grad_norm": 0.5554830431938171,
      "learning_rate": 0.0004280939553927378,
      "loss": 3.537,
      "step": 26700
    },
    {
      "epoch": 2.8791303411903995,
      "grad_norm": 0.6484954357147217,
      "learning_rate": 0.00042777071436267644,
      "loss": 3.5382,
      "step": 26750
    },
    {
      "epoch": 2.8845118932300076,
      "grad_norm": 0.5850427746772766,
      "learning_rate": 0.000427447473332615,
      "loss": 3.5402,
      "step": 26800
    },
    {
      "epoch": 2.8898934452696157,
      "grad_norm": 0.6146157383918762,
      "learning_rate": 0.0004271242323025536,
      "loss": 3.5342,
      "step": 26850
    },
    {
      "epoch": 2.895274997309224,
      "grad_norm": 0.6066963076591492,
      "learning_rate": 0.00042680099127249217,
      "loss": 3.5151,
      "step": 26900
    },
    {
      "epoch": 2.9006565493488323,
      "grad_norm": 0.6057131886482239,
      "learning_rate": 0.0004264777502424307,
      "loss": 3.5445,
      "step": 26950
    },
    {
      "epoch": 2.9060381013884404,
      "grad_norm": 0.5750747323036194,
      "learning_rate": 0.0004261545092123693,
      "loss": 3.5328,
      "step": 27000
    },
    {
      "epoch": 2.9060381013884404,
      "eval_accuracy": 0.36899933189339285,
      "eval_loss": 3.5062544345855713,
      "eval_runtime": 185.6251,
      "eval_samples_per_second": 97.029,
      "eval_steps_per_second": 6.066,
      "step": 27000
    },
    {
      "epoch": 2.9114196534280485,
      "grad_norm": 0.6189302206039429,
      "learning_rate": 0.00042583126818230795,
      "loss": 3.5403,
      "step": 27050
    },
    {
      "epoch": 2.9168012054676566,
      "grad_norm": 0.6139723062515259,
      "learning_rate": 0.0004255080271522465,
      "loss": 3.5268,
      "step": 27100
    },
    {
      "epoch": 2.922182757507265,
      "grad_norm": 0.6025792360305786,
      "learning_rate": 0.0004251847861221851,
      "loss": 3.5102,
      "step": 27150
    },
    {
      "epoch": 2.9275643095468733,
      "grad_norm": 0.5897567868232727,
      "learning_rate": 0.00042486154509212363,
      "loss": 3.5369,
      "step": 27200
    },
    {
      "epoch": 2.9329458615864814,
      "grad_norm": 0.7020379304885864,
      "learning_rate": 0.0004245383040620622,
      "loss": 3.5487,
      "step": 27250
    },
    {
      "epoch": 2.93832741362609,
      "grad_norm": 0.6397563219070435,
      "learning_rate": 0.0004242150630320009,
      "loss": 3.5334,
      "step": 27300
    },
    {
      "epoch": 2.943708965665698,
      "grad_norm": 0.5864172577857971,
      "learning_rate": 0.0004238918220019394,
      "loss": 3.5148,
      "step": 27350
    },
    {
      "epoch": 2.949090517705306,
      "grad_norm": 0.6331847310066223,
      "learning_rate": 0.0004235750457924793,
      "loss": 3.5248,
      "step": 27400
    },
    {
      "epoch": 2.9544720697449143,
      "grad_norm": 0.6037740707397461,
      "learning_rate": 0.0004232518047624178,
      "loss": 3.5139,
      "step": 27450
    },
    {
      "epoch": 2.9598536217845224,
      "grad_norm": 0.6183251738548279,
      "learning_rate": 0.0004229285637323564,
      "loss": 3.5236,
      "step": 27500
    },
    {
      "epoch": 2.965235173824131,
      "grad_norm": 0.626484215259552,
      "learning_rate": 0.00042260532270229495,
      "loss": 3.5178,
      "step": 27550
    },
    {
      "epoch": 2.970616725863739,
      "grad_norm": 0.5917049646377563,
      "learning_rate": 0.00042228208167223354,
      "loss": 3.5166,
      "step": 27600
    },
    {
      "epoch": 2.975998277903347,
      "grad_norm": 0.5902097821235657,
      "learning_rate": 0.00042195884064217214,
      "loss": 3.525,
      "step": 27650
    },
    {
      "epoch": 2.9813798299429557,
      "grad_norm": 0.5803172588348389,
      "learning_rate": 0.00042163559961211073,
      "loss": 3.5202,
      "step": 27700
    },
    {
      "epoch": 2.986761381982564,
      "grad_norm": 0.6276710629463196,
      "learning_rate": 0.00042131235858204933,
      "loss": 3.5385,
      "step": 27750
    },
    {
      "epoch": 2.992142934022172,
      "grad_norm": 0.5746368765830994,
      "learning_rate": 0.00042099558237258914,
      "loss": 3.5425,
      "step": 27800
    },
    {
      "epoch": 2.9975244860617805,
      "grad_norm": 0.6302919983863831,
      "learning_rate": 0.00042067234134252773,
      "loss": 3.5247,
      "step": 27850
    },
    {
      "epoch": 3.0029060381013886,
      "grad_norm": 0.6859951019287109,
      "learning_rate": 0.00042034910031246627,
      "loss": 3.4671,
      "step": 27900
    },
    {
      "epoch": 3.0082875901409967,
      "grad_norm": 0.5925158858299255,
      "learning_rate": 0.00042002585928240486,
      "loss": 3.4199,
      "step": 27950
    },
    {
      "epoch": 3.0136691421806048,
      "grad_norm": 0.6261329054832458,
      "learning_rate": 0.00041970261825234346,
      "loss": 3.437,
      "step": 28000
    },
    {
      "epoch": 3.0136691421806048,
      "eval_accuracy": 0.3699964394448663,
      "eval_loss": 3.500507116317749,
      "eval_runtime": 185.9372,
      "eval_samples_per_second": 96.866,
      "eval_steps_per_second": 6.056,
      "step": 28000
    },
    {
      "epoch": 3.0190506942202133,
      "grad_norm": 0.6549689769744873,
      "learning_rate": 0.00041937937722228205,
      "loss": 3.4375,
      "step": 28050
    },
    {
      "epoch": 3.0244322462598214,
      "grad_norm": 0.6413537263870239,
      "learning_rate": 0.00041905613619222065,
      "loss": 3.4349,
      "step": 28100
    },
    {
      "epoch": 3.0298137982994295,
      "grad_norm": 0.5891996026039124,
      "learning_rate": 0.00041873289516215924,
      "loss": 3.446,
      "step": 28150
    },
    {
      "epoch": 3.0351953503390376,
      "grad_norm": 0.6186959147453308,
      "learning_rate": 0.0004184096541320978,
      "loss": 3.4348,
      "step": 28200
    },
    {
      "epoch": 3.040576902378646,
      "grad_norm": 0.632683515548706,
      "learning_rate": 0.0004180864131020364,
      "loss": 3.4346,
      "step": 28250
    },
    {
      "epoch": 3.0459584544182543,
      "grad_norm": 0.6001365184783936,
      "learning_rate": 0.0004177631720719749,
      "loss": 3.4426,
      "step": 28300
    },
    {
      "epoch": 3.0513400064578624,
      "grad_norm": 0.6217450499534607,
      "learning_rate": 0.00041743993104191357,
      "loss": 3.4327,
      "step": 28350
    },
    {
      "epoch": 3.0567215584974705,
      "grad_norm": 0.6076684594154358,
      "learning_rate": 0.00041711669001185216,
      "loss": 3.4407,
      "step": 28400
    },
    {
      "epoch": 3.062103110537079,
      "grad_norm": 0.6020702123641968,
      "learning_rate": 0.0004167934489817907,
      "loss": 3.4412,
      "step": 28450
    },
    {
      "epoch": 3.067484662576687,
      "grad_norm": 0.6914527416229248,
      "learning_rate": 0.0004164702079517293,
      "loss": 3.4402,
      "step": 28500
    },
    {
      "epoch": 3.0728662146162953,
      "grad_norm": 0.6317943930625916,
      "learning_rate": 0.0004161469669216679,
      "loss": 3.4362,
      "step": 28550
    },
    {
      "epoch": 3.0782477666559034,
      "grad_norm": 0.6085597276687622,
      "learning_rate": 0.00041582372589160643,
      "loss": 3.4424,
      "step": 28600
    },
    {
      "epoch": 3.083629318695512,
      "grad_norm": 0.584463894367218,
      "learning_rate": 0.0004155004848615451,
      "loss": 3.4566,
      "step": 28650
    },
    {
      "epoch": 3.08901087073512,
      "grad_norm": 0.6026861667633057,
      "learning_rate": 0.0004151772438314837,
      "loss": 3.4453,
      "step": 28700
    },
    {
      "epoch": 3.094392422774728,
      "grad_norm": 0.6213937401771545,
      "learning_rate": 0.0004148540028014222,
      "loss": 3.4614,
      "step": 28750
    },
    {
      "epoch": 3.0997739748143363,
      "grad_norm": 0.6182126998901367,
      "learning_rate": 0.0004145307617713608,
      "loss": 3.4579,
      "step": 28800
    },
    {
      "epoch": 3.105155526853945,
      "grad_norm": 0.6128644347190857,
      "learning_rate": 0.00041420752074129935,
      "loss": 3.4564,
      "step": 28850
    },
    {
      "epoch": 3.110537078893553,
      "grad_norm": 0.5983437299728394,
      "learning_rate": 0.000413884279711238,
      "loss": 3.4514,
      "step": 28900
    },
    {
      "epoch": 3.115918630933161,
      "grad_norm": 0.5967368483543396,
      "learning_rate": 0.0004135610386811766,
      "loss": 3.4352,
      "step": 28950
    },
    {
      "epoch": 3.121300182972769,
      "grad_norm": 0.5787082314491272,
      "learning_rate": 0.00041323779765111514,
      "loss": 3.4583,
      "step": 29000
    },
    {
      "epoch": 3.121300182972769,
      "eval_accuracy": 0.37075766157689455,
      "eval_loss": 3.4961330890655518,
      "eval_runtime": 185.7918,
      "eval_samples_per_second": 96.942,
      "eval_steps_per_second": 6.061,
      "step": 29000
    },
    {
      "epoch": 3.1266817350123777,
      "grad_norm": 0.5901358723640442,
      "learning_rate": 0.00041291455662105373,
      "loss": 3.4728,
      "step": 29050
    },
    {
      "epoch": 3.132063287051986,
      "grad_norm": 0.6431722640991211,
      "learning_rate": 0.0004125913155909923,
      "loss": 3.4459,
      "step": 29100
    },
    {
      "epoch": 3.137444839091594,
      "grad_norm": 0.6787669658660889,
      "learning_rate": 0.00041226807456093087,
      "loss": 3.4512,
      "step": 29150
    },
    {
      "epoch": 3.1428263911312024,
      "grad_norm": 0.5798764228820801,
      "learning_rate": 0.0004119448335308695,
      "loss": 3.462,
      "step": 29200
    },
    {
      "epoch": 3.1482079431708105,
      "grad_norm": 0.6199666261672974,
      "learning_rate": 0.0004116215925008081,
      "loss": 3.4515,
      "step": 29250
    },
    {
      "epoch": 3.1535894952104186,
      "grad_norm": 0.6263344883918762,
      "learning_rate": 0.00041129835147074665,
      "loss": 3.4475,
      "step": 29300
    },
    {
      "epoch": 3.1589710472500268,
      "grad_norm": 0.6818477511405945,
      "learning_rate": 0.00041097511044068524,
      "loss": 3.466,
      "step": 29350
    },
    {
      "epoch": 3.1643525992896353,
      "grad_norm": 0.5835814476013184,
      "learning_rate": 0.0004106518694106238,
      "loss": 3.4601,
      "step": 29400
    },
    {
      "epoch": 3.1697341513292434,
      "grad_norm": 0.6019260883331299,
      "learning_rate": 0.0004103286283805624,
      "loss": 3.4406,
      "step": 29450
    },
    {
      "epoch": 3.1751157033688515,
      "grad_norm": 0.6283572912216187,
      "learning_rate": 0.00041000538735050103,
      "loss": 3.4445,
      "step": 29500
    },
    {
      "epoch": 3.1804972554084596,
      "grad_norm": 0.6571431159973145,
      "learning_rate": 0.00040968214632043957,
      "loss": 3.4498,
      "step": 29550
    },
    {
      "epoch": 3.185878807448068,
      "grad_norm": 0.6444620490074158,
      "learning_rate": 0.00040935890529037816,
      "loss": 3.4557,
      "step": 29600
    },
    {
      "epoch": 3.1912603594876763,
      "grad_norm": 0.6723196506500244,
      "learning_rate": 0.00040903566426031676,
      "loss": 3.4481,
      "step": 29650
    },
    {
      "epoch": 3.1966419115272844,
      "grad_norm": 0.5993171334266663,
      "learning_rate": 0.0004087124232302553,
      "loss": 3.4674,
      "step": 29700
    },
    {
      "epoch": 3.2020234635668925,
      "grad_norm": 0.6165416836738586,
      "learning_rate": 0.0004083891822001939,
      "loss": 3.4545,
      "step": 29750
    },
    {
      "epoch": 3.207405015606501,
      "grad_norm": 0.6496402621269226,
      "learning_rate": 0.00040806594117013254,
      "loss": 3.4569,
      "step": 29800
    },
    {
      "epoch": 3.212786567646109,
      "grad_norm": 0.6238318085670471,
      "learning_rate": 0.0004077427001400711,
      "loss": 3.4605,
      "step": 29850
    },
    {
      "epoch": 3.2181681196857173,
      "grad_norm": 0.5976744294166565,
      "learning_rate": 0.0004074194591100097,
      "loss": 3.4465,
      "step": 29900
    },
    {
      "epoch": 3.2235496717253254,
      "grad_norm": 0.6191838383674622,
      "learning_rate": 0.0004070962180799482,
      "loss": 3.4678,
      "step": 29950
    },
    {
      "epoch": 3.228931223764934,
      "grad_norm": 0.599011242389679,
      "learning_rate": 0.0004067729770498868,
      "loss": 3.4586,
      "step": 30000
    },
    {
      "epoch": 3.228931223764934,
      "eval_accuracy": 0.37142772393604645,
      "eval_loss": 3.489610195159912,
      "eval_runtime": 186.1185,
      "eval_samples_per_second": 96.772,
      "eval_steps_per_second": 6.05,
      "step": 30000
    },
    {
      "epoch": 3.234312775804542,
      "grad_norm": 0.6838563084602356,
      "learning_rate": 0.00040644973601982546,
      "loss": 3.4685,
      "step": 30050
    },
    {
      "epoch": 3.23969432784415,
      "grad_norm": 0.5964744091033936,
      "learning_rate": 0.000406126494989764,
      "loss": 3.4495,
      "step": 30100
    },
    {
      "epoch": 3.2450758798837587,
      "grad_norm": 0.625598132610321,
      "learning_rate": 0.0004058032539597026,
      "loss": 3.4549,
      "step": 30150
    },
    {
      "epoch": 3.250457431923367,
      "grad_norm": 0.6814360022544861,
      "learning_rate": 0.00040548001292964114,
      "loss": 3.4628,
      "step": 30200
    },
    {
      "epoch": 3.255838983962975,
      "grad_norm": 0.5795638561248779,
      "learning_rate": 0.00040515677189957973,
      "loss": 3.4568,
      "step": 30250
    },
    {
      "epoch": 3.261220536002583,
      "grad_norm": 0.5904152393341064,
      "learning_rate": 0.0004048335308695183,
      "loss": 3.467,
      "step": 30300
    },
    {
      "epoch": 3.2666020880421915,
      "grad_norm": 0.6184005737304688,
      "learning_rate": 0.0004045102898394569,
      "loss": 3.4519,
      "step": 30350
    },
    {
      "epoch": 3.2719836400817996,
      "grad_norm": 0.6063491106033325,
      "learning_rate": 0.0004041870488093955,
      "loss": 3.4712,
      "step": 30400
    },
    {
      "epoch": 3.2773651921214078,
      "grad_norm": 0.6423608660697937,
      "learning_rate": 0.0004038638077793341,
      "loss": 3.4545,
      "step": 30450
    },
    {
      "epoch": 3.282746744161016,
      "grad_norm": 0.5930519104003906,
      "learning_rate": 0.00040354056674927265,
      "loss": 3.4476,
      "step": 30500
    },
    {
      "epoch": 3.2881282962006244,
      "grad_norm": 0.6379795074462891,
      "learning_rate": 0.00040321732571921124,
      "loss": 3.4693,
      "step": 30550
    },
    {
      "epoch": 3.2935098482402325,
      "grad_norm": 0.6130459308624268,
      "learning_rate": 0.0004028940846891498,
      "loss": 3.457,
      "step": 30600
    },
    {
      "epoch": 3.2988914002798406,
      "grad_norm": 0.6891159415245056,
      "learning_rate": 0.00040257084365908843,
      "loss": 3.4539,
      "step": 30650
    },
    {
      "epoch": 3.304272952319449,
      "grad_norm": 0.6602261662483215,
      "learning_rate": 0.00040224760262902703,
      "loss": 3.4516,
      "step": 30700
    },
    {
      "epoch": 3.3096545043590573,
      "grad_norm": 0.6283789873123169,
      "learning_rate": 0.00040192436159896557,
      "loss": 3.4563,
      "step": 30750
    },
    {
      "epoch": 3.3150360563986654,
      "grad_norm": 0.5744116306304932,
      "learning_rate": 0.00040160112056890416,
      "loss": 3.4479,
      "step": 30800
    },
    {
      "epoch": 3.3204176084382735,
      "grad_norm": 0.6408202052116394,
      "learning_rate": 0.00040127787953884276,
      "loss": 3.4562,
      "step": 30850
    },
    {
      "epoch": 3.3257991604778816,
      "grad_norm": 0.6548856496810913,
      "learning_rate": 0.00040095463850878135,
      "loss": 3.4582,
      "step": 30900
    },
    {
      "epoch": 3.33118071251749,
      "grad_norm": 0.6008021235466003,
      "learning_rate": 0.00040063139747871995,
      "loss": 3.4529,
      "step": 30950
    },
    {
      "epoch": 3.3365622645570983,
      "grad_norm": 0.6486563086509705,
      "learning_rate": 0.00040030815644865854,
      "loss": 3.4688,
      "step": 31000
    },
    {
      "epoch": 3.3365622645570983,
      "eval_accuracy": 0.37202020813329884,
      "eval_loss": 3.4839975833892822,
      "eval_runtime": 185.9544,
      "eval_samples_per_second": 96.857,
      "eval_steps_per_second": 6.055,
      "step": 31000
    },
    {
      "epoch": 3.3419438165967064,
      "grad_norm": 0.6012479662895203,
      "learning_rate": 0.0003999849154185971,
      "loss": 3.471,
      "step": 31050
    },
    {
      "epoch": 3.347325368636315,
      "grad_norm": 0.6101776361465454,
      "learning_rate": 0.0003996616743885357,
      "loss": 3.4593,
      "step": 31100
    },
    {
      "epoch": 3.352706920675923,
      "grad_norm": 0.6471637487411499,
      "learning_rate": 0.0003993384333584742,
      "loss": 3.4617,
      "step": 31150
    },
    {
      "epoch": 3.358088472715531,
      "grad_norm": 0.6562981605529785,
      "learning_rate": 0.00039901519232841287,
      "loss": 3.4771,
      "step": 31200
    },
    {
      "epoch": 3.3634700247551392,
      "grad_norm": 0.6741592288017273,
      "learning_rate": 0.00039869195129835146,
      "loss": 3.4358,
      "step": 31250
    },
    {
      "epoch": 3.368851576794748,
      "grad_norm": 0.5867917537689209,
      "learning_rate": 0.00039836871026829,
      "loss": 3.4783,
      "step": 31300
    },
    {
      "epoch": 3.374233128834356,
      "grad_norm": 0.6298251152038574,
      "learning_rate": 0.0003980454692382286,
      "loss": 3.4579,
      "step": 31350
    },
    {
      "epoch": 3.379614680873964,
      "grad_norm": 0.6261290311813354,
      "learning_rate": 0.0003977222282081672,
      "loss": 3.4623,
      "step": 31400
    },
    {
      "epoch": 3.384996232913572,
      "grad_norm": 0.6118899583816528,
      "learning_rate": 0.00039739898717810573,
      "loss": 3.4735,
      "step": 31450
    },
    {
      "epoch": 3.3903777849531807,
      "grad_norm": 0.6891496777534485,
      "learning_rate": 0.0003970757461480444,
      "loss": 3.4384,
      "step": 31500
    },
    {
      "epoch": 3.3957593369927888,
      "grad_norm": 0.6780850887298584,
      "learning_rate": 0.000396752505117983,
      "loss": 3.466,
      "step": 31550
    },
    {
      "epoch": 3.401140889032397,
      "grad_norm": 0.6798139214515686,
      "learning_rate": 0.0003964292640879215,
      "loss": 3.4701,
      "step": 31600
    },
    {
      "epoch": 3.4065224410720054,
      "grad_norm": 0.7084763050079346,
      "learning_rate": 0.0003961060230578601,
      "loss": 3.4666,
      "step": 31650
    },
    {
      "epoch": 3.4119039931116135,
      "grad_norm": 0.6819920539855957,
      "learning_rate": 0.00039578278202779865,
      "loss": 3.4557,
      "step": 31700
    },
    {
      "epoch": 3.4172855451512216,
      "grad_norm": 0.6379877328872681,
      "learning_rate": 0.00039545954099773725,
      "loss": 3.4524,
      "step": 31750
    },
    {
      "epoch": 3.4226670971908297,
      "grad_norm": 0.6043752431869507,
      "learning_rate": 0.00039514276478827705,
      "loss": 3.4688,
      "step": 31800
    },
    {
      "epoch": 3.428048649230438,
      "grad_norm": 0.6391432285308838,
      "learning_rate": 0.0003948195237582157,
      "loss": 3.4787,
      "step": 31850
    },
    {
      "epoch": 3.4334302012700464,
      "grad_norm": 0.5843192338943481,
      "learning_rate": 0.0003944962827281543,
      "loss": 3.4423,
      "step": 31900
    },
    {
      "epoch": 3.4388117533096545,
      "grad_norm": 0.6877573132514954,
      "learning_rate": 0.00039417304169809284,
      "loss": 3.4703,
      "step": 31950
    },
    {
      "epoch": 3.4441933053492626,
      "grad_norm": 0.6145330667495728,
      "learning_rate": 0.00039384980066803143,
      "loss": 3.4431,
      "step": 32000
    },
    {
      "epoch": 3.4441933053492626,
      "eval_accuracy": 0.37262497010687423,
      "eval_loss": 3.4783694744110107,
      "eval_runtime": 185.7071,
      "eval_samples_per_second": 96.986,
      "eval_steps_per_second": 6.063,
      "step": 32000
    },
    {
      "epoch": 3.449574857388871,
      "grad_norm": 0.6316184401512146,
      "learning_rate": 0.00039352655963796997,
      "loss": 3.4302,
      "step": 32050
    },
    {
      "epoch": 3.4549564094284793,
      "grad_norm": 0.6292887926101685,
      "learning_rate": 0.00039320331860790857,
      "loss": 3.4619,
      "step": 32100
    },
    {
      "epoch": 3.4603379614680874,
      "grad_norm": 0.612347424030304,
      "learning_rate": 0.0003928800775778472,
      "loss": 3.4756,
      "step": 32150
    },
    {
      "epoch": 3.4657195135076955,
      "grad_norm": 0.6388846039772034,
      "learning_rate": 0.00039255683654778576,
      "loss": 3.4568,
      "step": 32200
    },
    {
      "epoch": 3.471101065547304,
      "grad_norm": 0.6543812155723572,
      "learning_rate": 0.00039223359551772435,
      "loss": 3.4446,
      "step": 32250
    },
    {
      "epoch": 3.476482617586912,
      "grad_norm": 0.6090707778930664,
      "learning_rate": 0.00039191035448766294,
      "loss": 3.4608,
      "step": 32300
    },
    {
      "epoch": 3.4818641696265202,
      "grad_norm": 0.6013190746307373,
      "learning_rate": 0.0003915871134576015,
      "loss": 3.4307,
      "step": 32350
    },
    {
      "epoch": 3.4872457216661283,
      "grad_norm": 0.6240558624267578,
      "learning_rate": 0.0003912638724275401,
      "loss": 3.4681,
      "step": 32400
    },
    {
      "epoch": 3.492627273705737,
      "grad_norm": 0.6079102754592896,
      "learning_rate": 0.00039094063139747873,
      "loss": 3.4595,
      "step": 32450
    },
    {
      "epoch": 3.498008825745345,
      "grad_norm": 0.5879514217376709,
      "learning_rate": 0.00039061739036741727,
      "loss": 3.4709,
      "step": 32500
    },
    {
      "epoch": 3.503390377784953,
      "grad_norm": 0.6706399917602539,
      "learning_rate": 0.00039029414933735586,
      "loss": 3.4685,
      "step": 32550
    },
    {
      "epoch": 3.5087719298245617,
      "grad_norm": 0.6587862372398376,
      "learning_rate": 0.0003899709083072944,
      "loss": 3.4688,
      "step": 32600
    },
    {
      "epoch": 3.5141534818641698,
      "grad_norm": 0.5957961678504944,
      "learning_rate": 0.000389647667277233,
      "loss": 3.4406,
      "step": 32650
    },
    {
      "epoch": 3.519535033903778,
      "grad_norm": 0.68312007188797,
      "learning_rate": 0.00038932442624717165,
      "loss": 3.4495,
      "step": 32700
    },
    {
      "epoch": 3.524916585943386,
      "grad_norm": 0.6823630928993225,
      "learning_rate": 0.0003890011852171102,
      "loss": 3.4572,
      "step": 32750
    },
    {
      "epoch": 3.530298137982994,
      "grad_norm": 0.6105306148529053,
      "learning_rate": 0.0003886779441870488,
      "loss": 3.4288,
      "step": 32800
    },
    {
      "epoch": 3.5356796900226026,
      "grad_norm": 0.6448850035667419,
      "learning_rate": 0.0003883547031569874,
      "loss": 3.4718,
      "step": 32850
    },
    {
      "epoch": 3.5410612420622107,
      "grad_norm": 0.6396876573562622,
      "learning_rate": 0.0003880314621269259,
      "loss": 3.4631,
      "step": 32900
    },
    {
      "epoch": 3.546442794101819,
      "grad_norm": 0.6533107757568359,
      "learning_rate": 0.0003877082210968645,
      "loss": 3.458,
      "step": 32950
    },
    {
      "epoch": 3.5518243461414274,
      "grad_norm": 0.6430176496505737,
      "learning_rate": 0.00038738498006680316,
      "loss": 3.4674,
      "step": 33000
    },
    {
      "epoch": 3.5518243461414274,
      "eval_accuracy": 0.3732284282457959,
      "eval_loss": 3.4700474739074707,
      "eval_runtime": 185.8946,
      "eval_samples_per_second": 96.888,
      "eval_steps_per_second": 6.057,
      "step": 33000
    },
    {
      "epoch": 3.5572058981810355,
      "grad_norm": 0.6344562768936157,
      "learning_rate": 0.0003870617390367417,
      "loss": 3.4649,
      "step": 33050
    },
    {
      "epoch": 3.5625874502206436,
      "grad_norm": 0.6314287781715393,
      "learning_rate": 0.0003867384980066803,
      "loss": 3.4601,
      "step": 33100
    },
    {
      "epoch": 3.5679690022602517,
      "grad_norm": 0.6127499938011169,
      "learning_rate": 0.00038641525697661884,
      "loss": 3.4638,
      "step": 33150
    },
    {
      "epoch": 3.57335055429986,
      "grad_norm": 0.6499159932136536,
      "learning_rate": 0.00038609201594655743,
      "loss": 3.4482,
      "step": 33200
    },
    {
      "epoch": 3.5787321063394684,
      "grad_norm": 0.6084860563278198,
      "learning_rate": 0.000385768774916496,
      "loss": 3.4559,
      "step": 33250
    },
    {
      "epoch": 3.5841136583790765,
      "grad_norm": 0.6495732069015503,
      "learning_rate": 0.0003854455338864346,
      "loss": 3.4522,
      "step": 33300
    },
    {
      "epoch": 3.5894952104186846,
      "grad_norm": 0.6634765267372131,
      "learning_rate": 0.0003851222928563732,
      "loss": 3.4763,
      "step": 33350
    },
    {
      "epoch": 3.594876762458293,
      "grad_norm": 0.6340965032577515,
      "learning_rate": 0.0003847990518263118,
      "loss": 3.4576,
      "step": 33400
    },
    {
      "epoch": 3.6002583144979012,
      "grad_norm": 0.6650819182395935,
      "learning_rate": 0.00038447581079625035,
      "loss": 3.4731,
      "step": 33450
    },
    {
      "epoch": 3.6056398665375093,
      "grad_norm": 0.6808046698570251,
      "learning_rate": 0.00038415256976618895,
      "loss": 3.4565,
      "step": 33500
    },
    {
      "epoch": 3.611021418577118,
      "grad_norm": 0.5841709971427917,
      "learning_rate": 0.0003838293287361275,
      "loss": 3.4622,
      "step": 33550
    },
    {
      "epoch": 3.616402970616726,
      "grad_norm": 0.6173233389854431,
      "learning_rate": 0.00038350608770606613,
      "loss": 3.4542,
      "step": 33600
    },
    {
      "epoch": 3.621784522656334,
      "grad_norm": 0.6386444568634033,
      "learning_rate": 0.00038318284667600473,
      "loss": 3.4376,
      "step": 33650
    },
    {
      "epoch": 3.627166074695942,
      "grad_norm": 0.6642857789993286,
      "learning_rate": 0.00038285960564594327,
      "loss": 3.4417,
      "step": 33700
    },
    {
      "epoch": 3.6325476267355503,
      "grad_norm": 0.6766189336776733,
      "learning_rate": 0.00038253636461588186,
      "loss": 3.4537,
      "step": 33750
    },
    {
      "epoch": 3.637929178775159,
      "grad_norm": 0.7205559611320496,
      "learning_rate": 0.00038221958840642167,
      "loss": 3.4603,
      "step": 33800
    },
    {
      "epoch": 3.643310730814767,
      "grad_norm": 0.7042642831802368,
      "learning_rate": 0.00038189634737636027,
      "loss": 3.4539,
      "step": 33850
    },
    {
      "epoch": 3.648692282854375,
      "grad_norm": 0.6256982088088989,
      "learning_rate": 0.0003815731063462988,
      "loss": 3.4846,
      "step": 33900
    },
    {
      "epoch": 3.6540738348939836,
      "grad_norm": 0.6368565559387207,
      "learning_rate": 0.00038124986531623745,
      "loss": 3.4526,
      "step": 33950
    },
    {
      "epoch": 3.6594553869335917,
      "grad_norm": 0.6558027863502502,
      "learning_rate": 0.00038092662428617605,
      "loss": 3.4536,
      "step": 34000
    },
    {
      "epoch": 3.6594553869335917,
      "eval_accuracy": 0.37406179589533295,
      "eval_loss": 3.4646847248077393,
      "eval_runtime": 185.8979,
      "eval_samples_per_second": 96.887,
      "eval_steps_per_second": 6.057,
      "step": 34000
    },
    {
      "epoch": 3.6648369389732,
      "grad_norm": 0.6205319166183472,
      "learning_rate": 0.0003806033832561146,
      "loss": 3.4676,
      "step": 34050
    },
    {
      "epoch": 3.670218491012808,
      "grad_norm": 0.6113113164901733,
      "learning_rate": 0.0003802801422260532,
      "loss": 3.4501,
      "step": 34100
    },
    {
      "epoch": 3.675600043052416,
      "grad_norm": 0.6408382654190063,
      "learning_rate": 0.0003799569011959918,
      "loss": 3.4524,
      "step": 34150
    },
    {
      "epoch": 3.6809815950920246,
      "grad_norm": 0.6496379375457764,
      "learning_rate": 0.0003796336601659303,
      "loss": 3.4565,
      "step": 34200
    },
    {
      "epoch": 3.6863631471316327,
      "grad_norm": 0.6861302852630615,
      "learning_rate": 0.00037931041913586897,
      "loss": 3.4396,
      "step": 34250
    },
    {
      "epoch": 3.691744699171241,
      "grad_norm": 0.6329975128173828,
      "learning_rate": 0.00037898717810580756,
      "loss": 3.4555,
      "step": 34300
    },
    {
      "epoch": 3.6971262512108494,
      "grad_norm": 0.6704012155532837,
      "learning_rate": 0.00037867040189634737,
      "loss": 3.4471,
      "step": 34350
    },
    {
      "epoch": 3.7025078032504575,
      "grad_norm": 0.5922163724899292,
      "learning_rate": 0.0003783471608662859,
      "loss": 3.4571,
      "step": 34400
    },
    {
      "epoch": 3.7078893552900656,
      "grad_norm": 0.6192761659622192,
      "learning_rate": 0.0003780239198362245,
      "loss": 3.4515,
      "step": 34450
    },
    {
      "epoch": 3.713270907329674,
      "grad_norm": 0.6511453986167908,
      "learning_rate": 0.0003777006788061631,
      "loss": 3.4598,
      "step": 34500
    },
    {
      "epoch": 3.7186524593692822,
      "grad_norm": 0.6430067420005798,
      "learning_rate": 0.00037737743777610164,
      "loss": 3.4604,
      "step": 34550
    },
    {
      "epoch": 3.7240340114088903,
      "grad_norm": 0.667400598526001,
      "learning_rate": 0.0003770541967460403,
      "loss": 3.4624,
      "step": 34600
    },
    {
      "epoch": 3.7294155634484984,
      "grad_norm": 0.6057864427566528,
      "learning_rate": 0.0003767309557159789,
      "loss": 3.4586,
      "step": 34650
    },
    {
      "epoch": 3.7347971154881066,
      "grad_norm": 0.6699045896530151,
      "learning_rate": 0.0003764077146859174,
      "loss": 3.4499,
      "step": 34700
    },
    {
      "epoch": 3.740178667527715,
      "grad_norm": 0.6403332948684692,
      "learning_rate": 0.000376084473655856,
      "loss": 3.4522,
      "step": 34750
    },
    {
      "epoch": 3.745560219567323,
      "grad_norm": 0.6180538535118103,
      "learning_rate": 0.00037576123262579456,
      "loss": 3.4525,
      "step": 34800
    },
    {
      "epoch": 3.7509417716069313,
      "grad_norm": 0.6628486514091492,
      "learning_rate": 0.00037543799159573315,
      "loss": 3.4449,
      "step": 34850
    },
    {
      "epoch": 3.75632332364654,
      "grad_norm": 0.6354972720146179,
      "learning_rate": 0.0003751147505656718,
      "loss": 3.4586,
      "step": 34900
    },
    {
      "epoch": 3.761704875686148,
      "grad_norm": 0.6606380939483643,
      "learning_rate": 0.00037479150953561034,
      "loss": 3.4414,
      "step": 34950
    },
    {
      "epoch": 3.767086427725756,
      "grad_norm": 0.6166733503341675,
      "learning_rate": 0.00037446826850554894,
      "loss": 3.4677,
      "step": 35000
    },
    {
      "epoch": 3.767086427725756,
      "eval_accuracy": 0.3743559192626467,
      "eval_loss": 3.4592678546905518,
      "eval_runtime": 186.0367,
      "eval_samples_per_second": 96.814,
      "eval_steps_per_second": 6.053,
      "step": 35000
    },
    {
      "epoch": 3.772467979765364,
      "grad_norm": 0.6536694765090942,
      "learning_rate": 0.00037414502747548753,
      "loss": 3.4486,
      "step": 35050
    },
    {
      "epoch": 3.7778495318049723,
      "grad_norm": 0.6511226892471313,
      "learning_rate": 0.00037382178644542607,
      "loss": 3.4727,
      "step": 35100
    },
    {
      "epoch": 3.783231083844581,
      "grad_norm": 0.6525469422340393,
      "learning_rate": 0.00037349854541536467,
      "loss": 3.4681,
      "step": 35150
    },
    {
      "epoch": 3.788612635884189,
      "grad_norm": 0.6748849749565125,
      "learning_rate": 0.0003731753043853033,
      "loss": 3.4556,
      "step": 35200
    },
    {
      "epoch": 3.793994187923797,
      "grad_norm": 0.6165880560874939,
      "learning_rate": 0.00037285206335524186,
      "loss": 3.4339,
      "step": 35250
    },
    {
      "epoch": 3.7993757399634056,
      "grad_norm": 0.7205676436424255,
      "learning_rate": 0.00037252882232518045,
      "loss": 3.4702,
      "step": 35300
    },
    {
      "epoch": 3.8047572920030137,
      "grad_norm": 0.6393027305603027,
      "learning_rate": 0.000372205581295119,
      "loss": 3.4379,
      "step": 35350
    },
    {
      "epoch": 3.810138844042622,
      "grad_norm": 0.6779743432998657,
      "learning_rate": 0.0003718823402650576,
      "loss": 3.4551,
      "step": 35400
    },
    {
      "epoch": 3.8155203960822304,
      "grad_norm": 0.6389734745025635,
      "learning_rate": 0.00037155909923499624,
      "loss": 3.4384,
      "step": 35450
    },
    {
      "epoch": 3.8209019481218385,
      "grad_norm": 0.7240792512893677,
      "learning_rate": 0.0003712358582049348,
      "loss": 3.4393,
      "step": 35500
    },
    {
      "epoch": 3.8262835001614466,
      "grad_norm": 0.6486620903015137,
      "learning_rate": 0.00037091261717487337,
      "loss": 3.4652,
      "step": 35550
    },
    {
      "epoch": 3.8316650522010547,
      "grad_norm": 0.6342782378196716,
      "learning_rate": 0.00037058937614481197,
      "loss": 3.4483,
      "step": 35600
    },
    {
      "epoch": 3.837046604240663,
      "grad_norm": 0.6279988288879395,
      "learning_rate": 0.0003702661351147505,
      "loss": 3.4523,
      "step": 35650
    },
    {
      "epoch": 3.8424281562802713,
      "grad_norm": 0.640093207359314,
      "learning_rate": 0.0003699428940846891,
      "loss": 3.4623,
      "step": 35700
    },
    {
      "epoch": 3.8478097083198795,
      "grad_norm": 0.6492430567741394,
      "learning_rate": 0.00036961965305462775,
      "loss": 3.4388,
      "step": 35750
    },
    {
      "epoch": 3.8531912603594876,
      "grad_norm": 0.686187207698822,
      "learning_rate": 0.0003692964120245663,
      "loss": 3.4745,
      "step": 35800
    },
    {
      "epoch": 3.858572812399096,
      "grad_norm": 0.6521360874176025,
      "learning_rate": 0.0003689731709945049,
      "loss": 3.4511,
      "step": 35850
    },
    {
      "epoch": 3.863954364438704,
      "grad_norm": 0.7153738737106323,
      "learning_rate": 0.0003686499299644434,
      "loss": 3.453,
      "step": 35900
    },
    {
      "epoch": 3.8693359164783123,
      "grad_norm": 0.6380251049995422,
      "learning_rate": 0.000368326688934382,
      "loss": 3.4486,
      "step": 35950
    },
    {
      "epoch": 3.8747174685179204,
      "grad_norm": 0.6539615988731384,
      "learning_rate": 0.0003680034479043206,
      "loss": 3.4687,
      "step": 36000
    },
    {
      "epoch": 3.8747174685179204,
      "eval_accuracy": 0.37530445897326714,
      "eval_loss": 3.452207088470459,
      "eval_runtime": 185.6297,
      "eval_samples_per_second": 97.026,
      "eval_steps_per_second": 6.066,
      "step": 36000
    },
    {
      "epoch": 3.8800990205575285,
      "grad_norm": 0.7640389204025269,
      "learning_rate": 0.0003676802068742592,
      "loss": 3.4482,
      "step": 36050
    },
    {
      "epoch": 3.885480572597137,
      "grad_norm": 0.6437899470329285,
      "learning_rate": 0.0003673569658441978,
      "loss": 3.4308,
      "step": 36100
    },
    {
      "epoch": 3.890862124636745,
      "grad_norm": 0.7182141542434692,
      "learning_rate": 0.0003670337248141364,
      "loss": 3.4405,
      "step": 36150
    },
    {
      "epoch": 3.8962436766763533,
      "grad_norm": 0.6487706303596497,
      "learning_rate": 0.00036671048378407494,
      "loss": 3.4391,
      "step": 36200
    },
    {
      "epoch": 3.901625228715962,
      "grad_norm": 0.5846397876739502,
      "learning_rate": 0.00036638724275401353,
      "loss": 3.4503,
      "step": 36250
    },
    {
      "epoch": 3.90700678075557,
      "grad_norm": 0.6554555892944336,
      "learning_rate": 0.0003660640017239522,
      "loss": 3.4528,
      "step": 36300
    },
    {
      "epoch": 3.912388332795178,
      "grad_norm": 0.6583528518676758,
      "learning_rate": 0.0003657407606938907,
      "loss": 3.4499,
      "step": 36350
    },
    {
      "epoch": 3.9177698848347866,
      "grad_norm": 0.65012127161026,
      "learning_rate": 0.0003654175196638293,
      "loss": 3.4592,
      "step": 36400
    },
    {
      "epoch": 3.9231514368743947,
      "grad_norm": 0.662560760974884,
      "learning_rate": 0.00036509427863376786,
      "loss": 3.4634,
      "step": 36450
    },
    {
      "epoch": 3.928532988914003,
      "grad_norm": 0.7552933096885681,
      "learning_rate": 0.00036477103760370645,
      "loss": 3.4485,
      "step": 36500
    },
    {
      "epoch": 3.933914540953611,
      "grad_norm": 0.6519640684127808,
      "learning_rate": 0.00036444779657364505,
      "loss": 3.4582,
      "step": 36550
    },
    {
      "epoch": 3.939296092993219,
      "grad_norm": 0.634020984172821,
      "learning_rate": 0.00036413102036418485,
      "loss": 3.4408,
      "step": 36600
    },
    {
      "epoch": 3.9446776450328276,
      "grad_norm": 0.6736505627632141,
      "learning_rate": 0.0003638077793341234,
      "loss": 3.443,
      "step": 36650
    },
    {
      "epoch": 3.9500591970724357,
      "grad_norm": 0.6453408002853394,
      "learning_rate": 0.00036348453830406204,
      "loss": 3.4513,
      "step": 36700
    },
    {
      "epoch": 3.955440749112044,
      "grad_norm": 0.6342809796333313,
      "learning_rate": 0.00036316129727400064,
      "loss": 3.439,
      "step": 36750
    },
    {
      "epoch": 3.9608223011516523,
      "grad_norm": 0.6294889450073242,
      "learning_rate": 0.0003628380562439392,
      "loss": 3.4277,
      "step": 36800
    },
    {
      "epoch": 3.9662038531912605,
      "grad_norm": 0.6343921422958374,
      "learning_rate": 0.00036251481521387777,
      "loss": 3.4538,
      "step": 36850
    },
    {
      "epoch": 3.9715854052308686,
      "grad_norm": 0.6552177667617798,
      "learning_rate": 0.00036219157418381637,
      "loss": 3.4661,
      "step": 36900
    },
    {
      "epoch": 3.9769669572704767,
      "grad_norm": 0.6341710686683655,
      "learning_rate": 0.0003618683331537549,
      "loss": 3.474,
      "step": 36950
    },
    {
      "epoch": 3.9823485093100848,
      "grad_norm": 0.6117434501647949,
      "learning_rate": 0.00036154509212369356,
      "loss": 3.4638,
      "step": 37000
    },
    {
      "epoch": 3.9823485093100848,
      "eval_accuracy": 0.3758136064055658,
      "eval_loss": 3.4473280906677246,
      "eval_runtime": 186.8301,
      "eval_samples_per_second": 96.403,
      "eval_steps_per_second": 6.027,
      "step": 37000
    },
    {
      "epoch": 3.9877300613496933,
      "grad_norm": 0.6445289254188538,
      "learning_rate": 0.00036122185109363215,
      "loss": 3.4225,
      "step": 37050
    },
    {
      "epoch": 3.9931116133893014,
      "grad_norm": 0.6210512518882751,
      "learning_rate": 0.0003608986100635707,
      "loss": 3.4517,
      "step": 37100
    },
    {
      "epoch": 3.9984931654289095,
      "grad_norm": 0.6488214135169983,
      "learning_rate": 0.0003605753690335093,
      "loss": 3.4405,
      "step": 37150
    },
    {
      "epoch": 4.003874717468518,
      "grad_norm": 0.630391001701355,
      "learning_rate": 0.0003602521280034478,
      "loss": 3.3819,
      "step": 37200
    },
    {
      "epoch": 4.009256269508126,
      "grad_norm": 0.6158901453018188,
      "learning_rate": 0.0003599288869733865,
      "loss": 3.3622,
      "step": 37250
    },
    {
      "epoch": 4.014637821547734,
      "grad_norm": 0.6642113327980042,
      "learning_rate": 0.00035960564594332507,
      "loss": 3.3338,
      "step": 37300
    },
    {
      "epoch": 4.020019373587343,
      "grad_norm": 0.6687417030334473,
      "learning_rate": 0.0003592824049132636,
      "loss": 3.3545,
      "step": 37350
    },
    {
      "epoch": 4.0254009256269505,
      "grad_norm": 0.6600222587585449,
      "learning_rate": 0.0003589591638832022,
      "loss": 3.3569,
      "step": 37400
    },
    {
      "epoch": 4.030782477666559,
      "grad_norm": 0.6501900553703308,
      "learning_rate": 0.0003586359228531408,
      "loss": 3.3604,
      "step": 37450
    },
    {
      "epoch": 4.036164029706168,
      "grad_norm": 0.6774515509605408,
      "learning_rate": 0.00035831268182307934,
      "loss": 3.36,
      "step": 37500
    },
    {
      "epoch": 4.041545581745775,
      "grad_norm": 0.6653749346733093,
      "learning_rate": 0.000357989440793018,
      "loss": 3.3593,
      "step": 37550
    },
    {
      "epoch": 4.046927133785384,
      "grad_norm": 0.6843104958534241,
      "learning_rate": 0.0003576661997629566,
      "loss": 3.3479,
      "step": 37600
    },
    {
      "epoch": 4.0523086858249915,
      "grad_norm": 0.6234431266784668,
      "learning_rate": 0.0003573429587328951,
      "loss": 3.3493,
      "step": 37650
    },
    {
      "epoch": 4.0576902378646,
      "grad_norm": 0.6565008163452148,
      "learning_rate": 0.0003570197177028337,
      "loss": 3.3815,
      "step": 37700
    },
    {
      "epoch": 4.063071789904209,
      "grad_norm": 0.6603452563285828,
      "learning_rate": 0.00035669647667277226,
      "loss": 3.3677,
      "step": 37750
    },
    {
      "epoch": 4.068453341943816,
      "grad_norm": 0.6360833644866943,
      "learning_rate": 0.00035637323564271085,
      "loss": 3.3751,
      "step": 37800
    },
    {
      "epoch": 4.073834893983425,
      "grad_norm": 0.6789278984069824,
      "learning_rate": 0.0003560499946126495,
      "loss": 3.3757,
      "step": 37850
    },
    {
      "epoch": 4.079216446023033,
      "grad_norm": 0.7400603294372559,
      "learning_rate": 0.00035572675358258804,
      "loss": 3.3617,
      "step": 37900
    },
    {
      "epoch": 4.084597998062641,
      "grad_norm": 0.6844358444213867,
      "learning_rate": 0.00035540351255252664,
      "loss": 3.3818,
      "step": 37950
    },
    {
      "epoch": 4.08997955010225,
      "grad_norm": 0.6434498429298401,
      "learning_rate": 0.00035508027152246523,
      "loss": 3.3616,
      "step": 38000
    },
    {
      "epoch": 4.08997955010225,
      "eval_accuracy": 0.37603547560248296,
      "eval_loss": 3.450778007507324,
      "eval_runtime": 186.315,
      "eval_samples_per_second": 96.67,
      "eval_steps_per_second": 6.044,
      "step": 38000
    },
    {
      "epoch": 4.095361102141858,
      "grad_norm": 0.6461466550827026,
      "learning_rate": 0.0003547570304924038,
      "loss": 3.3871,
      "step": 38050
    },
    {
      "epoch": 4.100742654181466,
      "grad_norm": 0.6345263719558716,
      "learning_rate": 0.0003544337894623424,
      "loss": 3.3787,
      "step": 38100
    },
    {
      "epoch": 4.106124206221074,
      "grad_norm": 0.621010959148407,
      "learning_rate": 0.000354110548432281,
      "loss": 3.3686,
      "step": 38150
    },
    {
      "epoch": 4.111505758260682,
      "grad_norm": 0.6894128918647766,
      "learning_rate": 0.00035378730740221956,
      "loss": 3.3841,
      "step": 38200
    },
    {
      "epoch": 4.1168873103002905,
      "grad_norm": 0.6922706365585327,
      "learning_rate": 0.00035346406637215815,
      "loss": 3.3824,
      "step": 38250
    },
    {
      "epoch": 4.122268862339899,
      "grad_norm": 0.614369809627533,
      "learning_rate": 0.0003531408253420967,
      "loss": 3.3905,
      "step": 38300
    },
    {
      "epoch": 4.127650414379507,
      "grad_norm": 0.6323549747467041,
      "learning_rate": 0.0003528175843120353,
      "loss": 3.3751,
      "step": 38350
    },
    {
      "epoch": 4.133031966419115,
      "grad_norm": 0.6281514167785645,
      "learning_rate": 0.00035249434328197394,
      "loss": 3.3722,
      "step": 38400
    },
    {
      "epoch": 4.138413518458724,
      "grad_norm": 0.6534457206726074,
      "learning_rate": 0.0003521711022519125,
      "loss": 3.3673,
      "step": 38450
    },
    {
      "epoch": 4.1437950704983315,
      "grad_norm": 0.6479589939117432,
      "learning_rate": 0.00035184786122185107,
      "loss": 3.3694,
      "step": 38500
    },
    {
      "epoch": 4.14917662253794,
      "grad_norm": 0.6312807202339172,
      "learning_rate": 0.00035152462019178967,
      "loss": 3.3669,
      "step": 38550
    },
    {
      "epoch": 4.154558174577549,
      "grad_norm": 0.6817459464073181,
      "learning_rate": 0.0003512013791617282,
      "loss": 3.3887,
      "step": 38600
    },
    {
      "epoch": 4.159939726617156,
      "grad_norm": 0.6459596753120422,
      "learning_rate": 0.0003508781381316668,
      "loss": 3.3738,
      "step": 38650
    },
    {
      "epoch": 4.165321278656765,
      "grad_norm": 0.7009601593017578,
      "learning_rate": 0.00035055489710160545,
      "loss": 3.3742,
      "step": 38700
    },
    {
      "epoch": 4.1707028306963725,
      "grad_norm": 0.6730355024337769,
      "learning_rate": 0.000350231656071544,
      "loss": 3.3702,
      "step": 38750
    },
    {
      "epoch": 4.176084382735981,
      "grad_norm": 0.608090341091156,
      "learning_rate": 0.0003499084150414826,
      "loss": 3.3826,
      "step": 38800
    },
    {
      "epoch": 4.18146593477559,
      "grad_norm": 0.6544654965400696,
      "learning_rate": 0.0003495851740114211,
      "loss": 3.4066,
      "step": 38850
    },
    {
      "epoch": 4.186847486815197,
      "grad_norm": 0.6653110384941101,
      "learning_rate": 0.000349268397801961,
      "loss": 3.367,
      "step": 38900
    },
    {
      "epoch": 4.192229038854806,
      "grad_norm": 0.6925691366195679,
      "learning_rate": 0.0003489451567718995,
      "loss": 3.3762,
      "step": 38950
    },
    {
      "epoch": 4.197610590894414,
      "grad_norm": 0.6749728918075562,
      "learning_rate": 0.0003486219157418381,
      "loss": 3.3789,
      "step": 39000
    },
    {
      "epoch": 4.197610590894414,
      "eval_accuracy": 0.376814408155225,
      "eval_loss": 3.4448039531707764,
      "eval_runtime": 186.4754,
      "eval_samples_per_second": 96.586,
      "eval_steps_per_second": 6.038,
      "step": 39000
    },
    {
      "epoch": 4.202992142934022,
      "grad_norm": 0.6600778698921204,
      "learning_rate": 0.00034829867471177677,
      "loss": 3.3786,
      "step": 39050
    },
    {
      "epoch": 4.208373694973631,
      "grad_norm": 0.6338809132575989,
      "learning_rate": 0.0003479754336817153,
      "loss": 3.3847,
      "step": 39100
    },
    {
      "epoch": 4.213755247013238,
      "grad_norm": 0.6206026673316956,
      "learning_rate": 0.0003476521926516539,
      "loss": 3.3876,
      "step": 39150
    },
    {
      "epoch": 4.219136799052847,
      "grad_norm": 0.6678756475448608,
      "learning_rate": 0.00034732895162159245,
      "loss": 3.3952,
      "step": 39200
    },
    {
      "epoch": 4.224518351092455,
      "grad_norm": 0.6496124863624573,
      "learning_rate": 0.00034700571059153104,
      "loss": 3.387,
      "step": 39250
    },
    {
      "epoch": 4.229899903132063,
      "grad_norm": 0.6839476823806763,
      "learning_rate": 0.00034668246956146963,
      "loss": 3.3829,
      "step": 39300
    },
    {
      "epoch": 4.2352814551716715,
      "grad_norm": 0.6505101919174194,
      "learning_rate": 0.00034635922853140823,
      "loss": 3.4042,
      "step": 39350
    },
    {
      "epoch": 4.24066300721128,
      "grad_norm": 0.6386107206344604,
      "learning_rate": 0.0003460359875013468,
      "loss": 3.3964,
      "step": 39400
    },
    {
      "epoch": 4.246044559250888,
      "grad_norm": 0.7025241255760193,
      "learning_rate": 0.0003457127464712854,
      "loss": 3.4137,
      "step": 39450
    },
    {
      "epoch": 4.251426111290496,
      "grad_norm": 0.9339893460273743,
      "learning_rate": 0.00034538950544122396,
      "loss": 3.3916,
      "step": 39500
    },
    {
      "epoch": 4.256807663330104,
      "grad_norm": 0.6607798933982849,
      "learning_rate": 0.00034506626441116255,
      "loss": 3.3874,
      "step": 39550
    },
    {
      "epoch": 4.2621892153697125,
      "grad_norm": 0.6417515873908997,
      "learning_rate": 0.0003447430233811011,
      "loss": 3.3585,
      "step": 39600
    },
    {
      "epoch": 4.267570767409321,
      "grad_norm": 0.6726680397987366,
      "learning_rate": 0.00034441978235103974,
      "loss": 3.3867,
      "step": 39650
    },
    {
      "epoch": 4.272952319448929,
      "grad_norm": 0.6431094408035278,
      "learning_rate": 0.00034409654132097834,
      "loss": 3.3874,
      "step": 39700
    },
    {
      "epoch": 4.278333871488537,
      "grad_norm": 0.6273502707481384,
      "learning_rate": 0.0003437733002909169,
      "loss": 3.3832,
      "step": 39750
    },
    {
      "epoch": 4.283715423528146,
      "grad_norm": 0.6143364310264587,
      "learning_rate": 0.00034345005926085547,
      "loss": 3.3801,
      "step": 39800
    },
    {
      "epoch": 4.2890969755677535,
      "grad_norm": 0.6648159027099609,
      "learning_rate": 0.00034312681823079407,
      "loss": 3.3856,
      "step": 39850
    },
    {
      "epoch": 4.294478527607362,
      "grad_norm": 0.6824276447296143,
      "learning_rate": 0.00034280357720073266,
      "loss": 3.3801,
      "step": 39900
    },
    {
      "epoch": 4.299860079646971,
      "grad_norm": 0.7174171209335327,
      "learning_rate": 0.00034248033617067126,
      "loss": 3.3808,
      "step": 39950
    },
    {
      "epoch": 4.305241631686578,
      "grad_norm": 0.6773417592048645,
      "learning_rate": 0.00034215709514060985,
      "loss": 3.3757,
      "step": 40000
    },
    {
      "epoch": 4.305241631686578,
      "eval_accuracy": 0.3770355167819275,
      "eval_loss": 3.44270920753479,
      "eval_runtime": 186.3351,
      "eval_samples_per_second": 96.659,
      "eval_steps_per_second": 6.043,
      "step": 40000
    },
    {
      "epoch": 4.310623183726187,
      "grad_norm": 0.729767382144928,
      "learning_rate": 0.0003418338541105484,
      "loss": 3.3916,
      "step": 40050
    },
    {
      "epoch": 4.3160047357657945,
      "grad_norm": 0.6865151524543762,
      "learning_rate": 0.000341510613080487,
      "loss": 3.387,
      "step": 40100
    },
    {
      "epoch": 4.321386287805403,
      "grad_norm": 0.6654873490333557,
      "learning_rate": 0.0003411873720504255,
      "loss": 3.3755,
      "step": 40150
    },
    {
      "epoch": 4.326767839845012,
      "grad_norm": 0.6494779586791992,
      "learning_rate": 0.0003408641310203642,
      "loss": 3.3891,
      "step": 40200
    },
    {
      "epoch": 4.332149391884619,
      "grad_norm": 0.854249119758606,
      "learning_rate": 0.00034054088999030277,
      "loss": 3.3926,
      "step": 40250
    },
    {
      "epoch": 4.337530943924228,
      "grad_norm": 0.689903736114502,
      "learning_rate": 0.0003402176489602413,
      "loss": 3.3915,
      "step": 40300
    },
    {
      "epoch": 4.342912495963836,
      "grad_norm": 0.6455581784248352,
      "learning_rate": 0.0003398944079301799,
      "loss": 3.3651,
      "step": 40350
    },
    {
      "epoch": 4.348294048003444,
      "grad_norm": 0.6759762763977051,
      "learning_rate": 0.0003395711669001185,
      "loss": 3.3791,
      "step": 40400
    },
    {
      "epoch": 4.3536756000430525,
      "grad_norm": 0.6430059671401978,
      "learning_rate": 0.00033924792587005704,
      "loss": 3.4056,
      "step": 40450
    },
    {
      "epoch": 4.359057152082661,
      "grad_norm": 0.6292101144790649,
      "learning_rate": 0.0003389246848399957,
      "loss": 3.395,
      "step": 40500
    },
    {
      "epoch": 4.364438704122269,
      "grad_norm": 0.6766334772109985,
      "learning_rate": 0.0003386014438099343,
      "loss": 3.3845,
      "step": 40550
    },
    {
      "epoch": 4.369820256161877,
      "grad_norm": 0.6953844428062439,
      "learning_rate": 0.0003382782027798728,
      "loss": 3.3995,
      "step": 40600
    },
    {
      "epoch": 4.375201808201485,
      "grad_norm": 0.6573747992515564,
      "learning_rate": 0.0003379549617498114,
      "loss": 3.3687,
      "step": 40650
    },
    {
      "epoch": 4.3805833602410935,
      "grad_norm": 0.7018578052520752,
      "learning_rate": 0.00033763172071974996,
      "loss": 3.3973,
      "step": 40700
    },
    {
      "epoch": 4.385964912280702,
      "grad_norm": 0.6659747958183289,
      "learning_rate": 0.00033730847968968855,
      "loss": 3.3969,
      "step": 40750
    },
    {
      "epoch": 4.39134646432031,
      "grad_norm": 0.687483012676239,
      "learning_rate": 0.0003369852386596272,
      "loss": 3.3795,
      "step": 40800
    },
    {
      "epoch": 4.396728016359918,
      "grad_norm": 0.6774590611457825,
      "learning_rate": 0.00033666199762956574,
      "loss": 3.3891,
      "step": 40850
    },
    {
      "epoch": 4.402109568399527,
      "grad_norm": 0.677909255027771,
      "learning_rate": 0.00033633875659950434,
      "loss": 3.3854,
      "step": 40900
    },
    {
      "epoch": 4.4074911204391345,
      "grad_norm": 0.6672854423522949,
      "learning_rate": 0.0003360155155694429,
      "loss": 3.4014,
      "step": 40950
    },
    {
      "epoch": 4.412872672478743,
      "grad_norm": 0.6632626056671143,
      "learning_rate": 0.0003356922745393815,
      "loss": 3.4033,
      "step": 41000
    },
    {
      "epoch": 4.412872672478743,
      "eval_accuracy": 0.3779420078249637,
      "eval_loss": 3.4354772567749023,
      "eval_runtime": 185.8182,
      "eval_samples_per_second": 96.928,
      "eval_steps_per_second": 6.06,
      "step": 41000
    },
    {
      "epoch": 4.418254224518351,
      "grad_norm": 0.6532068252563477,
      "learning_rate": 0.0003353690335093201,
      "loss": 3.3951,
      "step": 41050
    },
    {
      "epoch": 4.423635776557959,
      "grad_norm": 0.6933743953704834,
      "learning_rate": 0.0003350457924792587,
      "loss": 3.3916,
      "step": 41100
    },
    {
      "epoch": 4.429017328597568,
      "grad_norm": 0.6697492003440857,
      "learning_rate": 0.00033472255144919726,
      "loss": 3.3986,
      "step": 41150
    },
    {
      "epoch": 4.4343988806371755,
      "grad_norm": 0.6627069115638733,
      "learning_rate": 0.00033439931041913585,
      "loss": 3.379,
      "step": 41200
    },
    {
      "epoch": 4.439780432676784,
      "grad_norm": 0.6720640063285828,
      "learning_rate": 0.0003340760693890744,
      "loss": 3.4046,
      "step": 41250
    },
    {
      "epoch": 4.445161984716393,
      "grad_norm": 0.6287036538124084,
      "learning_rate": 0.000333752828359013,
      "loss": 3.3963,
      "step": 41300
    },
    {
      "epoch": 4.450543536756,
      "grad_norm": 0.6808146238327026,
      "learning_rate": 0.00033342958732895164,
      "loss": 3.3874,
      "step": 41350
    },
    {
      "epoch": 4.455925088795609,
      "grad_norm": 0.6502740383148193,
      "learning_rate": 0.0003331063462988902,
      "loss": 3.3884,
      "step": 41400
    },
    {
      "epoch": 4.461306640835216,
      "grad_norm": 0.6316068768501282,
      "learning_rate": 0.00033278310526882877,
      "loss": 3.3985,
      "step": 41450
    },
    {
      "epoch": 4.466688192874825,
      "grad_norm": 0.661587655544281,
      "learning_rate": 0.0003324598642387673,
      "loss": 3.4049,
      "step": 41500
    },
    {
      "epoch": 4.4720697449144335,
      "grad_norm": 0.633905291557312,
      "learning_rate": 0.0003321366232087059,
      "loss": 3.3723,
      "step": 41550
    },
    {
      "epoch": 4.477451296954041,
      "grad_norm": 0.6882185339927673,
      "learning_rate": 0.0003318133821786445,
      "loss": 3.397,
      "step": 41600
    },
    {
      "epoch": 4.48283284899365,
      "grad_norm": 0.6965491771697998,
      "learning_rate": 0.0003314901411485831,
      "loss": 3.3747,
      "step": 41650
    },
    {
      "epoch": 4.488214401033258,
      "grad_norm": 0.6651413440704346,
      "learning_rate": 0.00033117336493912296,
      "loss": 3.384,
      "step": 41700
    },
    {
      "epoch": 4.493595953072866,
      "grad_norm": 0.6870867013931274,
      "learning_rate": 0.0003308501239090615,
      "loss": 3.3841,
      "step": 41750
    },
    {
      "epoch": 4.4989775051124745,
      "grad_norm": 0.6691446304321289,
      "learning_rate": 0.0003305268828790001,
      "loss": 3.3746,
      "step": 41800
    },
    {
      "epoch": 4.504359057152083,
      "grad_norm": 0.6410020589828491,
      "learning_rate": 0.0003302036418489387,
      "loss": 3.3856,
      "step": 41850
    },
    {
      "epoch": 4.509740609191691,
      "grad_norm": 0.6866613030433655,
      "learning_rate": 0.0003298804008188772,
      "loss": 3.3788,
      "step": 41900
    },
    {
      "epoch": 4.515122161231299,
      "grad_norm": 0.6316631436347961,
      "learning_rate": 0.0003295571597888158,
      "loss": 3.3765,
      "step": 41950
    },
    {
      "epoch": 4.520503713270907,
      "grad_norm": 0.6935179829597473,
      "learning_rate": 0.00032923391875875447,
      "loss": 3.3772,
      "step": 42000
    },
    {
      "epoch": 4.520503713270907,
      "eval_accuracy": 0.3784769059916744,
      "eval_loss": 3.430936574935913,
      "eval_runtime": 186.0286,
      "eval_samples_per_second": 96.818,
      "eval_steps_per_second": 6.053,
      "step": 42000
    },
    {
      "epoch": 4.5258852653105155,
      "grad_norm": 0.7171768546104431,
      "learning_rate": 0.000328910677728693,
      "loss": 3.3758,
      "step": 42050
    },
    {
      "epoch": 4.531266817350124,
      "grad_norm": 0.6771594882011414,
      "learning_rate": 0.0003285874366986316,
      "loss": 3.3781,
      "step": 42100
    },
    {
      "epoch": 4.536648369389732,
      "grad_norm": 0.6695517897605896,
      "learning_rate": 0.00032826419566857015,
      "loss": 3.3854,
      "step": 42150
    },
    {
      "epoch": 4.54202992142934,
      "grad_norm": 0.6465445756912231,
      "learning_rate": 0.00032794095463850874,
      "loss": 3.4041,
      "step": 42200
    },
    {
      "epoch": 4.547411473468949,
      "grad_norm": 0.6378715634346008,
      "learning_rate": 0.0003276177136084473,
      "loss": 3.3953,
      "step": 42250
    },
    {
      "epoch": 4.5527930255085565,
      "grad_norm": 0.6449596881866455,
      "learning_rate": 0.00032729447257838593,
      "loss": 3.3849,
      "step": 42300
    },
    {
      "epoch": 4.558174577548165,
      "grad_norm": 0.6755130887031555,
      "learning_rate": 0.0003269712315483245,
      "loss": 3.4145,
      "step": 42350
    },
    {
      "epoch": 4.563556129587774,
      "grad_norm": 0.6685793995857239,
      "learning_rate": 0.00032664799051826306,
      "loss": 3.3854,
      "step": 42400
    },
    {
      "epoch": 4.568937681627381,
      "grad_norm": 0.659498929977417,
      "learning_rate": 0.00032632474948820166,
      "loss": 3.4017,
      "step": 42450
    },
    {
      "epoch": 4.57431923366699,
      "grad_norm": 0.6694024801254272,
      "learning_rate": 0.00032600150845814025,
      "loss": 3.4001,
      "step": 42500
    },
    {
      "epoch": 4.579700785706597,
      "grad_norm": 0.7621648907661438,
      "learning_rate": 0.0003256782674280788,
      "loss": 3.4007,
      "step": 42550
    },
    {
      "epoch": 4.585082337746206,
      "grad_norm": 0.6736776828765869,
      "learning_rate": 0.00032535502639801744,
      "loss": 3.406,
      "step": 42600
    },
    {
      "epoch": 4.5904638897858145,
      "grad_norm": 0.6574546098709106,
      "learning_rate": 0.00032503178536795604,
      "loss": 3.3825,
      "step": 42650
    },
    {
      "epoch": 4.595845441825422,
      "grad_norm": 0.6570686101913452,
      "learning_rate": 0.0003247085443378946,
      "loss": 3.3823,
      "step": 42700
    },
    {
      "epoch": 4.601226993865031,
      "grad_norm": 0.6906929612159729,
      "learning_rate": 0.0003243853033078332,
      "loss": 3.3803,
      "step": 42750
    },
    {
      "epoch": 4.606608545904638,
      "grad_norm": 0.7032084465026855,
      "learning_rate": 0.0003240620622777717,
      "loss": 3.3891,
      "step": 42800
    },
    {
      "epoch": 4.611990097944247,
      "grad_norm": 0.7051771283149719,
      "learning_rate": 0.00032373882124771036,
      "loss": 3.3999,
      "step": 42850
    },
    {
      "epoch": 4.6173716499838555,
      "grad_norm": 0.6823124885559082,
      "learning_rate": 0.00032341558021764896,
      "loss": 3.3972,
      "step": 42900
    },
    {
      "epoch": 4.622753202023463,
      "grad_norm": 0.7068911790847778,
      "learning_rate": 0.0003230923391875875,
      "loss": 3.3786,
      "step": 42950
    },
    {
      "epoch": 4.628134754063072,
      "grad_norm": 0.6247695684432983,
      "learning_rate": 0.0003227690981575261,
      "loss": 3.3827,
      "step": 43000
    },
    {
      "epoch": 4.628134754063072,
      "eval_accuracy": 0.3787117048822415,
      "eval_loss": 3.426203727722168,
      "eval_runtime": 185.9864,
      "eval_samples_per_second": 96.84,
      "eval_steps_per_second": 6.054,
      "step": 43000
    },
    {
      "epoch": 4.63351630610268,
      "grad_norm": 0.681695282459259,
      "learning_rate": 0.0003224458571274647,
      "loss": 3.3958,
      "step": 43050
    },
    {
      "epoch": 4.638897858142288,
      "grad_norm": 0.6678944826126099,
      "learning_rate": 0.00032212261609740323,
      "loss": 3.3932,
      "step": 43100
    },
    {
      "epoch": 4.6442794101818965,
      "grad_norm": 0.6634028553962708,
      "learning_rate": 0.0003217993750673419,
      "loss": 3.3793,
      "step": 43150
    },
    {
      "epoch": 4.649660962221505,
      "grad_norm": 0.7179692983627319,
      "learning_rate": 0.00032147613403728047,
      "loss": 3.391,
      "step": 43200
    },
    {
      "epoch": 4.655042514261113,
      "grad_norm": 0.7129652500152588,
      "learning_rate": 0.000321152893007219,
      "loss": 3.3863,
      "step": 43250
    },
    {
      "epoch": 4.660424066300721,
      "grad_norm": 0.7137060165405273,
      "learning_rate": 0.0003208296519771576,
      "loss": 3.3834,
      "step": 43300
    },
    {
      "epoch": 4.665805618340329,
      "grad_norm": 0.7277936935424805,
      "learning_rate": 0.00032050641094709615,
      "loss": 3.4227,
      "step": 43350
    },
    {
      "epoch": 4.6711871703799375,
      "grad_norm": 0.6710952520370483,
      "learning_rate": 0.00032018316991703474,
      "loss": 3.4093,
      "step": 43400
    },
    {
      "epoch": 4.676568722419546,
      "grad_norm": 0.678511381149292,
      "learning_rate": 0.0003198599288869734,
      "loss": 3.3957,
      "step": 43450
    },
    {
      "epoch": 4.681950274459154,
      "grad_norm": 0.6746576428413391,
      "learning_rate": 0.00031953668785691193,
      "loss": 3.3828,
      "step": 43500
    },
    {
      "epoch": 4.687331826498762,
      "grad_norm": 0.6860442757606506,
      "learning_rate": 0.0003192134468268505,
      "loss": 3.3922,
      "step": 43550
    },
    {
      "epoch": 4.692713378538371,
      "grad_norm": 0.7000244855880737,
      "learning_rate": 0.0003188902057967891,
      "loss": 3.3982,
      "step": 43600
    },
    {
      "epoch": 4.6980949305779784,
      "grad_norm": 0.6968592405319214,
      "learning_rate": 0.00031856696476672766,
      "loss": 3.3865,
      "step": 43650
    },
    {
      "epoch": 4.703476482617587,
      "grad_norm": 0.6518855690956116,
      "learning_rate": 0.0003182437237366663,
      "loss": 3.3881,
      "step": 43700
    },
    {
      "epoch": 4.7088580346571955,
      "grad_norm": 0.6468008756637573,
      "learning_rate": 0.0003179204827066049,
      "loss": 3.4035,
      "step": 43750
    },
    {
      "epoch": 4.714239586696803,
      "grad_norm": 0.7067350745201111,
      "learning_rate": 0.00031759724167654344,
      "loss": 3.3812,
      "step": 43800
    },
    {
      "epoch": 4.719621138736412,
      "grad_norm": 0.6941613554954529,
      "learning_rate": 0.00031727400064648204,
      "loss": 3.3889,
      "step": 43850
    },
    {
      "epoch": 4.725002690776019,
      "grad_norm": 0.6766588687896729,
      "learning_rate": 0.0003169507596164206,
      "loss": 3.3795,
      "step": 43900
    },
    {
      "epoch": 4.730384242815628,
      "grad_norm": 0.663443922996521,
      "learning_rate": 0.0003166275185863592,
      "loss": 3.3864,
      "step": 43950
    },
    {
      "epoch": 4.7357657948552365,
      "grad_norm": 0.6712273955345154,
      "learning_rate": 0.0003163042775562978,
      "loss": 3.3864,
      "step": 44000
    },
    {
      "epoch": 4.7357657948552365,
      "eval_accuracy": 0.3793079919305673,
      "eval_loss": 3.419919967651367,
      "eval_runtime": 185.7896,
      "eval_samples_per_second": 96.943,
      "eval_steps_per_second": 6.061,
      "step": 44000
    },
    {
      "epoch": 4.741147346894844,
      "grad_norm": 0.6960767507553101,
      "learning_rate": 0.00031598103652623636,
      "loss": 3.3835,
      "step": 44050
    },
    {
      "epoch": 4.746528898934453,
      "grad_norm": 0.6845107078552246,
      "learning_rate": 0.00031565779549617496,
      "loss": 3.3891,
      "step": 44100
    },
    {
      "epoch": 4.751910450974061,
      "grad_norm": 0.7289431691169739,
      "learning_rate": 0.00031533455446611355,
      "loss": 3.3874,
      "step": 44150
    },
    {
      "epoch": 4.757292003013669,
      "grad_norm": 0.6631718873977661,
      "learning_rate": 0.0003150113134360521,
      "loss": 3.4135,
      "step": 44200
    },
    {
      "epoch": 4.7626735550532775,
      "grad_norm": 0.6792382001876831,
      "learning_rate": 0.0003146880724059907,
      "loss": 3.3838,
      "step": 44250
    },
    {
      "epoch": 4.768055107092886,
      "grad_norm": 0.6794194579124451,
      "learning_rate": 0.00031436483137592934,
      "loss": 3.3928,
      "step": 44300
    },
    {
      "epoch": 4.773436659132494,
      "grad_norm": 0.6833534836769104,
      "learning_rate": 0.0003140415903458679,
      "loss": 3.4053,
      "step": 44350
    },
    {
      "epoch": 4.778818211172102,
      "grad_norm": 0.7188143730163574,
      "learning_rate": 0.00031371834931580647,
      "loss": 3.3878,
      "step": 44400
    },
    {
      "epoch": 4.78419976321171,
      "grad_norm": 0.6718063354492188,
      "learning_rate": 0.000313395108285745,
      "loss": 3.3843,
      "step": 44450
    },
    {
      "epoch": 4.7895813152513185,
      "grad_norm": 0.6528546810150146,
      "learning_rate": 0.0003130718672556836,
      "loss": 3.3991,
      "step": 44500
    },
    {
      "epoch": 4.794962867290927,
      "grad_norm": 0.6541429758071899,
      "learning_rate": 0.0003127486262256222,
      "loss": 3.3828,
      "step": 44550
    },
    {
      "epoch": 4.800344419330535,
      "grad_norm": 0.7129782438278198,
      "learning_rate": 0.000312431850016162,
      "loss": 3.3909,
      "step": 44600
    },
    {
      "epoch": 4.805725971370143,
      "grad_norm": 0.7458574175834656,
      "learning_rate": 0.00031210860898610066,
      "loss": 3.3904,
      "step": 44650
    },
    {
      "epoch": 4.811107523409751,
      "grad_norm": 0.714601993560791,
      "learning_rate": 0.0003117853679560392,
      "loss": 3.3739,
      "step": 44700
    },
    {
      "epoch": 4.8164890754493594,
      "grad_norm": 0.6831689476966858,
      "learning_rate": 0.0003114621269259778,
      "loss": 3.396,
      "step": 44750
    },
    {
      "epoch": 4.821870627488968,
      "grad_norm": 0.6875334978103638,
      "learning_rate": 0.00031113888589591633,
      "loss": 3.3841,
      "step": 44800
    },
    {
      "epoch": 4.827252179528576,
      "grad_norm": 0.6944282054901123,
      "learning_rate": 0.00031081564486585493,
      "loss": 3.394,
      "step": 44850
    },
    {
      "epoch": 4.832633731568184,
      "grad_norm": 0.6484057903289795,
      "learning_rate": 0.0003104924038357935,
      "loss": 3.3992,
      "step": 44900
    },
    {
      "epoch": 4.838015283607793,
      "grad_norm": 0.8371158838272095,
      "learning_rate": 0.0003101691628057321,
      "loss": 3.3919,
      "step": 44950
    },
    {
      "epoch": 4.8433968356474,
      "grad_norm": 0.7606649994850159,
      "learning_rate": 0.0003098459217756707,
      "loss": 3.3916,
      "step": 45000
    },
    {
      "epoch": 4.8433968356474,
      "eval_accuracy": 0.379745102498245,
      "eval_loss": 3.4154202938079834,
      "eval_runtime": 186.2012,
      "eval_samples_per_second": 96.729,
      "eval_steps_per_second": 6.047,
      "step": 45000
    },
    {
      "epoch": 4.848778387687009,
      "grad_norm": 0.6625322103500366,
      "learning_rate": 0.0003095226807456093,
      "loss": 3.3898,
      "step": 45050
    },
    {
      "epoch": 4.8541599397266175,
      "grad_norm": 0.6767904162406921,
      "learning_rate": 0.00030919943971554785,
      "loss": 3.39,
      "step": 45100
    },
    {
      "epoch": 4.859541491766225,
      "grad_norm": 0.6816021203994751,
      "learning_rate": 0.00030887619868548644,
      "loss": 3.3846,
      "step": 45150
    },
    {
      "epoch": 4.864923043805834,
      "grad_norm": 0.7328237295150757,
      "learning_rate": 0.000308552957655425,
      "loss": 3.3887,
      "step": 45200
    },
    {
      "epoch": 4.870304595845441,
      "grad_norm": 0.7047776579856873,
      "learning_rate": 0.00030822971662536363,
      "loss": 3.3877,
      "step": 45250
    },
    {
      "epoch": 4.87568614788505,
      "grad_norm": 0.6811196804046631,
      "learning_rate": 0.0003079064755953022,
      "loss": 3.394,
      "step": 45300
    },
    {
      "epoch": 4.8810676999246585,
      "grad_norm": 0.685279905796051,
      "learning_rate": 0.00030758323456524077,
      "loss": 3.3961,
      "step": 45350
    },
    {
      "epoch": 4.886449251964266,
      "grad_norm": 0.7100189924240112,
      "learning_rate": 0.00030725999353517936,
      "loss": 3.3785,
      "step": 45400
    },
    {
      "epoch": 4.891830804003875,
      "grad_norm": 0.7342042326927185,
      "learning_rate": 0.00030693675250511795,
      "loss": 3.3926,
      "step": 45450
    },
    {
      "epoch": 4.897212356043483,
      "grad_norm": 0.6608164310455322,
      "learning_rate": 0.00030661351147505655,
      "loss": 3.3793,
      "step": 45500
    },
    {
      "epoch": 4.902593908083091,
      "grad_norm": 0.7387281656265259,
      "learning_rate": 0.00030629027044499514,
      "loss": 3.3888,
      "step": 45550
    },
    {
      "epoch": 4.9079754601226995,
      "grad_norm": 0.650010883808136,
      "learning_rate": 0.00030596702941493374,
      "loss": 3.3897,
      "step": 45600
    },
    {
      "epoch": 4.913357012162308,
      "grad_norm": 0.6548582315444946,
      "learning_rate": 0.0003056437883848723,
      "loss": 3.3799,
      "step": 45650
    },
    {
      "epoch": 4.918738564201916,
      "grad_norm": 0.6774137616157532,
      "learning_rate": 0.0003053205473548109,
      "loss": 3.3906,
      "step": 45700
    },
    {
      "epoch": 4.924120116241524,
      "grad_norm": 0.7716416120529175,
      "learning_rate": 0.0003049973063247494,
      "loss": 3.3971,
      "step": 45750
    },
    {
      "epoch": 4.929501668281132,
      "grad_norm": 0.6829785704612732,
      "learning_rate": 0.00030467406529468806,
      "loss": 3.3825,
      "step": 45800
    },
    {
      "epoch": 4.9348832203207404,
      "grad_norm": 0.6650914549827576,
      "learning_rate": 0.00030435082426462666,
      "loss": 3.3856,
      "step": 45850
    },
    {
      "epoch": 4.940264772360349,
      "grad_norm": 0.7243807315826416,
      "learning_rate": 0.0003040275832345652,
      "loss": 3.4037,
      "step": 45900
    },
    {
      "epoch": 4.945646324399957,
      "grad_norm": 0.7082146406173706,
      "learning_rate": 0.0003037043422045038,
      "loss": 3.3849,
      "step": 45950
    },
    {
      "epoch": 4.951027876439565,
      "grad_norm": 0.6807793974876404,
      "learning_rate": 0.0003033811011744424,
      "loss": 3.3717,
      "step": 46000
    },
    {
      "epoch": 4.951027876439565,
      "eval_accuracy": 0.38033519633196544,
      "eval_loss": 3.410299062728882,
      "eval_runtime": 185.7967,
      "eval_samples_per_second": 96.939,
      "eval_steps_per_second": 6.06,
      "step": 46000
    },
    {
      "epoch": 4.956409428479174,
      "grad_norm": 0.6880037188529968,
      "learning_rate": 0.00030305786014438093,
      "loss": 3.3974,
      "step": 46050
    },
    {
      "epoch": 4.961790980518781,
      "grad_norm": 0.6607673764228821,
      "learning_rate": 0.0003027346191143196,
      "loss": 3.4002,
      "step": 46100
    },
    {
      "epoch": 4.96717253255839,
      "grad_norm": 0.6571771502494812,
      "learning_rate": 0.00030241137808425817,
      "loss": 3.3849,
      "step": 46150
    },
    {
      "epoch": 4.9725540845979985,
      "grad_norm": 0.6976664662361145,
      "learning_rate": 0.0003020881370541967,
      "loss": 3.3921,
      "step": 46200
    },
    {
      "epoch": 4.977935636637606,
      "grad_norm": 0.688303530216217,
      "learning_rate": 0.0003017648960241353,
      "loss": 3.3847,
      "step": 46250
    },
    {
      "epoch": 4.983317188677215,
      "grad_norm": 0.6703367233276367,
      "learning_rate": 0.00030144165499407385,
      "loss": 3.3824,
      "step": 46300
    },
    {
      "epoch": 4.988698740716822,
      "grad_norm": 0.7092931270599365,
      "learning_rate": 0.00030111841396401244,
      "loss": 3.3904,
      "step": 46350
    },
    {
      "epoch": 4.994080292756431,
      "grad_norm": 0.7245837450027466,
      "learning_rate": 0.0003007951729339511,
      "loss": 3.3966,
      "step": 46400
    },
    {
      "epoch": 4.9994618447960395,
      "grad_norm": 0.6957030892372131,
      "learning_rate": 0.0003004783967244909,
      "loss": 3.3826,
      "step": 46450
    },
    {
      "epoch": 5.004843396835647,
      "grad_norm": 0.7185912728309631,
      "learning_rate": 0.0003001551556944295,
      "loss": 3.2863,
      "step": 46500
    },
    {
      "epoch": 5.010224948875256,
      "grad_norm": 0.7428061366081238,
      "learning_rate": 0.00029983191466436803,
      "loss": 3.281,
      "step": 46550
    },
    {
      "epoch": 5.015606500914864,
      "grad_norm": 0.6988247632980347,
      "learning_rate": 0.0002995086736343066,
      "loss": 3.2984,
      "step": 46600
    },
    {
      "epoch": 5.020988052954472,
      "grad_norm": 0.6850984692573547,
      "learning_rate": 0.00029918543260424517,
      "loss": 3.2914,
      "step": 46650
    },
    {
      "epoch": 5.0263696049940805,
      "grad_norm": 0.6464238166809082,
      "learning_rate": 0.0002988621915741838,
      "loss": 3.2853,
      "step": 46700
    },
    {
      "epoch": 5.031751157033688,
      "grad_norm": 0.6682659387588501,
      "learning_rate": 0.00029853895054412236,
      "loss": 3.3002,
      "step": 46750
    },
    {
      "epoch": 5.037132709073297,
      "grad_norm": 0.6808346509933472,
      "learning_rate": 0.00029821570951406095,
      "loss": 3.3097,
      "step": 46800
    },
    {
      "epoch": 5.042514261112905,
      "grad_norm": 0.7144348621368408,
      "learning_rate": 0.00029789246848399955,
      "loss": 3.3055,
      "step": 46850
    },
    {
      "epoch": 5.047895813152513,
      "grad_norm": 0.7004004120826721,
      "learning_rate": 0.00029756922745393814,
      "loss": 3.3114,
      "step": 46900
    },
    {
      "epoch": 5.0532773651921215,
      "grad_norm": 0.6929438710212708,
      "learning_rate": 0.00029724598642387674,
      "loss": 3.3223,
      "step": 46950
    },
    {
      "epoch": 5.05865891723173,
      "grad_norm": 0.7033374309539795,
      "learning_rate": 0.0002969227453938153,
      "loss": 3.3118,
      "step": 47000
    },
    {
      "epoch": 5.05865891723173,
      "eval_accuracy": 0.3805130611093177,
      "eval_loss": 3.4135265350341797,
      "eval_runtime": 185.9008,
      "eval_samples_per_second": 96.885,
      "eval_steps_per_second": 6.057,
      "step": 47000
    },
    {
      "epoch": 5.064040469271338,
      "grad_norm": 0.7128720283508301,
      "learning_rate": 0.00029659950436375387,
      "loss": 3.3128,
      "step": 47050
    },
    {
      "epoch": 5.069422021310946,
      "grad_norm": 0.7076777815818787,
      "learning_rate": 0.00029627626333369246,
      "loss": 3.3175,
      "step": 47100
    },
    {
      "epoch": 5.074803573350554,
      "grad_norm": 0.6830700039863586,
      "learning_rate": 0.00029595302230363106,
      "loss": 3.3018,
      "step": 47150
    },
    {
      "epoch": 5.080185125390162,
      "grad_norm": 0.7138757109642029,
      "learning_rate": 0.0002956297812735696,
      "loss": 3.2945,
      "step": 47200
    },
    {
      "epoch": 5.085566677429771,
      "grad_norm": 0.6950386762619019,
      "learning_rate": 0.00029530654024350825,
      "loss": 3.298,
      "step": 47250
    },
    {
      "epoch": 5.090948229469379,
      "grad_norm": 0.6444233655929565,
      "learning_rate": 0.0002949832992134468,
      "loss": 3.3245,
      "step": 47300
    },
    {
      "epoch": 5.096329781508987,
      "grad_norm": 0.6744521856307983,
      "learning_rate": 0.0002946600581833854,
      "loss": 3.3164,
      "step": 47350
    },
    {
      "epoch": 5.101711333548596,
      "grad_norm": 0.6781346797943115,
      "learning_rate": 0.000294336817153324,
      "loss": 3.2982,
      "step": 47400
    },
    {
      "epoch": 5.107092885588203,
      "grad_norm": 0.7800573110580444,
      "learning_rate": 0.0002940135761232626,
      "loss": 3.3169,
      "step": 47450
    },
    {
      "epoch": 5.112474437627812,
      "grad_norm": 0.6901960372924805,
      "learning_rate": 0.0002936903350932011,
      "loss": 3.3108,
      "step": 47500
    },
    {
      "epoch": 5.1178559896674205,
      "grad_norm": 0.6669954657554626,
      "learning_rate": 0.0002933670940631397,
      "loss": 3.3284,
      "step": 47550
    },
    {
      "epoch": 5.123237541707028,
      "grad_norm": 0.7526776194572449,
      "learning_rate": 0.0002930438530330783,
      "loss": 3.309,
      "step": 47600
    },
    {
      "epoch": 5.128619093746637,
      "grad_norm": 0.7480579614639282,
      "learning_rate": 0.0002927206120030169,
      "loss": 3.3173,
      "step": 47650
    },
    {
      "epoch": 5.134000645786244,
      "grad_norm": 0.6639481782913208,
      "learning_rate": 0.0002923973709729555,
      "loss": 3.3138,
      "step": 47700
    },
    {
      "epoch": 5.139382197825853,
      "grad_norm": 0.7500173449516296,
      "learning_rate": 0.00029207412994289403,
      "loss": 3.3291,
      "step": 47750
    },
    {
      "epoch": 5.1447637498654615,
      "grad_norm": 0.7297230362892151,
      "learning_rate": 0.0002917508889128327,
      "loss": 3.3009,
      "step": 47800
    },
    {
      "epoch": 5.150145301905069,
      "grad_norm": 0.6674038171768188,
      "learning_rate": 0.0002914276478827712,
      "loss": 3.318,
      "step": 47850
    },
    {
      "epoch": 5.155526853944678,
      "grad_norm": 0.7241697907447815,
      "learning_rate": 0.0002911044068527098,
      "loss": 3.3092,
      "step": 47900
    },
    {
      "epoch": 5.160908405984286,
      "grad_norm": 0.7037144899368286,
      "learning_rate": 0.0002907811658226484,
      "loss": 3.3283,
      "step": 47950
    },
    {
      "epoch": 5.166289958023894,
      "grad_norm": 0.747298002243042,
      "learning_rate": 0.000290457924792587,
      "loss": 3.318,
      "step": 48000
    },
    {
      "epoch": 5.166289958023894,
      "eval_accuracy": 0.38066191556562357,
      "eval_loss": 3.4126298427581787,
      "eval_runtime": 186.0833,
      "eval_samples_per_second": 96.79,
      "eval_steps_per_second": 6.051,
      "step": 48000
    },
    {
      "epoch": 5.1716715100635025,
      "grad_norm": 0.7169314026832581,
      "learning_rate": 0.00029013468376252555,
      "loss": 3.3089,
      "step": 48050
    },
    {
      "epoch": 5.17705306210311,
      "grad_norm": 0.723010778427124,
      "learning_rate": 0.00028981144273246414,
      "loss": 3.3185,
      "step": 48100
    },
    {
      "epoch": 5.182434614142719,
      "grad_norm": 0.7526074051856995,
      "learning_rate": 0.00028948820170240274,
      "loss": 3.3249,
      "step": 48150
    },
    {
      "epoch": 5.187816166182327,
      "grad_norm": 0.7589367032051086,
      "learning_rate": 0.00028916496067234133,
      "loss": 3.3229,
      "step": 48200
    },
    {
      "epoch": 5.193197718221935,
      "grad_norm": 0.7890580296516418,
      "learning_rate": 0.0002888417196422799,
      "loss": 3.3166,
      "step": 48250
    },
    {
      "epoch": 5.198579270261543,
      "grad_norm": 0.6829771995544434,
      "learning_rate": 0.00028851847861221847,
      "loss": 3.3143,
      "step": 48300
    },
    {
      "epoch": 5.203960822301152,
      "grad_norm": 0.6947812438011169,
      "learning_rate": 0.00028819523758215706,
      "loss": 3.3117,
      "step": 48350
    },
    {
      "epoch": 5.20934237434076,
      "grad_norm": 0.7680625915527344,
      "learning_rate": 0.00028787199655209566,
      "loss": 3.3082,
      "step": 48400
    },
    {
      "epoch": 5.214723926380368,
      "grad_norm": 0.7059990167617798,
      "learning_rate": 0.00028754875552203425,
      "loss": 3.3255,
      "step": 48450
    },
    {
      "epoch": 5.220105478419977,
      "grad_norm": 0.7081542611122131,
      "learning_rate": 0.0002872255144919728,
      "loss": 3.3093,
      "step": 48500
    },
    {
      "epoch": 5.225487030459584,
      "grad_norm": 0.6799014210700989,
      "learning_rate": 0.00028690227346191144,
      "loss": 3.3139,
      "step": 48550
    },
    {
      "epoch": 5.230868582499193,
      "grad_norm": 0.7931498885154724,
      "learning_rate": 0.00028657903243185,
      "loss": 3.3215,
      "step": 48600
    },
    {
      "epoch": 5.236250134538801,
      "grad_norm": 0.6923502087593079,
      "learning_rate": 0.0002862557914017886,
      "loss": 3.3176,
      "step": 48650
    },
    {
      "epoch": 5.241631686578409,
      "grad_norm": 0.7714366316795349,
      "learning_rate": 0.00028593255037172717,
      "loss": 3.3137,
      "step": 48700
    },
    {
      "epoch": 5.247013238618018,
      "grad_norm": 0.7156805992126465,
      "learning_rate": 0.00028560930934166576,
      "loss": 3.3056,
      "step": 48750
    },
    {
      "epoch": 5.252394790657625,
      "grad_norm": 0.6941304206848145,
      "learning_rate": 0.00028528606831160436,
      "loss": 3.3428,
      "step": 48800
    },
    {
      "epoch": 5.257776342697234,
      "grad_norm": 0.7562033534049988,
      "learning_rate": 0.0002849628272815429,
      "loss": 3.3345,
      "step": 48850
    },
    {
      "epoch": 5.2631578947368425,
      "grad_norm": 0.7203832268714905,
      "learning_rate": 0.0002846395862514815,
      "loss": 3.3325,
      "step": 48900
    },
    {
      "epoch": 5.26853944677645,
      "grad_norm": 0.7755153179168701,
      "learning_rate": 0.0002843163452214201,
      "loss": 3.3173,
      "step": 48950
    },
    {
      "epoch": 5.273920998816059,
      "grad_norm": 0.7058408260345459,
      "learning_rate": 0.0002839931041913587,
      "loss": 3.3167,
      "step": 49000
    },
    {
      "epoch": 5.273920998816059,
      "eval_accuracy": 0.38138456592247766,
      "eval_loss": 3.406998872756958,
      "eval_runtime": 186.128,
      "eval_samples_per_second": 96.767,
      "eval_steps_per_second": 6.05,
      "step": 49000
    },
    {
      "epoch": 5.279302550855666,
      "grad_norm": 0.7053946852684021,
      "learning_rate": 0.0002836698631612972,
      "loss": 3.3322,
      "step": 49050
    },
    {
      "epoch": 5.284684102895275,
      "grad_norm": 0.6914159655570984,
      "learning_rate": 0.00028334662213123587,
      "loss": 3.3354,
      "step": 49100
    },
    {
      "epoch": 5.2900656549348835,
      "grad_norm": 0.6976709365844727,
      "learning_rate": 0.0002830233811011744,
      "loss": 3.3239,
      "step": 49150
    },
    {
      "epoch": 5.295447206974491,
      "grad_norm": 0.7204294800758362,
      "learning_rate": 0.000282700140071113,
      "loss": 3.3287,
      "step": 49200
    },
    {
      "epoch": 5.3008287590141,
      "grad_norm": 0.6466968059539795,
      "learning_rate": 0.0002823768990410516,
      "loss": 3.3071,
      "step": 49250
    },
    {
      "epoch": 5.306210311053708,
      "grad_norm": 0.7334592938423157,
      "learning_rate": 0.00028205365801099014,
      "loss": 3.3163,
      "step": 49300
    },
    {
      "epoch": 5.311591863093316,
      "grad_norm": 0.6461747288703918,
      "learning_rate": 0.00028173041698092874,
      "loss": 3.317,
      "step": 49350
    },
    {
      "epoch": 5.316973415132924,
      "grad_norm": 0.7713409066200256,
      "learning_rate": 0.00028140717595086733,
      "loss": 3.33,
      "step": 49400
    },
    {
      "epoch": 5.322354967172533,
      "grad_norm": 0.7540132403373718,
      "learning_rate": 0.0002810839349208059,
      "loss": 3.3243,
      "step": 49450
    },
    {
      "epoch": 5.327736519212141,
      "grad_norm": 0.7219112515449524,
      "learning_rate": 0.00028076069389074447,
      "loss": 3.3364,
      "step": 49500
    },
    {
      "epoch": 5.333118071251749,
      "grad_norm": 0.6831966638565063,
      "learning_rate": 0.0002804374528606831,
      "loss": 3.3223,
      "step": 49550
    },
    {
      "epoch": 5.338499623291357,
      "grad_norm": 0.7301695346832275,
      "learning_rate": 0.00028011421183062166,
      "loss": 3.3138,
      "step": 49600
    },
    {
      "epoch": 5.343881175330965,
      "grad_norm": 0.7364274859428406,
      "learning_rate": 0.00027979097080056025,
      "loss": 3.3275,
      "step": 49650
    },
    {
      "epoch": 5.349262727370574,
      "grad_norm": 0.7001032829284668,
      "learning_rate": 0.00027946772977049885,
      "loss": 3.3099,
      "step": 49700
    },
    {
      "epoch": 5.354644279410182,
      "grad_norm": 0.7011597156524658,
      "learning_rate": 0.00027914448874043744,
      "loss": 3.3246,
      "step": 49750
    },
    {
      "epoch": 5.36002583144979,
      "grad_norm": 0.703600287437439,
      "learning_rate": 0.00027882124771037603,
      "loss": 3.3414,
      "step": 49800
    },
    {
      "epoch": 5.365407383489399,
      "grad_norm": 0.7011683583259583,
      "learning_rate": 0.0002784980066803146,
      "loss": 3.3301,
      "step": 49850
    },
    {
      "epoch": 5.370788935529006,
      "grad_norm": 0.7394967079162598,
      "learning_rate": 0.00027817476565025317,
      "loss": 3.3264,
      "step": 49900
    },
    {
      "epoch": 5.376170487568615,
      "grad_norm": 0.8523972034454346,
      "learning_rate": 0.00027785152462019176,
      "loss": 3.3259,
      "step": 49950
    },
    {
      "epoch": 5.3815520396082235,
      "grad_norm": 0.6920881867408752,
      "learning_rate": 0.00027752828359013036,
      "loss": 3.3214,
      "step": 50000
    },
    {
      "epoch": 5.3815520396082235,
      "eval_accuracy": 0.3817769115003758,
      "eval_loss": 3.4051520824432373,
      "eval_runtime": 185.8702,
      "eval_samples_per_second": 96.901,
      "eval_steps_per_second": 6.058,
      "step": 50000
    },
    {
      "epoch": 5.386933591647831,
      "grad_norm": 0.7415561079978943,
      "learning_rate": 0.0002772050425600689,
      "loss": 3.3355,
      "step": 50050
    },
    {
      "epoch": 5.39231514368744,
      "grad_norm": 0.7018328309059143,
      "learning_rate": 0.00027688180153000755,
      "loss": 3.3367,
      "step": 50100
    },
    {
      "epoch": 5.397696695727047,
      "grad_norm": 0.727419912815094,
      "learning_rate": 0.0002765585604999461,
      "loss": 3.333,
      "step": 50150
    },
    {
      "epoch": 5.403078247766656,
      "grad_norm": 0.6795157790184021,
      "learning_rate": 0.0002762353194698847,
      "loss": 3.3259,
      "step": 50200
    },
    {
      "epoch": 5.4084597998062645,
      "grad_norm": 0.7451214790344238,
      "learning_rate": 0.0002759120784398233,
      "loss": 3.3273,
      "step": 50250
    },
    {
      "epoch": 5.413841351845872,
      "grad_norm": 0.815764844417572,
      "learning_rate": 0.00027558883740976187,
      "loss": 3.34,
      "step": 50300
    },
    {
      "epoch": 5.419222903885481,
      "grad_norm": 0.7538633346557617,
      "learning_rate": 0.0002752655963797004,
      "loss": 3.3342,
      "step": 50350
    },
    {
      "epoch": 5.424604455925088,
      "grad_norm": 0.7048525214195251,
      "learning_rate": 0.000274942355349639,
      "loss": 3.3411,
      "step": 50400
    },
    {
      "epoch": 5.429986007964697,
      "grad_norm": 0.7630008459091187,
      "learning_rate": 0.0002746191143195776,
      "loss": 3.3385,
      "step": 50450
    },
    {
      "epoch": 5.435367560004305,
      "grad_norm": 0.7271116375923157,
      "learning_rate": 0.0002742958732895162,
      "loss": 3.334,
      "step": 50500
    },
    {
      "epoch": 5.440749112043913,
      "grad_norm": 0.739545464515686,
      "learning_rate": 0.0002739726322594548,
      "loss": 3.3413,
      "step": 50550
    },
    {
      "epoch": 5.446130664083522,
      "grad_norm": 0.6890714168548584,
      "learning_rate": 0.00027364939122939333,
      "loss": 3.34,
      "step": 50600
    },
    {
      "epoch": 5.45151221612313,
      "grad_norm": 0.6927636861801147,
      "learning_rate": 0.0002733261501993319,
      "loss": 3.3276,
      "step": 50650
    },
    {
      "epoch": 5.456893768162738,
      "grad_norm": 0.7777726650238037,
      "learning_rate": 0.0002730029091692705,
      "loss": 3.332,
      "step": 50700
    },
    {
      "epoch": 5.462275320202346,
      "grad_norm": 0.6733801364898682,
      "learning_rate": 0.0002726796681392091,
      "loss": 3.3227,
      "step": 50750
    },
    {
      "epoch": 5.467656872241955,
      "grad_norm": 0.6853974461555481,
      "learning_rate": 0.0002723564271091477,
      "loss": 3.3339,
      "step": 50800
    },
    {
      "epoch": 5.473038424281563,
      "grad_norm": 0.7579978108406067,
      "learning_rate": 0.0002720331860790863,
      "loss": 3.3423,
      "step": 50850
    },
    {
      "epoch": 5.478419976321171,
      "grad_norm": 0.7127270698547363,
      "learning_rate": 0.00027170994504902485,
      "loss": 3.3332,
      "step": 50900
    },
    {
      "epoch": 5.483801528360779,
      "grad_norm": 0.7335411906242371,
      "learning_rate": 0.00027138670401896344,
      "loss": 3.348,
      "step": 50950
    },
    {
      "epoch": 5.489183080400387,
      "grad_norm": 0.7050025463104248,
      "learning_rate": 0.00027106346298890204,
      "loss": 3.3266,
      "step": 51000
    },
    {
      "epoch": 5.489183080400387,
      "eval_accuracy": 0.38224053337268016,
      "eval_loss": 3.39815092086792,
      "eval_runtime": 185.9824,
      "eval_samples_per_second": 96.842,
      "eval_steps_per_second": 6.054,
      "step": 51000
    },
    {
      "epoch": 5.494564632439996,
      "grad_norm": 0.765646755695343,
      "learning_rate": 0.00027074022195884063,
      "loss": 3.3368,
      "step": 51050
    },
    {
      "epoch": 5.499946184479604,
      "grad_norm": 0.7315904498100281,
      "learning_rate": 0.0002704169809287792,
      "loss": 3.3282,
      "step": 51100
    },
    {
      "epoch": 5.505327736519212,
      "grad_norm": 0.7155156135559082,
      "learning_rate": 0.00027009373989871776,
      "loss": 3.3273,
      "step": 51150
    },
    {
      "epoch": 5.510709288558821,
      "grad_norm": 0.6726956963539124,
      "learning_rate": 0.00026977049886865636,
      "loss": 3.3379,
      "step": 51200
    },
    {
      "epoch": 5.516090840598428,
      "grad_norm": 0.7206140756607056,
      "learning_rate": 0.00026944725783859495,
      "loss": 3.3401,
      "step": 51250
    },
    {
      "epoch": 5.521472392638037,
      "grad_norm": 0.7355148196220398,
      "learning_rate": 0.00026912401680853355,
      "loss": 3.3705,
      "step": 51300
    },
    {
      "epoch": 5.5268539446776455,
      "grad_norm": 0.704271674156189,
      "learning_rate": 0.0002688007757784721,
      "loss": 3.3326,
      "step": 51350
    },
    {
      "epoch": 5.532235496717253,
      "grad_norm": 0.7040908932685852,
      "learning_rate": 0.00026847753474841074,
      "loss": 3.3461,
      "step": 51400
    },
    {
      "epoch": 5.537617048756862,
      "grad_norm": 0.7405110001564026,
      "learning_rate": 0.0002681542937183493,
      "loss": 3.3343,
      "step": 51450
    },
    {
      "epoch": 5.542998600796469,
      "grad_norm": 0.7408245205879211,
      "learning_rate": 0.0002678375175088891,
      "loss": 3.3419,
      "step": 51500
    },
    {
      "epoch": 5.548380152836078,
      "grad_norm": 0.7091902494430542,
      "learning_rate": 0.0002675142764788277,
      "loss": 3.3471,
      "step": 51550
    },
    {
      "epoch": 5.553761704875686,
      "grad_norm": 0.7414386868476868,
      "learning_rate": 0.0002671910354487663,
      "loss": 3.3281,
      "step": 51600
    },
    {
      "epoch": 5.559143256915294,
      "grad_norm": 0.7416591644287109,
      "learning_rate": 0.00026686779441870487,
      "loss": 3.342,
      "step": 51650
    },
    {
      "epoch": 5.564524808954903,
      "grad_norm": 0.7440087199211121,
      "learning_rate": 0.0002665445533886434,
      "loss": 3.3535,
      "step": 51700
    },
    {
      "epoch": 5.569906360994511,
      "grad_norm": 0.7454618215560913,
      "learning_rate": 0.00026622131235858206,
      "loss": 3.3563,
      "step": 51750
    },
    {
      "epoch": 5.575287913034119,
      "grad_norm": 0.7132062911987305,
      "learning_rate": 0.0002658980713285206,
      "loss": 3.3269,
      "step": 51800
    },
    {
      "epoch": 5.580669465073727,
      "grad_norm": 0.7147350311279297,
      "learning_rate": 0.0002655748302984592,
      "loss": 3.3517,
      "step": 51850
    },
    {
      "epoch": 5.586051017113336,
      "grad_norm": 0.6910155415534973,
      "learning_rate": 0.0002652515892683978,
      "loss": 3.3421,
      "step": 51900
    },
    {
      "epoch": 5.591432569152944,
      "grad_norm": 0.7771379351615906,
      "learning_rate": 0.0002649283482383364,
      "loss": 3.3232,
      "step": 51950
    },
    {
      "epoch": 5.596814121192552,
      "grad_norm": 0.7016465067863464,
      "learning_rate": 0.0002646051072082749,
      "loss": 3.3127,
      "step": 52000
    },
    {
      "epoch": 5.596814121192552,
      "eval_accuracy": 0.38255225850781993,
      "eval_loss": 3.3954555988311768,
      "eval_runtime": 186.0823,
      "eval_samples_per_second": 96.791,
      "eval_steps_per_second": 6.051,
      "step": 52000
    },
    {
      "epoch": 5.60219567323216,
      "grad_norm": 0.7794779539108276,
      "learning_rate": 0.0002642818661782135,
      "loss": 3.3497,
      "step": 52050
    },
    {
      "epoch": 5.607577225271768,
      "grad_norm": 0.6575685739517212,
      "learning_rate": 0.0002639586251481521,
      "loss": 3.3295,
      "step": 52100
    },
    {
      "epoch": 5.612958777311377,
      "grad_norm": 0.7353088855743408,
      "learning_rate": 0.0002636353841180907,
      "loss": 3.3353,
      "step": 52150
    },
    {
      "epoch": 5.618340329350985,
      "grad_norm": 0.7692891359329224,
      "learning_rate": 0.0002633121430880293,
      "loss": 3.3505,
      "step": 52200
    },
    {
      "epoch": 5.623721881390593,
      "grad_norm": 0.73773592710495,
      "learning_rate": 0.00026298890205796784,
      "loss": 3.3277,
      "step": 52250
    },
    {
      "epoch": 5.629103433430201,
      "grad_norm": 0.7360017895698547,
      "learning_rate": 0.00026266566102790644,
      "loss": 3.3461,
      "step": 52300
    },
    {
      "epoch": 5.634484985469809,
      "grad_norm": 0.7524150013923645,
      "learning_rate": 0.00026234241999784503,
      "loss": 3.3414,
      "step": 52350
    },
    {
      "epoch": 5.639866537509418,
      "grad_norm": 0.670662522315979,
      "learning_rate": 0.0002620191789677836,
      "loss": 3.3265,
      "step": 52400
    },
    {
      "epoch": 5.645248089549026,
      "grad_norm": 0.8263862729072571,
      "learning_rate": 0.00026169593793772217,
      "loss": 3.3583,
      "step": 52450
    },
    {
      "epoch": 5.650629641588634,
      "grad_norm": 0.7535239458084106,
      "learning_rate": 0.0002613726969076608,
      "loss": 3.3411,
      "step": 52500
    },
    {
      "epoch": 5.656011193628243,
      "grad_norm": 0.6862154006958008,
      "learning_rate": 0.00026104945587759936,
      "loss": 3.3396,
      "step": 52550
    },
    {
      "epoch": 5.66139274566785,
      "grad_norm": 0.7138608694076538,
      "learning_rate": 0.00026072621484753795,
      "loss": 3.3187,
      "step": 52600
    },
    {
      "epoch": 5.666774297707459,
      "grad_norm": 0.7428044080734253,
      "learning_rate": 0.00026040297381747655,
      "loss": 3.3498,
      "step": 52650
    },
    {
      "epoch": 5.672155849747067,
      "grad_norm": 0.7263309359550476,
      "learning_rate": 0.00026007973278741514,
      "loss": 3.3186,
      "step": 52700
    },
    {
      "epoch": 5.677537401786675,
      "grad_norm": 0.7143645286560059,
      "learning_rate": 0.00025975649175735373,
      "loss": 3.3349,
      "step": 52750
    },
    {
      "epoch": 5.682918953826284,
      "grad_norm": 0.7395750284194946,
      "learning_rate": 0.0002594332507272923,
      "loss": 3.3359,
      "step": 52800
    },
    {
      "epoch": 5.688300505865891,
      "grad_norm": 0.7145962119102478,
      "learning_rate": 0.00025911000969723087,
      "loss": 3.3322,
      "step": 52850
    },
    {
      "epoch": 5.6936820579055,
      "grad_norm": 0.7655925154685974,
      "learning_rate": 0.00025878676866716946,
      "loss": 3.3242,
      "step": 52900
    },
    {
      "epoch": 5.699063609945108,
      "grad_norm": 0.6807169318199158,
      "learning_rate": 0.00025846352763710806,
      "loss": 3.3268,
      "step": 52950
    },
    {
      "epoch": 5.704445161984716,
      "grad_norm": 0.7791529297828674,
      "learning_rate": 0.0002581402866070466,
      "loss": 3.3446,
      "step": 53000
    },
    {
      "epoch": 5.704445161984716,
      "eval_accuracy": 0.3831916807526081,
      "eval_loss": 3.3913474082946777,
      "eval_runtime": 186.2754,
      "eval_samples_per_second": 96.69,
      "eval_steps_per_second": 6.045,
      "step": 53000
    },
    {
      "epoch": 5.709826714024325,
      "grad_norm": 0.7629414200782776,
      "learning_rate": 0.00025781704557698525,
      "loss": 3.3281,
      "step": 53050
    },
    {
      "epoch": 5.715208266063933,
      "grad_norm": 0.7252536416053772,
      "learning_rate": 0.0002574938045469238,
      "loss": 3.3346,
      "step": 53100
    },
    {
      "epoch": 5.720589818103541,
      "grad_norm": 0.726125955581665,
      "learning_rate": 0.0002571705635168624,
      "loss": 3.342,
      "step": 53150
    },
    {
      "epoch": 5.725971370143149,
      "grad_norm": 0.8501999378204346,
      "learning_rate": 0.000256847322486801,
      "loss": 3.3521,
      "step": 53200
    },
    {
      "epoch": 5.731352922182758,
      "grad_norm": 0.7186644077301025,
      "learning_rate": 0.0002565240814567396,
      "loss": 3.3351,
      "step": 53250
    },
    {
      "epoch": 5.736734474222366,
      "grad_norm": 0.7467918395996094,
      "learning_rate": 0.0002562008404266781,
      "loss": 3.3294,
      "step": 53300
    },
    {
      "epoch": 5.742116026261974,
      "grad_norm": 0.7142306566238403,
      "learning_rate": 0.0002558840642172179,
      "loss": 3.334,
      "step": 53350
    },
    {
      "epoch": 5.747497578301582,
      "grad_norm": 0.7577842473983765,
      "learning_rate": 0.00025556082318715657,
      "loss": 3.3349,
      "step": 53400
    },
    {
      "epoch": 5.75287913034119,
      "grad_norm": 0.74140864610672,
      "learning_rate": 0.0002552375821570951,
      "loss": 3.3529,
      "step": 53450
    },
    {
      "epoch": 5.758260682380799,
      "grad_norm": 0.7057064175605774,
      "learning_rate": 0.0002549143411270337,
      "loss": 3.3426,
      "step": 53500
    },
    {
      "epoch": 5.763642234420407,
      "grad_norm": 0.7842608094215393,
      "learning_rate": 0.0002545911000969723,
      "loss": 3.3348,
      "step": 53550
    },
    {
      "epoch": 5.769023786460015,
      "grad_norm": 0.723751962184906,
      "learning_rate": 0.0002542678590669109,
      "loss": 3.3355,
      "step": 53600
    },
    {
      "epoch": 5.774405338499624,
      "grad_norm": 0.7001689076423645,
      "learning_rate": 0.00025394461803684943,
      "loss": 3.3504,
      "step": 53650
    },
    {
      "epoch": 5.779786890539231,
      "grad_norm": 0.7324063181877136,
      "learning_rate": 0.00025362137700678803,
      "loss": 3.3515,
      "step": 53700
    },
    {
      "epoch": 5.78516844257884,
      "grad_norm": 0.7250854969024658,
      "learning_rate": 0.0002532981359767266,
      "loss": 3.3398,
      "step": 53750
    },
    {
      "epoch": 5.790549994618448,
      "grad_norm": 0.7611867189407349,
      "learning_rate": 0.0002529748949466652,
      "loss": 3.332,
      "step": 53800
    },
    {
      "epoch": 5.795931546658056,
      "grad_norm": 0.7056079506874084,
      "learning_rate": 0.0002526516539166038,
      "loss": 3.3203,
      "step": 53850
    },
    {
      "epoch": 5.801313098697665,
      "grad_norm": 0.7216264009475708,
      "learning_rate": 0.00025232841288654235,
      "loss": 3.3529,
      "step": 53900
    },
    {
      "epoch": 5.806694650737272,
      "grad_norm": 0.7588261961936951,
      "learning_rate": 0.00025200517185648095,
      "loss": 3.3386,
      "step": 53950
    },
    {
      "epoch": 5.812076202776881,
      "grad_norm": 0.6917773485183716,
      "learning_rate": 0.00025168193082641954,
      "loss": 3.3412,
      "step": 54000
    },
    {
      "epoch": 5.812076202776881,
      "eval_accuracy": 0.38330707011946713,
      "eval_loss": 3.38643741607666,
      "eval_runtime": 185.7343,
      "eval_samples_per_second": 96.972,
      "eval_steps_per_second": 6.062,
      "step": 54000
    },
    {
      "epoch": 5.817457754816489,
      "grad_norm": 0.7184063792228699,
      "learning_rate": 0.00025135868979635814,
      "loss": 3.3212,
      "step": 54050
    },
    {
      "epoch": 5.822839306856097,
      "grad_norm": 0.735218346118927,
      "learning_rate": 0.0002510354487662967,
      "loss": 3.3388,
      "step": 54100
    },
    {
      "epoch": 5.828220858895706,
      "grad_norm": 0.7540553212165833,
      "learning_rate": 0.0002507122077362353,
      "loss": 3.3315,
      "step": 54150
    },
    {
      "epoch": 5.833602410935313,
      "grad_norm": 0.7272942662239075,
      "learning_rate": 0.00025038896670617387,
      "loss": 3.3312,
      "step": 54200
    },
    {
      "epoch": 5.838983962974922,
      "grad_norm": 0.7848062515258789,
      "learning_rate": 0.00025006572567611246,
      "loss": 3.3523,
      "step": 54250
    },
    {
      "epoch": 5.84436551501453,
      "grad_norm": 0.8279348611831665,
      "learning_rate": 0.00024974248464605106,
      "loss": 3.3296,
      "step": 54300
    },
    {
      "epoch": 5.849747067054138,
      "grad_norm": 0.7395737171173096,
      "learning_rate": 0.00024941924361598965,
      "loss": 3.3206,
      "step": 54350
    },
    {
      "epoch": 5.855128619093747,
      "grad_norm": 0.7307841181755066,
      "learning_rate": 0.00024909600258592825,
      "loss": 3.3284,
      "step": 54400
    },
    {
      "epoch": 5.860510171133355,
      "grad_norm": 0.7244582772254944,
      "learning_rate": 0.0002487727615558668,
      "loss": 3.3397,
      "step": 54450
    },
    {
      "epoch": 5.865891723172963,
      "grad_norm": 0.7974827885627747,
      "learning_rate": 0.0002484495205258054,
      "loss": 3.3357,
      "step": 54500
    },
    {
      "epoch": 5.871273275212571,
      "grad_norm": 0.7523612380027771,
      "learning_rate": 0.000248126279495744,
      "loss": 3.331,
      "step": 54550
    },
    {
      "epoch": 5.87665482725218,
      "grad_norm": 0.7817680239677429,
      "learning_rate": 0.00024780303846568257,
      "loss": 3.3406,
      "step": 54600
    },
    {
      "epoch": 5.882036379291788,
      "grad_norm": 0.7661505937576294,
      "learning_rate": 0.0002474797974356211,
      "loss": 3.3393,
      "step": 54650
    },
    {
      "epoch": 5.887417931331396,
      "grad_norm": 0.7174515128135681,
      "learning_rate": 0.00024715655640555976,
      "loss": 3.3514,
      "step": 54700
    },
    {
      "epoch": 5.892799483371004,
      "grad_norm": 0.7383910417556763,
      "learning_rate": 0.0002468333153754983,
      "loss": 3.3373,
      "step": 54750
    },
    {
      "epoch": 5.898181035410612,
      "grad_norm": 0.7203456163406372,
      "learning_rate": 0.0002465100743454369,
      "loss": 3.3408,
      "step": 54800
    },
    {
      "epoch": 5.903562587450221,
      "grad_norm": 0.71259605884552,
      "learning_rate": 0.0002461868333153755,
      "loss": 3.3146,
      "step": 54850
    },
    {
      "epoch": 5.9089441394898286,
      "grad_norm": 0.7735758423805237,
      "learning_rate": 0.0002458635922853141,
      "loss": 3.3256,
      "step": 54900
    },
    {
      "epoch": 5.914325691529437,
      "grad_norm": 0.7196170091629028,
      "learning_rate": 0.0002455403512552526,
      "loss": 3.3323,
      "step": 54950
    },
    {
      "epoch": 5.919707243569046,
      "grad_norm": 0.7518886923789978,
      "learning_rate": 0.0002452171102251912,
      "loss": 3.3439,
      "step": 55000
    },
    {
      "epoch": 5.919707243569046,
      "eval_accuracy": 0.383642155625487,
      "eval_loss": 3.3844759464263916,
      "eval_runtime": 186.0616,
      "eval_samples_per_second": 96.801,
      "eval_steps_per_second": 6.052,
      "step": 55000
    },
    {
      "epoch": 5.925088795608653,
      "grad_norm": 0.7207342386245728,
      "learning_rate": 0.0002448938691951298,
      "loss": 3.3256,
      "step": 55050
    },
    {
      "epoch": 5.930470347648262,
      "grad_norm": 0.7243936061859131,
      "learning_rate": 0.0002445706281650684,
      "loss": 3.3215,
      "step": 55100
    },
    {
      "epoch": 5.93585189968787,
      "grad_norm": 0.7205479145050049,
      "learning_rate": 0.000244247387135007,
      "loss": 3.3258,
      "step": 55150
    },
    {
      "epoch": 5.941233451727478,
      "grad_norm": 0.7148772478103638,
      "learning_rate": 0.00024392414610494557,
      "loss": 3.3429,
      "step": 55200
    },
    {
      "epoch": 5.946615003767087,
      "grad_norm": 0.803866446018219,
      "learning_rate": 0.00024360090507488414,
      "loss": 3.35,
      "step": 55250
    },
    {
      "epoch": 5.951996555806694,
      "grad_norm": 0.7124099731445312,
      "learning_rate": 0.00024327766404482273,
      "loss": 3.331,
      "step": 55300
    },
    {
      "epoch": 5.957378107846303,
      "grad_norm": 0.7346844673156738,
      "learning_rate": 0.0002429544230147613,
      "loss": 3.3395,
      "step": 55350
    },
    {
      "epoch": 5.962759659885911,
      "grad_norm": 0.7051327228546143,
      "learning_rate": 0.00024263118198469992,
      "loss": 3.3158,
      "step": 55400
    },
    {
      "epoch": 5.968141211925519,
      "grad_norm": 0.7495695352554321,
      "learning_rate": 0.0002423079409546385,
      "loss": 3.3429,
      "step": 55450
    },
    {
      "epoch": 5.973522763965128,
      "grad_norm": 0.6964957118034363,
      "learning_rate": 0.00024198469992457706,
      "loss": 3.3319,
      "step": 55500
    },
    {
      "epoch": 5.978904316004736,
      "grad_norm": 0.773995578289032,
      "learning_rate": 0.00024166145889451568,
      "loss": 3.3361,
      "step": 55550
    },
    {
      "epoch": 5.984285868044344,
      "grad_norm": 0.7618991136550903,
      "learning_rate": 0.00024133821786445425,
      "loss": 3.3468,
      "step": 55600
    },
    {
      "epoch": 5.989667420083952,
      "grad_norm": 0.701641857624054,
      "learning_rate": 0.0002410149768343928,
      "loss": 3.3543,
      "step": 55650
    },
    {
      "epoch": 5.995048972123561,
      "grad_norm": 0.7373971939086914,
      "learning_rate": 0.0002406917358043314,
      "loss": 3.3335,
      "step": 55700
    },
    {
      "epoch": 6.000430524163169,
      "grad_norm": 0.7244313955307007,
      "learning_rate": 0.00024036849477427,
      "loss": 3.3141,
      "step": 55750
    },
    {
      "epoch": 6.005812076202777,
      "grad_norm": 0.7414998412132263,
      "learning_rate": 0.00024004525374420857,
      "loss": 3.2261,
      "step": 55800
    },
    {
      "epoch": 6.011193628242385,
      "grad_norm": 0.7783286571502686,
      "learning_rate": 0.00023972201271414716,
      "loss": 3.2505,
      "step": 55850
    },
    {
      "epoch": 6.016575180281993,
      "grad_norm": 0.7062258124351501,
      "learning_rate": 0.00023939877168408573,
      "loss": 3.2582,
      "step": 55900
    },
    {
      "epoch": 6.021956732321602,
      "grad_norm": 0.7263227105140686,
      "learning_rate": 0.00023907553065402433,
      "loss": 3.2695,
      "step": 55950
    },
    {
      "epoch": 6.0273382843612096,
      "grad_norm": 0.7393035888671875,
      "learning_rate": 0.00023875228962396292,
      "loss": 3.24,
      "step": 56000
    },
    {
      "epoch": 6.0273382843612096,
      "eval_accuracy": 0.38434481385098324,
      "eval_loss": 3.382793426513672,
      "eval_runtime": 186.0747,
      "eval_samples_per_second": 96.794,
      "eval_steps_per_second": 6.051,
      "step": 56000
    },
    {
      "epoch": 6.032719836400818,
      "grad_norm": 0.7148864269256592,
      "learning_rate": 0.0002384290485939015,
      "loss": 3.2452,
      "step": 56050
    },
    {
      "epoch": 6.038101388440427,
      "grad_norm": 0.7147738933563232,
      "learning_rate": 0.00023810580756384006,
      "loss": 3.2451,
      "step": 56100
    },
    {
      "epoch": 6.043482940480034,
      "grad_norm": 0.7189397811889648,
      "learning_rate": 0.00023778256653377868,
      "loss": 3.2504,
      "step": 56150
    },
    {
      "epoch": 6.048864492519643,
      "grad_norm": 0.756645143032074,
      "learning_rate": 0.00023745932550371725,
      "loss": 3.2658,
      "step": 56200
    },
    {
      "epoch": 6.0542460445592505,
      "grad_norm": 0.716437816619873,
      "learning_rate": 0.00023713608447365584,
      "loss": 3.2627,
      "step": 56250
    },
    {
      "epoch": 6.059627596598859,
      "grad_norm": 0.7391940355300903,
      "learning_rate": 0.00023681284344359444,
      "loss": 3.2497,
      "step": 56300
    },
    {
      "epoch": 6.065009148638468,
      "grad_norm": 0.760778546333313,
      "learning_rate": 0.000236489602413533,
      "loss": 3.2547,
      "step": 56350
    },
    {
      "epoch": 6.070390700678075,
      "grad_norm": 0.7207716703414917,
      "learning_rate": 0.0002361663613834716,
      "loss": 3.2622,
      "step": 56400
    },
    {
      "epoch": 6.075772252717684,
      "grad_norm": 0.9937666654586792,
      "learning_rate": 0.00023584312035341017,
      "loss": 3.2491,
      "step": 56450
    },
    {
      "epoch": 6.081153804757292,
      "grad_norm": 0.7690804600715637,
      "learning_rate": 0.00023551987932334876,
      "loss": 3.2451,
      "step": 56500
    },
    {
      "epoch": 6.0865353567969,
      "grad_norm": 0.7834149599075317,
      "learning_rate": 0.00023519663829328735,
      "loss": 3.2567,
      "step": 56550
    },
    {
      "epoch": 6.091916908836509,
      "grad_norm": 0.7361589074134827,
      "learning_rate": 0.00023487339726322592,
      "loss": 3.2744,
      "step": 56600
    },
    {
      "epoch": 6.097298460876116,
      "grad_norm": 0.7071225047111511,
      "learning_rate": 0.0002345501562331645,
      "loss": 3.2571,
      "step": 56650
    },
    {
      "epoch": 6.102680012915725,
      "grad_norm": 0.7409148216247559,
      "learning_rate": 0.0002342269152031031,
      "loss": 3.2492,
      "step": 56700
    },
    {
      "epoch": 6.108061564955333,
      "grad_norm": 0.7843758463859558,
      "learning_rate": 0.00023390367417304168,
      "loss": 3.2862,
      "step": 56750
    },
    {
      "epoch": 6.113443116994941,
      "grad_norm": 0.7368992567062378,
      "learning_rate": 0.00023358043314298025,
      "loss": 3.2569,
      "step": 56800
    },
    {
      "epoch": 6.11882466903455,
      "grad_norm": 0.7566174268722534,
      "learning_rate": 0.00023325719211291887,
      "loss": 3.2599,
      "step": 56850
    },
    {
      "epoch": 6.124206221074158,
      "grad_norm": 0.8109773397445679,
      "learning_rate": 0.00023293395108285744,
      "loss": 3.2722,
      "step": 56900
    },
    {
      "epoch": 6.129587773113766,
      "grad_norm": 0.6847506165504456,
      "learning_rate": 0.000232610710052796,
      "loss": 3.2491,
      "step": 56950
    },
    {
      "epoch": 6.134969325153374,
      "grad_norm": 0.7593252658843994,
      "learning_rate": 0.0002322874690227346,
      "loss": 3.2615,
      "step": 57000
    },
    {
      "epoch": 6.134969325153374,
      "eval_accuracy": 0.3839148743739013,
      "eval_loss": 3.3849949836730957,
      "eval_runtime": 185.5133,
      "eval_samples_per_second": 97.087,
      "eval_steps_per_second": 6.07,
      "step": 57000
    },
    {
      "epoch": 6.140350877192983,
      "grad_norm": 0.7233133316040039,
      "learning_rate": 0.0002319642279926732,
      "loss": 3.2646,
      "step": 57050
    },
    {
      "epoch": 6.1457324292325906,
      "grad_norm": 0.7701897621154785,
      "learning_rate": 0.00023164098696261176,
      "loss": 3.2584,
      "step": 57100
    },
    {
      "epoch": 6.151113981272199,
      "grad_norm": 0.8327365517616272,
      "learning_rate": 0.00023131774593255036,
      "loss": 3.2561,
      "step": 57150
    },
    {
      "epoch": 6.156495533311807,
      "grad_norm": 0.8402817249298096,
      "learning_rate": 0.00023099450490248892,
      "loss": 3.2613,
      "step": 57200
    },
    {
      "epoch": 6.161877085351415,
      "grad_norm": 0.7383522391319275,
      "learning_rate": 0.00023067126387242754,
      "loss": 3.2527,
      "step": 57250
    },
    {
      "epoch": 6.167258637391024,
      "grad_norm": 0.7899060249328613,
      "learning_rate": 0.0002303480228423661,
      "loss": 3.2871,
      "step": 57300
    },
    {
      "epoch": 6.1726401894306315,
      "grad_norm": 0.7966022491455078,
      "learning_rate": 0.00023002478181230468,
      "loss": 3.2693,
      "step": 57350
    },
    {
      "epoch": 6.17802174147024,
      "grad_norm": 0.7627144455909729,
      "learning_rate": 0.00022970154078224327,
      "loss": 3.2706,
      "step": 57400
    },
    {
      "epoch": 6.183403293509849,
      "grad_norm": 0.749315619468689,
      "learning_rate": 0.00022937829975218187,
      "loss": 3.2496,
      "step": 57450
    },
    {
      "epoch": 6.188784845549456,
      "grad_norm": 0.7575365900993347,
      "learning_rate": 0.00022905505872212044,
      "loss": 3.2826,
      "step": 57500
    },
    {
      "epoch": 6.194166397589065,
      "grad_norm": 0.7412084341049194,
      "learning_rate": 0.00022873181769205903,
      "loss": 3.2706,
      "step": 57550
    },
    {
      "epoch": 6.1995479496286725,
      "grad_norm": 0.8110467791557312,
      "learning_rate": 0.0002284085766619976,
      "loss": 3.2715,
      "step": 57600
    },
    {
      "epoch": 6.204929501668281,
      "grad_norm": 0.7833303213119507,
      "learning_rate": 0.0002280853356319362,
      "loss": 3.2703,
      "step": 57650
    },
    {
      "epoch": 6.21031105370789,
      "grad_norm": 0.744676947593689,
      "learning_rate": 0.0002277620946018748,
      "loss": 3.2737,
      "step": 57700
    },
    {
      "epoch": 6.215692605747497,
      "grad_norm": 0.789665699005127,
      "learning_rate": 0.00022743885357181336,
      "loss": 3.2882,
      "step": 57750
    },
    {
      "epoch": 6.221074157787106,
      "grad_norm": 0.7167789340019226,
      "learning_rate": 0.00022711561254175192,
      "loss": 3.2893,
      "step": 57800
    },
    {
      "epoch": 6.226455709826714,
      "grad_norm": 0.7531522512435913,
      "learning_rate": 0.00022679237151169054,
      "loss": 3.2801,
      "step": 57850
    },
    {
      "epoch": 6.231837261866322,
      "grad_norm": 0.7423361539840698,
      "learning_rate": 0.0002264691304816291,
      "loss": 3.261,
      "step": 57900
    },
    {
      "epoch": 6.237218813905931,
      "grad_norm": 0.7315860390663147,
      "learning_rate": 0.00022614588945156768,
      "loss": 3.2691,
      "step": 57950
    },
    {
      "epoch": 6.242600365945538,
      "grad_norm": 0.7076570987701416,
      "learning_rate": 0.0002258226484215063,
      "loss": 3.2729,
      "step": 58000
    },
    {
      "epoch": 6.242600365945538,
      "eval_accuracy": 0.3841812912548224,
      "eval_loss": 3.3824076652526855,
      "eval_runtime": 186.0344,
      "eval_samples_per_second": 96.815,
      "eval_steps_per_second": 6.053,
      "step": 58000
    },
    {
      "epoch": 6.247981917985147,
      "grad_norm": 0.7189513444900513,
      "learning_rate": 0.00022549940739144487,
      "loss": 3.2746,
      "step": 58050
    },
    {
      "epoch": 6.253363470024755,
      "grad_norm": 0.7522362470626831,
      "learning_rate": 0.00022517616636138344,
      "loss": 3.2669,
      "step": 58100
    },
    {
      "epoch": 6.258745022064363,
      "grad_norm": 0.7666462659835815,
      "learning_rate": 0.00022485292533132203,
      "loss": 3.259,
      "step": 58150
    },
    {
      "epoch": 6.264126574103972,
      "grad_norm": 0.743357241153717,
      "learning_rate": 0.00022452968430126063,
      "loss": 3.2731,
      "step": 58200
    },
    {
      "epoch": 6.26950812614358,
      "grad_norm": 0.7225744724273682,
      "learning_rate": 0.00022420644327119922,
      "loss": 3.2704,
      "step": 58250
    },
    {
      "epoch": 6.274889678183188,
      "grad_norm": 0.7827991247177124,
      "learning_rate": 0.0002238832022411378,
      "loss": 3.2589,
      "step": 58300
    },
    {
      "epoch": 6.280271230222796,
      "grad_norm": 0.8173971772193909,
      "learning_rate": 0.00022355996121107636,
      "loss": 3.2667,
      "step": 58350
    },
    {
      "epoch": 6.285652782262405,
      "grad_norm": 0.7395566701889038,
      "learning_rate": 0.00022323672018101498,
      "loss": 3.2796,
      "step": 58400
    },
    {
      "epoch": 6.2910343343020125,
      "grad_norm": 0.7858362793922424,
      "learning_rate": 0.00022291347915095355,
      "loss": 3.2808,
      "step": 58450
    },
    {
      "epoch": 6.296415886341621,
      "grad_norm": 0.748605489730835,
      "learning_rate": 0.0002225902381208921,
      "loss": 3.2666,
      "step": 58500
    },
    {
      "epoch": 6.301797438381229,
      "grad_norm": 0.8193697929382324,
      "learning_rate": 0.00022227346191143195,
      "loss": 3.27,
      "step": 58550
    },
    {
      "epoch": 6.307178990420837,
      "grad_norm": 0.7613152861595154,
      "learning_rate": 0.00022195022088137051,
      "loss": 3.2788,
      "step": 58600
    },
    {
      "epoch": 6.312560542460446,
      "grad_norm": 0.765666127204895,
      "learning_rate": 0.0002216269798513091,
      "loss": 3.2795,
      "step": 58650
    },
    {
      "epoch": 6.3179420945000535,
      "grad_norm": 0.7828535437583923,
      "learning_rate": 0.00022130373882124768,
      "loss": 3.2793,
      "step": 58700
    },
    {
      "epoch": 6.323323646539662,
      "grad_norm": 0.7615199089050293,
      "learning_rate": 0.00022098049779118627,
      "loss": 3.2689,
      "step": 58750
    },
    {
      "epoch": 6.328705198579271,
      "grad_norm": 0.7219644784927368,
      "learning_rate": 0.00022065725676112487,
      "loss": 3.2856,
      "step": 58800
    },
    {
      "epoch": 6.334086750618878,
      "grad_norm": 0.7461903691291809,
      "learning_rate": 0.00022033401573106343,
      "loss": 3.2715,
      "step": 58850
    },
    {
      "epoch": 6.339468302658487,
      "grad_norm": 0.7611693143844604,
      "learning_rate": 0.000220010774701002,
      "loss": 3.2974,
      "step": 58900
    },
    {
      "epoch": 6.344849854698095,
      "grad_norm": 0.7217890024185181,
      "learning_rate": 0.00021968753367094062,
      "loss": 3.2746,
      "step": 58950
    },
    {
      "epoch": 6.350231406737703,
      "grad_norm": 0.7600134015083313,
      "learning_rate": 0.0002193642926408792,
      "loss": 3.2691,
      "step": 59000
    },
    {
      "epoch": 6.350231406737703,
      "eval_accuracy": 0.385019656937199,
      "eval_loss": 3.377617359161377,
      "eval_runtime": 186.1287,
      "eval_samples_per_second": 96.766,
      "eval_steps_per_second": 6.05,
      "step": 59000
    },
    {
      "epoch": 6.355612958777312,
      "grad_norm": 0.7192728519439697,
      "learning_rate": 0.00021904105161081778,
      "loss": 3.281,
      "step": 59050
    },
    {
      "epoch": 6.360994510816919,
      "grad_norm": 0.7224696278572083,
      "learning_rate": 0.00021871781058075638,
      "loss": 3.2907,
      "step": 59100
    },
    {
      "epoch": 6.366376062856528,
      "grad_norm": 0.7775112986564636,
      "learning_rate": 0.00021839456955069495,
      "loss": 3.2824,
      "step": 59150
    },
    {
      "epoch": 6.371757614896136,
      "grad_norm": 0.7863423824310303,
      "learning_rate": 0.00021807132852063354,
      "loss": 3.273,
      "step": 59200
    },
    {
      "epoch": 6.377139166935744,
      "grad_norm": 0.7473684549331665,
      "learning_rate": 0.0002177480874905721,
      "loss": 3.2908,
      "step": 59250
    },
    {
      "epoch": 6.382520718975353,
      "grad_norm": 0.7461057901382446,
      "learning_rate": 0.0002174248464605107,
      "loss": 3.2956,
      "step": 59300
    },
    {
      "epoch": 6.387902271014961,
      "grad_norm": 0.740737795829773,
      "learning_rate": 0.0002171016054304493,
      "loss": 3.2904,
      "step": 59350
    },
    {
      "epoch": 6.393283823054569,
      "grad_norm": 0.7633770704269409,
      "learning_rate": 0.00021677836440038787,
      "loss": 3.2721,
      "step": 59400
    },
    {
      "epoch": 6.398665375094177,
      "grad_norm": 0.7574154138565063,
      "learning_rate": 0.00021645512337032643,
      "loss": 3.2916,
      "step": 59450
    },
    {
      "epoch": 6.404046927133785,
      "grad_norm": 0.750368595123291,
      "learning_rate": 0.00021613188234026506,
      "loss": 3.2843,
      "step": 59500
    },
    {
      "epoch": 6.4094284791733935,
      "grad_norm": 0.7522820234298706,
      "learning_rate": 0.00021580864131020362,
      "loss": 3.2911,
      "step": 59550
    },
    {
      "epoch": 6.414810031213002,
      "grad_norm": 0.7254132628440857,
      "learning_rate": 0.0002154854002801422,
      "loss": 3.2737,
      "step": 59600
    },
    {
      "epoch": 6.42019158325261,
      "grad_norm": 0.8221923112869263,
      "learning_rate": 0.0002151621592500808,
      "loss": 3.2908,
      "step": 59650
    },
    {
      "epoch": 6.425573135292218,
      "grad_norm": 0.744565486907959,
      "learning_rate": 0.00021483891822001938,
      "loss": 3.2859,
      "step": 59700
    },
    {
      "epoch": 6.430954687331827,
      "grad_norm": 0.7809631824493408,
      "learning_rate": 0.00021451567718995795,
      "loss": 3.2747,
      "step": 59750
    },
    {
      "epoch": 6.4363362393714345,
      "grad_norm": 0.8083624243736267,
      "learning_rate": 0.00021419243615989654,
      "loss": 3.2954,
      "step": 59800
    },
    {
      "epoch": 6.441717791411043,
      "grad_norm": 0.7392995953559875,
      "learning_rate": 0.00021386919512983514,
      "loss": 3.2777,
      "step": 59850
    },
    {
      "epoch": 6.447099343450651,
      "grad_norm": 0.8068037629127502,
      "learning_rate": 0.0002135459540997737,
      "loss": 3.2872,
      "step": 59900
    },
    {
      "epoch": 6.452480895490259,
      "grad_norm": 0.7631739974021912,
      "learning_rate": 0.0002132227130697123,
      "loss": 3.2935,
      "step": 59950
    },
    {
      "epoch": 6.457862447529868,
      "grad_norm": 0.8208822011947632,
      "learning_rate": 0.00021289947203965087,
      "loss": 3.2818,
      "step": 60000
    },
    {
      "epoch": 6.457862447529868,
      "eval_accuracy": 0.3853342070474219,
      "eval_loss": 3.373751640319824,
      "eval_runtime": 186.3301,
      "eval_samples_per_second": 96.662,
      "eval_steps_per_second": 6.043,
      "step": 60000
    },
    {
      "epoch": 6.4632439995694755,
      "grad_norm": 0.7535163760185242,
      "learning_rate": 0.0002125762310095895,
      "loss": 3.2748,
      "step": 60050
    },
    {
      "epoch": 6.468625551609084,
      "grad_norm": 0.732137143611908,
      "learning_rate": 0.00021225298997952806,
      "loss": 3.2779,
      "step": 60100
    },
    {
      "epoch": 6.474007103648693,
      "grad_norm": 0.7532039880752563,
      "learning_rate": 0.00021192974894946662,
      "loss": 3.2899,
      "step": 60150
    },
    {
      "epoch": 6.4793886556883,
      "grad_norm": 0.8573554754257202,
      "learning_rate": 0.00021160650791940524,
      "loss": 3.2837,
      "step": 60200
    },
    {
      "epoch": 6.484770207727909,
      "grad_norm": 0.7388646602630615,
      "learning_rate": 0.0002112832668893438,
      "loss": 3.2858,
      "step": 60250
    },
    {
      "epoch": 6.490151759767517,
      "grad_norm": 0.7812697887420654,
      "learning_rate": 0.00021096002585928238,
      "loss": 3.3057,
      "step": 60300
    },
    {
      "epoch": 6.495533311807125,
      "grad_norm": 0.7718459963798523,
      "learning_rate": 0.00021063678482922097,
      "loss": 3.288,
      "step": 60350
    },
    {
      "epoch": 6.500914863846734,
      "grad_norm": 0.7685028314590454,
      "learning_rate": 0.00021031354379915957,
      "loss": 3.2776,
      "step": 60400
    },
    {
      "epoch": 6.506296415886341,
      "grad_norm": 0.7977385520935059,
      "learning_rate": 0.00020999030276909814,
      "loss": 3.2798,
      "step": 60450
    },
    {
      "epoch": 6.51167796792595,
      "grad_norm": 0.7163553237915039,
      "learning_rate": 0.00020966706173903673,
      "loss": 3.2905,
      "step": 60500
    },
    {
      "epoch": 6.517059519965558,
      "grad_norm": 0.7763250470161438,
      "learning_rate": 0.0002093438207089753,
      "loss": 3.2635,
      "step": 60550
    },
    {
      "epoch": 6.522441072005166,
      "grad_norm": 0.7493375539779663,
      "learning_rate": 0.00020902057967891387,
      "loss": 3.2746,
      "step": 60600
    },
    {
      "epoch": 6.5278226240447745,
      "grad_norm": 0.7928661704063416,
      "learning_rate": 0.0002086973386488525,
      "loss": 3.2664,
      "step": 60650
    },
    {
      "epoch": 6.533204176084383,
      "grad_norm": 0.7806787490844727,
      "learning_rate": 0.00020837409761879106,
      "loss": 3.281,
      "step": 60700
    },
    {
      "epoch": 6.538585728123991,
      "grad_norm": 0.7485970258712769,
      "learning_rate": 0.00020805085658872962,
      "loss": 3.2837,
      "step": 60750
    },
    {
      "epoch": 6.543967280163599,
      "grad_norm": 0.7711775302886963,
      "learning_rate": 0.00020772761555866825,
      "loss": 3.3015,
      "step": 60800
    },
    {
      "epoch": 6.549348832203208,
      "grad_norm": 0.7940032482147217,
      "learning_rate": 0.0002074043745286068,
      "loss": 3.2818,
      "step": 60850
    },
    {
      "epoch": 6.5547303842428155,
      "grad_norm": 0.7879515886306763,
      "learning_rate": 0.00020708759831914662,
      "loss": 3.271,
      "step": 60900
    },
    {
      "epoch": 6.560111936282424,
      "grad_norm": 0.8598077297210693,
      "learning_rate": 0.00020676435728908521,
      "loss": 3.2778,
      "step": 60950
    },
    {
      "epoch": 6.565493488322032,
      "grad_norm": 0.7513749599456787,
      "learning_rate": 0.0002064411162590238,
      "loss": 3.2735,
      "step": 61000
    },
    {
      "epoch": 6.565493488322032,
      "eval_accuracy": 0.3858241229185774,
      "eval_loss": 3.3688957691192627,
      "eval_runtime": 185.8644,
      "eval_samples_per_second": 96.904,
      "eval_steps_per_second": 6.058,
      "step": 61000
    },
    {
      "epoch": 6.57087504036164,
      "grad_norm": 0.7781052589416504,
      "learning_rate": 0.00020611787522896238,
      "loss": 3.2835,
      "step": 61050
    },
    {
      "epoch": 6.576256592401249,
      "grad_norm": 0.7771100997924805,
      "learning_rate": 0.00020579463419890094,
      "loss": 3.3045,
      "step": 61100
    },
    {
      "epoch": 6.5816381444408565,
      "grad_norm": 0.7626850605010986,
      "learning_rate": 0.00020547139316883957,
      "loss": 3.2805,
      "step": 61150
    },
    {
      "epoch": 6.587019696480465,
      "grad_norm": 0.7923460602760315,
      "learning_rate": 0.00020514815213877813,
      "loss": 3.2773,
      "step": 61200
    },
    {
      "epoch": 6.592401248520073,
      "grad_norm": 0.7972624897956848,
      "learning_rate": 0.0002048249111087167,
      "loss": 3.2866,
      "step": 61250
    },
    {
      "epoch": 6.597782800559681,
      "grad_norm": 0.7396683096885681,
      "learning_rate": 0.00020450167007865532,
      "loss": 3.2792,
      "step": 61300
    },
    {
      "epoch": 6.60316435259929,
      "grad_norm": 0.8107599020004272,
      "learning_rate": 0.0002041784290485939,
      "loss": 3.2931,
      "step": 61350
    },
    {
      "epoch": 6.608545904638898,
      "grad_norm": 0.777954638004303,
      "learning_rate": 0.00020385518801853246,
      "loss": 3.2848,
      "step": 61400
    },
    {
      "epoch": 6.613927456678506,
      "grad_norm": 0.7828915119171143,
      "learning_rate": 0.00020353194698847105,
      "loss": 3.2832,
      "step": 61450
    },
    {
      "epoch": 6.619309008718115,
      "grad_norm": 0.7548733949661255,
      "learning_rate": 0.00020320870595840965,
      "loss": 3.2644,
      "step": 61500
    },
    {
      "epoch": 6.624690560757722,
      "grad_norm": 0.7593802809715271,
      "learning_rate": 0.00020288546492834821,
      "loss": 3.2811,
      "step": 61550
    },
    {
      "epoch": 6.630072112797331,
      "grad_norm": 0.7671753764152527,
      "learning_rate": 0.0002025622238982868,
      "loss": 3.2587,
      "step": 61600
    },
    {
      "epoch": 6.635453664836939,
      "grad_norm": 0.7271970510482788,
      "learning_rate": 0.00020223898286822538,
      "loss": 3.294,
      "step": 61650
    },
    {
      "epoch": 6.640835216876547,
      "grad_norm": 0.7617287039756775,
      "learning_rate": 0.00020191574183816397,
      "loss": 3.2814,
      "step": 61700
    },
    {
      "epoch": 6.6462167689161555,
      "grad_norm": 0.7960649132728577,
      "learning_rate": 0.00020159250080810257,
      "loss": 3.2723,
      "step": 61750
    },
    {
      "epoch": 6.651598320955763,
      "grad_norm": 0.8103392720222473,
      "learning_rate": 0.00020126925977804113,
      "loss": 3.2849,
      "step": 61800
    },
    {
      "epoch": 6.656979872995372,
      "grad_norm": 0.7633416652679443,
      "learning_rate": 0.00020094601874797976,
      "loss": 3.3072,
      "step": 61850
    },
    {
      "epoch": 6.66236142503498,
      "grad_norm": 0.7726844549179077,
      "learning_rate": 0.00020062277771791832,
      "loss": 3.2628,
      "step": 61900
    },
    {
      "epoch": 6.667742977074588,
      "grad_norm": 0.7840232253074646,
      "learning_rate": 0.0002002995366878569,
      "loss": 3.2857,
      "step": 61950
    },
    {
      "epoch": 6.6731245291141965,
      "grad_norm": 0.7834742069244385,
      "learning_rate": 0.00019997629565779548,
      "loss": 3.2981,
      "step": 62000
    },
    {
      "epoch": 6.6731245291141965,
      "eval_accuracy": 0.3860916263283766,
      "eval_loss": 3.3635048866271973,
      "eval_runtime": 185.9859,
      "eval_samples_per_second": 96.841,
      "eval_steps_per_second": 6.054,
      "step": 62000
    },
    {
      "epoch": 6.678506081153805,
      "grad_norm": 0.8001933097839355,
      "learning_rate": 0.00019965305462773405,
      "loss": 3.2851,
      "step": 62050
    },
    {
      "epoch": 6.683887633193413,
      "grad_norm": 0.7189863920211792,
      "learning_rate": 0.00019932981359767265,
      "loss": 3.2559,
      "step": 62100
    },
    {
      "epoch": 6.689269185233021,
      "grad_norm": 0.7719250321388245,
      "learning_rate": 0.00019900657256761124,
      "loss": 3.2792,
      "step": 62150
    },
    {
      "epoch": 6.69465073727263,
      "grad_norm": 0.8234001398086548,
      "learning_rate": 0.0001986833315375498,
      "loss": 3.2766,
      "step": 62200
    },
    {
      "epoch": 6.7000322893122375,
      "grad_norm": 0.8074105978012085,
      "learning_rate": 0.00019836009050748838,
      "loss": 3.2805,
      "step": 62250
    },
    {
      "epoch": 6.705413841351846,
      "grad_norm": 0.7187840342521667,
      "learning_rate": 0.000198036849477427,
      "loss": 3.2757,
      "step": 62300
    },
    {
      "epoch": 6.710795393391454,
      "grad_norm": 0.7592863440513611,
      "learning_rate": 0.00019771360844736557,
      "loss": 3.2799,
      "step": 62350
    },
    {
      "epoch": 6.716176945431062,
      "grad_norm": 0.7189775705337524,
      "learning_rate": 0.00019739036741730413,
      "loss": 3.2805,
      "step": 62400
    },
    {
      "epoch": 6.721558497470671,
      "grad_norm": 0.7705980539321899,
      "learning_rate": 0.00019706712638724276,
      "loss": 3.2796,
      "step": 62450
    },
    {
      "epoch": 6.7269400495102785,
      "grad_norm": 0.8063403367996216,
      "learning_rate": 0.00019674388535718132,
      "loss": 3.292,
      "step": 62500
    },
    {
      "epoch": 6.732321601549887,
      "grad_norm": 0.7790588140487671,
      "learning_rate": 0.0001964206443271199,
      "loss": 3.2746,
      "step": 62550
    },
    {
      "epoch": 6.737703153589496,
      "grad_norm": 0.7884191274642944,
      "learning_rate": 0.00019609740329705849,
      "loss": 3.2843,
      "step": 62600
    },
    {
      "epoch": 6.743084705629103,
      "grad_norm": 0.7725388407707214,
      "learning_rate": 0.00019577416226699708,
      "loss": 3.3009,
      "step": 62650
    },
    {
      "epoch": 6.748466257668712,
      "grad_norm": 0.7729603052139282,
      "learning_rate": 0.00019545092123693565,
      "loss": 3.2824,
      "step": 62700
    },
    {
      "epoch": 6.75384780970832,
      "grad_norm": 0.7593312859535217,
      "learning_rate": 0.00019512768020687424,
      "loss": 3.2612,
      "step": 62750
    },
    {
      "epoch": 6.759229361747928,
      "grad_norm": 0.7764281630516052,
      "learning_rate": 0.0001948044391768128,
      "loss": 3.284,
      "step": 62800
    },
    {
      "epoch": 6.7646109137875365,
      "grad_norm": 0.7871817946434021,
      "learning_rate": 0.00019448119814675143,
      "loss": 3.2881,
      "step": 62850
    },
    {
      "epoch": 6.769992465827144,
      "grad_norm": 0.748728334903717,
      "learning_rate": 0.00019415795711669,
      "loss": 3.2779,
      "step": 62900
    },
    {
      "epoch": 6.775374017866753,
      "grad_norm": 0.7430515885353088,
      "learning_rate": 0.00019383471608662857,
      "loss": 3.2979,
      "step": 62950
    },
    {
      "epoch": 6.780755569906361,
      "grad_norm": 0.8818485140800476,
      "learning_rate": 0.0001935114750565672,
      "loss": 3.2919,
      "step": 63000
    },
    {
      "epoch": 6.780755569906361,
      "eval_accuracy": 0.38669345467398103,
      "eval_loss": 3.3625032901763916,
      "eval_runtime": 186.0133,
      "eval_samples_per_second": 96.826,
      "eval_steps_per_second": 6.053,
      "step": 63000
    },
    {
      "epoch": 6.786137121945969,
      "grad_norm": 0.772337794303894,
      "learning_rate": 0.00019318823402650576,
      "loss": 3.3009,
      "step": 63050
    },
    {
      "epoch": 6.7915186739855775,
      "grad_norm": 0.8088050484657288,
      "learning_rate": 0.00019286499299644432,
      "loss": 3.3029,
      "step": 63100
    },
    {
      "epoch": 6.796900226025185,
      "grad_norm": 0.806873083114624,
      "learning_rate": 0.00019254175196638292,
      "loss": 3.2883,
      "step": 63150
    },
    {
      "epoch": 6.802281778064794,
      "grad_norm": 0.781222403049469,
      "learning_rate": 0.0001922185109363215,
      "loss": 3.2923,
      "step": 63200
    },
    {
      "epoch": 6.807663330104402,
      "grad_norm": 0.8043243288993835,
      "learning_rate": 0.00019189526990626008,
      "loss": 3.2787,
      "step": 63250
    },
    {
      "epoch": 6.813044882144011,
      "grad_norm": 0.8273427486419678,
      "learning_rate": 0.00019157202887619867,
      "loss": 3.2817,
      "step": 63300
    },
    {
      "epoch": 6.8184264341836185,
      "grad_norm": 0.7987149953842163,
      "learning_rate": 0.00019124878784613724,
      "loss": 3.2932,
      "step": 63350
    },
    {
      "epoch": 6.823807986223227,
      "grad_norm": 0.7822026610374451,
      "learning_rate": 0.00019092554681607584,
      "loss": 3.2804,
      "step": 63400
    },
    {
      "epoch": 6.829189538262835,
      "grad_norm": 0.7720851898193359,
      "learning_rate": 0.00019060230578601443,
      "loss": 3.2794,
      "step": 63450
    },
    {
      "epoch": 6.834571090302443,
      "grad_norm": 0.7711744904518127,
      "learning_rate": 0.000190279064755953,
      "loss": 3.2863,
      "step": 63500
    },
    {
      "epoch": 6.839952642342052,
      "grad_norm": 0.7710790634155273,
      "learning_rate": 0.00018995582372589157,
      "loss": 3.2934,
      "step": 63550
    },
    {
      "epoch": 6.8453341943816595,
      "grad_norm": 0.8067206740379333,
      "learning_rate": 0.0001896325826958302,
      "loss": 3.2842,
      "step": 63600
    },
    {
      "epoch": 6.850715746421268,
      "grad_norm": 0.7851261496543884,
      "learning_rate": 0.00018930934166576876,
      "loss": 3.2945,
      "step": 63650
    },
    {
      "epoch": 6.856097298460876,
      "grad_norm": 0.802169144153595,
      "learning_rate": 0.00018898610063570732,
      "loss": 3.291,
      "step": 63700
    },
    {
      "epoch": 6.861478850500484,
      "grad_norm": 0.7793766260147095,
      "learning_rate": 0.00018866285960564595,
      "loss": 3.2876,
      "step": 63750
    },
    {
      "epoch": 6.866860402540093,
      "grad_norm": 0.7937845587730408,
      "learning_rate": 0.0001883396185755845,
      "loss": 3.2798,
      "step": 63800
    },
    {
      "epoch": 6.8722419545797,
      "grad_norm": 0.7959746718406677,
      "learning_rate": 0.0001880163775455231,
      "loss": 3.2839,
      "step": 63850
    },
    {
      "epoch": 6.877623506619309,
      "grad_norm": 0.780846357345581,
      "learning_rate": 0.00018769313651546168,
      "loss": 3.2736,
      "step": 63900
    },
    {
      "epoch": 6.8830050586589175,
      "grad_norm": 0.7967153191566467,
      "learning_rate": 0.00018736989548540027,
      "loss": 3.2997,
      "step": 63950
    },
    {
      "epoch": 6.888386610698525,
      "grad_norm": 0.900805652141571,
      "learning_rate": 0.00018704665445533886,
      "loss": 3.2974,
      "step": 64000
    },
    {
      "epoch": 6.888386610698525,
      "eval_accuracy": 0.38686154069143003,
      "eval_loss": 3.3572139739990234,
      "eval_runtime": 185.8312,
      "eval_samples_per_second": 96.921,
      "eval_steps_per_second": 6.059,
      "step": 64000
    },
    {
      "epoch": 6.893768162738134,
      "grad_norm": 0.7670920491218567,
      "learning_rate": 0.00018672987824587864,
      "loss": 3.293,
      "step": 64050
    },
    {
      "epoch": 6.899149714777742,
      "grad_norm": 0.8245601058006287,
      "learning_rate": 0.00018640663721581727,
      "loss": 3.2914,
      "step": 64100
    },
    {
      "epoch": 6.90453126681735,
      "grad_norm": 0.7795910835266113,
      "learning_rate": 0.00018608339618575583,
      "loss": 3.2821,
      "step": 64150
    },
    {
      "epoch": 6.9099128188569585,
      "grad_norm": 0.8011448979377747,
      "learning_rate": 0.0001857601551556944,
      "loss": 3.294,
      "step": 64200
    },
    {
      "epoch": 6.915294370896566,
      "grad_norm": 0.8406942486763,
      "learning_rate": 0.000185436914125633,
      "loss": 3.2831,
      "step": 64250
    },
    {
      "epoch": 6.920675922936175,
      "grad_norm": 0.8038986921310425,
      "learning_rate": 0.0001851136730955716,
      "loss": 3.2894,
      "step": 64300
    },
    {
      "epoch": 6.926057474975783,
      "grad_norm": 0.7617918848991394,
      "learning_rate": 0.00018479043206551016,
      "loss": 3.29,
      "step": 64350
    },
    {
      "epoch": 6.931439027015391,
      "grad_norm": 0.8467285633087158,
      "learning_rate": 0.00018446719103544875,
      "loss": 3.2949,
      "step": 64400
    },
    {
      "epoch": 6.9368205790549995,
      "grad_norm": 0.8430970907211304,
      "learning_rate": 0.00018414395000538732,
      "loss": 3.2879,
      "step": 64450
    },
    {
      "epoch": 6.942202131094608,
      "grad_norm": 0.8285649418830872,
      "learning_rate": 0.00018382070897532591,
      "loss": 3.2989,
      "step": 64500
    },
    {
      "epoch": 6.947583683134216,
      "grad_norm": 0.8123169541358948,
      "learning_rate": 0.0001834974679452645,
      "loss": 3.2765,
      "step": 64550
    },
    {
      "epoch": 6.952965235173824,
      "grad_norm": 0.7455781102180481,
      "learning_rate": 0.00018317422691520308,
      "loss": 3.2885,
      "step": 64600
    },
    {
      "epoch": 6.958346787213433,
      "grad_norm": 0.7789942622184753,
      "learning_rate": 0.0001828509858851417,
      "loss": 3.2683,
      "step": 64650
    },
    {
      "epoch": 6.9637283392530405,
      "grad_norm": 0.731145977973938,
      "learning_rate": 0.00018252774485508027,
      "loss": 3.2811,
      "step": 64700
    },
    {
      "epoch": 6.969109891292649,
      "grad_norm": 0.7557945251464844,
      "learning_rate": 0.00018220450382501883,
      "loss": 3.2958,
      "step": 64750
    },
    {
      "epoch": 6.974491443332257,
      "grad_norm": 0.7884659767150879,
      "learning_rate": 0.00018188126279495743,
      "loss": 3.3032,
      "step": 64800
    },
    {
      "epoch": 6.979872995371865,
      "grad_norm": 0.8071297407150269,
      "learning_rate": 0.00018155802176489602,
      "loss": 3.2864,
      "step": 64850
    },
    {
      "epoch": 6.985254547411474,
      "grad_norm": 0.7665889859199524,
      "learning_rate": 0.0001812347807348346,
      "loss": 3.2984,
      "step": 64900
    },
    {
      "epoch": 6.990636099451081,
      "grad_norm": 0.7934576272964478,
      "learning_rate": 0.00018091153970477319,
      "loss": 3.2596,
      "step": 64950
    },
    {
      "epoch": 6.99601765149069,
      "grad_norm": 0.7887281775474548,
      "learning_rate": 0.00018058829867471175,
      "loss": 3.2868,
      "step": 65000
    },
    {
      "epoch": 6.99601765149069,
      "eval_accuracy": 0.38733885282759906,
      "eval_loss": 3.3546838760375977,
      "eval_runtime": 185.8092,
      "eval_samples_per_second": 96.933,
      "eval_steps_per_second": 6.06,
      "step": 65000
    },
    {
      "epoch": 7.0013992035302985,
      "grad_norm": 0.7855912446975708,
      "learning_rate": 0.00018026505764465035,
      "loss": 3.2432,
      "step": 65050
    },
    {
      "epoch": 7.006780755569906,
      "grad_norm": 0.8045935034751892,
      "learning_rate": 0.00017994181661458894,
      "loss": 3.1876,
      "step": 65100
    },
    {
      "epoch": 7.012162307609515,
      "grad_norm": 0.793061375617981,
      "learning_rate": 0.0001796185755845275,
      "loss": 3.2132,
      "step": 65150
    },
    {
      "epoch": 7.017543859649122,
      "grad_norm": 0.7353331446647644,
      "learning_rate": 0.00017929533455446608,
      "loss": 3.1831,
      "step": 65200
    },
    {
      "epoch": 7.022925411688731,
      "grad_norm": 0.7819783687591553,
      "learning_rate": 0.0001789720935244047,
      "loss": 3.1971,
      "step": 65250
    },
    {
      "epoch": 7.0283069637283395,
      "grad_norm": 0.9374793767929077,
      "learning_rate": 0.00017864885249434327,
      "loss": 3.1953,
      "step": 65300
    },
    {
      "epoch": 7.033688515767947,
      "grad_norm": 0.9027142524719238,
      "learning_rate": 0.00017832561146428183,
      "loss": 3.2147,
      "step": 65350
    },
    {
      "epoch": 7.039070067807556,
      "grad_norm": 0.8420250415802002,
      "learning_rate": 0.00017800237043422046,
      "loss": 3.1986,
      "step": 65400
    },
    {
      "epoch": 7.044451619847164,
      "grad_norm": 0.8102753758430481,
      "learning_rate": 0.00017767912940415902,
      "loss": 3.2068,
      "step": 65450
    },
    {
      "epoch": 7.049833171886772,
      "grad_norm": 0.8009730577468872,
      "learning_rate": 0.0001773558883740976,
      "loss": 3.2201,
      "step": 65500
    },
    {
      "epoch": 7.0552147239263805,
      "grad_norm": 0.816008985042572,
      "learning_rate": 0.00017703264734403619,
      "loss": 3.2175,
      "step": 65550
    },
    {
      "epoch": 7.060596275965988,
      "grad_norm": 0.777879536151886,
      "learning_rate": 0.00017670940631397475,
      "loss": 3.183,
      "step": 65600
    },
    {
      "epoch": 7.065977828005597,
      "grad_norm": 0.7702983617782593,
      "learning_rate": 0.00017638616528391337,
      "loss": 3.2202,
      "step": 65650
    },
    {
      "epoch": 7.071359380045205,
      "grad_norm": 0.7913657426834106,
      "learning_rate": 0.00017606292425385194,
      "loss": 3.1823,
      "step": 65700
    },
    {
      "epoch": 7.076740932084813,
      "grad_norm": 0.7991105914115906,
      "learning_rate": 0.0001757396832237905,
      "loss": 3.21,
      "step": 65750
    },
    {
      "epoch": 7.0821224841244215,
      "grad_norm": 0.853985607624054,
      "learning_rate": 0.00017541644219372913,
      "loss": 3.2205,
      "step": 65800
    },
    {
      "epoch": 7.08750403616403,
      "grad_norm": 0.7754265666007996,
      "learning_rate": 0.0001750932011636677,
      "loss": 3.2165,
      "step": 65850
    },
    {
      "epoch": 7.092885588203638,
      "grad_norm": 0.7992250323295593,
      "learning_rate": 0.00017476996013360627,
      "loss": 3.2095,
      "step": 65900
    },
    {
      "epoch": 7.098267140243246,
      "grad_norm": 0.8122708201408386,
      "learning_rate": 0.00017444671910354486,
      "loss": 3.2207,
      "step": 65950
    },
    {
      "epoch": 7.103648692282855,
      "grad_norm": 0.7904109358787537,
      "learning_rate": 0.00017412347807348346,
      "loss": 3.2005,
      "step": 66000
    },
    {
      "epoch": 7.103648692282855,
      "eval_accuracy": 0.3869520485469795,
      "eval_loss": 3.360755681991577,
      "eval_runtime": 185.7945,
      "eval_samples_per_second": 96.94,
      "eval_steps_per_second": 6.06,
      "step": 66000
    },
    {
      "epoch": 7.109030244322462,
      "grad_norm": 0.7869090437889099,
      "learning_rate": 0.00017380023704342202,
      "loss": 3.2129,
      "step": 66050
    },
    {
      "epoch": 7.114411796362071,
      "grad_norm": 0.8419079184532166,
      "learning_rate": 0.00017347699601336062,
      "loss": 3.2202,
      "step": 66100
    },
    {
      "epoch": 7.119793348401679,
      "grad_norm": 0.8543078303337097,
      "learning_rate": 0.00017315375498329919,
      "loss": 3.1991,
      "step": 66150
    },
    {
      "epoch": 7.125174900441287,
      "grad_norm": 0.7799680829048157,
      "learning_rate": 0.00017283051395323778,
      "loss": 3.2051,
      "step": 66200
    },
    {
      "epoch": 7.130556452480896,
      "grad_norm": 0.8403568267822266,
      "learning_rate": 0.00017250727292317638,
      "loss": 3.2411,
      "step": 66250
    },
    {
      "epoch": 7.135938004520503,
      "grad_norm": 0.8294082880020142,
      "learning_rate": 0.00017218403189311494,
      "loss": 3.2356,
      "step": 66300
    },
    {
      "epoch": 7.141319556560112,
      "grad_norm": 0.8567684888839722,
      "learning_rate": 0.0001718607908630535,
      "loss": 3.2299,
      "step": 66350
    },
    {
      "epoch": 7.1467011085997205,
      "grad_norm": 0.7866888046264648,
      "learning_rate": 0.00017153754983299213,
      "loss": 3.2385,
      "step": 66400
    },
    {
      "epoch": 7.152082660639328,
      "grad_norm": 0.8036105632781982,
      "learning_rate": 0.0001712143088029307,
      "loss": 3.2084,
      "step": 66450
    },
    {
      "epoch": 7.157464212678937,
      "grad_norm": 0.7894534468650818,
      "learning_rate": 0.00017089106777286927,
      "loss": 3.2051,
      "step": 66500
    },
    {
      "epoch": 7.162845764718545,
      "grad_norm": 0.7758921980857849,
      "learning_rate": 0.0001705678267428079,
      "loss": 3.213,
      "step": 66550
    },
    {
      "epoch": 7.168227316758153,
      "grad_norm": 0.7867743968963623,
      "learning_rate": 0.00017024458571274646,
      "loss": 3.1993,
      "step": 66600
    },
    {
      "epoch": 7.1736088687977615,
      "grad_norm": 0.8350085020065308,
      "learning_rate": 0.00016992780950328626,
      "loss": 3.2175,
      "step": 66650
    },
    {
      "epoch": 7.178990420837369,
      "grad_norm": 0.8163090348243713,
      "learning_rate": 0.00016960456847322486,
      "loss": 3.2162,
      "step": 66700
    },
    {
      "epoch": 7.184371972876978,
      "grad_norm": 0.7829079627990723,
      "learning_rate": 0.00016928132744316345,
      "loss": 3.2281,
      "step": 66750
    },
    {
      "epoch": 7.189753524916586,
      "grad_norm": 0.7559055089950562,
      "learning_rate": 0.00016895808641310202,
      "loss": 3.2214,
      "step": 66800
    },
    {
      "epoch": 7.195135076956194,
      "grad_norm": 0.8056197166442871,
      "learning_rate": 0.0001686348453830406,
      "loss": 3.2238,
      "step": 66850
    },
    {
      "epoch": 7.2005166289958025,
      "grad_norm": 0.859007716178894,
      "learning_rate": 0.0001683116043529792,
      "loss": 3.2252,
      "step": 66900
    },
    {
      "epoch": 7.205898181035411,
      "grad_norm": 0.8273568749427795,
      "learning_rate": 0.00016798836332291778,
      "loss": 3.2257,
      "step": 66950
    },
    {
      "epoch": 7.211279733075019,
      "grad_norm": 0.7911301255226135,
      "learning_rate": 0.00016766512229285634,
      "loss": 3.2328,
      "step": 67000
    },
    {
      "epoch": 7.211279733075019,
      "eval_accuracy": 0.387232264344653,
      "eval_loss": 3.359675407409668,
      "eval_runtime": 186.0417,
      "eval_samples_per_second": 96.812,
      "eval_steps_per_second": 6.052,
      "step": 67000
    },
    {
      "epoch": 7.216661285114627,
      "grad_norm": 0.8092512488365173,
      "learning_rate": 0.00016734188126279494,
      "loss": 3.2021,
      "step": 67050
    },
    {
      "epoch": 7.222042837154235,
      "grad_norm": 0.8036108613014221,
      "learning_rate": 0.00016701864023273353,
      "loss": 3.2155,
      "step": 67100
    },
    {
      "epoch": 7.2274243891938434,
      "grad_norm": 0.7801357507705688,
      "learning_rate": 0.0001666953992026721,
      "loss": 3.2272,
      "step": 67150
    },
    {
      "epoch": 7.232805941233452,
      "grad_norm": 0.8044533729553223,
      "learning_rate": 0.0001663721581726107,
      "loss": 3.2366,
      "step": 67200
    },
    {
      "epoch": 7.23818749327306,
      "grad_norm": 0.8527492880821228,
      "learning_rate": 0.00016604891714254926,
      "loss": 3.2225,
      "step": 67250
    },
    {
      "epoch": 7.243569045312668,
      "grad_norm": 0.8153983950614929,
      "learning_rate": 0.00016572567611248786,
      "loss": 3.2151,
      "step": 67300
    },
    {
      "epoch": 7.248950597352277,
      "grad_norm": NaN,
      "learning_rate": 0.00016540889990302766,
      "loss": 3.2231,
      "step": 67350
    },
    {
      "epoch": 7.254332149391884,
      "grad_norm": 0.8136400580406189,
      "learning_rate": 0.00016508565887296629,
      "loss": 3.2263,
      "step": 67400
    },
    {
      "epoch": 7.259713701431493,
      "grad_norm": 0.8628450632095337,
      "learning_rate": 0.00016476241784290485,
      "loss": 3.2283,
      "step": 67450
    },
    {
      "epoch": 7.265095253471101,
      "grad_norm": 0.7848197817802429,
      "learning_rate": 0.00016443917681284342,
      "loss": 3.2101,
      "step": 67500
    },
    {
      "epoch": 7.270476805510709,
      "grad_norm": 0.8678445816040039,
      "learning_rate": 0.00016411593578278202,
      "loss": 3.2226,
      "step": 67550
    },
    {
      "epoch": 7.275858357550318,
      "grad_norm": 0.8296104073524475,
      "learning_rate": 0.0001637926947527206,
      "loss": 3.2441,
      "step": 67600
    },
    {
      "epoch": 7.281239909589925,
      "grad_norm": 0.8362442851066589,
      "learning_rate": 0.00016346945372265918,
      "loss": 3.2317,
      "step": 67650
    },
    {
      "epoch": 7.286621461629534,
      "grad_norm": 0.8233298063278198,
      "learning_rate": 0.00016314621269259777,
      "loss": 3.2299,
      "step": 67700
    },
    {
      "epoch": 7.2920030136691425,
      "grad_norm": 0.7777824997901917,
      "learning_rate": 0.00016282297166253634,
      "loss": 3.2425,
      "step": 67750
    },
    {
      "epoch": 7.29738456570875,
      "grad_norm": 0.7801291346549988,
      "learning_rate": 0.00016249973063247494,
      "loss": 3.242,
      "step": 67800
    },
    {
      "epoch": 7.302766117748359,
      "grad_norm": 0.7922278046607971,
      "learning_rate": 0.00016217648960241353,
      "loss": 3.2293,
      "step": 67850
    },
    {
      "epoch": 7.308147669787967,
      "grad_norm": 0.7524117231369019,
      "learning_rate": 0.0001618532485723521,
      "loss": 3.232,
      "step": 67900
    },
    {
      "epoch": 7.313529221827575,
      "grad_norm": 0.8594329357147217,
      "learning_rate": 0.00016153000754229067,
      "loss": 3.2373,
      "step": 67950
    },
    {
      "epoch": 7.3189107738671835,
      "grad_norm": 0.7746246457099915,
      "learning_rate": 0.0001612067665122293,
      "loss": 3.233,
      "step": 68000
    },
    {
      "epoch": 7.3189107738671835,
      "eval_accuracy": 0.38757582477592245,
      "eval_loss": 3.354097366333008,
      "eval_runtime": 186.1659,
      "eval_samples_per_second": 96.747,
      "eval_steps_per_second": 6.048,
      "step": 68000
    },
    {
      "epoch": 7.324292325906791,
      "grad_norm": 0.8408230543136597,
      "learning_rate": 0.00016088352548216785,
      "loss": 3.2272,
      "step": 68050
    },
    {
      "epoch": 7.3296738779464,
      "grad_norm": 0.826654314994812,
      "learning_rate": 0.00016056028445210642,
      "loss": 3.2278,
      "step": 68100
    },
    {
      "epoch": 7.335055429986008,
      "grad_norm": 0.8046550154685974,
      "learning_rate": 0.00016023704342204504,
      "loss": 3.2281,
      "step": 68150
    },
    {
      "epoch": 7.340436982025616,
      "grad_norm": 0.8346902132034302,
      "learning_rate": 0.0001599138023919836,
      "loss": 3.2336,
      "step": 68200
    },
    {
      "epoch": 7.3458185340652244,
      "grad_norm": 0.8216458559036255,
      "learning_rate": 0.0001595905613619222,
      "loss": 3.2325,
      "step": 68250
    },
    {
      "epoch": 7.351200086104833,
      "grad_norm": 0.808277428150177,
      "learning_rate": 0.00015926732033186077,
      "loss": 3.2001,
      "step": 68300
    },
    {
      "epoch": 7.356581638144441,
      "grad_norm": 0.7831370830535889,
      "learning_rate": 0.00015894407930179934,
      "loss": 3.2309,
      "step": 68350
    },
    {
      "epoch": 7.361963190184049,
      "grad_norm": 0.8157599568367004,
      "learning_rate": 0.00015862083827173796,
      "loss": 3.2353,
      "step": 68400
    },
    {
      "epoch": 7.367344742223658,
      "grad_norm": 0.7893531322479248,
      "learning_rate": 0.00015829759724167653,
      "loss": 3.238,
      "step": 68450
    },
    {
      "epoch": 7.372726294263265,
      "grad_norm": 0.8475882411003113,
      "learning_rate": 0.0001579743562116151,
      "loss": 3.2152,
      "step": 68500
    },
    {
      "epoch": 7.378107846302874,
      "grad_norm": 0.8483862280845642,
      "learning_rate": 0.00015765111518155372,
      "loss": 3.2217,
      "step": 68550
    },
    {
      "epoch": 7.383489398342482,
      "grad_norm": 0.7888263463973999,
      "learning_rate": 0.0001573278741514923,
      "loss": 3.2369,
      "step": 68600
    },
    {
      "epoch": 7.38887095038209,
      "grad_norm": 0.864804744720459,
      "learning_rate": 0.00015700463312143085,
      "loss": 3.2383,
      "step": 68650
    },
    {
      "epoch": 7.394252502421699,
      "grad_norm": 0.8557440638542175,
      "learning_rate": 0.00015668139209136945,
      "loss": 3.2472,
      "step": 68700
    },
    {
      "epoch": 7.399634054461306,
      "grad_norm": 0.8362625241279602,
      "learning_rate": 0.00015635815106130804,
      "loss": 3.2355,
      "step": 68750
    },
    {
      "epoch": 7.405015606500915,
      "grad_norm": 0.8527743220329285,
      "learning_rate": 0.0001560349100312466,
      "loss": 3.2357,
      "step": 68800
    },
    {
      "epoch": 7.4103971585405235,
      "grad_norm": 0.7902257442474365,
      "learning_rate": 0.0001557116690011852,
      "loss": 3.2475,
      "step": 68850
    },
    {
      "epoch": 7.415778710580131,
      "grad_norm": 0.8768540620803833,
      "learning_rate": 0.00015538842797112377,
      "loss": 3.2386,
      "step": 68900
    },
    {
      "epoch": 7.42116026261974,
      "grad_norm": 0.8438615202903748,
      "learning_rate": 0.00015506518694106237,
      "loss": 3.2397,
      "step": 68950
    },
    {
      "epoch": 7.426541814659347,
      "grad_norm": 0.8931714296340942,
      "learning_rate": 0.00015474194591100096,
      "loss": 3.2298,
      "step": 69000
    },
    {
      "epoch": 7.426541814659347,
      "eval_accuracy": 0.38823458723474163,
      "eval_loss": 3.35080885887146,
      "eval_runtime": 185.9325,
      "eval_samples_per_second": 96.868,
      "eval_steps_per_second": 6.056,
      "step": 69000
    },
    {
      "epoch": 7.431923366698956,
      "grad_norm": 0.8085218071937561,
      "learning_rate": 0.00015441870488093953,
      "loss": 3.233,
      "step": 69050
    },
    {
      "epoch": 7.4373049187385645,
      "grad_norm": 0.8450490832328796,
      "learning_rate": 0.0001540954638508781,
      "loss": 3.2392,
      "step": 69100
    },
    {
      "epoch": 7.442686470778172,
      "grad_norm": 0.8639330863952637,
      "learning_rate": 0.00015377222282081672,
      "loss": 3.2381,
      "step": 69150
    },
    {
      "epoch": 7.448068022817781,
      "grad_norm": 0.8472065925598145,
      "learning_rate": 0.0001534489817907553,
      "loss": 3.2507,
      "step": 69200
    },
    {
      "epoch": 7.453449574857389,
      "grad_norm": 0.8440754413604736,
      "learning_rate": 0.00015312574076069388,
      "loss": 3.234,
      "step": 69250
    },
    {
      "epoch": 7.458831126896997,
      "grad_norm": 0.805414080619812,
      "learning_rate": 0.00015280249973063248,
      "loss": 3.2312,
      "step": 69300
    },
    {
      "epoch": 7.4642126789366054,
      "grad_norm": 0.7928926944732666,
      "learning_rate": 0.00015247925870057104,
      "loss": 3.2322,
      "step": 69350
    },
    {
      "epoch": 7.469594230976213,
      "grad_norm": 0.7943139672279358,
      "learning_rate": 0.00015215601767050964,
      "loss": 3.2348,
      "step": 69400
    },
    {
      "epoch": 7.474975783015822,
      "grad_norm": 0.8131263852119446,
      "learning_rate": 0.0001518327766404482,
      "loss": 3.2123,
      "step": 69450
    },
    {
      "epoch": 7.48035733505543,
      "grad_norm": 0.8333143591880798,
      "learning_rate": 0.0001515095356103868,
      "loss": 3.2255,
      "step": 69500
    },
    {
      "epoch": 7.485738887095038,
      "grad_norm": 0.8411833047866821,
      "learning_rate": 0.0001511862945803254,
      "loss": 3.2227,
      "step": 69550
    },
    {
      "epoch": 7.491120439134646,
      "grad_norm": 0.8106437921524048,
      "learning_rate": 0.00015086305355026396,
      "loss": 3.248,
      "step": 69600
    },
    {
      "epoch": 7.496501991174255,
      "grad_norm": 0.8637210726737976,
      "learning_rate": 0.00015053981252020253,
      "loss": 3.2155,
      "step": 69650
    },
    {
      "epoch": 7.501883543213863,
      "grad_norm": 0.8384105563163757,
      "learning_rate": 0.00015021657149014115,
      "loss": 3.2457,
      "step": 69700
    },
    {
      "epoch": 7.507265095253471,
      "grad_norm": 0.8413200974464417,
      "learning_rate": 0.00014989333046007972,
      "loss": 3.2439,
      "step": 69750
    },
    {
      "epoch": 7.51264664729308,
      "grad_norm": 0.7999059557914734,
      "learning_rate": 0.00014957008943001832,
      "loss": 3.2334,
      "step": 69800
    },
    {
      "epoch": 7.518028199332687,
      "grad_norm": 0.8904609680175781,
      "learning_rate": 0.00014924684839995688,
      "loss": 3.2372,
      "step": 69850
    },
    {
      "epoch": 7.523409751372296,
      "grad_norm": 0.7926896810531616,
      "learning_rate": 0.00014892360736989548,
      "loss": 3.2205,
      "step": 69900
    },
    {
      "epoch": 7.528791303411904,
      "grad_norm": 0.8471592664718628,
      "learning_rate": 0.00014860036633983407,
      "loss": 3.2386,
      "step": 69950
    },
    {
      "epoch": 7.534172855451512,
      "grad_norm": 0.784347653388977,
      "learning_rate": 0.00014827712530977264,
      "loss": 3.2303,
      "step": 70000
    },
    {
      "epoch": 7.534172855451512,
      "eval_accuracy": 0.38841636351605524,
      "eval_loss": 3.347137689590454,
      "eval_runtime": 186.0557,
      "eval_samples_per_second": 96.804,
      "eval_steps_per_second": 6.052,
      "step": 70000
    },
    {
      "epoch": 7.539554407491121,
      "grad_norm": 0.8191322088241577,
      "learning_rate": 0.00014795388427971123,
      "loss": 3.2314,
      "step": 70050
    },
    {
      "epoch": 7.544935959530728,
      "grad_norm": 0.824874758720398,
      "learning_rate": 0.0001476306432496498,
      "loss": 3.217,
      "step": 70100
    },
    {
      "epoch": 7.550317511570337,
      "grad_norm": 0.8652802109718323,
      "learning_rate": 0.0001473074022195884,
      "loss": 3.2438,
      "step": 70150
    },
    {
      "epoch": 7.5556990636099455,
      "grad_norm": 0.8763731718063354,
      "learning_rate": 0.00014698416118952696,
      "loss": 3.2242,
      "step": 70200
    },
    {
      "epoch": 7.561080615649553,
      "grad_norm": 0.8137683272361755,
      "learning_rate": 0.00014666092015946556,
      "loss": 3.231,
      "step": 70250
    },
    {
      "epoch": 7.566462167689162,
      "grad_norm": 0.8576914668083191,
      "learning_rate": 0.00014633767912940415,
      "loss": 3.2352,
      "step": 70300
    },
    {
      "epoch": 7.57184371972877,
      "grad_norm": 0.9249595403671265,
      "learning_rate": 0.00014601443809934272,
      "loss": 3.2395,
      "step": 70350
    },
    {
      "epoch": 7.577225271768378,
      "grad_norm": 0.7895645499229431,
      "learning_rate": 0.00014569119706928132,
      "loss": 3.2385,
      "step": 70400
    },
    {
      "epoch": 7.5826068238079865,
      "grad_norm": 0.8155187368392944,
      "learning_rate": 0.0001453679560392199,
      "loss": 3.243,
      "step": 70450
    },
    {
      "epoch": 7.587988375847594,
      "grad_norm": 0.8479143381118774,
      "learning_rate": 0.00014504471500915848,
      "loss": 3.2417,
      "step": 70500
    },
    {
      "epoch": 7.593369927887203,
      "grad_norm": 0.8356419205665588,
      "learning_rate": 0.00014472147397909707,
      "loss": 3.2347,
      "step": 70550
    },
    {
      "epoch": 7.598751479926811,
      "grad_norm": 0.8232520818710327,
      "learning_rate": 0.00014439823294903564,
      "loss": 3.2353,
      "step": 70600
    },
    {
      "epoch": 7.604133031966419,
      "grad_norm": 0.8453190922737122,
      "learning_rate": 0.00014407499191897423,
      "loss": 3.2406,
      "step": 70650
    },
    {
      "epoch": 7.609514584006027,
      "grad_norm": 0.8472939133644104,
      "learning_rate": 0.0001437517508889128,
      "loss": 3.2431,
      "step": 70700
    },
    {
      "epoch": 7.614896136045635,
      "grad_norm": 0.7923706769943237,
      "learning_rate": 0.0001434285098588514,
      "loss": 3.2374,
      "step": 70750
    },
    {
      "epoch": 7.620277688085244,
      "grad_norm": 0.8616511225700378,
      "learning_rate": 0.00014310526882879,
      "loss": 3.2291,
      "step": 70800
    },
    {
      "epoch": 7.625659240124852,
      "grad_norm": 0.8292487859725952,
      "learning_rate": 0.00014278202779872856,
      "loss": 3.2269,
      "step": 70850
    },
    {
      "epoch": 7.63104079216446,
      "grad_norm": 0.9208044409751892,
      "learning_rate": 0.00014245878676866715,
      "loss": 3.247,
      "step": 70900
    },
    {
      "epoch": 7.636422344204068,
      "grad_norm": 0.8075052499771118,
      "learning_rate": 0.00014213554573860575,
      "loss": 3.2204,
      "step": 70950
    },
    {
      "epoch": 7.641803896243677,
      "grad_norm": 0.847364068031311,
      "learning_rate": 0.00014181230470854434,
      "loss": 3.2285,
      "step": 71000
    },
    {
      "epoch": 7.641803896243677,
      "eval_accuracy": 0.3889056274698839,
      "eval_loss": 3.3433730602264404,
      "eval_runtime": 185.9917,
      "eval_samples_per_second": 96.838,
      "eval_steps_per_second": 6.054,
      "step": 71000
    },
    {
      "epoch": 7.647185448283285,
      "grad_norm": 0.7913082242012024,
      "learning_rate": 0.0001414890636784829,
      "loss": 3.2431,
      "step": 71050
    },
    {
      "epoch": 7.652567000322893,
      "grad_norm": 0.8461329936981201,
      "learning_rate": 0.0001411658226484215,
      "loss": 3.2528,
      "step": 71100
    },
    {
      "epoch": 7.657948552362502,
      "grad_norm": 0.8349961638450623,
      "learning_rate": 0.00014084258161836007,
      "loss": 3.2418,
      "step": 71150
    },
    {
      "epoch": 7.663330104402109,
      "grad_norm": 0.832449197769165,
      "learning_rate": 0.00014051934058829867,
      "loss": 3.2406,
      "step": 71200
    },
    {
      "epoch": 7.668711656441718,
      "grad_norm": 0.7784643769264221,
      "learning_rate": 0.00014019609955823723,
      "loss": 3.2484,
      "step": 71250
    },
    {
      "epoch": 7.674093208481326,
      "grad_norm": 0.9093379378318787,
      "learning_rate": 0.00013987285852817583,
      "loss": 3.2367,
      "step": 71300
    },
    {
      "epoch": 7.679474760520934,
      "grad_norm": 0.8237677216529846,
      "learning_rate": 0.0001395496174981144,
      "loss": 3.2137,
      "step": 71350
    },
    {
      "epoch": 7.684856312560543,
      "grad_norm": 0.8036471009254456,
      "learning_rate": 0.000139226376468053,
      "loss": 3.2435,
      "step": 71400
    },
    {
      "epoch": 7.69023786460015,
      "grad_norm": 0.83887779712677,
      "learning_rate": 0.00013890313543799159,
      "loss": 3.2411,
      "step": 71450
    },
    {
      "epoch": 7.695619416639759,
      "grad_norm": 0.8478758335113525,
      "learning_rate": 0.00013857989440793018,
      "loss": 3.2359,
      "step": 71500
    },
    {
      "epoch": 7.7010009686793675,
      "grad_norm": 0.8414708375930786,
      "learning_rate": 0.00013825665337786875,
      "loss": 3.2381,
      "step": 71550
    },
    {
      "epoch": 7.706382520718975,
      "grad_norm": 0.8308606147766113,
      "learning_rate": 0.00013793341234780734,
      "loss": 3.2318,
      "step": 71600
    },
    {
      "epoch": 7.711764072758584,
      "grad_norm": 0.7887462973594666,
      "learning_rate": 0.00013761017131774594,
      "loss": 3.2314,
      "step": 71650
    },
    {
      "epoch": 7.717145624798192,
      "grad_norm": 0.8399965167045593,
      "learning_rate": 0.0001372869302876845,
      "loss": 3.2536,
      "step": 71700
    },
    {
      "epoch": 7.7225271768378,
      "grad_norm": 0.898185670375824,
      "learning_rate": 0.0001369636892576231,
      "loss": 3.2242,
      "step": 71750
    },
    {
      "epoch": 7.727908728877408,
      "grad_norm": 0.8142277002334595,
      "learning_rate": 0.00013664044822756167,
      "loss": 3.2404,
      "step": 71800
    },
    {
      "epoch": 7.733290280917016,
      "grad_norm": 0.8654939532279968,
      "learning_rate": 0.00013631720719750026,
      "loss": 3.2384,
      "step": 71850
    },
    {
      "epoch": 7.738671832956625,
      "grad_norm": 0.8666291832923889,
      "learning_rate": 0.00013599396616743883,
      "loss": 3.2299,
      "step": 71900
    },
    {
      "epoch": 7.744053384996233,
      "grad_norm": 0.8111117482185364,
      "learning_rate": 0.00013567072513737742,
      "loss": 3.2194,
      "step": 71950
    },
    {
      "epoch": 7.749434937035841,
      "grad_norm": 0.8553187251091003,
      "learning_rate": 0.00013534748410731602,
      "loss": 3.2264,
      "step": 72000
    },
    {
      "epoch": 7.749434937035841,
      "eval_accuracy": 0.3893273093274919,
      "eval_loss": 3.3391191959381104,
      "eval_runtime": 186.3705,
      "eval_samples_per_second": 96.641,
      "eval_steps_per_second": 6.042,
      "step": 72000
    },
    {
      "epoch": 7.754816489075449,
      "grad_norm": 0.8522429466247559,
      "learning_rate": 0.0001350242430772546,
      "loss": 3.2344,
      "step": 72050
    },
    {
      "epoch": 7.760198041115058,
      "grad_norm": 0.9264940023422241,
      "learning_rate": 0.00013470100204719318,
      "loss": 3.2269,
      "step": 72100
    },
    {
      "epoch": 7.765579593154666,
      "grad_norm": 0.8298694491386414,
      "learning_rate": 0.00013437776101713178,
      "loss": 3.2068,
      "step": 72150
    },
    {
      "epoch": 7.770961145194274,
      "grad_norm": 0.8268893957138062,
      "learning_rate": 0.00013405451998707034,
      "loss": 3.2185,
      "step": 72200
    },
    {
      "epoch": 7.776342697233883,
      "grad_norm": 0.8132066130638123,
      "learning_rate": 0.00013373127895700894,
      "loss": 3.2414,
      "step": 72250
    },
    {
      "epoch": 7.78172424927349,
      "grad_norm": 0.8561573624610901,
      "learning_rate": 0.00013340803792694753,
      "loss": 3.2279,
      "step": 72300
    },
    {
      "epoch": 7.787105801313099,
      "grad_norm": 0.8097841739654541,
      "learning_rate": 0.0001330847968968861,
      "loss": 3.2408,
      "step": 72350
    },
    {
      "epoch": 7.792487353352707,
      "grad_norm": 0.829011857509613,
      "learning_rate": 0.00013276155586682467,
      "loss": 3.2429,
      "step": 72400
    },
    {
      "epoch": 7.797868905392315,
      "grad_norm": 0.8411450386047363,
      "learning_rate": 0.00013243831483676326,
      "loss": 3.2328,
      "step": 72450
    },
    {
      "epoch": 7.803250457431924,
      "grad_norm": 0.8693608045578003,
      "learning_rate": 0.00013211507380670186,
      "loss": 3.2316,
      "step": 72500
    },
    {
      "epoch": 7.808632009471531,
      "grad_norm": 0.8029245734214783,
      "learning_rate": 0.00013179183277664042,
      "loss": 3.2231,
      "step": 72550
    },
    {
      "epoch": 7.81401356151114,
      "grad_norm": 0.832480251789093,
      "learning_rate": 0.00013146859174657902,
      "loss": 3.2492,
      "step": 72600
    },
    {
      "epoch": 7.819395113550748,
      "grad_norm": 0.8211733102798462,
      "learning_rate": 0.00013115181553711883,
      "loss": 3.2088,
      "step": 72650
    },
    {
      "epoch": 7.824776665590356,
      "grad_norm": 0.8535516858100891,
      "learning_rate": 0.00013082857450705742,
      "loss": 3.2404,
      "step": 72700
    },
    {
      "epoch": 7.830158217629965,
      "grad_norm": 0.8519064784049988,
      "learning_rate": 0.00013050533347699602,
      "loss": 3.234,
      "step": 72750
    },
    {
      "epoch": 7.835539769669572,
      "grad_norm": 0.8381606936454773,
      "learning_rate": 0.00013018209244693458,
      "loss": 3.2364,
      "step": 72800
    },
    {
      "epoch": 7.840921321709181,
      "grad_norm": 0.8410301208496094,
      "learning_rate": 0.00012985885141687318,
      "loss": 3.2366,
      "step": 72850
    },
    {
      "epoch": 7.846302873748789,
      "grad_norm": 0.8484557867050171,
      "learning_rate": 0.00012953561038681175,
      "loss": 3.2198,
      "step": 72900
    },
    {
      "epoch": 7.851684425788397,
      "grad_norm": 0.8619071841239929,
      "learning_rate": 0.00012921236935675034,
      "loss": 3.2349,
      "step": 72950
    },
    {
      "epoch": 7.857065977828006,
      "grad_norm": 0.9383341670036316,
      "learning_rate": 0.0001288891283266889,
      "loss": 3.2202,
      "step": 73000
    },
    {
      "epoch": 7.857065977828006,
      "eval_accuracy": 0.3897977763317286,
      "eval_loss": 3.336723804473877,
      "eval_runtime": 186.0266,
      "eval_samples_per_second": 96.819,
      "eval_steps_per_second": 6.053,
      "step": 73000
    },
    {
      "epoch": 7.862447529867614,
      "grad_norm": 0.7834997773170471,
      "learning_rate": 0.0001285658872966275,
      "loss": 3.2293,
      "step": 73050
    },
    {
      "epoch": 7.867829081907222,
      "grad_norm": 0.8231773972511292,
      "learning_rate": 0.0001282426462665661,
      "loss": 3.2445,
      "step": 73100
    },
    {
      "epoch": 7.87321063394683,
      "grad_norm": 0.8333887457847595,
      "learning_rate": 0.00012791940523650466,
      "loss": 3.247,
      "step": 73150
    },
    {
      "epoch": 7.878592185986438,
      "grad_norm": 0.8521347045898438,
      "learning_rate": 0.00012759616420644326,
      "loss": 3.2476,
      "step": 73200
    },
    {
      "epoch": 7.883973738026047,
      "grad_norm": 0.817992627620697,
      "learning_rate": 0.00012727292317638185,
      "loss": 3.245,
      "step": 73250
    },
    {
      "epoch": 7.889355290065655,
      "grad_norm": 0.8231335282325745,
      "learning_rate": 0.00012694968214632045,
      "loss": 3.229,
      "step": 73300
    },
    {
      "epoch": 7.894736842105263,
      "grad_norm": 0.8946009874343872,
      "learning_rate": 0.00012662644111625902,
      "loss": 3.2438,
      "step": 73350
    },
    {
      "epoch": 7.900118394144871,
      "grad_norm": 0.8487963676452637,
      "learning_rate": 0.0001263032000861976,
      "loss": 3.2384,
      "step": 73400
    },
    {
      "epoch": 7.90549994618448,
      "grad_norm": 0.8417540788650513,
      "learning_rate": 0.00012597995905613618,
      "loss": 3.2215,
      "step": 73450
    },
    {
      "epoch": 7.910881498224088,
      "grad_norm": 0.8403633236885071,
      "learning_rate": 0.00012565671802607477,
      "loss": 3.2325,
      "step": 73500
    },
    {
      "epoch": 7.916263050263696,
      "grad_norm": 0.7889916300773621,
      "learning_rate": 0.00012533347699601334,
      "loss": 3.2319,
      "step": 73550
    },
    {
      "epoch": 7.921644602303305,
      "grad_norm": 0.8395731449127197,
      "learning_rate": 0.00012501023596595193,
      "loss": 3.2396,
      "step": 73600
    },
    {
      "epoch": 7.927026154342912,
      "grad_norm": 0.8388254046440125,
      "learning_rate": 0.0001246869949358905,
      "loss": 3.2597,
      "step": 73650
    },
    {
      "epoch": 7.932407706382521,
      "grad_norm": 0.8292726278305054,
      "learning_rate": 0.0001243637539058291,
      "loss": 3.2251,
      "step": 73700
    },
    {
      "epoch": 7.937789258422129,
      "grad_norm": 0.8689829707145691,
      "learning_rate": 0.0001240405128757677,
      "loss": 3.2333,
      "step": 73750
    },
    {
      "epoch": 7.943170810461737,
      "grad_norm": 0.8321253657341003,
      "learning_rate": 0.00012371727184570629,
      "loss": 3.2553,
      "step": 73800
    },
    {
      "epoch": 7.948552362501346,
      "grad_norm": 0.8123371005058289,
      "learning_rate": 0.00012339403081564485,
      "loss": 3.2395,
      "step": 73850
    },
    {
      "epoch": 7.953933914540953,
      "grad_norm": 0.8630374670028687,
      "learning_rate": 0.00012307078978558345,
      "loss": 3.2307,
      "step": 73900
    },
    {
      "epoch": 7.959315466580562,
      "grad_norm": 0.7936153411865234,
      "learning_rate": 0.00012274754875552202,
      "loss": 3.2333,
      "step": 73950
    },
    {
      "epoch": 7.96469701862017,
      "grad_norm": 0.835243284702301,
      "learning_rate": 0.0001224243077254606,
      "loss": 3.2408,
      "step": 74000
    },
    {
      "epoch": 7.96469701862017,
      "eval_accuracy": 0.39001301770248903,
      "eval_loss": 3.3321311473846436,
      "eval_runtime": 186.2634,
      "eval_samples_per_second": 96.696,
      "eval_steps_per_second": 6.045,
      "step": 74000
    },
    {
      "epoch": 7.970078570659778,
      "grad_norm": 0.939032793045044,
      "learning_rate": 0.00012210106669539918,
      "loss": 3.2448,
      "step": 74050
    },
    {
      "epoch": 7.975460122699387,
      "grad_norm": 0.8366684913635254,
      "learning_rate": 0.00012177782566533779,
      "loss": 3.2312,
      "step": 74100
    },
    {
      "epoch": 7.980841674738995,
      "grad_norm": 0.8049997091293335,
      "learning_rate": 0.00012145458463527635,
      "loss": 3.2138,
      "step": 74150
    },
    {
      "epoch": 7.986223226778603,
      "grad_norm": 0.8256421089172363,
      "learning_rate": 0.00012113134360521495,
      "loss": 3.2325,
      "step": 74200
    },
    {
      "epoch": 7.991604778818211,
      "grad_norm": 0.8123036623001099,
      "learning_rate": 0.00012080810257515353,
      "loss": 3.2122,
      "step": 74250
    },
    {
      "epoch": 7.996986330857819,
      "grad_norm": 0.8500708937644958,
      "learning_rate": 0.00012048486154509212,
      "loss": 3.2404,
      "step": 74300
    },
    {
      "epoch": 8.002367882897428,
      "grad_norm": 0.8193881511688232,
      "learning_rate": 0.00012016162051503069,
      "loss": 3.2102,
      "step": 74350
    },
    {
      "epoch": 8.007749434937036,
      "grad_norm": 0.8572044968605042,
      "learning_rate": 0.00011983837948496929,
      "loss": 3.158,
      "step": 74400
    },
    {
      "epoch": 8.013130986976645,
      "grad_norm": 0.8272185325622559,
      "learning_rate": 0.00011951513845490787,
      "loss": 3.1649,
      "step": 74450
    },
    {
      "epoch": 8.018512539016251,
      "grad_norm": 0.8665773272514343,
      "learning_rate": 0.00011919189742484645,
      "loss": 3.1644,
      "step": 74500
    },
    {
      "epoch": 8.02389409105586,
      "grad_norm": 0.8924137949943542,
      "learning_rate": 0.00011886865639478503,
      "loss": 3.1725,
      "step": 74550
    },
    {
      "epoch": 8.029275643095469,
      "grad_norm": 0.8336453437805176,
      "learning_rate": 0.00011854541536472362,
      "loss": 3.1493,
      "step": 74600
    },
    {
      "epoch": 8.034657195135077,
      "grad_norm": 0.8789464831352234,
      "learning_rate": 0.00011822217433466219,
      "loss": 3.1636,
      "step": 74650
    },
    {
      "epoch": 8.040038747174686,
      "grad_norm": 0.892102062702179,
      "learning_rate": 0.00011789893330460079,
      "loss": 3.1752,
      "step": 74700
    },
    {
      "epoch": 8.045420299214294,
      "grad_norm": 0.8545465469360352,
      "learning_rate": 0.00011757569227453937,
      "loss": 3.1666,
      "step": 74750
    },
    {
      "epoch": 8.050801851253901,
      "grad_norm": 0.8130289316177368,
      "learning_rate": 0.00011725245124447796,
      "loss": 3.1481,
      "step": 74800
    },
    {
      "epoch": 8.05618340329351,
      "grad_norm": 0.8475521206855774,
      "learning_rate": 0.00011692921021441653,
      "loss": 3.1683,
      "step": 74850
    },
    {
      "epoch": 8.061564955333118,
      "grad_norm": 0.8916060924530029,
      "learning_rate": 0.00011660596918435512,
      "loss": 3.1647,
      "step": 74900
    },
    {
      "epoch": 8.066946507372727,
      "grad_norm": 0.907101571559906,
      "learning_rate": 0.00011628272815429372,
      "loss": 3.1808,
      "step": 74950
    },
    {
      "epoch": 8.072328059412335,
      "grad_norm": 0.849672257900238,
      "learning_rate": 0.00011595948712423229,
      "loss": 3.1519,
      "step": 75000
    },
    {
      "epoch": 8.072328059412335,
      "eval_accuracy": 0.38986905262613486,
      "eval_loss": 3.3385119438171387,
      "eval_runtime": 185.8473,
      "eval_samples_per_second": 96.913,
      "eval_steps_per_second": 6.059,
      "step": 75000
    },
    {
      "epoch": 8.077709611451942,
      "grad_norm": 0.8504072427749634,
      "learning_rate": 0.00011563624609417088,
      "loss": 3.1886,
      "step": 75050
    },
    {
      "epoch": 8.08309116349155,
      "grad_norm": 0.8841416239738464,
      "learning_rate": 0.00011531300506410946,
      "loss": 3.1486,
      "step": 75100
    },
    {
      "epoch": 8.088472715531159,
      "grad_norm": 0.875160276889801,
      "learning_rate": 0.00011498976403404804,
      "loss": 3.1662,
      "step": 75150
    },
    {
      "epoch": 8.093854267570768,
      "grad_norm": 0.8227420449256897,
      "learning_rate": 0.00011466652300398663,
      "loss": 3.1547,
      "step": 75200
    },
    {
      "epoch": 8.099235819610376,
      "grad_norm": 0.8615112900733948,
      "learning_rate": 0.00011434328197392522,
      "loss": 3.1553,
      "step": 75250
    },
    {
      "epoch": 8.104617371649983,
      "grad_norm": 0.8104445934295654,
      "learning_rate": 0.0001140200409438638,
      "loss": 3.1545,
      "step": 75300
    },
    {
      "epoch": 8.109998923689592,
      "grad_norm": 0.8827816247940063,
      "learning_rate": 0.00011369679991380238,
      "loss": 3.1567,
      "step": 75350
    },
    {
      "epoch": 8.1153804757292,
      "grad_norm": 0.8023089170455933,
      "learning_rate": 0.00011337355888374096,
      "loss": 3.1642,
      "step": 75400
    },
    {
      "epoch": 8.120762027768809,
      "grad_norm": 0.8518109917640686,
      "learning_rate": 0.00011305031785367956,
      "loss": 3.1678,
      "step": 75450
    },
    {
      "epoch": 8.126143579808417,
      "grad_norm": 0.8302938938140869,
      "learning_rate": 0.00011272707682361813,
      "loss": 3.1589,
      "step": 75500
    },
    {
      "epoch": 8.131525131848026,
      "grad_norm": 0.8825117349624634,
      "learning_rate": 0.00011240383579355672,
      "loss": 3.1782,
      "step": 75550
    },
    {
      "epoch": 8.136906683887632,
      "grad_norm": 0.8868536353111267,
      "learning_rate": 0.0001120805947634953,
      "loss": 3.1798,
      "step": 75600
    },
    {
      "epoch": 8.142288235927241,
      "grad_norm": 0.8432298302650452,
      "learning_rate": 0.00011175735373343388,
      "loss": 3.1566,
      "step": 75650
    },
    {
      "epoch": 8.14766978796685,
      "grad_norm": 0.8791179656982422,
      "learning_rate": 0.00011143411270337246,
      "loss": 3.182,
      "step": 75700
    },
    {
      "epoch": 8.153051340006458,
      "grad_norm": 0.8863111734390259,
      "learning_rate": 0.00011111087167331106,
      "loss": 3.1649,
      "step": 75750
    },
    {
      "epoch": 8.158432892046067,
      "grad_norm": 0.831848680973053,
      "learning_rate": 0.00011078763064324965,
      "loss": 3.1746,
      "step": 75800
    },
    {
      "epoch": 8.163814444085673,
      "grad_norm": 0.8341988921165466,
      "learning_rate": 0.00011046438961318822,
      "loss": 3.1599,
      "step": 75850
    },
    {
      "epoch": 8.169195996125282,
      "grad_norm": 0.8583225607872009,
      "learning_rate": 0.00011014114858312681,
      "loss": 3.1794,
      "step": 75900
    },
    {
      "epoch": 8.17457754816489,
      "grad_norm": 0.8323391079902649,
      "learning_rate": 0.0001098179075530654,
      "loss": 3.1717,
      "step": 75950
    },
    {
      "epoch": 8.1799591002045,
      "grad_norm": 0.8917283415794373,
      "learning_rate": 0.00010949466652300398,
      "loss": 3.1815,
      "step": 76000
    },
    {
      "epoch": 8.1799591002045,
      "eval_accuracy": 0.3901762143399864,
      "eval_loss": 3.335847854614258,
      "eval_runtime": 186.0095,
      "eval_samples_per_second": 96.828,
      "eval_steps_per_second": 6.053,
      "step": 76000
    },
    {
      "epoch": 8.185340652244108,
      "grad_norm": 0.8766106963157654,
      "learning_rate": 0.00010917142549294256,
      "loss": 3.1792,
      "step": 76050
    },
    {
      "epoch": 8.190722204283716,
      "grad_norm": 0.8116225600242615,
      "learning_rate": 0.00010884818446288115,
      "loss": 3.1727,
      "step": 76100
    },
    {
      "epoch": 8.196103756323323,
      "grad_norm": 0.8212406039237976,
      "learning_rate": 0.00010852494343281972,
      "loss": 3.1629,
      "step": 76150
    },
    {
      "epoch": 8.201485308362932,
      "grad_norm": 0.8291018009185791,
      "learning_rate": 0.00010820816722335954,
      "loss": 3.1786,
      "step": 76200
    },
    {
      "epoch": 8.20686686040254,
      "grad_norm": 0.8658892512321472,
      "learning_rate": 0.00010788492619329814,
      "loss": 3.1744,
      "step": 76250
    },
    {
      "epoch": 8.212248412442149,
      "grad_norm": 0.8512565493583679,
      "learning_rate": 0.0001075616851632367,
      "loss": 3.2064,
      "step": 76300
    },
    {
      "epoch": 8.217629964481757,
      "grad_norm": 0.8877484798431396,
      "learning_rate": 0.0001072384441331753,
      "loss": 3.1739,
      "step": 76350
    },
    {
      "epoch": 8.223011516521364,
      "grad_norm": 0.8430407047271729,
      "learning_rate": 0.00010691520310311388,
      "loss": 3.1632,
      "step": 76400
    },
    {
      "epoch": 8.228393068560973,
      "grad_norm": 0.8973433375358582,
      "learning_rate": 0.00010659196207305246,
      "loss": 3.181,
      "step": 76450
    },
    {
      "epoch": 8.233774620600581,
      "grad_norm": 0.87909996509552,
      "learning_rate": 0.00010626872104299104,
      "loss": 3.1874,
      "step": 76500
    },
    {
      "epoch": 8.23915617264019,
      "grad_norm": 0.9008407592773438,
      "learning_rate": 0.00010594548001292964,
      "loss": 3.1697,
      "step": 76550
    },
    {
      "epoch": 8.244537724679798,
      "grad_norm": 0.8569335341453552,
      "learning_rate": 0.00010562223898286823,
      "loss": 3.1828,
      "step": 76600
    },
    {
      "epoch": 8.249919276719407,
      "grad_norm": 0.8924678564071655,
      "learning_rate": 0.0001052989979528068,
      "loss": 3.18,
      "step": 76650
    },
    {
      "epoch": 8.255300828759013,
      "grad_norm": 0.8666004538536072,
      "learning_rate": 0.00010497575692274539,
      "loss": 3.1626,
      "step": 76700
    },
    {
      "epoch": 8.260682380798622,
      "grad_norm": 0.8578418493270874,
      "learning_rate": 0.00010465251589268397,
      "loss": 3.1805,
      "step": 76750
    },
    {
      "epoch": 8.26606393283823,
      "grad_norm": 0.8601974844932556,
      "learning_rate": 0.00010432927486262254,
      "loss": 3.1755,
      "step": 76800
    },
    {
      "epoch": 8.27144548487784,
      "grad_norm": 0.8363388180732727,
      "learning_rate": 0.00010400603383256114,
      "loss": 3.1702,
      "step": 76850
    },
    {
      "epoch": 8.276827036917448,
      "grad_norm": 0.8608406782150269,
      "learning_rate": 0.00010368279280249973,
      "loss": 3.1798,
      "step": 76900
    },
    {
      "epoch": 8.282208588957054,
      "grad_norm": 0.8827548027038574,
      "learning_rate": 0.0001033595517724383,
      "loss": 3.1778,
      "step": 76950
    },
    {
      "epoch": 8.287590140996663,
      "grad_norm": 0.837228536605835,
      "learning_rate": 0.00010303631074237689,
      "loss": 3.1758,
      "step": 77000
    },
    {
      "epoch": 8.287590140996663,
      "eval_accuracy": 0.3906008298255654,
      "eval_loss": 3.332209348678589,
      "eval_runtime": 186.3683,
      "eval_samples_per_second": 96.642,
      "eval_steps_per_second": 6.042,
      "step": 77000
    },
    {
      "epoch": 8.292971693036272,
      "grad_norm": 0.8617677092552185,
      "learning_rate": 0.00010271306971231547,
      "loss": 3.1821,
      "step": 77050
    },
    {
      "epoch": 8.29835324507588,
      "grad_norm": 0.8401609063148499,
      "learning_rate": 0.00010238982868225407,
      "loss": 3.1625,
      "step": 77100
    },
    {
      "epoch": 8.303734797115489,
      "grad_norm": 0.8273335099220276,
      "learning_rate": 0.00010206658765219264,
      "loss": 3.1737,
      "step": 77150
    },
    {
      "epoch": 8.309116349155097,
      "grad_norm": 0.893211841583252,
      "learning_rate": 0.00010174334662213123,
      "loss": 3.1911,
      "step": 77200
    },
    {
      "epoch": 8.314497901194704,
      "grad_norm": 0.8713061809539795,
      "learning_rate": 0.00010142010559206981,
      "loss": 3.1938,
      "step": 77250
    },
    {
      "epoch": 8.319879453234313,
      "grad_norm": 0.8388047814369202,
      "learning_rate": 0.00010109686456200839,
      "loss": 3.1815,
      "step": 77300
    },
    {
      "epoch": 8.325261005273921,
      "grad_norm": 0.8883513808250427,
      "learning_rate": 0.00010077362353194697,
      "loss": 3.1965,
      "step": 77350
    },
    {
      "epoch": 8.33064255731353,
      "grad_norm": 0.8735946416854858,
      "learning_rate": 0.00010045038250188557,
      "loss": 3.1792,
      "step": 77400
    },
    {
      "epoch": 8.336024109353138,
      "grad_norm": 0.8892119526863098,
      "learning_rate": 0.00010012714147182414,
      "loss": 3.1653,
      "step": 77450
    },
    {
      "epoch": 8.341405661392745,
      "grad_norm": 0.876122236251831,
      "learning_rate": 9.980390044176273e-05,
      "loss": 3.186,
      "step": 77500
    },
    {
      "epoch": 8.346787213432354,
      "grad_norm": 0.903731107711792,
      "learning_rate": 9.948065941170133e-05,
      "loss": 3.1735,
      "step": 77550
    },
    {
      "epoch": 8.352168765471962,
      "grad_norm": 0.8520873785018921,
      "learning_rate": 9.91574183816399e-05,
      "loss": 3.1917,
      "step": 77600
    },
    {
      "epoch": 8.35755031751157,
      "grad_norm": 0.8681536316871643,
      "learning_rate": 9.883417735157849e-05,
      "loss": 3.1853,
      "step": 77650
    },
    {
      "epoch": 8.36293186955118,
      "grad_norm": 0.8396380543708801,
      "learning_rate": 9.851093632151707e-05,
      "loss": 3.1851,
      "step": 77700
    },
    {
      "epoch": 8.368313421590786,
      "grad_norm": 0.8378769755363464,
      "learning_rate": 9.818769529145566e-05,
      "loss": 3.2002,
      "step": 77750
    },
    {
      "epoch": 8.373694973630395,
      "grad_norm": 0.9068922400474548,
      "learning_rate": 9.786445426139423e-05,
      "loss": 3.188,
      "step": 77800
    },
    {
      "epoch": 8.379076525670003,
      "grad_norm": 0.8170077204704285,
      "learning_rate": 9.754121323133283e-05,
      "loss": 3.1593,
      "step": 77850
    },
    {
      "epoch": 8.384458077709612,
      "grad_norm": 0.8834209442138672,
      "learning_rate": 9.72179722012714e-05,
      "loss": 3.1972,
      "step": 77900
    },
    {
      "epoch": 8.38983962974922,
      "grad_norm": 0.8780129551887512,
      "learning_rate": 9.689473117120999e-05,
      "loss": 3.1956,
      "step": 77950
    },
    {
      "epoch": 8.395221181788829,
      "grad_norm": 0.8051807880401611,
      "learning_rate": 9.657149014114857e-05,
      "loss": 3.1769,
      "step": 78000
    },
    {
      "epoch": 8.395221181788829,
      "eval_accuracy": 0.3907098086720433,
      "eval_loss": 3.331216335296631,
      "eval_runtime": 185.9554,
      "eval_samples_per_second": 96.857,
      "eval_steps_per_second": 6.055,
      "step": 78000
    },
    {
      "epoch": 8.400602733828435,
      "grad_norm": 0.8376530408859253,
      "learning_rate": 9.624824911108716e-05,
      "loss": 3.1792,
      "step": 78050
    },
    {
      "epoch": 8.405984285868044,
      "grad_norm": 0.8592349886894226,
      "learning_rate": 9.592500808102574e-05,
      "loss": 3.1861,
      "step": 78100
    },
    {
      "epoch": 8.411365837907653,
      "grad_norm": 0.8750527501106262,
      "learning_rate": 9.560176705096433e-05,
      "loss": 3.1912,
      "step": 78150
    },
    {
      "epoch": 8.416747389947261,
      "grad_norm": 0.8658241629600525,
      "learning_rate": 9.52785260209029e-05,
      "loss": 3.1646,
      "step": 78200
    },
    {
      "epoch": 8.42212894198687,
      "grad_norm": 0.8505122065544128,
      "learning_rate": 9.49552849908415e-05,
      "loss": 3.2082,
      "step": 78250
    },
    {
      "epoch": 8.427510494026476,
      "grad_norm": 0.8592914342880249,
      "learning_rate": 9.463204396078007e-05,
      "loss": 3.2032,
      "step": 78300
    },
    {
      "epoch": 8.432892046066085,
      "grad_norm": 0.8552001714706421,
      "learning_rate": 9.430880293071866e-05,
      "loss": 3.1865,
      "step": 78350
    },
    {
      "epoch": 8.438273598105694,
      "grad_norm": 0.871465265750885,
      "learning_rate": 9.398556190065726e-05,
      "loss": 3.1948,
      "step": 78400
    },
    {
      "epoch": 8.443655150145302,
      "grad_norm": 0.8631279468536377,
      "learning_rate": 9.366232087059583e-05,
      "loss": 3.1718,
      "step": 78450
    },
    {
      "epoch": 8.44903670218491,
      "grad_norm": Infinity,
      "learning_rate": 9.334554466113565e-05,
      "loss": 3.1991,
      "step": 78500
    },
    {
      "epoch": 8.45441825422452,
      "grad_norm": 0.8677263855934143,
      "learning_rate": 9.302230363107424e-05,
      "loss": 3.1814,
      "step": 78550
    },
    {
      "epoch": 8.459799806264126,
      "grad_norm": 0.8924508690834045,
      "learning_rate": 9.269906260101281e-05,
      "loss": 3.1986,
      "step": 78600
    },
    {
      "epoch": 8.465181358303735,
      "grad_norm": 0.8771762847900391,
      "learning_rate": 9.23758215709514e-05,
      "loss": 3.1799,
      "step": 78650
    },
    {
      "epoch": 8.470562910343343,
      "grad_norm": 0.8444716930389404,
      "learning_rate": 9.205258054088998e-05,
      "loss": 3.1785,
      "step": 78700
    },
    {
      "epoch": 8.475944462382952,
      "grad_norm": 0.868273913860321,
      "learning_rate": 9.172933951082856e-05,
      "loss": 3.198,
      "step": 78750
    },
    {
      "epoch": 8.48132601442256,
      "grad_norm": 0.8695189356803894,
      "learning_rate": 9.140609848076715e-05,
      "loss": 3.1922,
      "step": 78800
    },
    {
      "epoch": 8.486707566462167,
      "grad_norm": 0.8993774652481079,
      "learning_rate": 9.108285745070574e-05,
      "loss": 3.1766,
      "step": 78850
    },
    {
      "epoch": 8.492089118501776,
      "grad_norm": 0.8349332213401794,
      "learning_rate": 9.075961642064432e-05,
      "loss": 3.174,
      "step": 78900
    },
    {
      "epoch": 8.497470670541384,
      "grad_norm": 0.8913485407829285,
      "learning_rate": 9.04363753905829e-05,
      "loss": 3.1852,
      "step": 78950
    },
    {
      "epoch": 8.502852222580993,
      "grad_norm": 0.8556334376335144,
      "learning_rate": 9.011313436052148e-05,
      "loss": 3.1864,
      "step": 79000
    },
    {
      "epoch": 8.502852222580993,
      "eval_accuracy": 0.3912557894333111,
      "eval_loss": 3.3263230323791504,
      "eval_runtime": 186.0787,
      "eval_samples_per_second": 96.792,
      "eval_steps_per_second": 6.051,
      "step": 79000
    },
    {
      "epoch": 8.508233774620601,
      "grad_norm": 0.8929404020309448,
      "learning_rate": 8.978989333046008e-05,
      "loss": 3.1835,
      "step": 79050
    },
    {
      "epoch": 8.513615326660208,
      "grad_norm": 0.8766851425170898,
      "learning_rate": 8.946665230039865e-05,
      "loss": 3.1829,
      "step": 79100
    },
    {
      "epoch": 8.518996878699816,
      "grad_norm": 0.9008069038391113,
      "learning_rate": 8.914341127033724e-05,
      "loss": 3.1751,
      "step": 79150
    },
    {
      "epoch": 8.524378430739425,
      "grad_norm": 0.894737958908081,
      "learning_rate": 8.882017024027582e-05,
      "loss": 3.1663,
      "step": 79200
    },
    {
      "epoch": 8.529759982779034,
      "grad_norm": 0.8513894081115723,
      "learning_rate": 8.84969292102144e-05,
      "loss": 3.1767,
      "step": 79250
    },
    {
      "epoch": 8.535141534818642,
      "grad_norm": 0.841002881526947,
      "learning_rate": 8.817368818015298e-05,
      "loss": 3.1837,
      "step": 79300
    },
    {
      "epoch": 8.54052308685825,
      "grad_norm": 0.8733139038085938,
      "learning_rate": 8.785044715009158e-05,
      "loss": 3.1879,
      "step": 79350
    },
    {
      "epoch": 8.545904638897857,
      "grad_norm": 0.8786826133728027,
      "learning_rate": 8.752720612003017e-05,
      "loss": 3.1961,
      "step": 79400
    },
    {
      "epoch": 8.551286190937466,
      "grad_norm": 0.8755902051925659,
      "learning_rate": 8.720396508996874e-05,
      "loss": 3.1946,
      "step": 79450
    },
    {
      "epoch": 8.556667742977075,
      "grad_norm": 0.8637151122093201,
      "learning_rate": 8.688072405990734e-05,
      "loss": 3.1743,
      "step": 79500
    },
    {
      "epoch": 8.562049295016683,
      "grad_norm": 0.8902600407600403,
      "learning_rate": 8.655748302984592e-05,
      "loss": 3.1889,
      "step": 79550
    },
    {
      "epoch": 8.567430847056292,
      "grad_norm": 0.8446593880653381,
      "learning_rate": 8.62342419997845e-05,
      "loss": 3.198,
      "step": 79600
    },
    {
      "epoch": 8.572812399095898,
      "grad_norm": 0.8507997393608093,
      "learning_rate": 8.591100096972308e-05,
      "loss": 3.1796,
      "step": 79650
    },
    {
      "epoch": 8.578193951135507,
      "grad_norm": 0.8497074842453003,
      "learning_rate": 8.558775993966167e-05,
      "loss": 3.1871,
      "step": 79700
    },
    {
      "epoch": 8.583575503175116,
      "grad_norm": 0.8598222732543945,
      "learning_rate": 8.526451890960024e-05,
      "loss": 3.1747,
      "step": 79750
    },
    {
      "epoch": 8.588957055214724,
      "grad_norm": 0.9223350882530212,
      "learning_rate": 8.494127787953884e-05,
      "loss": 3.1925,
      "step": 79800
    },
    {
      "epoch": 8.594338607254333,
      "grad_norm": 0.8660287261009216,
      "learning_rate": 8.461803684947742e-05,
      "loss": 3.1854,
      "step": 79850
    },
    {
      "epoch": 8.599720159293941,
      "grad_norm": 0.9429933428764343,
      "learning_rate": 8.429479581941601e-05,
      "loss": 3.1954,
      "step": 79900
    },
    {
      "epoch": 8.605101711333548,
      "grad_norm": 0.871501088142395,
      "learning_rate": 8.397155478935458e-05,
      "loss": 3.1731,
      "step": 79950
    },
    {
      "epoch": 8.610483263373157,
      "grad_norm": 0.8985019326210022,
      "learning_rate": 8.364831375929317e-05,
      "loss": 3.1994,
      "step": 80000
    },
    {
      "epoch": 8.610483263373157,
      "eval_accuracy": 0.3915263351239691,
      "eval_loss": 3.3233799934387207,
      "eval_runtime": 186.2958,
      "eval_samples_per_second": 96.68,
      "eval_steps_per_second": 6.044,
      "step": 80000
    },
    {
      "epoch": 8.615864815412765,
      "grad_norm": 0.8793563842773438,
      "learning_rate": 8.332507272923177e-05,
      "loss": 3.1816,
      "step": 80050
    },
    {
      "epoch": 8.621246367452374,
      "grad_norm": 0.862615168094635,
      "learning_rate": 8.300183169917034e-05,
      "loss": 3.1757,
      "step": 80100
    },
    {
      "epoch": 8.626627919491982,
      "grad_norm": 0.8612651228904724,
      "learning_rate": 8.267859066910892e-05,
      "loss": 3.1875,
      "step": 80150
    },
    {
      "epoch": 8.632009471531589,
      "grad_norm": 0.836385190486908,
      "learning_rate": 8.235534963904751e-05,
      "loss": 3.1826,
      "step": 80200
    },
    {
      "epoch": 8.637391023571197,
      "grad_norm": 0.9010944962501526,
      "learning_rate": 8.203210860898608e-05,
      "loss": 3.181,
      "step": 80250
    },
    {
      "epoch": 8.642772575610806,
      "grad_norm": 0.8520129323005676,
      "learning_rate": 8.170886757892467e-05,
      "loss": 3.1799,
      "step": 80300
    },
    {
      "epoch": 8.648154127650415,
      "grad_norm": 0.8845226168632507,
      "learning_rate": 8.138562654886327e-05,
      "loss": 3.1876,
      "step": 80350
    },
    {
      "epoch": 8.653535679690023,
      "grad_norm": 0.89725261926651,
      "learning_rate": 8.106238551880185e-05,
      "loss": 3.1769,
      "step": 80400
    },
    {
      "epoch": 8.658917231729632,
      "grad_norm": 0.8486438989639282,
      "learning_rate": 8.073914448874043e-05,
      "loss": 3.1888,
      "step": 80450
    },
    {
      "epoch": 8.664298783769238,
      "grad_norm": 0.862333357334137,
      "learning_rate": 8.041590345867901e-05,
      "loss": 3.1841,
      "step": 80500
    },
    {
      "epoch": 8.669680335808847,
      "grad_norm": 0.924530565738678,
      "learning_rate": 8.00926624286176e-05,
      "loss": 3.1827,
      "step": 80550
    },
    {
      "epoch": 8.675061887848456,
      "grad_norm": 0.8581650853157043,
      "learning_rate": 7.976942139855617e-05,
      "loss": 3.182,
      "step": 80600
    },
    {
      "epoch": 8.680443439888064,
      "grad_norm": 0.9253098964691162,
      "learning_rate": 7.944618036849477e-05,
      "loss": 3.1814,
      "step": 80650
    },
    {
      "epoch": 8.685824991927673,
      "grad_norm": 0.8959960341453552,
      "learning_rate": 7.912293933843335e-05,
      "loss": 3.1734,
      "step": 80700
    },
    {
      "epoch": 8.69120654396728,
      "grad_norm": 0.8427691459655762,
      "learning_rate": 7.879969830837193e-05,
      "loss": 3.1786,
      "step": 80750
    },
    {
      "epoch": 8.696588096006888,
      "grad_norm": 0.8727951645851135,
      "learning_rate": 7.847645727831051e-05,
      "loss": 3.1852,
      "step": 80800
    },
    {
      "epoch": 8.701969648046497,
      "grad_norm": 0.902176558971405,
      "learning_rate": 7.815321624824911e-05,
      "loss": 3.1961,
      "step": 80850
    },
    {
      "epoch": 8.707351200086105,
      "grad_norm": 0.8448343276977539,
      "learning_rate": 7.78299752181877e-05,
      "loss": 3.1878,
      "step": 80900
    },
    {
      "epoch": 8.712732752125714,
      "grad_norm": 0.9063341021537781,
      "learning_rate": 7.750673418812627e-05,
      "loss": 3.1947,
      "step": 80950
    },
    {
      "epoch": 8.718114304165322,
      "grad_norm": 0.8648242354393005,
      "learning_rate": 7.718349315806486e-05,
      "loss": 3.1704,
      "step": 81000
    },
    {
      "epoch": 8.718114304165322,
      "eval_accuracy": 0.3918330622262694,
      "eval_loss": 3.3205130100250244,
      "eval_runtime": 186.0558,
      "eval_samples_per_second": 96.804,
      "eval_steps_per_second": 6.052,
      "step": 81000
    },
    {
      "epoch": 8.723495856204929,
      "grad_norm": 0.9277663826942444,
      "learning_rate": 7.686025212800344e-05,
      "loss": 3.1923,
      "step": 81050
    },
    {
      "epoch": 8.728877408244538,
      "grad_norm": 0.8598880171775818,
      "learning_rate": 7.653701109794203e-05,
      "loss": 3.1932,
      "step": 81100
    },
    {
      "epoch": 8.734258960284146,
      "grad_norm": 0.8273268938064575,
      "learning_rate": 7.621377006788061e-05,
      "loss": 3.1749,
      "step": 81150
    },
    {
      "epoch": 8.739640512323755,
      "grad_norm": 0.8782626986503601,
      "learning_rate": 7.58905290378192e-05,
      "loss": 3.1914,
      "step": 81200
    },
    {
      "epoch": 8.745022064363363,
      "grad_norm": 0.8765382170677185,
      "learning_rate": 7.556728800775777e-05,
      "loss": 3.1895,
      "step": 81250
    },
    {
      "epoch": 8.75040361640297,
      "grad_norm": 0.9347512722015381,
      "learning_rate": 7.524404697769636e-05,
      "loss": 3.1706,
      "step": 81300
    },
    {
      "epoch": 8.755785168442578,
      "grad_norm": 0.8871368169784546,
      "learning_rate": 7.492080594763495e-05,
      "loss": 3.1739,
      "step": 81350
    },
    {
      "epoch": 8.761166720482187,
      "grad_norm": 0.899080216884613,
      "learning_rate": 7.459756491757353e-05,
      "loss": 3.1804,
      "step": 81400
    },
    {
      "epoch": 8.766548272521796,
      "grad_norm": 0.8751214742660522,
      "learning_rate": 7.427432388751212e-05,
      "loss": 3.1639,
      "step": 81450
    },
    {
      "epoch": 8.771929824561404,
      "grad_norm": 0.8976983428001404,
      "learning_rate": 7.39510828574507e-05,
      "loss": 3.177,
      "step": 81500
    },
    {
      "epoch": 8.777311376601011,
      "grad_norm": 0.8598191738128662,
      "learning_rate": 7.362784182738928e-05,
      "loss": 3.1731,
      "step": 81550
    },
    {
      "epoch": 8.78269292864062,
      "grad_norm": 0.8599877953529358,
      "learning_rate": 7.331106561792909e-05,
      "loss": 3.1816,
      "step": 81600
    },
    {
      "epoch": 8.788074480680228,
      "grad_norm": 0.860245406627655,
      "learning_rate": 7.298782458786768e-05,
      "loss": 3.189,
      "step": 81650
    },
    {
      "epoch": 8.793456032719837,
      "grad_norm": 0.8982162475585938,
      "learning_rate": 7.266458355780627e-05,
      "loss": 3.1702,
      "step": 81700
    },
    {
      "epoch": 8.798837584759445,
      "grad_norm": 0.8735456466674805,
      "learning_rate": 7.234134252774485e-05,
      "loss": 3.1861,
      "step": 81750
    },
    {
      "epoch": 8.804219136799054,
      "grad_norm": 0.8734040856361389,
      "learning_rate": 7.201810149768343e-05,
      "loss": 3.1728,
      "step": 81800
    },
    {
      "epoch": 8.80960068883866,
      "grad_norm": 0.9073535203933716,
      "learning_rate": 7.169486046762201e-05,
      "loss": 3.1964,
      "step": 81850
    },
    {
      "epoch": 8.814982240878269,
      "grad_norm": 0.9163999557495117,
      "learning_rate": 7.13716194375606e-05,
      "loss": 3.1847,
      "step": 81900
    },
    {
      "epoch": 8.820363792917878,
      "grad_norm": 0.8927904963493347,
      "learning_rate": 7.104837840749918e-05,
      "loss": 3.1896,
      "step": 81950
    },
    {
      "epoch": 8.825745344957486,
      "grad_norm": 0.8612118363380432,
      "learning_rate": 7.072513737743778e-05,
      "loss": 3.1838,
      "step": 82000
    },
    {
      "epoch": 8.825745344957486,
      "eval_accuracy": 0.3921728198064653,
      "eval_loss": 3.317943811416626,
      "eval_runtime": 186.0357,
      "eval_samples_per_second": 96.815,
      "eval_steps_per_second": 6.053,
      "step": 82000
    },
    {
      "epoch": 8.831126896997095,
      "grad_norm": 0.8504111766815186,
      "learning_rate": 7.040189634737636e-05,
      "loss": 3.1879,
      "step": 82050
    },
    {
      "epoch": 8.836508449036701,
      "grad_norm": 0.8638087511062622,
      "learning_rate": 7.007865531731494e-05,
      "loss": 3.1773,
      "step": 82100
    },
    {
      "epoch": 8.84189000107631,
      "grad_norm": 0.9147766828536987,
      "learning_rate": 6.975541428725352e-05,
      "loss": 3.1801,
      "step": 82150
    },
    {
      "epoch": 8.847271553115919,
      "grad_norm": 0.9087457060813904,
      "learning_rate": 6.94321732571921e-05,
      "loss": 3.1794,
      "step": 82200
    },
    {
      "epoch": 8.852653105155527,
      "grad_norm": 0.8832929730415344,
      "learning_rate": 6.91089322271307e-05,
      "loss": 3.1903,
      "step": 82250
    },
    {
      "epoch": 8.858034657195136,
      "grad_norm": 0.907741904258728,
      "learning_rate": 6.878569119706928e-05,
      "loss": 3.169,
      "step": 82300
    },
    {
      "epoch": 8.863416209234742,
      "grad_norm": 0.8427000641822815,
      "learning_rate": 6.846245016700786e-05,
      "loss": 3.1951,
      "step": 82350
    },
    {
      "epoch": 8.868797761274351,
      "grad_norm": 0.907539427280426,
      "learning_rate": 6.813920913694644e-05,
      "loss": 3.1731,
      "step": 82400
    },
    {
      "epoch": 8.87417931331396,
      "grad_norm": 0.8782632350921631,
      "learning_rate": 6.781596810688502e-05,
      "loss": 3.1887,
      "step": 82450
    },
    {
      "epoch": 8.879560865353568,
      "grad_norm": 0.9227405786514282,
      "learning_rate": 6.749272707682362e-05,
      "loss": 3.1802,
      "step": 82500
    },
    {
      "epoch": 8.884942417393177,
      "grad_norm": 0.9170193672180176,
      "learning_rate": 6.71694860467622e-05,
      "loss": 3.1878,
      "step": 82550
    },
    {
      "epoch": 8.890323969432785,
      "grad_norm": 0.8512266874313354,
      "learning_rate": 6.684624501670078e-05,
      "loss": 3.1919,
      "step": 82600
    },
    {
      "epoch": 8.895705521472392,
      "grad_norm": 0.8378891944885254,
      "learning_rate": 6.652300398663936e-05,
      "loss": 3.169,
      "step": 82650
    },
    {
      "epoch": 8.901087073512,
      "grad_norm": 0.8333907127380371,
      "learning_rate": 6.619976295657794e-05,
      "loss": 3.1828,
      "step": 82700
    },
    {
      "epoch": 8.906468625551609,
      "grad_norm": 0.9424512386322021,
      "learning_rate": 6.587652192651654e-05,
      "loss": 3.1782,
      "step": 82750
    },
    {
      "epoch": 8.911850177591218,
      "grad_norm": 0.892484724521637,
      "learning_rate": 6.555328089645512e-05,
      "loss": 3.1998,
      "step": 82800
    },
    {
      "epoch": 8.917231729630826,
      "grad_norm": 0.8877044916152954,
      "learning_rate": 6.52300398663937e-05,
      "loss": 3.1686,
      "step": 82850
    },
    {
      "epoch": 8.922613281670433,
      "grad_norm": 0.9124472737312317,
      "learning_rate": 6.490679883633229e-05,
      "loss": 3.1953,
      "step": 82900
    },
    {
      "epoch": 8.927994833710041,
      "grad_norm": 0.9205985069274902,
      "learning_rate": 6.458355780627087e-05,
      "loss": 3.1884,
      "step": 82950
    },
    {
      "epoch": 8.93337638574965,
      "grad_norm": 0.833613395690918,
      "learning_rate": 6.426031677620946e-05,
      "loss": 3.1804,
      "step": 83000
    },
    {
      "epoch": 8.93337638574965,
      "eval_accuracy": 0.3927292312449633,
      "eval_loss": 3.314166307449341,
      "eval_runtime": 185.8708,
      "eval_samples_per_second": 96.901,
      "eval_steps_per_second": 6.058,
      "step": 83000
    },
    {
      "epoch": 8.938757937789259,
      "grad_norm": 0.8308794498443604,
      "learning_rate": 6.393707574614804e-05,
      "loss": 3.1817,
      "step": 83050
    },
    {
      "epoch": 8.944139489828867,
      "grad_norm": 0.8921133279800415,
      "learning_rate": 6.361383471608662e-05,
      "loss": 3.1863,
      "step": 83100
    },
    {
      "epoch": 8.949521041868476,
      "grad_norm": 0.8807438015937805,
      "learning_rate": 6.329059368602521e-05,
      "loss": 3.1715,
      "step": 83150
    },
    {
      "epoch": 8.954902593908082,
      "grad_norm": 0.9003087878227234,
      "learning_rate": 6.29673526559638e-05,
      "loss": 3.1672,
      "step": 83200
    },
    {
      "epoch": 8.960284145947691,
      "grad_norm": 0.8956141471862793,
      "learning_rate": 6.264411162590237e-05,
      "loss": 3.1869,
      "step": 83250
    },
    {
      "epoch": 8.9656656979873,
      "grad_norm": 0.9133161902427673,
      "learning_rate": 6.232087059584096e-05,
      "loss": 3.1758,
      "step": 83300
    },
    {
      "epoch": 8.971047250026908,
      "grad_norm": 0.8655759692192078,
      "learning_rate": 6.199762956577954e-05,
      "loss": 3.1883,
      "step": 83350
    },
    {
      "epoch": 8.976428802066517,
      "grad_norm": 0.9069491028785706,
      "learning_rate": 6.167438853571813e-05,
      "loss": 3.1987,
      "step": 83400
    },
    {
      "epoch": 8.981810354106123,
      "grad_norm": 0.8716632127761841,
      "learning_rate": 6.135114750565671e-05,
      "loss": 3.1901,
      "step": 83450
    },
    {
      "epoch": 8.987191906145732,
      "grad_norm": 0.8323891758918762,
      "learning_rate": 6.10279064755953e-05,
      "loss": 3.1767,
      "step": 83500
    },
    {
      "epoch": 8.99257345818534,
      "grad_norm": 0.9302986860275269,
      "learning_rate": 6.070466544553388e-05,
      "loss": 3.1941,
      "step": 83550
    },
    {
      "epoch": 8.997955010224949,
      "grad_norm": 0.8649445176124573,
      "learning_rate": 6.038142441547246e-05,
      "loss": 3.1942,
      "step": 83600
    },
    {
      "epoch": 9.003336562264558,
      "grad_norm": 0.8623948097229004,
      "learning_rate": 6.005818338541105e-05,
      "loss": 3.1424,
      "step": 83650
    },
    {
      "epoch": 9.008718114304166,
      "grad_norm": 0.861164927482605,
      "learning_rate": 5.973494235534963e-05,
      "loss": 3.1284,
      "step": 83700
    },
    {
      "epoch": 9.014099666343773,
      "grad_norm": 0.9083729386329651,
      "learning_rate": 5.941170132528822e-05,
      "loss": 3.1239,
      "step": 83750
    },
    {
      "epoch": 9.019481218383381,
      "grad_norm": 0.8898703455924988,
      "learning_rate": 5.90884602952268e-05,
      "loss": 3.1315,
      "step": 83800
    },
    {
      "epoch": 9.02486277042299,
      "grad_norm": 0.8728197813034058,
      "learning_rate": 5.876521926516538e-05,
      "loss": 3.1359,
      "step": 83850
    },
    {
      "epoch": 9.030244322462599,
      "grad_norm": 0.8764964938163757,
      "learning_rate": 5.844197823510397e-05,
      "loss": 3.1273,
      "step": 83900
    },
    {
      "epoch": 9.035625874502207,
      "grad_norm": 0.9294741749763489,
      "learning_rate": 5.811873720504255e-05,
      "loss": 3.1106,
      "step": 83950
    },
    {
      "epoch": 9.041007426541814,
      "grad_norm": 0.8466495275497437,
      "learning_rate": 5.7795496174981145e-05,
      "loss": 3.1161,
      "step": 84000
    },
    {
      "epoch": 9.041007426541814,
      "eval_accuracy": 0.39257603067314484,
      "eval_loss": 3.316744089126587,
      "eval_runtime": 185.8706,
      "eval_samples_per_second": 96.901,
      "eval_steps_per_second": 6.058,
      "step": 84000
    },
    {
      "epoch": 9.046388978581422,
      "grad_norm": 0.8632698059082031,
      "learning_rate": 5.7472255144919726e-05,
      "loss": 3.1015,
      "step": 84050
    },
    {
      "epoch": 9.051770530621031,
      "grad_norm": 0.8646224141120911,
      "learning_rate": 5.714901411485831e-05,
      "loss": 3.1159,
      "step": 84100
    },
    {
      "epoch": 9.05715208266064,
      "grad_norm": 0.8730106949806213,
      "learning_rate": 5.6825773084796895e-05,
      "loss": 3.1141,
      "step": 84150
    },
    {
      "epoch": 9.062533634700248,
      "grad_norm": 0.877289891242981,
      "learning_rate": 5.6502532054735476e-05,
      "loss": 3.1153,
      "step": 84200
    },
    {
      "epoch": 9.067915186739857,
      "grad_norm": 0.845227062702179,
      "learning_rate": 5.618575584527529e-05,
      "loss": 3.1271,
      "step": 84250
    },
    {
      "epoch": 9.073296738779463,
      "grad_norm": 0.8519824147224426,
      "learning_rate": 5.586251481521388e-05,
      "loss": 3.1326,
      "step": 84300
    },
    {
      "epoch": 9.078678290819072,
      "grad_norm": 0.9093472361564636,
      "learning_rate": 5.553927378515246e-05,
      "loss": 3.1393,
      "step": 84350
    },
    {
      "epoch": 9.08405984285868,
      "grad_norm": 0.9066972732543945,
      "learning_rate": 5.521603275509104e-05,
      "loss": 3.1267,
      "step": 84400
    },
    {
      "epoch": 9.089441394898289,
      "grad_norm": 0.9042626619338989,
      "learning_rate": 5.489279172502963e-05,
      "loss": 3.1196,
      "step": 84450
    },
    {
      "epoch": 9.094822946937898,
      "grad_norm": 0.8442274332046509,
      "learning_rate": 5.456955069496821e-05,
      "loss": 3.1287,
      "step": 84500
    },
    {
      "epoch": 9.100204498977504,
      "grad_norm": 0.8909568786621094,
      "learning_rate": 5.42463096649068e-05,
      "loss": 3.1172,
      "step": 84550
    },
    {
      "epoch": 9.105586051017113,
      "grad_norm": 0.918244481086731,
      "learning_rate": 5.392306863484538e-05,
      "loss": 3.1315,
      "step": 84600
    },
    {
      "epoch": 9.110967603056721,
      "grad_norm": 0.9112852811813354,
      "learning_rate": 5.359982760478396e-05,
      "loss": 3.135,
      "step": 84650
    },
    {
      "epoch": 9.11634915509633,
      "grad_norm": 0.8774257898330688,
      "learning_rate": 5.327658657472255e-05,
      "loss": 3.1083,
      "step": 84700
    },
    {
      "epoch": 9.121730707135939,
      "grad_norm": 0.8457713723182678,
      "learning_rate": 5.295334554466113e-05,
      "loss": 3.1202,
      "step": 84750
    },
    {
      "epoch": 9.127112259175545,
      "grad_norm": 0.9048674702644348,
      "learning_rate": 5.2630104514599716e-05,
      "loss": 3.117,
      "step": 84800
    },
    {
      "epoch": 9.132493811215154,
      "grad_norm": 0.8272247314453125,
      "learning_rate": 5.23068634845383e-05,
      "loss": 3.1249,
      "step": 84850
    },
    {
      "epoch": 9.137875363254762,
      "grad_norm": 0.8974869847297668,
      "learning_rate": 5.198362245447688e-05,
      "loss": 3.1182,
      "step": 84900
    },
    {
      "epoch": 9.143256915294371,
      "grad_norm": 0.899229884147644,
      "learning_rate": 5.166038142441547e-05,
      "loss": 3.1263,
      "step": 84950
    },
    {
      "epoch": 9.14863846733398,
      "grad_norm": 0.8743585348129272,
      "learning_rate": 5.1337140394354054e-05,
      "loss": 3.1349,
      "step": 85000
    },
    {
      "epoch": 9.14863846733398,
      "eval_accuracy": 0.392714128493557,
      "eval_loss": 3.3160452842712402,
      "eval_runtime": 186.2474,
      "eval_samples_per_second": 96.705,
      "eval_steps_per_second": 6.046,
      "step": 85000
    },
    {
      "epoch": 9.154020019373588,
      "grad_norm": 0.8582658171653748,
      "learning_rate": 5.101389936429264e-05,
      "loss": 3.123,
      "step": 85050
    },
    {
      "epoch": 9.159401571413195,
      "grad_norm": 0.8921294808387756,
      "learning_rate": 5.069065833423122e-05,
      "loss": 3.1523,
      "step": 85100
    },
    {
      "epoch": 9.164783123452803,
      "grad_norm": 0.8785001635551453,
      "learning_rate": 5.0367417304169804e-05,
      "loss": 3.1419,
      "step": 85150
    },
    {
      "epoch": 9.170164675492412,
      "grad_norm": 0.8708383440971375,
      "learning_rate": 5.004417627410839e-05,
      "loss": 3.1402,
      "step": 85200
    },
    {
      "epoch": 9.17554622753202,
      "grad_norm": 0.9257194995880127,
      "learning_rate": 4.972093524404697e-05,
      "loss": 3.1354,
      "step": 85250
    },
    {
      "epoch": 9.180927779571629,
      "grad_norm": 0.8972818851470947,
      "learning_rate": 4.939769421398556e-05,
      "loss": 3.1334,
      "step": 85300
    },
    {
      "epoch": 9.186309331611236,
      "grad_norm": 0.9481712579727173,
      "learning_rate": 4.907445318392414e-05,
      "loss": 3.1342,
      "step": 85350
    },
    {
      "epoch": 9.191690883650844,
      "grad_norm": 0.9163192510604858,
      "learning_rate": 4.875121215386272e-05,
      "loss": 3.1321,
      "step": 85400
    },
    {
      "epoch": 9.197072435690453,
      "grad_norm": 0.9208027124404907,
      "learning_rate": 4.842797112380131e-05,
      "loss": 3.1394,
      "step": 85450
    },
    {
      "epoch": 9.202453987730062,
      "grad_norm": 0.9175823330879211,
      "learning_rate": 4.810473009373989e-05,
      "loss": 3.1419,
      "step": 85500
    },
    {
      "epoch": 9.20783553976967,
      "grad_norm": 0.8836353421211243,
      "learning_rate": 4.778148906367848e-05,
      "loss": 3.1183,
      "step": 85550
    },
    {
      "epoch": 9.213217091809279,
      "grad_norm": 0.8851467370986938,
      "learning_rate": 4.745824803361706e-05,
      "loss": 3.1372,
      "step": 85600
    },
    {
      "epoch": 9.218598643848885,
      "grad_norm": 0.8901478052139282,
      "learning_rate": 4.713500700355564e-05,
      "loss": 3.1489,
      "step": 85650
    },
    {
      "epoch": 9.223980195888494,
      "grad_norm": 0.8572776913642883,
      "learning_rate": 4.681176597349424e-05,
      "loss": 3.1331,
      "step": 85700
    },
    {
      "epoch": 9.229361747928102,
      "grad_norm": 0.8579416275024414,
      "learning_rate": 4.648852494343282e-05,
      "loss": 3.1219,
      "step": 85750
    },
    {
      "epoch": 9.234743299967711,
      "grad_norm": 0.8754627108573914,
      "learning_rate": 4.6165283913371406e-05,
      "loss": 3.1061,
      "step": 85800
    },
    {
      "epoch": 9.24012485200732,
      "grad_norm": 0.8845460414886475,
      "learning_rate": 4.584204288330999e-05,
      "loss": 3.1334,
      "step": 85850
    },
    {
      "epoch": 9.245506404046926,
      "grad_norm": 0.8698077201843262,
      "learning_rate": 4.551880185324857e-05,
      "loss": 3.1267,
      "step": 85900
    },
    {
      "epoch": 9.250887956086535,
      "grad_norm": 0.9194062948226929,
      "learning_rate": 4.5195560823187156e-05,
      "loss": 3.1345,
      "step": 85950
    },
    {
      "epoch": 9.256269508126143,
      "grad_norm": 0.9170260429382324,
      "learning_rate": 4.487231979312574e-05,
      "loss": 3.1323,
      "step": 86000
    },
    {
      "epoch": 9.256269508126143,
      "eval_accuracy": 0.39320284918294657,
      "eval_loss": 3.3133742809295654,
      "eval_runtime": 185.8289,
      "eval_samples_per_second": 96.923,
      "eval_steps_per_second": 6.059,
      "step": 86000
    },
    {
      "epoch": 9.261651060165752,
      "grad_norm": 0.877294659614563,
      "learning_rate": 4.4549078763064325e-05,
      "loss": 3.1306,
      "step": 86050
    },
    {
      "epoch": 9.26703261220536,
      "grad_norm": 0.8490196466445923,
      "learning_rate": 4.4225837733002906e-05,
      "loss": 3.1278,
      "step": 86100
    },
    {
      "epoch": 9.272414164244967,
      "grad_norm": 0.9045352339744568,
      "learning_rate": 4.390259670294149e-05,
      "loss": 3.1458,
      "step": 86150
    },
    {
      "epoch": 9.277795716284576,
      "grad_norm": 0.8873867988586426,
      "learning_rate": 4.3579355672880075e-05,
      "loss": 3.127,
      "step": 86200
    },
    {
      "epoch": 9.283177268324184,
      "grad_norm": 0.8742805123329163,
      "learning_rate": 4.3256114642818656e-05,
      "loss": 3.1311,
      "step": 86250
    },
    {
      "epoch": 9.288558820363793,
      "grad_norm": 0.9117759466171265,
      "learning_rate": 4.2932873612757244e-05,
      "loss": 3.1387,
      "step": 86300
    },
    {
      "epoch": 9.293940372403402,
      "grad_norm": 0.8592243194580078,
      "learning_rate": 4.2609632582695825e-05,
      "loss": 3.1453,
      "step": 86350
    },
    {
      "epoch": 9.29932192444301,
      "grad_norm": 0.8740860819816589,
      "learning_rate": 4.2286391552634406e-05,
      "loss": 3.1256,
      "step": 86400
    },
    {
      "epoch": 9.304703476482617,
      "grad_norm": 0.8837562799453735,
      "learning_rate": 4.1963150522572994e-05,
      "loss": 3.1323,
      "step": 86450
    },
    {
      "epoch": 9.310085028522225,
      "grad_norm": 0.9078149199485779,
      "learning_rate": 4.1639909492511575e-05,
      "loss": 3.1482,
      "step": 86500
    },
    {
      "epoch": 9.315466580561834,
      "grad_norm": 0.8811712265014648,
      "learning_rate": 4.131666846245017e-05,
      "loss": 3.156,
      "step": 86550
    },
    {
      "epoch": 9.320848132601443,
      "grad_norm": 0.9024206399917603,
      "learning_rate": 4.099342743238875e-05,
      "loss": 3.1342,
      "step": 86600
    },
    {
      "epoch": 9.326229684641051,
      "grad_norm": 0.8785542249679565,
      "learning_rate": 4.067018640232733e-05,
      "loss": 3.1283,
      "step": 86650
    },
    {
      "epoch": 9.331611236680658,
      "grad_norm": 0.8814924955368042,
      "learning_rate": 4.034694537226592e-05,
      "loss": 3.1247,
      "step": 86700
    },
    {
      "epoch": 9.336992788720266,
      "grad_norm": 0.8629287481307983,
      "learning_rate": 4.00237043422045e-05,
      "loss": 3.138,
      "step": 86750
    },
    {
      "epoch": 9.342374340759875,
      "grad_norm": 0.8598123788833618,
      "learning_rate": 3.9706928132744314e-05,
      "loss": 3.1286,
      "step": 86800
    },
    {
      "epoch": 9.347755892799483,
      "grad_norm": 0.8831964135169983,
      "learning_rate": 3.93836871026829e-05,
      "loss": 3.1235,
      "step": 86850
    },
    {
      "epoch": 9.353137444839092,
      "grad_norm": 0.9185409545898438,
      "learning_rate": 3.906044607262148e-05,
      "loss": 3.1405,
      "step": 86900
    },
    {
      "epoch": 9.3585189968787,
      "grad_norm": 0.9169118404388428,
      "learning_rate": 3.8737205042560064e-05,
      "loss": 3.1314,
      "step": 86950
    },
    {
      "epoch": 9.363900548918307,
      "grad_norm": 0.8944032192230225,
      "learning_rate": 3.841396401249865e-05,
      "loss": 3.1453,
      "step": 87000
    },
    {
      "epoch": 9.363900548918307,
      "eval_accuracy": 0.39328759843544187,
      "eval_loss": 3.3116393089294434,
      "eval_runtime": 186.1232,
      "eval_samples_per_second": 96.769,
      "eval_steps_per_second": 6.05,
      "step": 87000
    },
    {
      "epoch": 9.369282100957916,
      "grad_norm": 0.8667670488357544,
      "learning_rate": 3.809072298243723e-05,
      "loss": 3.1335,
      "step": 87050
    },
    {
      "epoch": 9.374663652997524,
      "grad_norm": 0.8930760025978088,
      "learning_rate": 3.776748195237582e-05,
      "loss": 3.1255,
      "step": 87100
    },
    {
      "epoch": 9.380045205037133,
      "grad_norm": 0.9079456925392151,
      "learning_rate": 3.74442409223144e-05,
      "loss": 3.1104,
      "step": 87150
    },
    {
      "epoch": 9.385426757076742,
      "grad_norm": 0.8695078492164612,
      "learning_rate": 3.712099989225299e-05,
      "loss": 3.1333,
      "step": 87200
    },
    {
      "epoch": 9.390808309116348,
      "grad_norm": 0.9010514616966248,
      "learning_rate": 3.679775886219157e-05,
      "loss": 3.1228,
      "step": 87250
    },
    {
      "epoch": 9.396189861155957,
      "grad_norm": 0.9300258755683899,
      "learning_rate": 3.647451783213015e-05,
      "loss": 3.1258,
      "step": 87300
    },
    {
      "epoch": 9.401571413195565,
      "grad_norm": 0.9302869439125061,
      "learning_rate": 3.615127680206874e-05,
      "loss": 3.1423,
      "step": 87350
    },
    {
      "epoch": 9.406952965235174,
      "grad_norm": 0.8682495951652527,
      "learning_rate": 3.582803577200732e-05,
      "loss": 3.1345,
      "step": 87400
    },
    {
      "epoch": 9.412334517274783,
      "grad_norm": 0.8653038144111633,
      "learning_rate": 3.550479474194591e-05,
      "loss": 3.1227,
      "step": 87450
    },
    {
      "epoch": 9.417716069314391,
      "grad_norm": 0.8960552215576172,
      "learning_rate": 3.518155371188449e-05,
      "loss": 3.1305,
      "step": 87500
    },
    {
      "epoch": 9.423097621353998,
      "grad_norm": 0.857551097869873,
      "learning_rate": 3.485831268182308e-05,
      "loss": 3.1234,
      "step": 87550
    },
    {
      "epoch": 9.428479173393606,
      "grad_norm": 0.8866757154464722,
      "learning_rate": 3.453507165176166e-05,
      "loss": 3.1317,
      "step": 87600
    },
    {
      "epoch": 9.433860725433215,
      "grad_norm": 0.8737263083457947,
      "learning_rate": 3.421183062170025e-05,
      "loss": 3.1433,
      "step": 87650
    },
    {
      "epoch": 9.439242277472824,
      "grad_norm": 0.9270786046981812,
      "learning_rate": 3.388858959163883e-05,
      "loss": 3.1436,
      "step": 87700
    },
    {
      "epoch": 9.444623829512432,
      "grad_norm": 0.9384424686431885,
      "learning_rate": 3.3565348561577416e-05,
      "loss": 3.1307,
      "step": 87750
    },
    {
      "epoch": 9.450005381552039,
      "grad_norm": 0.891512930393219,
      "learning_rate": 3.3242107531516e-05,
      "loss": 3.1352,
      "step": 87800
    },
    {
      "epoch": 9.455386933591647,
      "grad_norm": 0.9957001209259033,
      "learning_rate": 3.291886650145458e-05,
      "loss": 3.1266,
      "step": 87850
    },
    {
      "epoch": 9.460768485631256,
      "grad_norm": 0.8985393047332764,
      "learning_rate": 3.2595625471393166e-05,
      "loss": 3.1393,
      "step": 87900
    },
    {
      "epoch": 9.466150037670864,
      "grad_norm": 0.88565593957901,
      "learning_rate": 3.2272384441331754e-05,
      "loss": 3.1288,
      "step": 87950
    },
    {
      "epoch": 9.471531589710473,
      "grad_norm": 0.8928632140159607,
      "learning_rate": 3.1949143411270335e-05,
      "loss": 3.1512,
      "step": 88000
    },
    {
      "epoch": 9.471531589710473,
      "eval_accuracy": 0.3936411549323902,
      "eval_loss": 3.3094215393066406,
      "eval_runtime": 186.4044,
      "eval_samples_per_second": 96.623,
      "eval_steps_per_second": 6.041,
      "step": 88000
    },
    {
      "epoch": 9.476913141750082,
      "grad_norm": 0.8847030997276306,
      "learning_rate": 3.1625902381208916e-05,
      "loss": 3.1228,
      "step": 88050
    },
    {
      "epoch": 9.482294693789688,
      "grad_norm": 0.8910912275314331,
      "learning_rate": 3.1302661351147504e-05,
      "loss": 3.1299,
      "step": 88100
    },
    {
      "epoch": 9.487676245829297,
      "grad_norm": 0.8387819528579712,
      "learning_rate": 3.0979420321086085e-05,
      "loss": 3.1558,
      "step": 88150
    },
    {
      "epoch": 9.493057797868905,
      "grad_norm": 0.8638456463813782,
      "learning_rate": 3.065617929102467e-05,
      "loss": 3.1369,
      "step": 88200
    },
    {
      "epoch": 9.498439349908514,
      "grad_norm": 0.9092167615890503,
      "learning_rate": 3.0332938260963258e-05,
      "loss": 3.1237,
      "step": 88250
    },
    {
      "epoch": 9.503820901948123,
      "grad_norm": 0.9139054417610168,
      "learning_rate": 3.000969723090184e-05,
      "loss": 3.1247,
      "step": 88300
    },
    {
      "epoch": 9.50920245398773,
      "grad_norm": 0.9042612314224243,
      "learning_rate": 2.9686456200840423e-05,
      "loss": 3.1222,
      "step": 88350
    },
    {
      "epoch": 9.514584006027338,
      "grad_norm": 0.9081956744194031,
      "learning_rate": 2.9363215170779008e-05,
      "loss": 3.1402,
      "step": 88400
    },
    {
      "epoch": 9.519965558066946,
      "grad_norm": 0.9061185717582703,
      "learning_rate": 2.9039974140717592e-05,
      "loss": 3.1479,
      "step": 88450
    },
    {
      "epoch": 9.525347110106555,
      "grad_norm": 0.8798350095748901,
      "learning_rate": 2.871673311065618e-05,
      "loss": 3.1159,
      "step": 88500
    },
    {
      "epoch": 9.530728662146164,
      "grad_norm": 0.9062698483467102,
      "learning_rate": 2.839349208059476e-05,
      "loss": 3.1403,
      "step": 88550
    },
    {
      "epoch": 9.536110214185772,
      "grad_norm": 0.9080466032028198,
      "learning_rate": 2.8070251050533346e-05,
      "loss": 3.1246,
      "step": 88600
    },
    {
      "epoch": 9.541491766225379,
      "grad_norm": 0.913325309753418,
      "learning_rate": 2.774701002047193e-05,
      "loss": 3.1278,
      "step": 88650
    },
    {
      "epoch": 9.546873318264987,
      "grad_norm": 0.9139939546585083,
      "learning_rate": 2.7423768990410515e-05,
      "loss": 3.1225,
      "step": 88700
    },
    {
      "epoch": 9.552254870304596,
      "grad_norm": 0.9353432655334473,
      "learning_rate": 2.71005279603491e-05,
      "loss": 3.1308,
      "step": 88750
    },
    {
      "epoch": 9.557636422344205,
      "grad_norm": 0.8933703899383545,
      "learning_rate": 2.677728693028768e-05,
      "loss": 3.135,
      "step": 88800
    },
    {
      "epoch": 9.563017974383813,
      "grad_norm": 0.8820023536682129,
      "learning_rate": 2.6454045900226265e-05,
      "loss": 3.1125,
      "step": 88850
    },
    {
      "epoch": 9.56839952642342,
      "grad_norm": 0.8948459625244141,
      "learning_rate": 2.613080487016485e-05,
      "loss": 3.1496,
      "step": 88900
    },
    {
      "epoch": 9.573781078463028,
      "grad_norm": 0.8977514505386353,
      "learning_rate": 2.5807563840103437e-05,
      "loss": 3.1436,
      "step": 88950
    },
    {
      "epoch": 9.579162630502637,
      "grad_norm": 0.980184018611908,
      "learning_rate": 2.5484322810042022e-05,
      "loss": 3.1262,
      "step": 89000
    },
    {
      "epoch": 9.579162630502637,
      "eval_accuracy": 0.3938482473365646,
      "eval_loss": 3.306568145751953,
      "eval_runtime": 186.0696,
      "eval_samples_per_second": 96.797,
      "eval_steps_per_second": 6.051,
      "step": 89000
    },
    {
      "epoch": 9.584544182542245,
      "grad_norm": 0.9512214064598083,
      "learning_rate": 2.5161081779980603e-05,
      "loss": 3.1447,
      "step": 89050
    },
    {
      "epoch": 9.589925734581854,
      "grad_norm": 0.8945770859718323,
      "learning_rate": 2.4837840749919187e-05,
      "loss": 3.1301,
      "step": 89100
    },
    {
      "epoch": 9.59530728662146,
      "grad_norm": 0.8863294720649719,
      "learning_rate": 2.4514599719857772e-05,
      "loss": 3.144,
      "step": 89150
    },
    {
      "epoch": 9.60068883866107,
      "grad_norm": 0.8882639408111572,
      "learning_rate": 2.4191358689796356e-05,
      "loss": 3.1403,
      "step": 89200
    },
    {
      "epoch": 9.606070390700678,
      "grad_norm": 0.8962165713310242,
      "learning_rate": 2.386811765973494e-05,
      "loss": 3.1243,
      "step": 89250
    },
    {
      "epoch": 9.611451942740286,
      "grad_norm": 0.8743510842323303,
      "learning_rate": 2.3544876629673522e-05,
      "loss": 3.1202,
      "step": 89300
    },
    {
      "epoch": 9.616833494779895,
      "grad_norm": 0.9244371056556702,
      "learning_rate": 2.3221635599612106e-05,
      "loss": 3.127,
      "step": 89350
    },
    {
      "epoch": 9.622215046819504,
      "grad_norm": 0.897305965423584,
      "learning_rate": 2.2898394569550694e-05,
      "loss": 3.1275,
      "step": 89400
    },
    {
      "epoch": 9.62759659885911,
      "grad_norm": 0.8888809680938721,
      "learning_rate": 2.257515353948928e-05,
      "loss": 3.1437,
      "step": 89450
    },
    {
      "epoch": 9.632978150898719,
      "grad_norm": 0.8801096081733704,
      "learning_rate": 2.2251912509427863e-05,
      "loss": 3.1442,
      "step": 89500
    },
    {
      "epoch": 9.638359702938327,
      "grad_norm": 0.900062084197998,
      "learning_rate": 2.1928671479366444e-05,
      "loss": 3.1256,
      "step": 89550
    },
    {
      "epoch": 9.643741254977936,
      "grad_norm": 0.9150232672691345,
      "learning_rate": 2.160543044930503e-05,
      "loss": 3.1197,
      "step": 89600
    },
    {
      "epoch": 9.649122807017545,
      "grad_norm": 0.9108733534812927,
      "learning_rate": 2.1282189419243613e-05,
      "loss": 3.1168,
      "step": 89650
    },
    {
      "epoch": 9.654504359057151,
      "grad_norm": 0.8859264254570007,
      "learning_rate": 2.0958948389182198e-05,
      "loss": 3.1458,
      "step": 89700
    },
    {
      "epoch": 9.65988591109676,
      "grad_norm": 0.9308261275291443,
      "learning_rate": 2.0635707359120786e-05,
      "loss": 3.143,
      "step": 89750
    },
    {
      "epoch": 9.665267463136368,
      "grad_norm": 0.8895606398582458,
      "learning_rate": 2.0312466329059367e-05,
      "loss": 3.1446,
      "step": 89800
    },
    {
      "epoch": 9.670649015175977,
      "grad_norm": 0.8866785168647766,
      "learning_rate": 1.998922529899795e-05,
      "loss": 3.1207,
      "step": 89850
    },
    {
      "epoch": 9.676030567215586,
      "grad_norm": 0.8821789622306824,
      "learning_rate": 1.9665984268936536e-05,
      "loss": 3.1281,
      "step": 89900
    },
    {
      "epoch": 9.681412119255192,
      "grad_norm": 0.8853086829185486,
      "learning_rate": 1.934274323887512e-05,
      "loss": 3.1261,
      "step": 89950
    },
    {
      "epoch": 9.6867936712948,
      "grad_norm": 0.8708310723304749,
      "learning_rate": 1.9019502208813705e-05,
      "loss": 3.1273,
      "step": 90000
    },
    {
      "epoch": 9.6867936712948,
      "eval_accuracy": 0.3941620368765728,
      "eval_loss": 3.3042829036712646,
      "eval_runtime": 186.1977,
      "eval_samples_per_second": 96.731,
      "eval_steps_per_second": 6.047,
      "step": 90000
    },
    {
      "epoch": 9.69217522333441,
      "grad_norm": 0.8804466128349304,
      "learning_rate": 1.869626117875229e-05,
      "loss": 3.1197,
      "step": 90050
    },
    {
      "epoch": 9.697556775374018,
      "grad_norm": 0.8729501962661743,
      "learning_rate": 1.837302014869087e-05,
      "loss": 3.128,
      "step": 90100
    },
    {
      "epoch": 9.702938327413626,
      "grad_norm": 0.8718909025192261,
      "learning_rate": 1.8049779118629455e-05,
      "loss": 3.1303,
      "step": 90150
    },
    {
      "epoch": 9.708319879453235,
      "grad_norm": 0.8858611583709717,
      "learning_rate": 1.7726538088568043e-05,
      "loss": 3.1155,
      "step": 90200
    },
    {
      "epoch": 9.713701431492842,
      "grad_norm": 0.869767427444458,
      "learning_rate": 1.7403297058506624e-05,
      "loss": 3.1388,
      "step": 90250
    },
    {
      "epoch": 9.71908298353245,
      "grad_norm": 0.90096515417099,
      "learning_rate": 1.708005602844521e-05,
      "loss": 3.137,
      "step": 90300
    },
    {
      "epoch": 9.724464535572059,
      "grad_norm": 0.8858442902565002,
      "learning_rate": 1.6756814998383793e-05,
      "loss": 3.1394,
      "step": 90350
    },
    {
      "epoch": 9.729846087611667,
      "grad_norm": 0.9069094061851501,
      "learning_rate": 1.6433573968322377e-05,
      "loss": 3.139,
      "step": 90400
    },
    {
      "epoch": 9.735227639651276,
      "grad_norm": 0.8880398869514465,
      "learning_rate": 1.6110332938260962e-05,
      "loss": 3.1254,
      "step": 90450
    },
    {
      "epoch": 9.740609191690883,
      "grad_norm": 0.8732593059539795,
      "learning_rate": 1.5787091908199546e-05,
      "loss": 3.1412,
      "step": 90500
    },
    {
      "epoch": 9.745990743730491,
      "grad_norm": 0.844831109046936,
      "learning_rate": 1.546385087813813e-05,
      "loss": 3.1397,
      "step": 90550
    },
    {
      "epoch": 9.7513722957701,
      "grad_norm": 0.8641557693481445,
      "learning_rate": 1.5140609848076714e-05,
      "loss": 3.1269,
      "step": 90600
    },
    {
      "epoch": 9.756753847809708,
      "grad_norm": 0.862862229347229,
      "learning_rate": 1.4817368818015298e-05,
      "loss": 3.1379,
      "step": 90650
    },
    {
      "epoch": 9.762135399849317,
      "grad_norm": 0.891205906867981,
      "learning_rate": 1.4494127787953884e-05,
      "loss": 3.1299,
      "step": 90700
    },
    {
      "epoch": 9.767516951888926,
      "grad_norm": 0.898072361946106,
      "learning_rate": 1.4170886757892467e-05,
      "loss": 3.1305,
      "step": 90750
    },
    {
      "epoch": 9.772898503928532,
      "grad_norm": 0.8926596641540527,
      "learning_rate": 1.385411054843228e-05,
      "loss": 3.1301,
      "step": 90800
    },
    {
      "epoch": 9.77828005596814,
      "grad_norm": 0.9556132555007935,
      "learning_rate": 1.3530869518370865e-05,
      "loss": 3.1248,
      "step": 90850
    },
    {
      "epoch": 9.78366160800775,
      "grad_norm": 0.8925668001174927,
      "learning_rate": 1.3207628488309448e-05,
      "loss": 3.1428,
      "step": 90900
    },
    {
      "epoch": 9.789043160047358,
      "grad_norm": 0.8635932803153992,
      "learning_rate": 1.2884387458248032e-05,
      "loss": 3.1288,
      "step": 90950
    },
    {
      "epoch": 9.794424712086967,
      "grad_norm": 0.9220951199531555,
      "learning_rate": 1.2561146428186615e-05,
      "loss": 3.1256,
      "step": 91000
    },
    {
      "epoch": 9.794424712086967,
      "eval_accuracy": 0.3943545697937801,
      "eval_loss": 3.302082061767578,
      "eval_runtime": 186.025,
      "eval_samples_per_second": 96.82,
      "eval_steps_per_second": 6.053,
      "step": 91000
    },
    {
      "epoch": 9.799806264126573,
      "grad_norm": 0.8996292352676392,
      "learning_rate": 1.2237905398125201e-05,
      "loss": 3.1202,
      "step": 91050
    },
    {
      "epoch": 9.805187816166182,
      "grad_norm": 0.8730922341346741,
      "learning_rate": 1.1914664368063786e-05,
      "loss": 3.1427,
      "step": 91100
    },
    {
      "epoch": 9.81056936820579,
      "grad_norm": 0.8761866092681885,
      "learning_rate": 1.1597888158603599e-05,
      "loss": 3.1275,
      "step": 91150
    },
    {
      "epoch": 9.815950920245399,
      "grad_norm": 0.8718054294586182,
      "learning_rate": 1.1274647128542182e-05,
      "loss": 3.1376,
      "step": 91200
    },
    {
      "epoch": 9.821332472285007,
      "grad_norm": 0.8839863538742065,
      "learning_rate": 1.0951406098480766e-05,
      "loss": 3.1451,
      "step": 91250
    },
    {
      "epoch": 9.826714024324616,
      "grad_norm": 0.8676255941390991,
      "learning_rate": 1.0628165068419349e-05,
      "loss": 3.1304,
      "step": 91300
    },
    {
      "epoch": 9.832095576364223,
      "grad_norm": 0.8799372911453247,
      "learning_rate": 1.0304924038357935e-05,
      "loss": 3.0952,
      "step": 91350
    },
    {
      "epoch": 9.837477128403831,
      "grad_norm": 0.8772900104522705,
      "learning_rate": 9.98168300829652e-06,
      "loss": 3.1262,
      "step": 91400
    },
    {
      "epoch": 9.84285868044344,
      "grad_norm": 0.9364489316940308,
      "learning_rate": 9.658441978235103e-06,
      "loss": 3.1207,
      "step": 91450
    },
    {
      "epoch": 9.848240232483048,
      "grad_norm": 0.9080828428268433,
      "learning_rate": 9.335200948173687e-06,
      "loss": 3.1404,
      "step": 91500
    },
    {
      "epoch": 9.853621784522657,
      "grad_norm": 0.9090139865875244,
      "learning_rate": 9.011959918112272e-06,
      "loss": 3.1264,
      "step": 91550
    },
    {
      "epoch": 9.859003336562264,
      "grad_norm": 0.9389513731002808,
      "learning_rate": 8.688718888050856e-06,
      "loss": 3.1505,
      "step": 91600
    },
    {
      "epoch": 9.864384888601872,
      "grad_norm": 0.9033210873603821,
      "learning_rate": 8.36547785798944e-06,
      "loss": 3.1262,
      "step": 91650
    },
    {
      "epoch": 9.869766440641481,
      "grad_norm": 0.9109294414520264,
      "learning_rate": 8.042236827928023e-06,
      "loss": 3.1342,
      "step": 91700
    },
    {
      "epoch": 9.87514799268109,
      "grad_norm": 0.8402543663978577,
      "learning_rate": 7.71899579786661e-06,
      "loss": 3.1395,
      "step": 91750
    },
    {
      "epoch": 9.880529544720698,
      "grad_norm": 0.8962092399597168,
      "learning_rate": 7.395754767805193e-06,
      "loss": 3.1296,
      "step": 91800
    },
    {
      "epoch": 9.885911096760307,
      "grad_norm": 0.8957953453063965,
      "learning_rate": 7.072513737743777e-06,
      "loss": 3.1297,
      "step": 91850
    },
    {
      "epoch": 9.891292648799913,
      "grad_norm": 0.8573302030563354,
      "learning_rate": 6.749272707682361e-06,
      "loss": 3.1434,
      "step": 91900
    },
    {
      "epoch": 9.896674200839522,
      "grad_norm": 0.9096204042434692,
      "learning_rate": 6.426031677620945e-06,
      "loss": 3.1352,
      "step": 91950
    },
    {
      "epoch": 9.90205575287913,
      "grad_norm": 0.8980849981307983,
      "learning_rate": 6.10279064755953e-06,
      "loss": 3.1229,
      "step": 92000
    },
    {
      "epoch": 9.90205575287913,
      "eval_accuracy": 0.39453515089332775,
      "eval_loss": 3.30106782913208,
      "eval_runtime": 185.7469,
      "eval_samples_per_second": 96.965,
      "eval_steps_per_second": 6.062,
      "step": 92000
    },
    {
      "epoch": 9.907437304918739,
      "grad_norm": 0.8967553973197937,
      "learning_rate": 5.779549617498114e-06,
      "loss": 3.1229,
      "step": 92050
    },
    {
      "epoch": 9.912818856958348,
      "grad_norm": 0.9275098443031311,
      "learning_rate": 5.4563085874366985e-06,
      "loss": 3.1314,
      "step": 92100
    },
    {
      "epoch": 9.918200408997954,
      "grad_norm": 0.8883594870567322,
      "learning_rate": 5.133067557375282e-06,
      "loss": 3.1446,
      "step": 92150
    },
    {
      "epoch": 9.923581961037563,
      "grad_norm": 0.9037244915962219,
      "learning_rate": 4.809826527313866e-06,
      "loss": 3.1296,
      "step": 92200
    },
    {
      "epoch": 9.928963513077171,
      "grad_norm": 0.8862149119377136,
      "learning_rate": 4.48658549725245e-06,
      "loss": 3.1521,
      "step": 92250
    },
    {
      "epoch": 9.93434506511678,
      "grad_norm": 0.8914026021957397,
      "learning_rate": 4.163344467191035e-06,
      "loss": 3.1237,
      "step": 92300
    },
    {
      "epoch": 9.939726617156388,
      "grad_norm": 0.8909087181091309,
      "learning_rate": 3.840103437129619e-06,
      "loss": 3.1244,
      "step": 92350
    },
    {
      "epoch": 9.945108169195997,
      "grad_norm": 0.8716970682144165,
      "learning_rate": 3.5168624070682038e-06,
      "loss": 3.1092,
      "step": 92400
    },
    {
      "epoch": 9.950489721235604,
      "grad_norm": 0.9203875064849854,
      "learning_rate": 3.193621377006788e-06,
      "loss": 3.1277,
      "step": 92450
    },
    {
      "epoch": 9.955871273275212,
      "grad_norm": 0.8698723912239075,
      "learning_rate": 2.870380346945372e-06,
      "loss": 3.1323,
      "step": 92500
    },
    {
      "epoch": 9.961252825314821,
      "grad_norm": 0.8827639818191528,
      "learning_rate": 2.5471393168839564e-06,
      "loss": 3.1265,
      "step": 92550
    },
    {
      "epoch": 9.96663437735443,
      "grad_norm": 0.9281798601150513,
      "learning_rate": 2.2238982868225405e-06,
      "loss": 3.1298,
      "step": 92600
    },
    {
      "epoch": 9.972015929394038,
      "grad_norm": 0.8912945985794067,
      "learning_rate": 1.9006572567611246e-06,
      "loss": 3.1335,
      "step": 92650
    },
    {
      "epoch": 9.977397481433645,
      "grad_norm": 0.878864049911499,
      "learning_rate": 1.5774162266997088e-06,
      "loss": 3.1338,
      "step": 92700
    },
    {
      "epoch": 9.982779033473253,
      "grad_norm": 0.9022105932235718,
      "learning_rate": 1.2541751966382931e-06,
      "loss": 3.1436,
      "step": 92750
    },
    {
      "epoch": 9.988160585512862,
      "grad_norm": 0.8762727975845337,
      "learning_rate": 9.309341665768773e-07,
      "loss": 3.1396,
      "step": 92800
    },
    {
      "epoch": 9.99354213755247,
      "grad_norm": 0.933054506778717,
      "learning_rate": 6.076931365154616e-07,
      "loss": 3.1174,
      "step": 92850
    },
    {
      "epoch": 9.998923689592079,
      "grad_norm": 0.8922120332717896,
      "learning_rate": 2.8445210645404587e-07,
      "loss": 3.1319,
      "step": 92900
    },
    {
      "epoch": 10.0,
      "step": 92910,
      "total_flos": 7.7682904989696e+17,
      "train_loss": 3.456335383197512,
      "train_runtime": 80092.1362,
      "train_samples_per_second": 37.12,
      "train_steps_per_second": 1.16
    }
  ],
  "logging_steps": 50,
  "max_steps": 92910,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 10,
  "save_steps": 10000,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 7.7682904989696e+17,
  "train_batch_size": 32,
  "trial_name": null,
  "trial_params": null
}