{
  "best_metric": 3.304328680038452,
  "best_model_checkpoint": "/scratch/cl5625/exceptions/models/100M_634/checkpoint-90000",
  "epoch": 10.0,
  "eval_steps": 1000,
  "global_step": 92910,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.005381552039608223,
      "grad_norm": 1.2409489154815674,
      "learning_rate": 0.000294,
      "loss": 8.5108,
      "step": 50
    },
    {
      "epoch": 0.010763104079216447,
      "grad_norm": 4.341292858123779,
      "learning_rate": 0.0005939999999999999,
      "loss": 6.8935,
      "step": 100
    },
    {
      "epoch": 0.01614465611882467,
      "grad_norm": 1.199384331703186,
      "learning_rate": 0.0005996832237905398,
      "loss": 6.4937,
      "step": 150
    },
    {
      "epoch": 0.021526208158432893,
      "grad_norm": 2.4634475708007812,
      "learning_rate": 0.0005993599827604783,
      "loss": 6.2445,
      "step": 200
    },
    {
      "epoch": 0.026907760198041114,
      "grad_norm": 2.1005942821502686,
      "learning_rate": 0.0005990367417304169,
      "loss": 6.0932,
      "step": 250
    },
    {
      "epoch": 0.03228931223764934,
      "grad_norm": 2.047687530517578,
      "learning_rate": 0.0005987135007003555,
      "loss": 5.9723,
      "step": 300
    },
    {
      "epoch": 0.03767086427725756,
      "grad_norm": 2.1327965259552,
      "learning_rate": 0.0005983902596702941,
      "loss": 5.8601,
      "step": 350
    },
    {
      "epoch": 0.04305241631686579,
      "grad_norm": 1.5039584636688232,
      "learning_rate": 0.0005980670186402327,
      "loss": 5.7821,
      "step": 400
    },
    {
      "epoch": 0.048433968356474004,
      "grad_norm": 1.3997225761413574,
      "learning_rate": 0.0005977437776101713,
      "loss": 5.7007,
      "step": 450
    },
    {
      "epoch": 0.05381552039608223,
      "grad_norm": 1.4011027812957764,
      "learning_rate": 0.0005974205365801099,
      "loss": 5.6624,
      "step": 500
    },
    {
      "epoch": 0.05919707243569045,
      "grad_norm": 1.5662155151367188,
      "learning_rate": 0.0005970972955500484,
      "loss": 5.5875,
      "step": 550
    },
    {
      "epoch": 0.06457862447529868,
      "grad_norm": 1.3540173768997192,
      "learning_rate": 0.0005967740545199869,
      "loss": 5.4933,
      "step": 600
    },
    {
      "epoch": 0.0699601765149069,
      "grad_norm": 0.712725043296814,
      "learning_rate": 0.0005964508134899256,
      "loss": 5.4414,
      "step": 650
    },
    {
      "epoch": 0.07534172855451512,
      "grad_norm": 1.5157769918441772,
      "learning_rate": 0.0005961275724598642,
      "loss": 5.3844,
      "step": 700
    },
    {
      "epoch": 0.08072328059412334,
      "grad_norm": 1.1899943351745605,
      "learning_rate": 0.0005958043314298028,
      "loss": 5.3208,
      "step": 750
    },
    {
      "epoch": 0.08610483263373157,
      "grad_norm": 1.4709664583206177,
      "learning_rate": 0.0005954810903997413,
      "loss": 5.2541,
      "step": 800
    },
    {
      "epoch": 0.09148638467333979,
      "grad_norm": 1.161840796470642,
      "learning_rate": 0.00059515784936968,
      "loss": 5.2197,
      "step": 850
    },
    {
      "epoch": 0.09686793671294801,
      "grad_norm": 1.6369562149047852,
      "learning_rate": 0.0005948346083396185,
      "loss": 5.1886,
      "step": 900
    },
    {
      "epoch": 0.10224948875255624,
      "grad_norm": 1.1682466268539429,
      "learning_rate": 0.0005945113673095572,
      "loss": 5.1267,
      "step": 950
    },
    {
      "epoch": 0.10763104079216446,
      "grad_norm": 1.3902950286865234,
      "learning_rate": 0.0005941881262794957,
      "loss": 5.0571,
      "step": 1000
    },
    {
      "epoch": 0.10763104079216446,
      "eval_accuracy": 0.22769288305113825,
      "eval_loss": 5.017766952514648,
      "eval_runtime": 182.2965,
      "eval_samples_per_second": 98.801,
      "eval_steps_per_second": 6.177,
      "step": 1000
    },
    {
      "epoch": 0.11301259283177269,
      "grad_norm": 1.1180342435836792,
      "learning_rate": 0.0005938648852494342,
      "loss": 5.0443,
      "step": 1050
    },
    {
      "epoch": 0.1183941448713809,
      "grad_norm": 1.248585820198059,
      "learning_rate": 0.0005935416442193729,
      "loss": 4.9929,
      "step": 1100
    },
    {
      "epoch": 0.12377569691098914,
      "grad_norm": 1.0298659801483154,
      "learning_rate": 0.0005932184031893114,
      "loss": 4.9664,
      "step": 1150
    },
    {
      "epoch": 0.12915724895059735,
      "grad_norm": 1.3494811058044434,
      "learning_rate": 0.0005928951621592501,
      "loss": 4.9562,
      "step": 1200
    },
    {
      "epoch": 0.13453880099020557,
      "grad_norm": 1.3965518474578857,
      "learning_rate": 0.0005925719211291886,
      "loss": 4.9049,
      "step": 1250
    },
    {
      "epoch": 0.1399203530298138,
      "grad_norm": 1.1378055810928345,
      "learning_rate": 0.0005922486800991272,
      "loss": 4.8938,
      "step": 1300
    },
    {
      "epoch": 0.14530190506942203,
      "grad_norm": 1.0597996711730957,
      "learning_rate": 0.0005919254390690658,
      "loss": 4.8529,
      "step": 1350
    },
    {
      "epoch": 0.15068345710903025,
      "grad_norm": 1.0793858766555786,
      "learning_rate": 0.0005916021980390043,
      "loss": 4.8386,
      "step": 1400
    },
    {
      "epoch": 0.15606500914863847,
      "grad_norm": 0.9524921774864197,
      "learning_rate": 0.0005912789570089429,
      "loss": 4.811,
      "step": 1450
    },
    {
      "epoch": 0.16144656118824668,
      "grad_norm": 1.1187365055084229,
      "learning_rate": 0.0005909557159788815,
      "loss": 4.8076,
      "step": 1500
    },
    {
      "epoch": 0.1668281132278549,
      "grad_norm": 0.9789218306541443,
      "learning_rate": 0.0005906324749488202,
      "loss": 4.763,
      "step": 1550
    },
    {
      "epoch": 0.17220966526746315,
      "grad_norm": 1.0644840002059937,
      "learning_rate": 0.0005903092339187587,
      "loss": 4.7173,
      "step": 1600
    },
    {
      "epoch": 0.17759121730707136,
      "grad_norm": 0.9264978766441345,
      "learning_rate": 0.0005899859928886973,
      "loss": 4.7132,
      "step": 1650
    },
    {
      "epoch": 0.18297276934667958,
      "grad_norm": 1.365238070487976,
      "learning_rate": 0.0005896627518586358,
      "loss": 4.7141,
      "step": 1700
    },
    {
      "epoch": 0.1883543213862878,
      "grad_norm": 1.005654215812683,
      "learning_rate": 0.0005893395108285745,
      "loss": 4.6795,
      "step": 1750
    },
    {
      "epoch": 0.19373587342589602,
      "grad_norm": 0.8438209295272827,
      "learning_rate": 0.0005890162697985131,
      "loss": 4.6678,
      "step": 1800
    },
    {
      "epoch": 0.19911742546550426,
      "grad_norm": 0.9567655324935913,
      "learning_rate": 0.0005886930287684516,
      "loss": 4.638,
      "step": 1850
    },
    {
      "epoch": 0.20449897750511248,
      "grad_norm": 0.8802693486213684,
      "learning_rate": 0.0005883697877383902,
      "loss": 4.6094,
      "step": 1900
    },
    {
      "epoch": 0.2098805295447207,
      "grad_norm": 0.9863884449005127,
      "learning_rate": 0.0005880465467083287,
      "loss": 4.6045,
      "step": 1950
    },
    {
      "epoch": 0.2152620815843289,
      "grad_norm": 0.9881174564361572,
      "learning_rate": 0.0005877233056782674,
      "loss": 4.601,
      "step": 2000
    },
    {
      "epoch": 0.2152620815843289,
      "eval_accuracy": 0.2723185798285262,
      "eval_loss": 4.497183799743652,
      "eval_runtime": 182.0595,
      "eval_samples_per_second": 98.929,
      "eval_steps_per_second": 6.185,
      "step": 2000
    },
    {
      "epoch": 0.22064363362393713,
      "grad_norm": 0.776289165019989,
      "learning_rate": 0.000587400064648206,
      "loss": 4.5725,
      "step": 2050
    },
    {
      "epoch": 0.22602518566354537,
      "grad_norm": 1.4896079301834106,
      "learning_rate": 0.0005870768236181446,
      "loss": 4.5181,
      "step": 2100
    },
    {
      "epoch": 0.2314067377031536,
      "grad_norm": 1.0103397369384766,
      "learning_rate": 0.0005867535825880831,
      "loss": 4.5254,
      "step": 2150
    },
    {
      "epoch": 0.2367882897427618,
      "grad_norm": 0.957593560218811,
      "learning_rate": 0.0005864303415580218,
      "loss": 4.5316,
      "step": 2200
    },
    {
      "epoch": 0.24216984178237003,
      "grad_norm": 1.0849416255950928,
      "learning_rate": 0.0005861071005279603,
      "loss": 4.4957,
      "step": 2250
    },
    {
      "epoch": 0.24755139382197827,
      "grad_norm": 1.204544186592102,
      "learning_rate": 0.0005857838594978988,
      "loss": 4.483,
      "step": 2300
    },
    {
      "epoch": 0.2529329458615865,
      "grad_norm": 0.6519724726676941,
      "learning_rate": 0.0005854606184678375,
      "loss": 4.4423,
      "step": 2350
    },
    {
      "epoch": 0.2583144979011947,
      "grad_norm": 0.9103153347969055,
      "learning_rate": 0.000585137377437776,
      "loss": 4.4453,
      "step": 2400
    },
    {
      "epoch": 0.2636960499408029,
      "grad_norm": 0.7800990343093872,
      "learning_rate": 0.0005848141364077147,
      "loss": 4.4288,
      "step": 2450
    },
    {
      "epoch": 0.26907760198041114,
      "grad_norm": 0.8782561421394348,
      "learning_rate": 0.0005844908953776532,
      "loss": 4.4281,
      "step": 2500
    },
    {
      "epoch": 0.27445915402001936,
      "grad_norm": 0.7621157765388489,
      "learning_rate": 0.0005841676543475918,
      "loss": 4.4155,
      "step": 2550
    },
    {
      "epoch": 0.2798407060596276,
      "grad_norm": 0.7303465604782104,
      "learning_rate": 0.0005838444133175304,
      "loss": 4.3899,
      "step": 2600
    },
    {
      "epoch": 0.2852222580992358,
      "grad_norm": 0.8117552995681763,
      "learning_rate": 0.0005835211722874689,
      "loss": 4.3985,
      "step": 2650
    },
    {
      "epoch": 0.29060381013884407,
      "grad_norm": 0.8295453190803528,
      "learning_rate": 0.0005831979312574076,
      "loss": 4.3899,
      "step": 2700
    },
    {
      "epoch": 0.2959853621784523,
      "grad_norm": 0.7481907606124878,
      "learning_rate": 0.0005828746902273461,
      "loss": 4.3504,
      "step": 2750
    },
    {
      "epoch": 0.3013669142180605,
      "grad_norm": 0.9127791523933411,
      "learning_rate": 0.0005825514491972847,
      "loss": 4.3418,
      "step": 2800
    },
    {
      "epoch": 0.3067484662576687,
      "grad_norm": 0.8333998918533325,
      "learning_rate": 0.0005822282081672233,
      "loss": 4.3502,
      "step": 2850
    },
    {
      "epoch": 0.31213001829727693,
      "grad_norm": 0.8311163783073425,
      "learning_rate": 0.000581904967137162,
      "loss": 4.3315,
      "step": 2900
    },
    {
      "epoch": 0.31751157033688515,
      "grad_norm": 0.7274037599563599,
      "learning_rate": 0.0005815817261071005,
      "loss": 4.3272,
      "step": 2950
    },
    {
      "epoch": 0.32289312237649337,
      "grad_norm": 1.1619491577148438,
      "learning_rate": 0.000581258485077039,
      "loss": 4.3004,
      "step": 3000
    },
    {
      "epoch": 0.32289312237649337,
      "eval_accuracy": 0.29732352081859953,
      "eval_loss": 4.24649715423584,
      "eval_runtime": 181.8815,
      "eval_samples_per_second": 99.026,
      "eval_steps_per_second": 6.191,
      "step": 3000
    },
    {
      "epoch": 0.3282746744161016,
      "grad_norm": 0.7382640242576599,
      "learning_rate": 0.0005809352440469776,
      "loss": 4.2983,
      "step": 3050
    },
    {
      "epoch": 0.3336562264557098,
      "grad_norm": 0.8385740518569946,
      "learning_rate": 0.0005806120030169162,
      "loss": 4.295,
      "step": 3100
    },
    {
      "epoch": 0.3390377784953181,
      "grad_norm": 0.7015913724899292,
      "learning_rate": 0.0005802887619868548,
      "loss": 4.2755,
      "step": 3150
    },
    {
      "epoch": 0.3444193305349263,
      "grad_norm": 0.689091145992279,
      "learning_rate": 0.0005799655209567934,
      "loss": 4.2789,
      "step": 3200
    },
    {
      "epoch": 0.3498008825745345,
      "grad_norm": 0.7818449139595032,
      "learning_rate": 0.000579642279926732,
      "loss": 4.2471,
      "step": 3250
    },
    {
      "epoch": 0.35518243461414273,
      "grad_norm": 0.6518906950950623,
      "learning_rate": 0.0005793190388966706,
      "loss": 4.2745,
      "step": 3300
    },
    {
      "epoch": 0.36056398665375095,
      "grad_norm": 0.8410638570785522,
      "learning_rate": 0.0005789957978666092,
      "loss": 4.247,
      "step": 3350
    },
    {
      "epoch": 0.36594553869335916,
      "grad_norm": 0.6837202310562134,
      "learning_rate": 0.0005786725568365477,
      "loss": 4.2335,
      "step": 3400
    },
    {
      "epoch": 0.3713270907329674,
      "grad_norm": 0.7904514670372009,
      "learning_rate": 0.0005783493158064862,
      "loss": 4.2351,
      "step": 3450
    },
    {
      "epoch": 0.3767086427725756,
      "grad_norm": 0.6967146396636963,
      "learning_rate": 0.0005780260747764249,
      "loss": 4.2451,
      "step": 3500
    },
    {
      "epoch": 0.3820901948121838,
      "grad_norm": 0.6902364492416382,
      "learning_rate": 0.0005777028337463635,
      "loss": 4.2302,
      "step": 3550
    },
    {
      "epoch": 0.38747174685179203,
      "grad_norm": 0.7025848031044006,
      "learning_rate": 0.0005773795927163021,
      "loss": 4.2119,
      "step": 3600
    },
    {
      "epoch": 0.3928532988914003,
      "grad_norm": 0.6800712943077087,
      "learning_rate": 0.0005770563516862406,
      "loss": 4.1992,
      "step": 3650
    },
    {
      "epoch": 0.3982348509310085,
      "grad_norm": 0.6633560657501221,
      "learning_rate": 0.0005767331106561793,
      "loss": 4.2089,
      "step": 3700
    },
    {
      "epoch": 0.40361640297061674,
      "grad_norm": 0.8339175581932068,
      "learning_rate": 0.0005764098696261178,
      "loss": 4.1942,
      "step": 3750
    },
    {
      "epoch": 0.40899795501022496,
      "grad_norm": 1.0344537496566772,
      "learning_rate": 0.0005760866285960565,
      "loss": 4.1811,
      "step": 3800
    },
    {
      "epoch": 0.4143795070498332,
      "grad_norm": 0.643608033657074,
      "learning_rate": 0.000575763387565995,
      "loss": 4.1975,
      "step": 3850
    },
    {
      "epoch": 0.4197610590894414,
      "grad_norm": 0.7856813669204712,
      "learning_rate": 0.0005754401465359335,
      "loss": 4.1573,
      "step": 3900
    },
    {
      "epoch": 0.4251426111290496,
      "grad_norm": 0.6791918277740479,
      "learning_rate": 0.0005751169055058722,
      "loss": 4.1985,
      "step": 3950
    },
    {
      "epoch": 0.4305241631686578,
      "grad_norm": 0.6677943468093872,
      "learning_rate": 0.0005747936644758107,
      "loss": 4.1592,
      "step": 4000
    },
    {
      "epoch": 0.4305241631686578,
      "eval_accuracy": 0.3119710166248697,
      "eval_loss": 4.092339038848877,
      "eval_runtime": 182.0114,
      "eval_samples_per_second": 98.955,
      "eval_steps_per_second": 6.186,
      "step": 4000
    },
    {
      "epoch": 0.43590571520826604,
      "grad_norm": 0.7455854415893555,
      "learning_rate": 0.0005744704234457494,
      "loss": 4.1677,
      "step": 4050
    },
    {
      "epoch": 0.44128726724787426,
      "grad_norm": 0.8416252136230469,
      "learning_rate": 0.0005741471824156879,
      "loss": 4.1407,
      "step": 4100
    },
    {
      "epoch": 0.44666881928748253,
      "grad_norm": 0.7018504738807678,
      "learning_rate": 0.0005738239413856265,
      "loss": 4.1301,
      "step": 4150
    },
    {
      "epoch": 0.45205037132709075,
      "grad_norm": 0.7365538477897644,
      "learning_rate": 0.0005735007003555651,
      "loss": 4.1345,
      "step": 4200
    },
    {
      "epoch": 0.45743192336669897,
      "grad_norm": 0.8185232877731323,
      "learning_rate": 0.0005731774593255036,
      "loss": 4.1045,
      "step": 4250
    },
    {
      "epoch": 0.4628134754063072,
      "grad_norm": 0.7768588662147522,
      "learning_rate": 0.0005728542182954422,
      "loss": 4.1224,
      "step": 4300
    },
    {
      "epoch": 0.4681950274459154,
      "grad_norm": 0.7724791169166565,
      "learning_rate": 0.0005725309772653808,
      "loss": 4.1025,
      "step": 4350
    },
    {
      "epoch": 0.4735765794855236,
      "grad_norm": 0.7289860248565674,
      "learning_rate": 0.0005722077362353195,
      "loss": 4.1295,
      "step": 4400
    },
    {
      "epoch": 0.47895813152513184,
      "grad_norm": 0.7220547795295715,
      "learning_rate": 0.000571884495205258,
      "loss": 4.1053,
      "step": 4450
    },
    {
      "epoch": 0.48433968356474005,
      "grad_norm": 0.693661093711853,
      "learning_rate": 0.0005715612541751966,
      "loss": 4.1007,
      "step": 4500
    },
    {
      "epoch": 0.48972123560434827,
      "grad_norm": 0.5677185654640198,
      "learning_rate": 0.0005712380131451351,
      "loss": 4.1163,
      "step": 4550
    },
    {
      "epoch": 0.49510278764395654,
      "grad_norm": 0.6113824248313904,
      "learning_rate": 0.0005709147721150738,
      "loss": 4.0837,
      "step": 4600
    },
    {
      "epoch": 0.5004843396835648,
      "grad_norm": 0.8640690445899963,
      "learning_rate": 0.0005705915310850124,
      "loss": 4.1034,
      "step": 4650
    },
    {
      "epoch": 0.505865891723173,
      "grad_norm": 0.5736480355262756,
      "learning_rate": 0.000570268290054951,
      "loss": 4.081,
      "step": 4700
    },
    {
      "epoch": 0.5112474437627812,
      "grad_norm": 0.6056514978408813,
      "learning_rate": 0.0005699450490248895,
      "loss": 4.079,
      "step": 4750
    },
    {
      "epoch": 0.5166289958023894,
      "grad_norm": 0.5955778360366821,
      "learning_rate": 0.0005696218079948281,
      "loss": 4.0906,
      "step": 4800
    },
    {
      "epoch": 0.5220105478419976,
      "grad_norm": 0.6626378297805786,
      "learning_rate": 0.0005692985669647667,
      "loss": 4.0702,
      "step": 4850
    },
    {
      "epoch": 0.5273920998816058,
      "grad_norm": 0.674550473690033,
      "learning_rate": 0.0005689753259347053,
      "loss": 4.0773,
      "step": 4900
    },
    {
      "epoch": 0.5327736519212141,
      "grad_norm": 0.6571769118309021,
      "learning_rate": 0.0005686520849046439,
      "loss": 4.0653,
      "step": 4950
    },
    {
      "epoch": 0.5381552039608223,
      "grad_norm": 0.7082335352897644,
      "learning_rate": 0.0005683288438745824,
      "loss": 4.058,
      "step": 5000
    },
    {
      "epoch": 0.5381552039608223,
      "eval_accuracy": 0.3216964279602561,
      "eval_loss": 3.9905214309692383,
      "eval_runtime": 182.1012,
      "eval_samples_per_second": 98.907,
      "eval_steps_per_second": 6.183,
      "step": 5000
    },
    {
      "epoch": 0.5435367560004305,
      "grad_norm": 0.5768229961395264,
      "learning_rate": 0.0005680056028445211,
      "loss": 4.0782,
      "step": 5050
    },
    {
      "epoch": 0.5489183080400387,
      "grad_norm": 0.6113422513008118,
      "learning_rate": 0.0005676823618144596,
      "loss": 4.0437,
      "step": 5100
    },
    {
      "epoch": 0.5542998600796469,
      "grad_norm": 0.6983143091201782,
      "learning_rate": 0.0005673591207843981,
      "loss": 4.0534,
      "step": 5150
    },
    {
      "epoch": 0.5596814121192552,
      "grad_norm": 0.6359015107154846,
      "learning_rate": 0.0005670358797543368,
      "loss": 4.057,
      "step": 5200
    },
    {
      "epoch": 0.5650629641588634,
      "grad_norm": 0.6032052040100098,
      "learning_rate": 0.0005667126387242753,
      "loss": 4.034,
      "step": 5250
    },
    {
      "epoch": 0.5704445161984716,
      "grad_norm": 0.5758114457130432,
      "learning_rate": 0.000566389397694214,
      "loss": 4.0315,
      "step": 5300
    },
    {
      "epoch": 0.5758260682380799,
      "grad_norm": 0.5899171829223633,
      "learning_rate": 0.0005660661566641525,
      "loss": 4.0441,
      "step": 5350
    },
    {
      "epoch": 0.5812076202776881,
      "grad_norm": 0.7991577982902527,
      "learning_rate": 0.0005657429156340911,
      "loss": 4.029,
      "step": 5400
    },
    {
      "epoch": 0.5865891723172963,
      "grad_norm": 0.6477524638175964,
      "learning_rate": 0.0005654196746040297,
      "loss": 4.0264,
      "step": 5450
    },
    {
      "epoch": 0.5919707243569046,
      "grad_norm": 0.578626811504364,
      "learning_rate": 0.0005650964335739684,
      "loss": 4.0322,
      "step": 5500
    },
    {
      "epoch": 0.5973522763965128,
      "grad_norm": 0.574459433555603,
      "learning_rate": 0.0005647731925439069,
      "loss": 4.0053,
      "step": 5550
    },
    {
      "epoch": 0.602733828436121,
      "grad_norm": 0.5757372975349426,
      "learning_rate": 0.0005644499515138454,
      "loss": 4.0117,
      "step": 5600
    },
    {
      "epoch": 0.6081153804757292,
      "grad_norm": 0.5343767404556274,
      "learning_rate": 0.000564126710483784,
      "loss": 4.0109,
      "step": 5650
    },
    {
      "epoch": 0.6134969325153374,
      "grad_norm": 0.5260587930679321,
      "learning_rate": 0.0005638034694537226,
      "loss": 4.0024,
      "step": 5700
    },
    {
      "epoch": 0.6188784845549457,
      "grad_norm": 0.6771280169487,
      "learning_rate": 0.0005634802284236612,
      "loss": 3.9996,
      "step": 5750
    },
    {
      "epoch": 0.6242600365945539,
      "grad_norm": 0.7003506422042847,
      "learning_rate": 0.0005631569873935998,
      "loss": 4.0123,
      "step": 5800
    },
    {
      "epoch": 0.6296415886341621,
      "grad_norm": 0.6160582304000854,
      "learning_rate": 0.0005628337463635384,
      "loss": 4.0066,
      "step": 5850
    },
    {
      "epoch": 0.6350231406737703,
      "grad_norm": 0.6175171136856079,
      "learning_rate": 0.0005625105053334769,
      "loss": 3.9967,
      "step": 5900
    },
    {
      "epoch": 0.6404046927133785,
      "grad_norm": 0.6126753091812134,
      "learning_rate": 0.0005621872643034155,
      "loss": 3.9966,
      "step": 5950
    },
    {
      "epoch": 0.6457862447529867,
      "grad_norm": 0.5825824737548828,
      "learning_rate": 0.0005618640232733541,
      "loss": 4.0005,
      "step": 6000
    },
    {
      "epoch": 0.6457862447529867,
      "eval_accuracy": 0.3279900378340221,
      "eval_loss": 3.9175994396209717,
      "eval_runtime": 181.8249,
      "eval_samples_per_second": 99.057,
      "eval_steps_per_second": 6.193,
      "step": 6000
    },
    {
      "epoch": 0.651167796792595,
      "grad_norm": 0.6458200812339783,
      "learning_rate": 0.0005615407822432927,
      "loss": 3.9983,
      "step": 6050
    },
    {
      "epoch": 0.6565493488322032,
      "grad_norm": 0.6666006445884705,
      "learning_rate": 0.0005612175412132313,
      "loss": 3.9736,
      "step": 6100
    },
    {
      "epoch": 0.6619309008718114,
      "grad_norm": 0.6697174310684204,
      "learning_rate": 0.0005608943001831699,
      "loss": 3.9737,
      "step": 6150
    },
    {
      "epoch": 0.6673124529114196,
      "grad_norm": 0.6608678102493286,
      "learning_rate": 0.0005605710591531085,
      "loss": 3.9834,
      "step": 6200
    },
    {
      "epoch": 0.6726940049510278,
      "grad_norm": 0.5990314483642578,
      "learning_rate": 0.000560247818123047,
      "loss": 3.9767,
      "step": 6250
    },
    {
      "epoch": 0.6780755569906362,
      "grad_norm": 0.7089594602584839,
      "learning_rate": 0.0005599245770929855,
      "loss": 3.9607,
      "step": 6300
    },
    {
      "epoch": 0.6834571090302444,
      "grad_norm": 0.5589825510978699,
      "learning_rate": 0.0005596013360629242,
      "loss": 3.9938,
      "step": 6350
    },
    {
      "epoch": 0.6888386610698526,
      "grad_norm": 0.6127277612686157,
      "learning_rate": 0.0005592780950328628,
      "loss": 3.9642,
      "step": 6400
    },
    {
      "epoch": 0.6942202131094608,
      "grad_norm": 0.6644816994667053,
      "learning_rate": 0.0005589548540028014,
      "loss": 3.9498,
      "step": 6450
    },
    {
      "epoch": 0.699601765149069,
      "grad_norm": 0.720580518245697,
      "learning_rate": 0.0005586316129727399,
      "loss": 3.9623,
      "step": 6500
    },
    {
      "epoch": 0.7049833171886772,
      "grad_norm": 0.5992135405540466,
      "learning_rate": 0.0005583083719426786,
      "loss": 3.9544,
      "step": 6550
    },
    {
      "epoch": 0.7103648692282855,
      "grad_norm": 0.5696446895599365,
      "learning_rate": 0.0005579851309126171,
      "loss": 3.9501,
      "step": 6600
    },
    {
      "epoch": 0.7157464212678937,
      "grad_norm": 0.6163771748542786,
      "learning_rate": 0.0005576618898825558,
      "loss": 3.9438,
      "step": 6650
    },
    {
      "epoch": 0.7211279733075019,
      "grad_norm": 0.5979406833648682,
      "learning_rate": 0.0005573386488524943,
      "loss": 3.9525,
      "step": 6700
    },
    {
      "epoch": 0.7265095253471101,
      "grad_norm": 0.5255296230316162,
      "learning_rate": 0.0005570154078224328,
      "loss": 3.934,
      "step": 6750
    },
    {
      "epoch": 0.7318910773867183,
      "grad_norm": 0.5490409731864929,
      "learning_rate": 0.0005566921667923715,
      "loss": 3.9379,
      "step": 6800
    },
    {
      "epoch": 0.7372726294263265,
      "grad_norm": 0.5488396883010864,
      "learning_rate": 0.00055636892576231,
      "loss": 3.9319,
      "step": 6850
    },
    {
      "epoch": 0.7426541814659348,
      "grad_norm": 0.6464518308639526,
      "learning_rate": 0.0005560456847322487,
      "loss": 3.9481,
      "step": 6900
    },
    {
      "epoch": 0.748035733505543,
      "grad_norm": 0.5934602618217468,
      "learning_rate": 0.0005557224437021872,
      "loss": 3.9328,
      "step": 6950
    },
    {
      "epoch": 0.7534172855451512,
      "grad_norm": 0.6091898679733276,
      "learning_rate": 0.0005553992026721258,
      "loss": 3.955,
      "step": 7000
    },
    {
      "epoch": 0.7534172855451512,
      "eval_accuracy": 0.33240101912062653,
      "eval_loss": 3.8679959774017334,
      "eval_runtime": 182.2674,
      "eval_samples_per_second": 98.816,
      "eval_steps_per_second": 6.178,
      "step": 7000
    },
    {
      "epoch": 0.7587988375847594,
      "grad_norm": 0.6122892498970032,
      "learning_rate": 0.0005550759616420644,
      "loss": 3.9138,
      "step": 7050
    },
    {
      "epoch": 0.7641803896243676,
      "grad_norm": 0.6132125854492188,
      "learning_rate": 0.000554752720612003,
      "loss": 3.9396,
      "step": 7100
    },
    {
      "epoch": 0.7695619416639758,
      "grad_norm": 0.5594529509544373,
      "learning_rate": 0.0005544294795819415,
      "loss": 3.9227,
      "step": 7150
    },
    {
      "epoch": 0.7749434937035841,
      "grad_norm": 0.6427801847457886,
      "learning_rate": 0.0005541062385518801,
      "loss": 3.9176,
      "step": 7200
    },
    {
      "epoch": 0.7803250457431924,
      "grad_norm": 0.610942542552948,
      "learning_rate": 0.0005537829975218188,
      "loss": 3.9077,
      "step": 7250
    },
    {
      "epoch": 0.7857065977828006,
      "grad_norm": 0.6317889094352722,
      "learning_rate": 0.0005534597564917573,
      "loss": 3.912,
      "step": 7300
    },
    {
      "epoch": 0.7910881498224088,
      "grad_norm": 0.5150265693664551,
      "learning_rate": 0.0005531365154616959,
      "loss": 3.9163,
      "step": 7350
    },
    {
      "epoch": 0.796469701862017,
      "grad_norm": 0.7719345092773438,
      "learning_rate": 0.0005528132744316344,
      "loss": 3.9271,
      "step": 7400
    },
    {
      "epoch": 0.8018512539016253,
      "grad_norm": 0.5585397481918335,
      "learning_rate": 0.0005524900334015731,
      "loss": 3.9163,
      "step": 7450
    },
    {
      "epoch": 0.8072328059412335,
      "grad_norm": 0.727222204208374,
      "learning_rate": 0.0005521667923715117,
      "loss": 3.9055,
      "step": 7500
    },
    {
      "epoch": 0.8126143579808417,
      "grad_norm": 0.6005939245223999,
      "learning_rate": 0.0005518435513414502,
      "loss": 3.8973,
      "step": 7550
    },
    {
      "epoch": 0.8179959100204499,
      "grad_norm": 0.545375406742096,
      "learning_rate": 0.0005515203103113888,
      "loss": 3.9033,
      "step": 7600
    },
    {
      "epoch": 0.8233774620600581,
      "grad_norm": 0.6175294518470764,
      "learning_rate": 0.0005511970692813274,
      "loss": 3.9198,
      "step": 7650
    },
    {
      "epoch": 0.8287590140996663,
      "grad_norm": 0.5643460750579834,
      "learning_rate": 0.000550873828251266,
      "loss": 3.9086,
      "step": 7700
    },
    {
      "epoch": 0.8341405661392746,
      "grad_norm": 0.5106862783432007,
      "learning_rate": 0.0005505505872212045,
      "loss": 3.9044,
      "step": 7750
    },
    {
      "epoch": 0.8395221181788828,
      "grad_norm": 0.6245206594467163,
      "learning_rate": 0.0005502273461911432,
      "loss": 3.8976,
      "step": 7800
    },
    {
      "epoch": 0.844903670218491,
      "grad_norm": 0.6115423440933228,
      "learning_rate": 0.0005499041051610817,
      "loss": 3.8915,
      "step": 7850
    },
    {
      "epoch": 0.8502852222580992,
      "grad_norm": 0.6532109379768372,
      "learning_rate": 0.0005495808641310204,
      "loss": 3.8696,
      "step": 7900
    },
    {
      "epoch": 0.8556667742977074,
      "grad_norm": 0.6422241926193237,
      "learning_rate": 0.0005492576231009589,
      "loss": 3.881,
      "step": 7950
    },
    {
      "epoch": 0.8610483263373157,
      "grad_norm": 0.6257656216621399,
      "learning_rate": 0.0005489343820708974,
      "loss": 3.8891,
      "step": 8000
    },
    {
      "epoch": 0.8610483263373157,
      "eval_accuracy": 0.33730289415437686,
      "eval_loss": 3.8233916759490967,
      "eval_runtime": 181.7266,
      "eval_samples_per_second": 99.11,
      "eval_steps_per_second": 6.196,
      "step": 8000
    },
    {
      "epoch": 0.8664298783769239,
      "grad_norm": 0.5856085419654846,
      "learning_rate": 0.0005486111410408361,
      "loss": 3.8751,
      "step": 8050
    },
    {
      "epoch": 0.8718114304165321,
      "grad_norm": 0.6395129561424255,
      "learning_rate": 0.0005482879000107746,
      "loss": 3.8687,
      "step": 8100
    },
    {
      "epoch": 0.8771929824561403,
      "grad_norm": 0.5685286521911621,
      "learning_rate": 0.0005479646589807133,
      "loss": 3.8551,
      "step": 8150
    },
    {
      "epoch": 0.8825745344957485,
      "grad_norm": 0.5278218984603882,
      "learning_rate": 0.0005476414179506518,
      "loss": 3.8774,
      "step": 8200
    },
    {
      "epoch": 0.8879560865353568,
      "grad_norm": 0.537484884262085,
      "learning_rate": 0.0005473181769205904,
      "loss": 3.8629,
      "step": 8250
    },
    {
      "epoch": 0.8933376385749651,
      "grad_norm": 0.6712946891784668,
      "learning_rate": 0.000546994935890529,
      "loss": 3.8686,
      "step": 8300
    },
    {
      "epoch": 0.8987191906145733,
      "grad_norm": 0.5909174680709839,
      "learning_rate": 0.0005466716948604677,
      "loss": 3.869,
      "step": 8350
    },
    {
      "epoch": 0.9041007426541815,
      "grad_norm": 0.5181109309196472,
      "learning_rate": 0.0005463549186510073,
      "loss": 3.8528,
      "step": 8400
    },
    {
      "epoch": 0.9094822946937897,
      "grad_norm": 0.5849250555038452,
      "learning_rate": 0.000546031677620946,
      "loss": 3.8646,
      "step": 8450
    },
    {
      "epoch": 0.9148638467333979,
      "grad_norm": 0.706943154335022,
      "learning_rate": 0.0005457084365908845,
      "loss": 3.8497,
      "step": 8500
    },
    {
      "epoch": 0.9202453987730062,
      "grad_norm": 0.5680010914802551,
      "learning_rate": 0.0005453851955608232,
      "loss": 3.8535,
      "step": 8550
    },
    {
      "epoch": 0.9256269508126144,
      "grad_norm": 0.6180819869041443,
      "learning_rate": 0.0005450619545307617,
      "loss": 3.853,
      "step": 8600
    },
    {
      "epoch": 0.9310085028522226,
      "grad_norm": 0.6435816884040833,
      "learning_rate": 0.0005447387135007003,
      "loss": 3.8831,
      "step": 8650
    },
    {
      "epoch": 0.9363900548918308,
      "grad_norm": 0.7323058843612671,
      "learning_rate": 0.0005444154724706389,
      "loss": 3.8592,
      "step": 8700
    },
    {
      "epoch": 0.941771606931439,
      "grad_norm": 0.5507751703262329,
      "learning_rate": 0.0005440922314405775,
      "loss": 3.8579,
      "step": 8750
    },
    {
      "epoch": 0.9471531589710472,
      "grad_norm": 0.5053744316101074,
      "learning_rate": 0.0005437689904105161,
      "loss": 3.8629,
      "step": 8800
    },
    {
      "epoch": 0.9525347110106555,
      "grad_norm": 0.6427237391471863,
      "learning_rate": 0.0005434457493804546,
      "loss": 3.8597,
      "step": 8850
    },
    {
      "epoch": 0.9579162630502637,
      "grad_norm": 0.6234528422355652,
      "learning_rate": 0.0005431225083503932,
      "loss": 3.857,
      "step": 8900
    },
    {
      "epoch": 0.9632978150898719,
      "grad_norm": 0.5872640609741211,
      "learning_rate": 0.0005427992673203318,
      "loss": 3.8493,
      "step": 8950
    },
    {
      "epoch": 0.9686793671294801,
      "grad_norm": 0.5635019540786743,
      "learning_rate": 0.0005424760262902704,
      "loss": 3.8556,
      "step": 9000
    },
    {
      "epoch": 0.9686793671294801,
      "eval_accuracy": 0.3411061798394349,
      "eval_loss": 3.782834529876709,
      "eval_runtime": 181.5486,
      "eval_samples_per_second": 99.208,
      "eval_steps_per_second": 6.202,
      "step": 9000
    },
    {
      "epoch": 0.9740609191690883,
      "grad_norm": 0.5487684011459351,
      "learning_rate": 0.000542152785260209,
      "loss": 3.8483,
      "step": 9050
    },
    {
      "epoch": 0.9794424712086965,
      "grad_norm": 0.6091936230659485,
      "learning_rate": 0.0005418295442301476,
      "loss": 3.8312,
      "step": 9100
    },
    {
      "epoch": 0.9848240232483048,
      "grad_norm": 0.5603070259094238,
      "learning_rate": 0.0005415063032000861,
      "loss": 3.8439,
      "step": 9150
    },
    {
      "epoch": 0.9902055752879131,
      "grad_norm": 0.5429691076278687,
      "learning_rate": 0.0005411830621700248,
      "loss": 3.8466,
      "step": 9200
    },
    {
      "epoch": 0.9955871273275213,
      "grad_norm": 0.5504483580589294,
      "learning_rate": 0.0005408598211399633,
      "loss": 3.8379,
      "step": 9250
    },
    {
      "epoch": 1.0009686793671295,
      "grad_norm": 0.5129256248474121,
      "learning_rate": 0.0005405365801099019,
      "loss": 3.828,
      "step": 9300
    },
    {
      "epoch": 1.0063502314067376,
      "grad_norm": 0.6036707162857056,
      "learning_rate": 0.0005402133390798405,
      "loss": 3.7896,
      "step": 9350
    },
    {
      "epoch": 1.011731783446346,
      "grad_norm": 0.6437271237373352,
      "learning_rate": 0.000539890098049779,
      "loss": 3.7621,
      "step": 9400
    },
    {
      "epoch": 1.017113335485954,
      "grad_norm": 0.5351244807243347,
      "learning_rate": 0.0005395668570197177,
      "loss": 3.7763,
      "step": 9450
    },
    {
      "epoch": 1.0224948875255624,
      "grad_norm": 0.5743438601493835,
      "learning_rate": 0.0005392500808102575,
      "loss": 3.7765,
      "step": 9500
    },
    {
      "epoch": 1.0278764395651705,
      "grad_norm": 0.5962579250335693,
      "learning_rate": 0.000538926839780196,
      "loss": 3.768,
      "step": 9550
    },
    {
      "epoch": 1.0332579916047788,
      "grad_norm": 0.5441368818283081,
      "learning_rate": 0.0005386035987501346,
      "loss": 3.7466,
      "step": 9600
    },
    {
      "epoch": 1.0386395436443872,
      "grad_norm": 0.6138520240783691,
      "learning_rate": 0.0005382803577200732,
      "loss": 3.7675,
      "step": 9650
    },
    {
      "epoch": 1.0440210956839953,
      "grad_norm": 0.6969156265258789,
      "learning_rate": 0.0005379571166900119,
      "loss": 3.7691,
      "step": 9700
    },
    {
      "epoch": 1.0494026477236036,
      "grad_norm": 0.6105533838272095,
      "learning_rate": 0.0005376338756599504,
      "loss": 3.7959,
      "step": 9750
    },
    {
      "epoch": 1.0547841997632117,
      "grad_norm": 0.5765292644500732,
      "learning_rate": 0.0005373106346298889,
      "loss": 3.7735,
      "step": 9800
    },
    {
      "epoch": 1.06016575180282,
      "grad_norm": 0.5966777801513672,
      "learning_rate": 0.0005369873935998276,
      "loss": 3.759,
      "step": 9850
    },
    {
      "epoch": 1.0655473038424281,
      "grad_norm": 0.6016904711723328,
      "learning_rate": 0.0005366641525697661,
      "loss": 3.7747,
      "step": 9900
    },
    {
      "epoch": 1.0709288558820365,
      "grad_norm": 0.5426733493804932,
      "learning_rate": 0.0005363409115397048,
      "loss": 3.7822,
      "step": 9950
    },
    {
      "epoch": 1.0763104079216446,
      "grad_norm": 0.5823302268981934,
      "learning_rate": 0.0005360176705096433,
      "loss": 3.7769,
      "step": 10000
    },
    {
      "epoch": 1.0763104079216446,
      "eval_accuracy": 0.3437590487483133,
      "eval_loss": 3.756680488586426,
      "eval_runtime": 181.8942,
      "eval_samples_per_second": 99.019,
      "eval_steps_per_second": 6.19,
      "step": 10000
    },
    {
      "epoch": 1.081691959961253,
      "grad_norm": 0.5333569645881653,
      "learning_rate": 0.0005356944294795819,
      "loss": 3.7611,
      "step": 10050
    },
    {
      "epoch": 1.087073512000861,
      "grad_norm": 0.594085693359375,
      "learning_rate": 0.0005353711884495205,
      "loss": 3.7799,
      "step": 10100
    },
    {
      "epoch": 1.0924550640404693,
      "grad_norm": 0.5967299938201904,
      "learning_rate": 0.000535047947419459,
      "loss": 3.8081,
      "step": 10150
    },
    {
      "epoch": 1.0978366160800774,
      "grad_norm": 0.5219544172286987,
      "learning_rate": 0.0005347247063893976,
      "loss": 3.7728,
      "step": 10200
    },
    {
      "epoch": 1.1032181681196858,
      "grad_norm": 0.512632429599762,
      "learning_rate": 0.0005344014653593362,
      "loss": 3.7862,
      "step": 10250
    },
    {
      "epoch": 1.1085997201592939,
      "grad_norm": 0.6375972032546997,
      "learning_rate": 0.0005340782243292748,
      "loss": 3.7492,
      "step": 10300
    },
    {
      "epoch": 1.1139812721989022,
      "grad_norm": 0.5152122378349304,
      "learning_rate": 0.0005337549832992134,
      "loss": 3.7347,
      "step": 10350
    },
    {
      "epoch": 1.1193628242385103,
      "grad_norm": 0.5958911776542664,
      "learning_rate": 0.000533431742269152,
      "loss": 3.7754,
      "step": 10400
    },
    {
      "epoch": 1.1247443762781186,
      "grad_norm": 0.543573796749115,
      "learning_rate": 0.0005331085012390905,
      "loss": 3.7634,
      "step": 10450
    },
    {
      "epoch": 1.1301259283177267,
      "grad_norm": 0.5596579909324646,
      "learning_rate": 0.0005327852602090292,
      "loss": 3.7562,
      "step": 10500
    },
    {
      "epoch": 1.135507480357335,
      "grad_norm": 0.5700835585594177,
      "learning_rate": 0.0005324620191789678,
      "loss": 3.7589,
      "step": 10550
    },
    {
      "epoch": 1.1408890323969434,
      "grad_norm": 0.5519635677337646,
      "learning_rate": 0.0005321387781489063,
      "loss": 3.7723,
      "step": 10600
    },
    {
      "epoch": 1.1462705844365515,
      "grad_norm": 0.591704249382019,
      "learning_rate": 0.0005318155371188449,
      "loss": 3.7519,
      "step": 10650
    },
    {
      "epoch": 1.1516521364761596,
      "grad_norm": 0.6189394593238831,
      "learning_rate": 0.0005314922960887834,
      "loss": 3.7536,
      "step": 10700
    },
    {
      "epoch": 1.157033688515768,
      "grad_norm": 0.5836275815963745,
      "learning_rate": 0.0005311690550587221,
      "loss": 3.7614,
      "step": 10750
    },
    {
      "epoch": 1.1624152405553763,
      "grad_norm": 0.5453766584396362,
      "learning_rate": 0.0005308458140286607,
      "loss": 3.7622,
      "step": 10800
    },
    {
      "epoch": 1.1677967925949844,
      "grad_norm": 0.542684018611908,
      "learning_rate": 0.0005305225729985993,
      "loss": 3.7464,
      "step": 10850
    },
    {
      "epoch": 1.1731783446345927,
      "grad_norm": 0.5222153663635254,
      "learning_rate": 0.0005301993319685378,
      "loss": 3.7497,
      "step": 10900
    },
    {
      "epoch": 1.1785598966742008,
      "grad_norm": 0.6043640971183777,
      "learning_rate": 0.0005298760909384765,
      "loss": 3.747,
      "step": 10950
    },
    {
      "epoch": 1.1839414487138091,
      "grad_norm": 0.5312232971191406,
      "learning_rate": 0.000529552849908415,
      "loss": 3.7557,
      "step": 11000
    },
    {
      "epoch": 1.1839414487138091,
      "eval_accuracy": 0.3465541442873408,
      "eval_loss": 3.7269480228424072,
      "eval_runtime": 181.7969,
      "eval_samples_per_second": 99.072,
      "eval_steps_per_second": 6.194,
      "step": 11000
    },
    {
      "epoch": 1.1893230007534172,
      "grad_norm": 0.5799316763877869,
      "learning_rate": 0.0005292296088783535,
      "loss": 3.746,
      "step": 11050
    },
    {
      "epoch": 1.1947045527930256,
      "grad_norm": 0.6130627989768982,
      "learning_rate": 0.0005289063678482922,
      "loss": 3.7427,
      "step": 11100
    },
    {
      "epoch": 1.2000861048326337,
      "grad_norm": 0.5593108534812927,
      "learning_rate": 0.0005285831268182307,
      "loss": 3.7429,
      "step": 11150
    },
    {
      "epoch": 1.205467656872242,
      "grad_norm": 0.5721321105957031,
      "learning_rate": 0.0005282598857881694,
      "loss": 3.7479,
      "step": 11200
    },
    {
      "epoch": 1.21084920891185,
      "grad_norm": 0.6190361976623535,
      "learning_rate": 0.0005279366447581079,
      "loss": 3.7495,
      "step": 11250
    },
    {
      "epoch": 1.2162307609514584,
      "grad_norm": 0.5832390189170837,
      "learning_rate": 0.0005276134037280465,
      "loss": 3.7394,
      "step": 11300
    },
    {
      "epoch": 1.2216123129910665,
      "grad_norm": 0.5611028671264648,
      "learning_rate": 0.0005272901626979851,
      "loss": 3.7416,
      "step": 11350
    },
    {
      "epoch": 1.2269938650306749,
      "grad_norm": 0.6397462487220764,
      "learning_rate": 0.0005269669216679236,
      "loss": 3.745,
      "step": 11400
    },
    {
      "epoch": 1.232375417070283,
      "grad_norm": 0.594230592250824,
      "learning_rate": 0.0005266436806378623,
      "loss": 3.7386,
      "step": 11450
    },
    {
      "epoch": 1.2377569691098913,
      "grad_norm": 0.5732925534248352,
      "learning_rate": 0.0005263204396078008,
      "loss": 3.7348,
      "step": 11500
    },
    {
      "epoch": 1.2431385211494996,
      "grad_norm": 0.5486712455749512,
      "learning_rate": 0.0005259971985777394,
      "loss": 3.7222,
      "step": 11550
    },
    {
      "epoch": 1.2485200731891077,
      "grad_norm": 0.6020062565803528,
      "learning_rate": 0.000525673957547678,
      "loss": 3.7381,
      "step": 11600
    },
    {
      "epoch": 1.2539016252287158,
      "grad_norm": 0.5783679485321045,
      "learning_rate": 0.0005253507165176167,
      "loss": 3.7326,
      "step": 11650
    },
    {
      "epoch": 1.2592831772683242,
      "grad_norm": 0.5972403287887573,
      "learning_rate": 0.0005250274754875552,
      "loss": 3.7553,
      "step": 11700
    },
    {
      "epoch": 1.2646647293079325,
      "grad_norm": 0.6271345019340515,
      "learning_rate": 0.0005247042344574938,
      "loss": 3.7324,
      "step": 11750
    },
    {
      "epoch": 1.2700462813475406,
      "grad_norm": 0.5156011581420898,
      "learning_rate": 0.0005243809934274323,
      "loss": 3.7449,
      "step": 11800
    },
    {
      "epoch": 1.275427833387149,
      "grad_norm": 0.6269333958625793,
      "learning_rate": 0.0005240577523973709,
      "loss": 3.7286,
      "step": 11850
    },
    {
      "epoch": 1.280809385426757,
      "grad_norm": 0.6362870335578918,
      "learning_rate": 0.0005237345113673095,
      "loss": 3.7429,
      "step": 11900
    },
    {
      "epoch": 1.2861909374663654,
      "grad_norm": 0.5130422711372375,
      "learning_rate": 0.0005234112703372481,
      "loss": 3.7374,
      "step": 11950
    },
    {
      "epoch": 1.2915724895059735,
      "grad_norm": 0.5693491101264954,
      "learning_rate": 0.0005230880293071867,
      "loss": 3.7263,
      "step": 12000
    },
    {
      "epoch": 1.2915724895059735,
      "eval_accuracy": 0.3490803239290275,
      "eval_loss": 3.700749397277832,
      "eval_runtime": 181.2667,
      "eval_samples_per_second": 99.362,
      "eval_steps_per_second": 6.212,
      "step": 12000
    },
    {
      "epoch": 1.2969540415455818,
      "grad_norm": 0.5226871967315674,
      "learning_rate": 0.0005227647882771253,
      "loss": 3.724,
      "step": 12050
    },
    {
      "epoch": 1.30233559358519,
      "grad_norm": 0.545397937297821,
      "learning_rate": 0.0005224415472470639,
      "loss": 3.7427,
      "step": 12100
    },
    {
      "epoch": 1.3077171456247982,
      "grad_norm": 0.5396242141723633,
      "learning_rate": 0.0005221183062170024,
      "loss": 3.7339,
      "step": 12150
    },
    {
      "epoch": 1.3130986976644063,
      "grad_norm": 0.5513056516647339,
      "learning_rate": 0.0005217950651869409,
      "loss": 3.7244,
      "step": 12200
    },
    {
      "epoch": 1.3184802497040147,
      "grad_norm": 0.49842652678489685,
      "learning_rate": 0.0005214718241568796,
      "loss": 3.7196,
      "step": 12250
    },
    {
      "epoch": 1.3238618017436228,
      "grad_norm": 0.573376476764679,
      "learning_rate": 0.0005211485831268182,
      "loss": 3.7473,
      "step": 12300
    },
    {
      "epoch": 1.329243353783231,
      "grad_norm": 0.5287810564041138,
      "learning_rate": 0.0005208253420967568,
      "loss": 3.7303,
      "step": 12350
    },
    {
      "epoch": 1.3346249058228392,
      "grad_norm": 0.5699406266212463,
      "learning_rate": 0.0005205021010666953,
      "loss": 3.7288,
      "step": 12400
    },
    {
      "epoch": 1.3400064578624475,
      "grad_norm": 0.6892572641372681,
      "learning_rate": 0.0005201788600366339,
      "loss": 3.7174,
      "step": 12450
    },
    {
      "epoch": 1.3453880099020559,
      "grad_norm": 0.6050868630409241,
      "learning_rate": 0.0005198556190065725,
      "loss": 3.7363,
      "step": 12500
    },
    {
      "epoch": 1.350769561941664,
      "grad_norm": 0.5488519072532654,
      "learning_rate": 0.0005195323779765112,
      "loss": 3.7324,
      "step": 12550
    },
    {
      "epoch": 1.356151113981272,
      "grad_norm": 0.607075035572052,
      "learning_rate": 0.0005192091369464497,
      "loss": 3.7309,
      "step": 12600
    },
    {
      "epoch": 1.3615326660208804,
      "grad_norm": 0.5399162173271179,
      "learning_rate": 0.0005188858959163882,
      "loss": 3.7005,
      "step": 12650
    },
    {
      "epoch": 1.3669142180604887,
      "grad_norm": 0.5428594350814819,
      "learning_rate": 0.0005185626548863269,
      "loss": 3.7323,
      "step": 12700
    },
    {
      "epoch": 1.3722957701000968,
      "grad_norm": 0.5723716616630554,
      "learning_rate": 0.0005182394138562654,
      "loss": 3.7268,
      "step": 12750
    },
    {
      "epoch": 1.3776773221397052,
      "grad_norm": 0.6055893301963806,
      "learning_rate": 0.0005179161728262041,
      "loss": 3.7243,
      "step": 12800
    },
    {
      "epoch": 1.3830588741793133,
      "grad_norm": 0.5669417977333069,
      "learning_rate": 0.0005175929317961426,
      "loss": 3.721,
      "step": 12850
    },
    {
      "epoch": 1.3884404262189216,
      "grad_norm": 0.5477641224861145,
      "learning_rate": 0.0005172696907660812,
      "loss": 3.7123,
      "step": 12900
    },
    {
      "epoch": 1.3938219782585297,
      "grad_norm": 0.5189762711524963,
      "learning_rate": 0.0005169464497360198,
      "loss": 3.7075,
      "step": 12950
    },
    {
      "epoch": 1.399203530298138,
      "grad_norm": 0.6367331147193909,
      "learning_rate": 0.0005166232087059583,
      "loss": 3.7311,
      "step": 13000
    },
    {
      "epoch": 1.399203530298138,
      "eval_accuracy": 0.35112180303817375,
      "eval_loss": 3.678361415863037,
      "eval_runtime": 181.6109,
      "eval_samples_per_second": 99.174,
      "eval_steps_per_second": 6.2,
      "step": 13000
    },
    {
      "epoch": 1.4045850823377461,
      "grad_norm": 0.5417941808700562,
      "learning_rate": 0.0005162999676758969,
      "loss": 3.7207,
      "step": 13050
    },
    {
      "epoch": 1.4099666343773545,
      "grad_norm": 0.6546807885169983,
      "learning_rate": 0.0005159767266458355,
      "loss": 3.6888,
      "step": 13100
    },
    {
      "epoch": 1.4153481864169626,
      "grad_norm": 0.6071829199790955,
      "learning_rate": 0.0005156534856157741,
      "loss": 3.7078,
      "step": 13150
    },
    {
      "epoch": 1.420729738456571,
      "grad_norm": 0.5235936045646667,
      "learning_rate": 0.0005153302445857127,
      "loss": 3.7152,
      "step": 13200
    },
    {
      "epoch": 1.426111290496179,
      "grad_norm": 0.5719900727272034,
      "learning_rate": 0.0005150070035556513,
      "loss": 3.723,
      "step": 13250
    },
    {
      "epoch": 1.4314928425357873,
      "grad_norm": 0.5882601737976074,
      "learning_rate": 0.0005146837625255898,
      "loss": 3.7026,
      "step": 13300
    },
    {
      "epoch": 1.4368743945753955,
      "grad_norm": 0.5939633846282959,
      "learning_rate": 0.0005143605214955285,
      "loss": 3.7201,
      "step": 13350
    },
    {
      "epoch": 1.4422559466150038,
      "grad_norm": 0.5437493920326233,
      "learning_rate": 0.0005140372804654671,
      "loss": 3.7033,
      "step": 13400
    },
    {
      "epoch": 1.447637498654612,
      "grad_norm": 0.5881966948509216,
      "learning_rate": 0.0005137140394354056,
      "loss": 3.6987,
      "step": 13450
    },
    {
      "epoch": 1.4530190506942202,
      "grad_norm": 0.5138363838195801,
      "learning_rate": 0.0005133907984053442,
      "loss": 3.717,
      "step": 13500
    },
    {
      "epoch": 1.4584006027338283,
      "grad_norm": 0.665187418460846,
      "learning_rate": 0.0005130675573752827,
      "loss": 3.717,
      "step": 13550
    },
    {
      "epoch": 1.4637821547734367,
      "grad_norm": 0.6053789258003235,
      "learning_rate": 0.0005127443163452214,
      "loss": 3.7155,
      "step": 13600
    },
    {
      "epoch": 1.469163706813045,
      "grad_norm": 0.5693475008010864,
      "learning_rate": 0.0005124275401357612,
      "loss": 3.7086,
      "step": 13650
    },
    {
      "epoch": 1.474545258852653,
      "grad_norm": 0.5781257748603821,
      "learning_rate": 0.0005121042991056997,
      "loss": 3.7063,
      "step": 13700
    },
    {
      "epoch": 1.4799268108922612,
      "grad_norm": 0.5825347304344177,
      "learning_rate": 0.0005117810580756384,
      "loss": 3.6971,
      "step": 13750
    },
    {
      "epoch": 1.4853083629318695,
      "grad_norm": 0.570434033870697,
      "learning_rate": 0.0005114578170455769,
      "loss": 3.6933,
      "step": 13800
    },
    {
      "epoch": 1.4906899149714778,
      "grad_norm": 0.5582500100135803,
      "learning_rate": 0.0005111345760155156,
      "loss": 3.7096,
      "step": 13850
    },
    {
      "epoch": 1.496071467011086,
      "grad_norm": 0.5875988602638245,
      "learning_rate": 0.0005108113349854541,
      "loss": 3.7135,
      "step": 13900
    },
    {
      "epoch": 1.501453019050694,
      "grad_norm": 0.6081772446632385,
      "learning_rate": 0.0005104880939553926,
      "loss": 3.6997,
      "step": 13950
    },
    {
      "epoch": 1.5068345710903024,
      "grad_norm": 0.6700321435928345,
      "learning_rate": 0.0005101648529253313,
      "loss": 3.695,
      "step": 14000
    },
    {
      "epoch": 1.5068345710903024,
      "eval_accuracy": 0.3530839655392155,
      "eval_loss": 3.6611173152923584,
      "eval_runtime": 181.58,
      "eval_samples_per_second": 99.19,
      "eval_steps_per_second": 6.201,
      "step": 14000
    },
    {
      "epoch": 1.5122161231299107,
      "grad_norm": 0.5248975157737732,
      "learning_rate": 0.0005098416118952699,
      "loss": 3.7077,
      "step": 14050
    },
    {
      "epoch": 1.5175976751695188,
      "grad_norm": 0.5887861251831055,
      "learning_rate": 0.0005095183708652085,
      "loss": 3.6926,
      "step": 14100
    },
    {
      "epoch": 1.5229792272091272,
      "grad_norm": 0.5799200534820557,
      "learning_rate": 0.000509195129835147,
      "loss": 3.6981,
      "step": 14150
    },
    {
      "epoch": 1.5283607792487355,
      "grad_norm": 0.5453342795372009,
      "learning_rate": 0.0005088718888050856,
      "loss": 3.701,
      "step": 14200
    },
    {
      "epoch": 1.5337423312883436,
      "grad_norm": 0.5153930187225342,
      "learning_rate": 0.0005085486477750242,
      "loss": 3.691,
      "step": 14250
    },
    {
      "epoch": 1.5391238833279517,
      "grad_norm": 0.5329104661941528,
      "learning_rate": 0.0005082254067449629,
      "loss": 3.694,
      "step": 14300
    },
    {
      "epoch": 1.54450543536756,
      "grad_norm": 0.6123566031455994,
      "learning_rate": 0.0005079021657149014,
      "loss": 3.6932,
      "step": 14350
    },
    {
      "epoch": 1.5498869874071683,
      "grad_norm": 0.5439249277114868,
      "learning_rate": 0.0005075789246848399,
      "loss": 3.6876,
      "step": 14400
    },
    {
      "epoch": 1.5552685394467765,
      "grad_norm": 0.5909530520439148,
      "learning_rate": 0.0005072556836547785,
      "loss": 3.6942,
      "step": 14450
    },
    {
      "epoch": 1.5606500914863846,
      "grad_norm": 0.5595250129699707,
      "learning_rate": 0.0005069324426247171,
      "loss": 3.7024,
      "step": 14500
    },
    {
      "epoch": 1.566031643525993,
      "grad_norm": 0.5844931602478027,
      "learning_rate": 0.0005066092015946557,
      "loss": 3.6937,
      "step": 14550
    },
    {
      "epoch": 1.5714131955656012,
      "grad_norm": 0.5309423208236694,
      "learning_rate": 0.0005062859605645943,
      "loss": 3.6809,
      "step": 14600
    },
    {
      "epoch": 1.5767947476052093,
      "grad_norm": 0.5617510676383972,
      "learning_rate": 0.0005059627195345329,
      "loss": 3.6887,
      "step": 14650
    },
    {
      "epoch": 1.5821762996448174,
      "grad_norm": 0.543016791343689,
      "learning_rate": 0.0005056394785044715,
      "loss": 3.7156,
      "step": 14700
    },
    {
      "epoch": 1.5875578516844258,
      "grad_norm": 0.5183383822441101,
      "learning_rate": 0.00050531623747441,
      "loss": 3.7028,
      "step": 14750
    },
    {
      "epoch": 1.592939403724034,
      "grad_norm": 0.5290982723236084,
      "learning_rate": 0.0005049929964443486,
      "loss": 3.7059,
      "step": 14800
    },
    {
      "epoch": 1.5983209557636422,
      "grad_norm": 0.5281513929367065,
      "learning_rate": 0.0005046697554142871,
      "loss": 3.6782,
      "step": 14850
    },
    {
      "epoch": 1.6037025078032503,
      "grad_norm": 0.5322856307029724,
      "learning_rate": 0.0005043465143842258,
      "loss": 3.6873,
      "step": 14900
    },
    {
      "epoch": 1.6090840598428586,
      "grad_norm": 0.5981009006500244,
      "learning_rate": 0.0005040232733541644,
      "loss": 3.6901,
      "step": 14950
    },
    {
      "epoch": 1.614465611882467,
      "grad_norm": 0.6097161769866943,
      "learning_rate": 0.000503700032324103,
      "loss": 3.6881,
      "step": 15000
    },
    {
      "epoch": 1.614465611882467,
      "eval_accuracy": 0.3549223724010365,
      "eval_loss": 3.641772747039795,
      "eval_runtime": 181.7317,
      "eval_samples_per_second": 99.108,
      "eval_steps_per_second": 6.196,
      "step": 15000
    },
    {
      "epoch": 1.619847163922075,
      "grad_norm": 0.5432164669036865,
      "learning_rate": 0.0005033767912940415,
      "loss": 3.695,
      "step": 15050
    },
    {
      "epoch": 1.6252287159616834,
      "grad_norm": 0.5667510628700256,
      "learning_rate": 0.0005030535502639802,
      "loss": 3.683,
      "step": 15100
    },
    {
      "epoch": 1.6306102680012917,
      "grad_norm": 0.5670884847640991,
      "learning_rate": 0.0005027303092339187,
      "loss": 3.6961,
      "step": 15150
    },
    {
      "epoch": 1.6359918200408998,
      "grad_norm": 0.6542835235595703,
      "learning_rate": 0.0005024070682038573,
      "loss": 3.6805,
      "step": 15200
    },
    {
      "epoch": 1.641373372080508,
      "grad_norm": 0.5660874247550964,
      "learning_rate": 0.0005020838271737959,
      "loss": 3.6941,
      "step": 15250
    },
    {
      "epoch": 1.6467549241201163,
      "grad_norm": 0.614909291267395,
      "learning_rate": 0.0005017605861437344,
      "loss": 3.6808,
      "step": 15300
    },
    {
      "epoch": 1.6521364761597246,
      "grad_norm": 0.6014238595962524,
      "learning_rate": 0.0005014373451136731,
      "loss": 3.6686,
      "step": 15350
    },
    {
      "epoch": 1.6575180281993327,
      "grad_norm": 0.5991939902305603,
      "learning_rate": 0.0005011141040836116,
      "loss": 3.6984,
      "step": 15400
    },
    {
      "epoch": 1.6628995802389408,
      "grad_norm": 0.5311054587364197,
      "learning_rate": 0.0005007908630535503,
      "loss": 3.6893,
      "step": 15450
    },
    {
      "epoch": 1.6682811322785491,
      "grad_norm": 0.5612145662307739,
      "learning_rate": 0.0005004676220234888,
      "loss": 3.6567,
      "step": 15500
    },
    {
      "epoch": 1.6736626843181575,
      "grad_norm": 0.5380738377571106,
      "learning_rate": 0.0005001443809934273,
      "loss": 3.6877,
      "step": 15550
    },
    {
      "epoch": 1.6790442363577656,
      "grad_norm": 0.5554681420326233,
      "learning_rate": 0.000499821139963366,
      "loss": 3.6787,
      "step": 15600
    },
    {
      "epoch": 1.6844257883973737,
      "grad_norm": 0.537265419960022,
      "learning_rate": 0.0004994978989333045,
      "loss": 3.6738,
      "step": 15650
    },
    {
      "epoch": 1.689807340436982,
      "grad_norm": 0.5948348641395569,
      "learning_rate": 0.0004991746579032431,
      "loss": 3.6698,
      "step": 15700
    },
    {
      "epoch": 1.6951888924765903,
      "grad_norm": 0.6049090027809143,
      "learning_rate": 0.0004988578816937829,
      "loss": 3.6578,
      "step": 15750
    },
    {
      "epoch": 1.7005704445161984,
      "grad_norm": 0.6425740718841553,
      "learning_rate": 0.0004985346406637215,
      "loss": 3.6588,
      "step": 15800
    },
    {
      "epoch": 1.7059519965558065,
      "grad_norm": 0.5173588991165161,
      "learning_rate": 0.0004982113996336602,
      "loss": 3.6596,
      "step": 15850
    },
    {
      "epoch": 1.7113335485954149,
      "grad_norm": 0.5109997987747192,
      "learning_rate": 0.0004978881586035987,
      "loss": 3.663,
      "step": 15900
    },
    {
      "epoch": 1.7167151006350232,
      "grad_norm": 0.5706921219825745,
      "learning_rate": 0.0004975649175735373,
      "loss": 3.6645,
      "step": 15950
    },
    {
      "epoch": 1.7220966526746313,
      "grad_norm": 0.5525797605514526,
      "learning_rate": 0.0004972416765434759,
      "loss": 3.68,
      "step": 16000
    },
    {
      "epoch": 1.7220966526746313,
      "eval_accuracy": 0.35622240420373674,
      "eval_loss": 3.6240577697753906,
      "eval_runtime": 182.4648,
      "eval_samples_per_second": 98.709,
      "eval_steps_per_second": 6.171,
      "step": 16000
    },
    {
      "epoch": 1.7274782047142396,
      "grad_norm": 0.605958878993988,
      "learning_rate": 0.0004969184355134145,
      "loss": 3.6673,
      "step": 16050
    },
    {
      "epoch": 1.732859756753848,
      "grad_norm": 0.5897473096847534,
      "learning_rate": 0.0004965951944833531,
      "loss": 3.6622,
      "step": 16100
    },
    {
      "epoch": 1.738241308793456,
      "grad_norm": 0.5548131465911865,
      "learning_rate": 0.0004962719534532916,
      "loss": 3.6506,
      "step": 16150
    },
    {
      "epoch": 1.7436228608330642,
      "grad_norm": 0.5681083798408508,
      "learning_rate": 0.0004959487124232302,
      "loss": 3.669,
      "step": 16200
    },
    {
      "epoch": 1.7490044128726725,
      "grad_norm": 0.5295400023460388,
      "learning_rate": 0.0004956254713931688,
      "loss": 3.6828,
      "step": 16250
    },
    {
      "epoch": 1.7543859649122808,
      "grad_norm": 0.5120877027511597,
      "learning_rate": 0.0004953086951837086,
      "loss": 3.6774,
      "step": 16300
    },
    {
      "epoch": 1.759767516951889,
      "grad_norm": 0.6064488887786865,
      "learning_rate": 0.0004949854541536472,
      "loss": 3.6643,
      "step": 16350
    },
    {
      "epoch": 1.765149068991497,
      "grad_norm": 0.5578275322914124,
      "learning_rate": 0.0004946622131235857,
      "loss": 3.6775,
      "step": 16400
    },
    {
      "epoch": 1.7705306210311054,
      "grad_norm": 0.606903612613678,
      "learning_rate": 0.0004943389720935244,
      "loss": 3.672,
      "step": 16450
    },
    {
      "epoch": 1.7759121730707137,
      "grad_norm": 0.6102586388587952,
      "learning_rate": 0.000494015731063463,
      "loss": 3.6779,
      "step": 16500
    },
    {
      "epoch": 1.7812937251103218,
      "grad_norm": 0.5649584531784058,
      "learning_rate": 0.0004936924900334016,
      "loss": 3.6567,
      "step": 16550
    },
    {
      "epoch": 1.78667527714993,
      "grad_norm": 0.52224200963974,
      "learning_rate": 0.0004933692490033401,
      "loss": 3.6531,
      "step": 16600
    },
    {
      "epoch": 1.7920568291895382,
      "grad_norm": 0.5449085831642151,
      "learning_rate": 0.0004930460079732786,
      "loss": 3.6796,
      "step": 16650
    },
    {
      "epoch": 1.7974383812291466,
      "grad_norm": 0.514039158821106,
      "learning_rate": 0.0004927227669432173,
      "loss": 3.6624,
      "step": 16700
    },
    {
      "epoch": 1.8028199332687547,
      "grad_norm": 0.6038989424705505,
      "learning_rate": 0.0004923995259131558,
      "loss": 3.6676,
      "step": 16750
    },
    {
      "epoch": 1.8082014853083628,
      "grad_norm": 0.5265225172042847,
      "learning_rate": 0.0004920762848830945,
      "loss": 3.6482,
      "step": 16800
    },
    {
      "epoch": 1.813583037347971,
      "grad_norm": 0.5571869015693665,
      "learning_rate": 0.000491753043853033,
      "loss": 3.674,
      "step": 16850
    },
    {
      "epoch": 1.8189645893875794,
      "grad_norm": 0.5401254296302795,
      "learning_rate": 0.0004914298028229717,
      "loss": 3.6726,
      "step": 16900
    },
    {
      "epoch": 1.8243461414271875,
      "grad_norm": 0.5760928392410278,
      "learning_rate": 0.0004911065617929102,
      "loss": 3.647,
      "step": 16950
    },
    {
      "epoch": 1.8297276934667959,
      "grad_norm": 0.6425334811210632,
      "learning_rate": 0.0004907833207628487,
      "loss": 3.6695,
      "step": 17000
    },
    {
      "epoch": 1.8297276934667959,
      "eval_accuracy": 0.3586265666524078,
      "eval_loss": 3.608396053314209,
      "eval_runtime": 181.7829,
      "eval_samples_per_second": 99.08,
      "eval_steps_per_second": 6.194,
      "step": 17000
    },
    {
      "epoch": 1.8351092455064042,
      "grad_norm": 0.5431339740753174,
      "learning_rate": 0.0004904600797327874,
      "loss": 3.664,
      "step": 17050
    },
    {
      "epoch": 1.8404907975460123,
      "grad_norm": 0.5664581656455994,
      "learning_rate": 0.0004901368387027259,
      "loss": 3.6495,
      "step": 17100
    },
    {
      "epoch": 1.8458723495856204,
      "grad_norm": 0.5704631209373474,
      "learning_rate": 0.0004898135976726646,
      "loss": 3.6542,
      "step": 17150
    },
    {
      "epoch": 1.8512539016252287,
      "grad_norm": 0.6288411617279053,
      "learning_rate": 0.0004894903566426031,
      "loss": 3.6373,
      "step": 17200
    },
    {
      "epoch": 1.856635453664837,
      "grad_norm": 0.537182092666626,
      "learning_rate": 0.0004891671156125417,
      "loss": 3.6354,
      "step": 17250
    },
    {
      "epoch": 1.8620170057044452,
      "grad_norm": 0.5897940993309021,
      "learning_rate": 0.0004888438745824803,
      "loss": 3.6693,
      "step": 17300
    },
    {
      "epoch": 1.8673985577440533,
      "grad_norm": 0.6108824610710144,
      "learning_rate": 0.0004885206335524189,
      "loss": 3.6504,
      "step": 17350
    },
    {
      "epoch": 1.8727801097836616,
      "grad_norm": 0.6323780417442322,
      "learning_rate": 0.0004881973925223575,
      "loss": 3.6527,
      "step": 17400
    },
    {
      "epoch": 1.87816166182327,
      "grad_norm": 0.5189031958580017,
      "learning_rate": 0.00048787415149229604,
      "loss": 3.6504,
      "step": 17450
    },
    {
      "epoch": 1.883543213862878,
      "grad_norm": 0.5740469694137573,
      "learning_rate": 0.00048755091046223464,
      "loss": 3.66,
      "step": 17500
    },
    {
      "epoch": 1.8889247659024861,
      "grad_norm": 0.639797568321228,
      "learning_rate": 0.0004872276694321732,
      "loss": 3.6605,
      "step": 17550
    },
    {
      "epoch": 1.8943063179420945,
      "grad_norm": 0.5811259746551514,
      "learning_rate": 0.00048690442840211177,
      "loss": 3.6331,
      "step": 17600
    },
    {
      "epoch": 1.8996878699817028,
      "grad_norm": 0.5438345670700073,
      "learning_rate": 0.0004865811873720504,
      "loss": 3.6598,
      "step": 17650
    },
    {
      "epoch": 1.905069422021311,
      "grad_norm": 0.5600656867027283,
      "learning_rate": 0.00048625794634198896,
      "loss": 3.6539,
      "step": 17700
    },
    {
      "epoch": 1.910450974060919,
      "grad_norm": 0.5363627076148987,
      "learning_rate": 0.00048593470531192756,
      "loss": 3.6471,
      "step": 17750
    },
    {
      "epoch": 1.9158325261005273,
      "grad_norm": 0.6063541769981384,
      "learning_rate": 0.00048561146428186615,
      "loss": 3.6593,
      "step": 17800
    },
    {
      "epoch": 1.9212140781401357,
      "grad_norm": 0.580693244934082,
      "learning_rate": 0.0004852882232518047,
      "loss": 3.6364,
      "step": 17850
    },
    {
      "epoch": 1.9265956301797438,
      "grad_norm": 0.6139535903930664,
      "learning_rate": 0.00048496498222174334,
      "loss": 3.6441,
      "step": 17900
    },
    {
      "epoch": 1.931977182219352,
      "grad_norm": 0.5507370233535767,
      "learning_rate": 0.00048464174119168193,
      "loss": 3.6267,
      "step": 17950
    },
    {
      "epoch": 1.9373587342589604,
      "grad_norm": 0.5270146727561951,
      "learning_rate": 0.0004843185001616205,
      "loss": 3.6422,
      "step": 18000
    },
    {
      "epoch": 1.9373587342589604,
      "eval_accuracy": 0.359624434774096,
      "eval_loss": 3.5939505100250244,
      "eval_runtime": 181.5704,
      "eval_samples_per_second": 99.196,
      "eval_steps_per_second": 6.201,
      "step": 18000
    },
    {
      "epoch": 1.9427402862985685,
      "grad_norm": 0.5596647262573242,
      "learning_rate": 0.00048399525913155907,
      "loss": 3.6436,
      "step": 18050
    },
    {
      "epoch": 1.9481218383381766,
      "grad_norm": 0.6079298257827759,
      "learning_rate": 0.0004836720181014976,
      "loss": 3.6457,
      "step": 18100
    },
    {
      "epoch": 1.953503390377785,
      "grad_norm": 0.5995732545852661,
      "learning_rate": 0.0004833487770714362,
      "loss": 3.6327,
      "step": 18150
    },
    {
      "epoch": 1.9588849424173933,
      "grad_norm": 0.5431740880012512,
      "learning_rate": 0.00048302553604137485,
      "loss": 3.6328,
      "step": 18200
    },
    {
      "epoch": 1.9642664944570014,
      "grad_norm": 0.5336425304412842,
      "learning_rate": 0.0004827022950113134,
      "loss": 3.6447,
      "step": 18250
    },
    {
      "epoch": 1.9696480464966095,
      "grad_norm": 0.5442969799041748,
      "learning_rate": 0.000482379053981252,
      "loss": 3.6134,
      "step": 18300
    },
    {
      "epoch": 1.9750295985362178,
      "grad_norm": 0.5982159972190857,
      "learning_rate": 0.0004820558129511906,
      "loss": 3.6461,
      "step": 18350
    },
    {
      "epoch": 1.9804111505758262,
      "grad_norm": 0.5261278748512268,
      "learning_rate": 0.0004817325719211291,
      "loss": 3.6417,
      "step": 18400
    },
    {
      "epoch": 1.9857927026154343,
      "grad_norm": 0.5167089700698853,
      "learning_rate": 0.0004814093308910677,
      "loss": 3.642,
      "step": 18450
    },
    {
      "epoch": 1.9911742546550424,
      "grad_norm": 0.579689621925354,
      "learning_rate": 0.00048108608986100637,
      "loss": 3.6254,
      "step": 18500
    },
    {
      "epoch": 1.9965558066946507,
      "grad_norm": 0.5492581129074097,
      "learning_rate": 0.0004807628488309449,
      "loss": 3.6236,
      "step": 18550
    },
    {
      "epoch": 2.001937358734259,
      "grad_norm": 0.5233676433563232,
      "learning_rate": 0.0004804396078008835,
      "loss": 3.6019,
      "step": 18600
    },
    {
      "epoch": 2.007318910773867,
      "grad_norm": 0.5484439134597778,
      "learning_rate": 0.00048011636677082204,
      "loss": 3.557,
      "step": 18650
    },
    {
      "epoch": 2.0127004628134753,
      "grad_norm": 0.5425134301185608,
      "learning_rate": 0.00047979312574076064,
      "loss": 3.5416,
      "step": 18700
    },
    {
      "epoch": 2.018082014853084,
      "grad_norm": 0.5799254775047302,
      "learning_rate": 0.0004794698847106992,
      "loss": 3.555,
      "step": 18750
    },
    {
      "epoch": 2.023463566892692,
      "grad_norm": 0.6207883954048157,
      "learning_rate": 0.0004791466436806378,
      "loss": 3.5579,
      "step": 18800
    },
    {
      "epoch": 2.0288451189323,
      "grad_norm": 0.5390450358390808,
      "learning_rate": 0.0004788234026505764,
      "loss": 3.5736,
      "step": 18850
    },
    {
      "epoch": 2.034226670971908,
      "grad_norm": 0.5834195613861084,
      "learning_rate": 0.00047850016162051496,
      "loss": 3.5634,
      "step": 18900
    },
    {
      "epoch": 2.0396082230115167,
      "grad_norm": 0.5706800818443298,
      "learning_rate": 0.0004781833854110548,
      "loss": 3.5683,
      "step": 18950
    },
    {
      "epoch": 2.044989775051125,
      "grad_norm": 0.5613735318183899,
      "learning_rate": 0.00047786014438099336,
      "loss": 3.5362,
      "step": 19000
    },
    {
      "epoch": 2.044989775051125,
      "eval_accuracy": 0.3611749114832086,
      "eval_loss": 3.584038734436035,
      "eval_runtime": 182.2472,
      "eval_samples_per_second": 98.827,
      "eval_steps_per_second": 6.178,
      "step": 19000
    },
    {
      "epoch": 2.050371327090733,
      "grad_norm": 0.6817623972892761,
      "learning_rate": 0.00047753690335093196,
      "loss": 3.5334,
      "step": 19050
    },
    {
      "epoch": 2.055752879130341,
      "grad_norm": 0.5803874731063843,
      "learning_rate": 0.00047721366232087055,
      "loss": 3.5674,
      "step": 19100
    },
    {
      "epoch": 2.0611344311699495,
      "grad_norm": 0.5181655883789062,
      "learning_rate": 0.00047689042129080915,
      "loss": 3.5558,
      "step": 19150
    },
    {
      "epoch": 2.0665159832095576,
      "grad_norm": 0.5314016342163086,
      "learning_rate": 0.00047656718026074774,
      "loss": 3.5479,
      "step": 19200
    },
    {
      "epoch": 2.0718975352491658,
      "grad_norm": 0.5762434005737305,
      "learning_rate": 0.00047624393923068634,
      "loss": 3.5567,
      "step": 19250
    },
    {
      "epoch": 2.0772790872887743,
      "grad_norm": 0.5433565974235535,
      "learning_rate": 0.0004759206982006249,
      "loss": 3.5628,
      "step": 19300
    },
    {
      "epoch": 2.0826606393283824,
      "grad_norm": 0.5797845721244812,
      "learning_rate": 0.00047559745717056347,
      "loss": 3.5647,
      "step": 19350
    },
    {
      "epoch": 2.0880421913679905,
      "grad_norm": 0.5251281261444092,
      "learning_rate": 0.000475274216140502,
      "loss": 3.5492,
      "step": 19400
    },
    {
      "epoch": 2.0934237434075986,
      "grad_norm": 0.5371482372283936,
      "learning_rate": 0.00047495097511044066,
      "loss": 3.5682,
      "step": 19450
    },
    {
      "epoch": 2.098805295447207,
      "grad_norm": 0.544073224067688,
      "learning_rate": 0.00047462773408037925,
      "loss": 3.5576,
      "step": 19500
    },
    {
      "epoch": 2.1041868474868153,
      "grad_norm": 0.5822857618331909,
      "learning_rate": 0.0004743044930503178,
      "loss": 3.5725,
      "step": 19550
    },
    {
      "epoch": 2.1095683995264234,
      "grad_norm": 0.5426870584487915,
      "learning_rate": 0.0004739812520202564,
      "loss": 3.5636,
      "step": 19600
    },
    {
      "epoch": 2.1149499515660315,
      "grad_norm": 0.568265974521637,
      "learning_rate": 0.000473658010990195,
      "loss": 3.5546,
      "step": 19650
    },
    {
      "epoch": 2.12033150360564,
      "grad_norm": 0.5337464809417725,
      "learning_rate": 0.0004733347699601336,
      "loss": 3.547,
      "step": 19700
    },
    {
      "epoch": 2.125713055645248,
      "grad_norm": 0.5519516468048096,
      "learning_rate": 0.0004730115289300722,
      "loss": 3.5782,
      "step": 19750
    },
    {
      "epoch": 2.1310946076848563,
      "grad_norm": 0.5577347874641418,
      "learning_rate": 0.00047268828790001077,
      "loss": 3.553,
      "step": 19800
    },
    {
      "epoch": 2.1364761597244644,
      "grad_norm": 0.5973221659660339,
      "learning_rate": 0.0004723650468699493,
      "loss": 3.5529,
      "step": 19850
    },
    {
      "epoch": 2.141857711764073,
      "grad_norm": 0.5512371063232422,
      "learning_rate": 0.0004720418058398879,
      "loss": 3.5603,
      "step": 19900
    },
    {
      "epoch": 2.147239263803681,
      "grad_norm": 0.6232542991638184,
      "learning_rate": 0.00047171856480982644,
      "loss": 3.5695,
      "step": 19950
    },
    {
      "epoch": 2.152620815843289,
      "grad_norm": 0.5355117917060852,
      "learning_rate": 0.0004713953237797651,
      "loss": 3.5728,
      "step": 20000
    },
    {
      "epoch": 2.152620815843289,
      "eval_accuracy": 0.36235260013422976,
      "eval_loss": 3.5731425285339355,
      "eval_runtime": 181.5398,
      "eval_samples_per_second": 99.212,
      "eval_steps_per_second": 6.202,
      "step": 20000
    },
    {
      "epoch": 2.1580023678828972,
      "grad_norm": 0.5549548864364624,
      "learning_rate": 0.0004710720827497037,
      "loss": 3.5778,
      "step": 20050
    },
    {
      "epoch": 2.163383919922506,
      "grad_norm": 0.9356274604797363,
      "learning_rate": 0.00047074884171964223,
      "loss": 3.577,
      "step": 20100
    },
    {
      "epoch": 2.168765471962114,
      "grad_norm": 0.5694032907485962,
      "learning_rate": 0.0004704256006895808,
      "loss": 3.5827,
      "step": 20150
    },
    {
      "epoch": 2.174147024001722,
      "grad_norm": 0.6242302656173706,
      "learning_rate": 0.00047010235965951936,
      "loss": 3.5618,
      "step": 20200
    },
    {
      "epoch": 2.1795285760413305,
      "grad_norm": 0.5943654179573059,
      "learning_rate": 0.00046977911862945796,
      "loss": 3.5697,
      "step": 20250
    },
    {
      "epoch": 2.1849101280809387,
      "grad_norm": 0.574024498462677,
      "learning_rate": 0.0004694558775993966,
      "loss": 3.5544,
      "step": 20300
    },
    {
      "epoch": 2.1902916801205468,
      "grad_norm": 0.5402266383171082,
      "learning_rate": 0.00046913263656933515,
      "loss": 3.5464,
      "step": 20350
    },
    {
      "epoch": 2.195673232160155,
      "grad_norm": 0.5816961526870728,
      "learning_rate": 0.00046880939553927374,
      "loss": 3.5475,
      "step": 20400
    },
    {
      "epoch": 2.2010547841997634,
      "grad_norm": 0.5585674047470093,
      "learning_rate": 0.00046848615450921234,
      "loss": 3.5512,
      "step": 20450
    },
    {
      "epoch": 2.2064363362393715,
      "grad_norm": 0.5579937696456909,
      "learning_rate": 0.0004681629134791509,
      "loss": 3.5721,
      "step": 20500
    },
    {
      "epoch": 2.2118178882789796,
      "grad_norm": 0.5476185083389282,
      "learning_rate": 0.00046783967244908947,
      "loss": 3.5508,
      "step": 20550
    },
    {
      "epoch": 2.2171994403185877,
      "grad_norm": 0.5913034081459045,
      "learning_rate": 0.0004675164314190281,
      "loss": 3.5772,
      "step": 20600
    },
    {
      "epoch": 2.2225809923581963,
      "grad_norm": 0.5465318560600281,
      "learning_rate": 0.00046719319038896666,
      "loss": 3.5627,
      "step": 20650
    },
    {
      "epoch": 2.2279625443978044,
      "grad_norm": 0.5914093255996704,
      "learning_rate": 0.00046686994935890526,
      "loss": 3.5641,
      "step": 20700
    },
    {
      "epoch": 2.2333440964374125,
      "grad_norm": 0.5242118239402771,
      "learning_rate": 0.0004665467083288438,
      "loss": 3.5664,
      "step": 20750
    },
    {
      "epoch": 2.2387256484770206,
      "grad_norm": 0.6368445754051208,
      "learning_rate": 0.0004662234672987824,
      "loss": 3.5604,
      "step": 20800
    },
    {
      "epoch": 2.244107200516629,
      "grad_norm": 0.5522159337997437,
      "learning_rate": 0.00046590022626872104,
      "loss": 3.5723,
      "step": 20850
    },
    {
      "epoch": 2.2494887525562373,
      "grad_norm": 0.5908399224281311,
      "learning_rate": 0.0004655769852386596,
      "loss": 3.5693,
      "step": 20900
    },
    {
      "epoch": 2.2548703045958454,
      "grad_norm": 0.5566103458404541,
      "learning_rate": 0.0004652537442085982,
      "loss": 3.5721,
      "step": 20950
    },
    {
      "epoch": 2.2602518566354535,
      "grad_norm": 0.5772967338562012,
      "learning_rate": 0.00046493050317853677,
      "loss": 3.5556,
      "step": 21000
    },
    {
      "epoch": 2.2602518566354535,
      "eval_accuracy": 0.36317629767675136,
      "eval_loss": 3.5656988620758057,
      "eval_runtime": 181.6404,
      "eval_samples_per_second": 99.157,
      "eval_steps_per_second": 6.199,
      "step": 21000
    },
    {
      "epoch": 2.265633408675062,
      "grad_norm": 0.5285796523094177,
      "learning_rate": 0.0004646072621484753,
      "loss": 3.5589,
      "step": 21050
    },
    {
      "epoch": 2.27101496071467,
      "grad_norm": 0.5633891820907593,
      "learning_rate": 0.0004642840211184139,
      "loss": 3.5655,
      "step": 21100
    },
    {
      "epoch": 2.2763965127542782,
      "grad_norm": 0.5217143297195435,
      "learning_rate": 0.00046396078008835255,
      "loss": 3.5577,
      "step": 21150
    },
    {
      "epoch": 2.281778064793887,
      "grad_norm": 0.5375248193740845,
      "learning_rate": 0.0004636375390582911,
      "loss": 3.5449,
      "step": 21200
    },
    {
      "epoch": 2.287159616833495,
      "grad_norm": 0.5453669428825378,
      "learning_rate": 0.0004633142980282297,
      "loss": 3.558,
      "step": 21250
    },
    {
      "epoch": 2.292541168873103,
      "grad_norm": 0.595113217830658,
      "learning_rate": 0.00046299105699816823,
      "loss": 3.5628,
      "step": 21300
    },
    {
      "epoch": 2.297922720912711,
      "grad_norm": 0.5864694714546204,
      "learning_rate": 0.0004626678159681068,
      "loss": 3.571,
      "step": 21350
    },
    {
      "epoch": 2.303304272952319,
      "grad_norm": 0.6073390245437622,
      "learning_rate": 0.0004623445749380454,
      "loss": 3.5683,
      "step": 21400
    },
    {
      "epoch": 2.3086858249919278,
      "grad_norm": 0.5530102849006653,
      "learning_rate": 0.000462021333907984,
      "loss": 3.572,
      "step": 21450
    },
    {
      "epoch": 2.314067377031536,
      "grad_norm": 0.5673183798789978,
      "learning_rate": 0.0004616980928779226,
      "loss": 3.5709,
      "step": 21500
    },
    {
      "epoch": 2.319448929071144,
      "grad_norm": 0.5936405658721924,
      "learning_rate": 0.0004613748518478612,
      "loss": 3.5678,
      "step": 21550
    },
    {
      "epoch": 2.3248304811107525,
      "grad_norm": 0.5807705521583557,
      "learning_rate": 0.00046105161081779974,
      "loss": 3.5445,
      "step": 21600
    },
    {
      "epoch": 2.3302120331503606,
      "grad_norm": 0.5665655732154846,
      "learning_rate": 0.00046072836978773834,
      "loss": 3.5601,
      "step": 21650
    },
    {
      "epoch": 2.3355935851899687,
      "grad_norm": 0.6058281660079956,
      "learning_rate": 0.000460405128757677,
      "loss": 3.5721,
      "step": 21700
    },
    {
      "epoch": 2.340975137229577,
      "grad_norm": 0.5158112645149231,
      "learning_rate": 0.0004600818877276155,
      "loss": 3.5543,
      "step": 21750
    },
    {
      "epoch": 2.3463566892691854,
      "grad_norm": 0.5547083616256714,
      "learning_rate": 0.0004597586466975541,
      "loss": 3.5592,
      "step": 21800
    },
    {
      "epoch": 2.3517382413087935,
      "grad_norm": 0.5653228163719177,
      "learning_rate": 0.00045943540566749266,
      "loss": 3.5701,
      "step": 21850
    },
    {
      "epoch": 2.3571197933484016,
      "grad_norm": 0.5394896864891052,
      "learning_rate": 0.00045911216463743126,
      "loss": 3.5557,
      "step": 21900
    },
    {
      "epoch": 2.3625013453880097,
      "grad_norm": 0.5524275898933411,
      "learning_rate": 0.00045878892360736985,
      "loss": 3.5542,
      "step": 21950
    },
    {
      "epoch": 2.3678828974276183,
      "grad_norm": 0.5560618042945862,
      "learning_rate": 0.00045846568257730845,
      "loss": 3.5478,
      "step": 22000
    },
    {
      "epoch": 2.3678828974276183,
      "eval_accuracy": 0.3645548855173415,
      "eval_loss": 3.555986166000366,
      "eval_runtime": 181.3244,
      "eval_samples_per_second": 99.33,
      "eval_steps_per_second": 6.21,
      "step": 22000
    },
    {
      "epoch": 2.3732644494672264,
      "grad_norm": 0.5236088633537292,
      "learning_rate": 0.00045814244154724704,
      "loss": 3.5475,
      "step": 22050
    },
    {
      "epoch": 2.3786460015068345,
      "grad_norm": 0.5819620490074158,
      "learning_rate": 0.00045781920051718563,
      "loss": 3.5505,
      "step": 22100
    },
    {
      "epoch": 2.384027553546443,
      "grad_norm": 0.5542917847633362,
      "learning_rate": 0.0004574959594871242,
      "loss": 3.574,
      "step": 22150
    },
    {
      "epoch": 2.389409105586051,
      "grad_norm": 0.5558818578720093,
      "learning_rate": 0.00045717271845706277,
      "loss": 3.5477,
      "step": 22200
    },
    {
      "epoch": 2.3947906576256592,
      "grad_norm": 0.5596392750740051,
      "learning_rate": 0.0004568494774270013,
      "loss": 3.5634,
      "step": 22250
    },
    {
      "epoch": 2.4001722096652673,
      "grad_norm": 0.6099656224250793,
      "learning_rate": 0.00045652623639693996,
      "loss": 3.5614,
      "step": 22300
    },
    {
      "epoch": 2.4055537617048754,
      "grad_norm": 0.5923503041267395,
      "learning_rate": 0.00045620299536687855,
      "loss": 3.5622,
      "step": 22350
    },
    {
      "epoch": 2.410935313744484,
      "grad_norm": 0.5911056399345398,
      "learning_rate": 0.0004558797543368171,
      "loss": 3.575,
      "step": 22400
    },
    {
      "epoch": 2.416316865784092,
      "grad_norm": 0.5737081170082092,
      "learning_rate": 0.0004555565133067557,
      "loss": 3.5636,
      "step": 22450
    },
    {
      "epoch": 2.4216984178237,
      "grad_norm": 0.5820793509483337,
      "learning_rate": 0.0004552332722766943,
      "loss": 3.553,
      "step": 22500
    },
    {
      "epoch": 2.4270799698633088,
      "grad_norm": 0.598513662815094,
      "learning_rate": 0.0004549100312466328,
      "loss": 3.5595,
      "step": 22550
    },
    {
      "epoch": 2.432461521902917,
      "grad_norm": 0.5710144639015198,
      "learning_rate": 0.0004545867902165715,
      "loss": 3.5865,
      "step": 22600
    },
    {
      "epoch": 2.437843073942525,
      "grad_norm": 0.6584815979003906,
      "learning_rate": 0.00045426354918651007,
      "loss": 3.5395,
      "step": 22650
    },
    {
      "epoch": 2.443224625982133,
      "grad_norm": 0.6536726355552673,
      "learning_rate": 0.0004539403081564486,
      "loss": 3.554,
      "step": 22700
    },
    {
      "epoch": 2.4486061780217416,
      "grad_norm": 0.5798270106315613,
      "learning_rate": 0.0004536170671263872,
      "loss": 3.546,
      "step": 22750
    },
    {
      "epoch": 2.4539877300613497,
      "grad_norm": 0.6145896315574646,
      "learning_rate": 0.00045329382609632574,
      "loss": 3.5492,
      "step": 22800
    },
    {
      "epoch": 2.459369282100958,
      "grad_norm": 0.5772135853767395,
      "learning_rate": 0.0004529705850662644,
      "loss": 3.5544,
      "step": 22850
    },
    {
      "epoch": 2.464750834140566,
      "grad_norm": 0.5533580183982849,
      "learning_rate": 0.000452647344036203,
      "loss": 3.5629,
      "step": 22900
    },
    {
      "epoch": 2.4701323861801745,
      "grad_norm": 0.5494422912597656,
      "learning_rate": 0.0004523305678267428,
      "loss": 3.5415,
      "step": 22950
    },
    {
      "epoch": 2.4755139382197826,
      "grad_norm": 0.5468674898147583,
      "learning_rate": 0.0004520073267966814,
      "loss": 3.569,
      "step": 23000
    },
    {
      "epoch": 2.4755139382197826,
      "eval_accuracy": 0.3654498593542694,
      "eval_loss": 3.5443215370178223,
      "eval_runtime": 181.6709,
      "eval_samples_per_second": 99.141,
      "eval_steps_per_second": 6.198,
      "step": 23000
    },
    {
      "epoch": 2.4808954902593907,
      "grad_norm": 0.648300051689148,
      "learning_rate": 0.00045168408576661993,
      "loss": 3.5467,
      "step": 23050
    },
    {
      "epoch": 2.4862770422989993,
      "grad_norm": 0.5725293159484863,
      "learning_rate": 0.0004513608447365585,
      "loss": 3.5671,
      "step": 23100
    },
    {
      "epoch": 2.4916585943386074,
      "grad_norm": 0.5993512272834778,
      "learning_rate": 0.00045103760370649706,
      "loss": 3.5583,
      "step": 23150
    },
    {
      "epoch": 2.4970401463782155,
      "grad_norm": 0.5385034680366516,
      "learning_rate": 0.00045071436267643566,
      "loss": 3.5449,
      "step": 23200
    },
    {
      "epoch": 2.5024216984178236,
      "grad_norm": 0.5641158819198608,
      "learning_rate": 0.0004503911216463743,
      "loss": 3.5462,
      "step": 23250
    },
    {
      "epoch": 2.5078032504574317,
      "grad_norm": 0.549532949924469,
      "learning_rate": 0.00045006788061631285,
      "loss": 3.5653,
      "step": 23300
    },
    {
      "epoch": 2.5131848024970402,
      "grad_norm": 0.5564248561859131,
      "learning_rate": 0.00044974463958625144,
      "loss": 3.5382,
      "step": 23350
    },
    {
      "epoch": 2.5185663545366483,
      "grad_norm": 0.7529287934303284,
      "learning_rate": 0.00044942139855619004,
      "loss": 3.5312,
      "step": 23400
    },
    {
      "epoch": 2.5239479065762565,
      "grad_norm": 0.6144442558288574,
      "learning_rate": 0.0004490981575261286,
      "loss": 3.5344,
      "step": 23450
    },
    {
      "epoch": 2.529329458615865,
      "grad_norm": 0.6888875365257263,
      "learning_rate": 0.0004487749164960672,
      "loss": 3.5495,
      "step": 23500
    },
    {
      "epoch": 2.534711010655473,
      "grad_norm": 0.5331771373748779,
      "learning_rate": 0.0004484516754660058,
      "loss": 3.5626,
      "step": 23550
    },
    {
      "epoch": 2.540092562695081,
      "grad_norm": 0.6015036106109619,
      "learning_rate": 0.00044812843443594436,
      "loss": 3.5725,
      "step": 23600
    },
    {
      "epoch": 2.5454741147346893,
      "grad_norm": 0.6343125104904175,
      "learning_rate": 0.00044780519340588296,
      "loss": 3.5407,
      "step": 23650
    },
    {
      "epoch": 2.550855666774298,
      "grad_norm": 0.5897637605667114,
      "learning_rate": 0.0004474819523758215,
      "loss": 3.568,
      "step": 23700
    },
    {
      "epoch": 2.556237218813906,
      "grad_norm": 0.5451424717903137,
      "learning_rate": 0.0004471587113457601,
      "loss": 3.5457,
      "step": 23750
    },
    {
      "epoch": 2.561618770853514,
      "grad_norm": 0.5446281433105469,
      "learning_rate": 0.00044683547031569874,
      "loss": 3.5432,
      "step": 23800
    },
    {
      "epoch": 2.567000322893122,
      "grad_norm": 0.6234021186828613,
      "learning_rate": 0.0004465122292856373,
      "loss": 3.559,
      "step": 23850
    },
    {
      "epoch": 2.5723818749327307,
      "grad_norm": 0.6039599776268005,
      "learning_rate": 0.0004461889882555759,
      "loss": 3.5582,
      "step": 23900
    },
    {
      "epoch": 2.577763426972339,
      "grad_norm": 0.6333798766136169,
      "learning_rate": 0.00044586574722551447,
      "loss": 3.5426,
      "step": 23950
    },
    {
      "epoch": 2.583144979011947,
      "grad_norm": 0.585645854473114,
      "learning_rate": 0.000445542506195453,
      "loss": 3.5522,
      "step": 24000
    },
    {
      "epoch": 2.583144979011947,
      "eval_accuracy": 0.3666010367006638,
      "eval_loss": 3.5338945388793945,
      "eval_runtime": 181.3617,
      "eval_samples_per_second": 99.31,
      "eval_steps_per_second": 6.209,
      "step": 24000
    },
    {
      "epoch": 2.5885265310515555,
      "grad_norm": 0.5866405367851257,
      "learning_rate": 0.0004452192651653916,
      "loss": 3.555,
      "step": 24050
    },
    {
      "epoch": 2.5939080830911636,
      "grad_norm": 0.616971492767334,
      "learning_rate": 0.00044489602413533025,
      "loss": 3.5418,
      "step": 24100
    },
    {
      "epoch": 2.5992896351307717,
      "grad_norm": 0.5667551159858704,
      "learning_rate": 0.0004445727831052688,
      "loss": 3.5305,
      "step": 24150
    },
    {
      "epoch": 2.60467118717038,
      "grad_norm": 0.5769805908203125,
      "learning_rate": 0.0004442495420752074,
      "loss": 3.5358,
      "step": 24200
    },
    {
      "epoch": 2.610052739209988,
      "grad_norm": 0.5305215120315552,
      "learning_rate": 0.00044392630104514593,
      "loss": 3.523,
      "step": 24250
    },
    {
      "epoch": 2.6154342912495965,
      "grad_norm": 0.6024315357208252,
      "learning_rate": 0.0004436030600150845,
      "loss": 3.5543,
      "step": 24300
    },
    {
      "epoch": 2.6208158432892046,
      "grad_norm": 0.5760543942451477,
      "learning_rate": 0.0004432798189850231,
      "loss": 3.5592,
      "step": 24350
    },
    {
      "epoch": 2.6261973953288127,
      "grad_norm": 0.5813706517219543,
      "learning_rate": 0.0004429565779549617,
      "loss": 3.5462,
      "step": 24400
    },
    {
      "epoch": 2.6315789473684212,
      "grad_norm": 0.539786159992218,
      "learning_rate": 0.0004426333369249003,
      "loss": 3.5272,
      "step": 24450
    },
    {
      "epoch": 2.6369604994080293,
      "grad_norm": 0.544861376285553,
      "learning_rate": 0.0004423100958948389,
      "loss": 3.5652,
      "step": 24500
    },
    {
      "epoch": 2.6423420514476375,
      "grad_norm": 0.5761032104492188,
      "learning_rate": 0.00044198685486477744,
      "loss": 3.5206,
      "step": 24550
    },
    {
      "epoch": 2.6477236034872456,
      "grad_norm": 0.589876115322113,
      "learning_rate": 0.00044166361383471604,
      "loss": 3.5368,
      "step": 24600
    },
    {
      "epoch": 2.653105155526854,
      "grad_norm": 0.572582483291626,
      "learning_rate": 0.0004413403728046547,
      "loss": 3.5445,
      "step": 24650
    },
    {
      "epoch": 2.658486707566462,
      "grad_norm": 0.559045672416687,
      "learning_rate": 0.0004410171317745932,
      "loss": 3.5628,
      "step": 24700
    },
    {
      "epoch": 2.6638682596060703,
      "grad_norm": 0.5982328653335571,
      "learning_rate": 0.0004406938907445318,
      "loss": 3.5397,
      "step": 24750
    },
    {
      "epoch": 2.6692498116456784,
      "grad_norm": 0.5686572194099426,
      "learning_rate": 0.00044037064971447036,
      "loss": 3.5319,
      "step": 24800
    },
    {
      "epoch": 2.674631363685287,
      "grad_norm": 0.5983152985572815,
      "learning_rate": 0.00044004740868440896,
      "loss": 3.5422,
      "step": 24850
    },
    {
      "epoch": 2.680012915724895,
      "grad_norm": 0.5535991787910461,
      "learning_rate": 0.00043972416765434755,
      "loss": 3.5449,
      "step": 24900
    },
    {
      "epoch": 2.685394467764503,
      "grad_norm": 0.59368497133255,
      "learning_rate": 0.00043940739144488736,
      "loss": 3.5461,
      "step": 24950
    },
    {
      "epoch": 2.6907760198041117,
      "grad_norm": 0.5772347450256348,
      "learning_rate": 0.0004390841504148259,
      "loss": 3.5542,
      "step": 25000
    },
    {
      "epoch": 2.6907760198041117,
      "eval_accuracy": 0.3674084363100132,
      "eval_loss": 3.5251171588897705,
      "eval_runtime": 181.9346,
      "eval_samples_per_second": 98.997,
      "eval_steps_per_second": 6.189,
      "step": 25000
    },
    {
      "epoch": 2.69615757184372,
      "grad_norm": 0.547235906124115,
      "learning_rate": 0.00043876090938476455,
      "loss": 3.5412,
      "step": 25050
    },
    {
      "epoch": 2.701539123883328,
      "grad_norm": 0.5945719480514526,
      "learning_rate": 0.00043843766835470314,
      "loss": 3.547,
      "step": 25100
    },
    {
      "epoch": 2.706920675922936,
      "grad_norm": 0.6162445545196533,
      "learning_rate": 0.0004381144273246417,
      "loss": 3.5601,
      "step": 25150
    },
    {
      "epoch": 2.712302227962544,
      "grad_norm": 0.540205180644989,
      "learning_rate": 0.0004377911862945803,
      "loss": 3.5224,
      "step": 25200
    },
    {
      "epoch": 2.7176837800021527,
      "grad_norm": 0.5849175453186035,
      "learning_rate": 0.00043746794526451887,
      "loss": 3.5523,
      "step": 25250
    },
    {
      "epoch": 2.723065332041761,
      "grad_norm": 0.5677501559257507,
      "learning_rate": 0.00043714470423445747,
      "loss": 3.5482,
      "step": 25300
    },
    {
      "epoch": 2.728446884081369,
      "grad_norm": 0.5775030851364136,
      "learning_rate": 0.00043682146320439606,
      "loss": 3.5581,
      "step": 25350
    },
    {
      "epoch": 2.7338284361209775,
      "grad_norm": 0.5424087643623352,
      "learning_rate": 0.00043649822217433466,
      "loss": 3.5446,
      "step": 25400
    },
    {
      "epoch": 2.7392099881605856,
      "grad_norm": 0.7319034337997437,
      "learning_rate": 0.0004361749811442732,
      "loss": 3.5392,
      "step": 25450
    },
    {
      "epoch": 2.7445915402001937,
      "grad_norm": 0.5991326570510864,
      "learning_rate": 0.0004358517401142118,
      "loss": 3.5527,
      "step": 25500
    },
    {
      "epoch": 2.749973092239802,
      "grad_norm": 0.6316760182380676,
      "learning_rate": 0.00043552849908415033,
      "loss": 3.5399,
      "step": 25550
    },
    {
      "epoch": 2.7553546442794103,
      "grad_norm": 0.5397024154663086,
      "learning_rate": 0.000435205258054089,
      "loss": 3.5393,
      "step": 25600
    },
    {
      "epoch": 2.7607361963190185,
      "grad_norm": 0.6143153309822083,
      "learning_rate": 0.0004348820170240276,
      "loss": 3.5404,
      "step": 25650
    },
    {
      "epoch": 2.7661177483586266,
      "grad_norm": 0.5300941467285156,
      "learning_rate": 0.0004345587759939661,
      "loss": 3.5448,
      "step": 25700
    },
    {
      "epoch": 2.7714993003982347,
      "grad_norm": 0.5514071583747864,
      "learning_rate": 0.0004342355349639047,
      "loss": 3.5179,
      "step": 25750
    },
    {
      "epoch": 2.776880852437843,
      "grad_norm": 0.5858304500579834,
      "learning_rate": 0.0004339122939338433,
      "loss": 3.5282,
      "step": 25800
    },
    {
      "epoch": 2.7822624044774513,
      "grad_norm": 0.5404565334320068,
      "learning_rate": 0.00043358905290378184,
      "loss": 3.5381,
      "step": 25850
    },
    {
      "epoch": 2.7876439565170594,
      "grad_norm": 0.5791689157485962,
      "learning_rate": 0.0004332658118737205,
      "loss": 3.5297,
      "step": 25900
    },
    {
      "epoch": 2.793025508556668,
      "grad_norm": 0.5789631009101868,
      "learning_rate": 0.0004329425708436591,
      "loss": 3.5283,
      "step": 25950
    },
    {
      "epoch": 2.798407060596276,
      "grad_norm": 0.5977553725242615,
      "learning_rate": 0.00043261932981359763,
      "loss": 3.5467,
      "step": 26000
    },
    {
      "epoch": 2.798407060596276,
      "eval_accuracy": 0.368401849663301,
      "eval_loss": 3.515410900115967,
      "eval_runtime": 181.402,
      "eval_samples_per_second": 99.288,
      "eval_steps_per_second": 6.207,
      "step": 26000
    },
    {
      "epoch": 2.803788612635884,
      "grad_norm": 0.6379715204238892,
      "learning_rate": 0.0004322960887835362,
      "loss": 3.5422,
      "step": 26050
    },
    {
      "epoch": 2.8091701646754923,
      "grad_norm": 0.5689004063606262,
      "learning_rate": 0.00043197284775347476,
      "loss": 3.5452,
      "step": 26100
    },
    {
      "epoch": 2.8145517167151004,
      "grad_norm": 0.565049946308136,
      "learning_rate": 0.00043164960672341336,
      "loss": 3.5257,
      "step": 26150
    },
    {
      "epoch": 2.819933268754709,
      "grad_norm": 0.6285771131515503,
      "learning_rate": 0.000431326365693352,
      "loss": 3.5396,
      "step": 26200
    },
    {
      "epoch": 2.825314820794317,
      "grad_norm": 0.5944446325302124,
      "learning_rate": 0.00043100312466329055,
      "loss": 3.5442,
      "step": 26250
    },
    {
      "epoch": 2.830696372833925,
      "grad_norm": 0.6338948011398315,
      "learning_rate": 0.00043067988363322914,
      "loss": 3.5493,
      "step": 26300
    },
    {
      "epoch": 2.8360779248735337,
      "grad_norm": 0.5641506314277649,
      "learning_rate": 0.00043035664260316774,
      "loss": 3.5366,
      "step": 26350
    },
    {
      "epoch": 2.841459476913142,
      "grad_norm": 0.5772645473480225,
      "learning_rate": 0.0004300334015731063,
      "loss": 3.5402,
      "step": 26400
    },
    {
      "epoch": 2.84684102895275,
      "grad_norm": 0.5842698216438293,
      "learning_rate": 0.0004297101605430449,
      "loss": 3.5467,
      "step": 26450
    },
    {
      "epoch": 2.852222580992358,
      "grad_norm": 0.6356413960456848,
      "learning_rate": 0.0004293869195129835,
      "loss": 3.558,
      "step": 26500
    },
    {
      "epoch": 2.857604133031966,
      "grad_norm": 0.6102927923202515,
      "learning_rate": 0.00042906367848292206,
      "loss": 3.5379,
      "step": 26550
    },
    {
      "epoch": 2.8629856850715747,
      "grad_norm": 0.5624610781669617,
      "learning_rate": 0.00042874043745286066,
      "loss": 3.5452,
      "step": 26600
    },
    {
      "epoch": 2.868367237111183,
      "grad_norm": 0.5927066206932068,
      "learning_rate": 0.0004284171964227992,
      "loss": 3.5334,
      "step": 26650
    },
    {
      "epoch": 2.873748789150791,
      "grad_norm": 0.597632884979248,
      "learning_rate": 0.0004280939553927378,
      "loss": 3.5403,
      "step": 26700
    },
    {
      "epoch": 2.8791303411903995,
      "grad_norm": 0.5854668021202087,
      "learning_rate": 0.00042777071436267644,
      "loss": 3.53,
      "step": 26750
    },
    {
      "epoch": 2.8845118932300076,
      "grad_norm": 0.5618073344230652,
      "learning_rate": 0.000427447473332615,
      "loss": 3.5329,
      "step": 26800
    },
    {
      "epoch": 2.8898934452696157,
      "grad_norm": 0.6037031412124634,
      "learning_rate": 0.0004271242323025536,
      "loss": 3.5157,
      "step": 26850
    },
    {
      "epoch": 2.895274997309224,
      "grad_norm": 0.5525456666946411,
      "learning_rate": 0.00042680099127249217,
      "loss": 3.5431,
      "step": 26900
    },
    {
      "epoch": 2.9006565493488323,
      "grad_norm": 0.6681680679321289,
      "learning_rate": 0.000426484215063032,
      "loss": 3.5303,
      "step": 26950
    },
    {
      "epoch": 2.9060381013884404,
      "grad_norm": 0.6614207029342651,
      "learning_rate": 0.0004261609740329705,
      "loss": 3.5283,
      "step": 27000
    },
    {
      "epoch": 2.9060381013884404,
      "eval_accuracy": 0.3691723072907935,
      "eval_loss": 3.506596326828003,
      "eval_runtime": 181.9171,
      "eval_samples_per_second": 99.007,
      "eval_steps_per_second": 6.19,
      "step": 27000
    },
    {
      "epoch": 2.9114196534280485,
      "grad_norm": 0.5701361298561096,
      "learning_rate": 0.0004258377330029091,
      "loss": 3.5291,
      "step": 27050
    },
    {
      "epoch": 2.9168012054676566,
      "grad_norm": 0.6377977728843689,
      "learning_rate": 0.00042551449197284776,
      "loss": 3.5343,
      "step": 27100
    },
    {
      "epoch": 2.922182757507265,
      "grad_norm": 0.6146271824836731,
      "learning_rate": 0.0004251912509427863,
      "loss": 3.5177,
      "step": 27150
    },
    {
      "epoch": 2.9275643095468733,
      "grad_norm": 0.5497022271156311,
      "learning_rate": 0.0004248680099127249,
      "loss": 3.5171,
      "step": 27200
    },
    {
      "epoch": 2.9329458615864814,
      "grad_norm": 0.5858404040336609,
      "learning_rate": 0.0004245447688826635,
      "loss": 3.5227,
      "step": 27250
    },
    {
      "epoch": 2.93832741362609,
      "grad_norm": 0.5762459635734558,
      "learning_rate": 0.00042422152785260203,
      "loss": 3.5218,
      "step": 27300
    },
    {
      "epoch": 2.943708965665698,
      "grad_norm": 0.5357299447059631,
      "learning_rate": 0.0004238982868225406,
      "loss": 3.5214,
      "step": 27350
    },
    {
      "epoch": 2.949090517705306,
      "grad_norm": 0.6151202917098999,
      "learning_rate": 0.0004235750457924793,
      "loss": 3.5301,
      "step": 27400
    },
    {
      "epoch": 2.9544720697449143,
      "grad_norm": 0.610747754573822,
      "learning_rate": 0.0004232518047624178,
      "loss": 3.5294,
      "step": 27450
    },
    {
      "epoch": 2.9598536217845224,
      "grad_norm": 0.5966050624847412,
      "learning_rate": 0.0004229285637323564,
      "loss": 3.5032,
      "step": 27500
    },
    {
      "epoch": 2.965235173824131,
      "grad_norm": 0.5900816321372986,
      "learning_rate": 0.00042260532270229495,
      "loss": 3.523,
      "step": 27550
    },
    {
      "epoch": 2.970616725863739,
      "grad_norm": 0.5659287571907043,
      "learning_rate": 0.00042228208167223354,
      "loss": 3.5139,
      "step": 27600
    },
    {
      "epoch": 2.975998277903347,
      "grad_norm": 0.584069550037384,
      "learning_rate": 0.00042195884064217214,
      "loss": 3.5171,
      "step": 27650
    },
    {
      "epoch": 2.9813798299429557,
      "grad_norm": 0.6047907471656799,
      "learning_rate": 0.00042163559961211073,
      "loss": 3.5153,
      "step": 27700
    },
    {
      "epoch": 2.986761381982564,
      "grad_norm": 0.5813224911689758,
      "learning_rate": 0.00042131235858204933,
      "loss": 3.5376,
      "step": 27750
    },
    {
      "epoch": 2.992142934022172,
      "grad_norm": 0.5909638404846191,
      "learning_rate": 0.0004209891175519879,
      "loss": 3.5274,
      "step": 27800
    },
    {
      "epoch": 2.9975244860617805,
      "grad_norm": 0.612236738204956,
      "learning_rate": 0.00042066587652192646,
      "loss": 3.5332,
      "step": 27850
    },
    {
      "epoch": 3.0029060381013886,
      "grad_norm": 0.5805238485336304,
      "learning_rate": 0.00042034263549186506,
      "loss": 3.4697,
      "step": 27900
    },
    {
      "epoch": 3.0082875901409967,
      "grad_norm": 0.6882392168045044,
      "learning_rate": 0.0004200193944618036,
      "loss": 3.4467,
      "step": 27950
    },
    {
      "epoch": 3.0136691421806048,
      "grad_norm": 0.6051560044288635,
      "learning_rate": 0.00041969615343174225,
      "loss": 3.4461,
      "step": 28000
    },
    {
      "epoch": 3.0136691421806048,
      "eval_accuracy": 0.37040932041856134,
      "eval_loss": 3.5022575855255127,
      "eval_runtime": 181.5211,
      "eval_samples_per_second": 99.223,
      "eval_steps_per_second": 6.203,
      "step": 28000
    },
    {
      "epoch": 3.0190506942202133,
      "grad_norm": 0.5914404392242432,
      "learning_rate": 0.00041937291240168084,
      "loss": 3.4272,
      "step": 28050
    },
    {
      "epoch": 3.0244322462598214,
      "grad_norm": 0.566344141960144,
      "learning_rate": 0.0004190496713716194,
      "loss": 3.4345,
      "step": 28100
    },
    {
      "epoch": 3.0298137982994295,
      "grad_norm": 0.5782539248466492,
      "learning_rate": 0.000418726430341558,
      "loss": 3.4468,
      "step": 28150
    },
    {
      "epoch": 3.0351953503390376,
      "grad_norm": 0.6841357350349426,
      "learning_rate": 0.00041840318931149657,
      "loss": 3.431,
      "step": 28200
    },
    {
      "epoch": 3.040576902378646,
      "grad_norm": 0.666124701499939,
      "learning_rate": 0.00041807994828143517,
      "loss": 3.4201,
      "step": 28250
    },
    {
      "epoch": 3.0459584544182543,
      "grad_norm": 0.6183059811592102,
      "learning_rate": 0.00041775670725137376,
      "loss": 3.432,
      "step": 28300
    },
    {
      "epoch": 3.0513400064578624,
      "grad_norm": 0.6283473372459412,
      "learning_rate": 0.00041743346622131236,
      "loss": 3.4333,
      "step": 28350
    },
    {
      "epoch": 3.0567215584974705,
      "grad_norm": 0.5611652135848999,
      "learning_rate": 0.0004171102251912509,
      "loss": 3.4525,
      "step": 28400
    },
    {
      "epoch": 3.062103110537079,
      "grad_norm": 0.6071980595588684,
      "learning_rate": 0.0004167869841611895,
      "loss": 3.4366,
      "step": 28450
    },
    {
      "epoch": 3.067484662576687,
      "grad_norm": 0.5803223252296448,
      "learning_rate": 0.00041646374313112803,
      "loss": 3.4493,
      "step": 28500
    },
    {
      "epoch": 3.0728662146162953,
      "grad_norm": 0.6366347074508667,
      "learning_rate": 0.0004161405021010667,
      "loss": 3.4841,
      "step": 28550
    },
    {
      "epoch": 3.0782477666559034,
      "grad_norm": 0.7220527529716492,
      "learning_rate": 0.0004158172610710053,
      "loss": 3.4462,
      "step": 28600
    },
    {
      "epoch": 3.083629318695512,
      "grad_norm": 0.6112778782844543,
      "learning_rate": 0.0004154940200409438,
      "loss": 3.453,
      "step": 28650
    },
    {
      "epoch": 3.08901087073512,
      "grad_norm": 0.6092379093170166,
      "learning_rate": 0.0004151707790108824,
      "loss": 3.4646,
      "step": 28700
    },
    {
      "epoch": 3.094392422774728,
      "grad_norm": 0.587385892868042,
      "learning_rate": 0.00041484753798082095,
      "loss": 3.448,
      "step": 28750
    },
    {
      "epoch": 3.0997739748143363,
      "grad_norm": 0.544042706489563,
      "learning_rate": 0.00041452429695075955,
      "loss": 3.4338,
      "step": 28800
    },
    {
      "epoch": 3.105155526853945,
      "grad_norm": 0.603264331817627,
      "learning_rate": 0.0004142010559206982,
      "loss": 3.4617,
      "step": 28850
    },
    {
      "epoch": 3.110537078893553,
      "grad_norm": 0.5887551307678223,
      "learning_rate": 0.00041387781489063673,
      "loss": 3.4492,
      "step": 28900
    },
    {
      "epoch": 3.115918630933161,
      "grad_norm": 0.7214226126670837,
      "learning_rate": 0.00041355457386057533,
      "loss": 3.4629,
      "step": 28950
    },
    {
      "epoch": 3.121300182972769,
      "grad_norm": 0.66700679063797,
      "learning_rate": 0.0004132313328305139,
      "loss": 3.4517,
      "step": 29000
    },
    {
      "epoch": 3.121300182972769,
      "eval_accuracy": 0.3705352491155383,
      "eval_loss": 3.4991297721862793,
      "eval_runtime": 181.9553,
      "eval_samples_per_second": 98.986,
      "eval_steps_per_second": 6.188,
      "step": 29000
    },
    {
      "epoch": 3.1266817350123777,
      "grad_norm": 0.5963963866233826,
      "learning_rate": 0.00041290809180045246,
      "loss": 3.4623,
      "step": 29050
    },
    {
      "epoch": 3.132063287051986,
      "grad_norm": 0.5709898471832275,
      "learning_rate": 0.0004125913155909923,
      "loss": 3.4442,
      "step": 29100
    },
    {
      "epoch": 3.137444839091594,
      "grad_norm": 0.6061123609542847,
      "learning_rate": 0.00041226807456093087,
      "loss": 3.4386,
      "step": 29150
    },
    {
      "epoch": 3.1428263911312024,
      "grad_norm": 0.5899174213409424,
      "learning_rate": 0.0004119448335308695,
      "loss": 3.46,
      "step": 29200
    },
    {
      "epoch": 3.1482079431708105,
      "grad_norm": 0.5823517441749573,
      "learning_rate": 0.0004116215925008081,
      "loss": 3.4483,
      "step": 29250
    },
    {
      "epoch": 3.1535894952104186,
      "grad_norm": 0.5847574472427368,
      "learning_rate": 0.00041129835147074665,
      "loss": 3.4416,
      "step": 29300
    },
    {
      "epoch": 3.1589710472500268,
      "grad_norm": 0.6001121997833252,
      "learning_rate": 0.00041097511044068524,
      "loss": 3.4725,
      "step": 29350
    },
    {
      "epoch": 3.1643525992896353,
      "grad_norm": 0.6007384657859802,
      "learning_rate": 0.0004106518694106238,
      "loss": 3.4375,
      "step": 29400
    },
    {
      "epoch": 3.1697341513292434,
      "grad_norm": 0.6162769794464111,
      "learning_rate": 0.0004103286283805624,
      "loss": 3.4496,
      "step": 29450
    },
    {
      "epoch": 3.1751157033688515,
      "grad_norm": 0.5746565461158752,
      "learning_rate": 0.00041000538735050103,
      "loss": 3.4602,
      "step": 29500
    },
    {
      "epoch": 3.1804972554084596,
      "grad_norm": 0.594639003276825,
      "learning_rate": 0.0004096886111410408,
      "loss": 3.459,
      "step": 29550
    },
    {
      "epoch": 3.185878807448068,
      "grad_norm": 0.6028977036476135,
      "learning_rate": 0.00040936537011097943,
      "loss": 3.4724,
      "step": 29600
    },
    {
      "epoch": 3.1912603594876763,
      "grad_norm": 0.606938898563385,
      "learning_rate": 0.00040904212908091797,
      "loss": 3.4625,
      "step": 29650
    },
    {
      "epoch": 3.1966419115272844,
      "grad_norm": 0.596815824508667,
      "learning_rate": 0.00040871888805085656,
      "loss": 3.4372,
      "step": 29700
    },
    {
      "epoch": 3.2020234635668925,
      "grad_norm": 0.6384685635566711,
      "learning_rate": 0.0004083956470207951,
      "loss": 3.4643,
      "step": 29750
    },
    {
      "epoch": 3.207405015606501,
      "grad_norm": 0.6209906935691833,
      "learning_rate": 0.0004080724059907337,
      "loss": 3.4822,
      "step": 29800
    },
    {
      "epoch": 3.212786567646109,
      "grad_norm": 0.6117162108421326,
      "learning_rate": 0.00040774916496067235,
      "loss": 3.4706,
      "step": 29850
    },
    {
      "epoch": 3.2181681196857173,
      "grad_norm": 0.5744032263755798,
      "learning_rate": 0.0004074259239306109,
      "loss": 3.4739,
      "step": 29900
    },
    {
      "epoch": 3.2235496717253254,
      "grad_norm": 0.6186559200286865,
      "learning_rate": 0.0004071026829005495,
      "loss": 3.4615,
      "step": 29950
    },
    {
      "epoch": 3.228931223764934,
      "grad_norm": 0.6899036765098572,
      "learning_rate": 0.0004067794418704881,
      "loss": 3.4731,
      "step": 30000
    },
    {
      "epoch": 3.228931223764934,
      "eval_accuracy": 0.37107851355461074,
      "eval_loss": 3.4926388263702393,
      "eval_runtime": 181.6439,
      "eval_samples_per_second": 99.156,
      "eval_steps_per_second": 6.199,
      "step": 30000
    },
    {
      "epoch": 3.234312775804542,
      "grad_norm": 0.6480035185813904,
      "learning_rate": 0.0004064562008404266,
      "loss": 3.4559,
      "step": 30050
    },
    {
      "epoch": 3.23969432784415,
      "grad_norm": 0.5748763680458069,
      "learning_rate": 0.0004061329598103652,
      "loss": 3.4659,
      "step": 30100
    },
    {
      "epoch": 3.2450758798837587,
      "grad_norm": 0.6453505754470825,
      "learning_rate": 0.00040580971878030386,
      "loss": 3.4652,
      "step": 30150
    },
    {
      "epoch": 3.250457431923367,
      "grad_norm": 0.6011995673179626,
      "learning_rate": 0.0004054864777502424,
      "loss": 3.4714,
      "step": 30200
    },
    {
      "epoch": 3.255838983962975,
      "grad_norm": 0.5888011455535889,
      "learning_rate": 0.000405163236720181,
      "loss": 3.4616,
      "step": 30250
    },
    {
      "epoch": 3.261220536002583,
      "grad_norm": 0.6275856494903564,
      "learning_rate": 0.00040483999569011954,
      "loss": 3.4556,
      "step": 30300
    },
    {
      "epoch": 3.2666020880421915,
      "grad_norm": 0.606829822063446,
      "learning_rate": 0.00040451675466005813,
      "loss": 3.453,
      "step": 30350
    },
    {
      "epoch": 3.2719836400817996,
      "grad_norm": 0.5711332559585571,
      "learning_rate": 0.0004041935136299967,
      "loss": 3.4552,
      "step": 30400
    },
    {
      "epoch": 3.2773651921214078,
      "grad_norm": 0.7264525890350342,
      "learning_rate": 0.0004038702725999353,
      "loss": 3.4638,
      "step": 30450
    },
    {
      "epoch": 3.282746744161016,
      "grad_norm": 0.6182407140731812,
      "learning_rate": 0.0004035470315698739,
      "loss": 3.4585,
      "step": 30500
    },
    {
      "epoch": 3.2881282962006244,
      "grad_norm": 0.6846922636032104,
      "learning_rate": 0.0004032237905398125,
      "loss": 3.4697,
      "step": 30550
    },
    {
      "epoch": 3.2935098482402325,
      "grad_norm": 0.6357579827308655,
      "learning_rate": 0.00040290054950975105,
      "loss": 3.4704,
      "step": 30600
    },
    {
      "epoch": 3.2988914002798406,
      "grad_norm": 0.6203646659851074,
      "learning_rate": 0.00040257730847968965,
      "loss": 3.4748,
      "step": 30650
    },
    {
      "epoch": 3.304272952319449,
      "grad_norm": 0.6495070457458496,
      "learning_rate": 0.0004022540674496283,
      "loss": 3.4573,
      "step": 30700
    },
    {
      "epoch": 3.3096545043590573,
      "grad_norm": 0.5805909633636475,
      "learning_rate": 0.00040193082641956684,
      "loss": 3.4639,
      "step": 30750
    },
    {
      "epoch": 3.3150360563986654,
      "grad_norm": 0.5866093635559082,
      "learning_rate": 0.00040160758538950543,
      "loss": 3.4539,
      "step": 30800
    },
    {
      "epoch": 3.3204176084382735,
      "grad_norm": 0.5775501728057861,
      "learning_rate": 0.00040128434435944397,
      "loss": 3.4775,
      "step": 30850
    },
    {
      "epoch": 3.3257991604778816,
      "grad_norm": 0.5983257293701172,
      "learning_rate": 0.00040096110332938257,
      "loss": 3.461,
      "step": 30900
    },
    {
      "epoch": 3.33118071251749,
      "grad_norm": 0.639504611492157,
      "learning_rate": 0.00040063786229932116,
      "loss": 3.4584,
      "step": 30950
    },
    {
      "epoch": 3.3365622645570983,
      "grad_norm": 0.5656512379646301,
      "learning_rate": 0.00040031462126925975,
      "loss": 3.4619,
      "step": 31000
    },
    {
      "epoch": 3.3365622645570983,
      "eval_accuracy": 0.3721633039865505,
      "eval_loss": 3.4858646392822266,
      "eval_runtime": 181.7076,
      "eval_samples_per_second": 99.121,
      "eval_steps_per_second": 6.197,
      "step": 31000
    },
    {
      "epoch": 3.3419438165967064,
      "grad_norm": 0.574696958065033,
      "learning_rate": 0.00039999138023919835,
      "loss": 3.4567,
      "step": 31050
    },
    {
      "epoch": 3.347325368636315,
      "grad_norm": 0.6556435823440552,
      "learning_rate": 0.00039966813920913694,
      "loss": 3.4639,
      "step": 31100
    },
    {
      "epoch": 3.352706920675923,
      "grad_norm": 0.5926102995872498,
      "learning_rate": 0.0003993448981790755,
      "loss": 3.4528,
      "step": 31150
    },
    {
      "epoch": 3.358088472715531,
      "grad_norm": 0.6475051045417786,
      "learning_rate": 0.0003990216571490141,
      "loss": 3.4693,
      "step": 31200
    },
    {
      "epoch": 3.3634700247551392,
      "grad_norm": 0.5955221652984619,
      "learning_rate": 0.0003986984161189526,
      "loss": 3.4744,
      "step": 31250
    },
    {
      "epoch": 3.368851576794748,
      "grad_norm": 0.6884444952011108,
      "learning_rate": 0.00039837517508889127,
      "loss": 3.471,
      "step": 31300
    },
    {
      "epoch": 3.374233128834356,
      "grad_norm": 0.5882035493850708,
      "learning_rate": 0.00039805193405882986,
      "loss": 3.4458,
      "step": 31350
    },
    {
      "epoch": 3.379614680873964,
      "grad_norm": 0.6689410209655762,
      "learning_rate": 0.0003977286930287684,
      "loss": 3.4678,
      "step": 31400
    },
    {
      "epoch": 3.384996232913572,
      "grad_norm": 0.6356101632118225,
      "learning_rate": 0.000397405451998707,
      "loss": 3.4936,
      "step": 31450
    },
    {
      "epoch": 3.3903777849531807,
      "grad_norm": 0.6340391635894775,
      "learning_rate": 0.00039708221096864554,
      "loss": 3.4664,
      "step": 31500
    },
    {
      "epoch": 3.3957593369927888,
      "grad_norm": 0.5933389067649841,
      "learning_rate": 0.00039675896993858413,
      "loss": 3.4434,
      "step": 31550
    },
    {
      "epoch": 3.401140889032397,
      "grad_norm": 0.5816308856010437,
      "learning_rate": 0.0003964357289085228,
      "loss": 3.4615,
      "step": 31600
    },
    {
      "epoch": 3.4065224410720054,
      "grad_norm": 0.6168357133865356,
      "learning_rate": 0.0003961124878784613,
      "loss": 3.4503,
      "step": 31650
    },
    {
      "epoch": 3.4119039931116135,
      "grad_norm": 0.9951689839363098,
      "learning_rate": 0.0003957892468483999,
      "loss": 3.4666,
      "step": 31700
    },
    {
      "epoch": 3.4172855451512216,
      "grad_norm": 0.6135774254798889,
      "learning_rate": 0.0003954660058183385,
      "loss": 3.4792,
      "step": 31750
    },
    {
      "epoch": 3.4226670971908297,
      "grad_norm": 0.5640894770622253,
      "learning_rate": 0.00039514276478827705,
      "loss": 3.4669,
      "step": 31800
    },
    {
      "epoch": 3.428048649230438,
      "grad_norm": 0.6000431776046753,
      "learning_rate": 0.0003948195237582157,
      "loss": 3.4834,
      "step": 31850
    },
    {
      "epoch": 3.4334302012700464,
      "grad_norm": 0.6108412742614746,
      "learning_rate": 0.0003944962827281543,
      "loss": 3.4515,
      "step": 31900
    },
    {
      "epoch": 3.4388117533096545,
      "grad_norm": 0.6342421174049377,
      "learning_rate": 0.00039417304169809284,
      "loss": 3.4543,
      "step": 31950
    },
    {
      "epoch": 3.4441933053492626,
      "grad_norm": 0.6037115454673767,
      "learning_rate": 0.00039384980066803143,
      "loss": 3.4402,
      "step": 32000
    },
    {
      "epoch": 3.4441933053492626,
      "eval_accuracy": 0.3726920089386558,
      "eval_loss": 3.478151321411133,
      "eval_runtime": 181.4458,
      "eval_samples_per_second": 99.264,
      "eval_steps_per_second": 6.206,
      "step": 32000
    },
    {
      "epoch": 3.449574857388871,
      "grad_norm": 0.5966137051582336,
      "learning_rate": 0.00039352655963796997,
      "loss": 3.4425,
      "step": 32050
    },
    {
      "epoch": 3.4549564094284793,
      "grad_norm": 0.6225733160972595,
      "learning_rate": 0.00039320331860790857,
      "loss": 3.4631,
      "step": 32100
    },
    {
      "epoch": 3.4603379614680874,
      "grad_norm": 0.6986702084541321,
      "learning_rate": 0.0003928800775778472,
      "loss": 3.439,
      "step": 32150
    },
    {
      "epoch": 3.4657195135076955,
      "grad_norm": 0.5840567350387573,
      "learning_rate": 0.00039255683654778576,
      "loss": 3.4568,
      "step": 32200
    },
    {
      "epoch": 3.471101065547304,
      "grad_norm": 0.6338947415351868,
      "learning_rate": 0.00039223359551772435,
      "loss": 3.4488,
      "step": 32250
    },
    {
      "epoch": 3.476482617586912,
      "grad_norm": 0.6658464074134827,
      "learning_rate": 0.00039191035448766294,
      "loss": 3.4632,
      "step": 32300
    },
    {
      "epoch": 3.4818641696265202,
      "grad_norm": 0.642661988735199,
      "learning_rate": 0.0003915871134576015,
      "loss": 3.459,
      "step": 32350
    },
    {
      "epoch": 3.4872457216661283,
      "grad_norm": 0.5813530087471008,
      "learning_rate": 0.0003912638724275401,
      "loss": 3.4566,
      "step": 32400
    },
    {
      "epoch": 3.492627273705737,
      "grad_norm": 0.6152687668800354,
      "learning_rate": 0.00039094063139747873,
      "loss": 3.4704,
      "step": 32450
    },
    {
      "epoch": 3.498008825745345,
      "grad_norm": 0.5739587545394897,
      "learning_rate": 0.00039061739036741727,
      "loss": 3.459,
      "step": 32500
    },
    {
      "epoch": 3.503390377784953,
      "grad_norm": 0.5778379440307617,
      "learning_rate": 0.00039029414933735586,
      "loss": 3.4522,
      "step": 32550
    },
    {
      "epoch": 3.5087719298245617,
      "grad_norm": 0.6372984647750854,
      "learning_rate": 0.0003899709083072944,
      "loss": 3.4545,
      "step": 32600
    },
    {
      "epoch": 3.5141534818641698,
      "grad_norm": 0.5786045789718628,
      "learning_rate": 0.000389647667277233,
      "loss": 3.455,
      "step": 32650
    },
    {
      "epoch": 3.519535033903778,
      "grad_norm": 0.5943304896354675,
      "learning_rate": 0.00038932442624717165,
      "loss": 3.4533,
      "step": 32700
    },
    {
      "epoch": 3.524916585943386,
      "grad_norm": 0.6101276278495789,
      "learning_rate": 0.0003890011852171102,
      "loss": 3.4588,
      "step": 32750
    },
    {
      "epoch": 3.530298137982994,
      "grad_norm": 0.5838088393211365,
      "learning_rate": 0.0003886779441870488,
      "loss": 3.4568,
      "step": 32800
    },
    {
      "epoch": 3.5356796900226026,
      "grad_norm": 0.7032425403594971,
      "learning_rate": 0.0003883547031569874,
      "loss": 3.4671,
      "step": 32850
    },
    {
      "epoch": 3.5410612420622107,
      "grad_norm": 0.6266657710075378,
      "learning_rate": 0.0003880314621269259,
      "loss": 3.4687,
      "step": 32900
    },
    {
      "epoch": 3.546442794101819,
      "grad_norm": 0.596139669418335,
      "learning_rate": 0.0003877082210968645,
      "loss": 3.4565,
      "step": 32950
    },
    {
      "epoch": 3.5518243461414274,
      "grad_norm": 0.6475041508674622,
      "learning_rate": 0.00038738498006680316,
      "loss": 3.4635,
      "step": 33000
    },
    {
      "epoch": 3.5518243461414274,
      "eval_accuracy": 0.3734281322535989,
      "eval_loss": 3.473015069961548,
      "eval_runtime": 181.8434,
      "eval_samples_per_second": 99.047,
      "eval_steps_per_second": 6.192,
      "step": 33000
    },
    {
      "epoch": 3.5572058981810355,
      "grad_norm": 0.6174758076667786,
      "learning_rate": 0.0003870617390367417,
      "loss": 3.4525,
      "step": 33050
    },
    {
      "epoch": 3.5625874502206436,
      "grad_norm": 0.6070306897163391,
      "learning_rate": 0.0003867384980066803,
      "loss": 3.4592,
      "step": 33100
    },
    {
      "epoch": 3.5679690022602517,
      "grad_norm": 0.6150181889533997,
      "learning_rate": 0.00038641525697661884,
      "loss": 3.4567,
      "step": 33150
    },
    {
      "epoch": 3.57335055429986,
      "grad_norm": 0.6083734631538391,
      "learning_rate": 0.00038609201594655743,
      "loss": 3.4745,
      "step": 33200
    },
    {
      "epoch": 3.5787321063394684,
      "grad_norm": 0.5840650796890259,
      "learning_rate": 0.000385768774916496,
      "loss": 3.4579,
      "step": 33250
    },
    {
      "epoch": 3.5841136583790765,
      "grad_norm": 0.6083254218101501,
      "learning_rate": 0.0003854455338864346,
      "loss": 3.4603,
      "step": 33300
    },
    {
      "epoch": 3.5894952104186846,
      "grad_norm": 0.6673729419708252,
      "learning_rate": 0.0003851222928563732,
      "loss": 3.4646,
      "step": 33350
    },
    {
      "epoch": 3.594876762458293,
      "grad_norm": 0.5981993079185486,
      "learning_rate": 0.0003847990518263118,
      "loss": 3.4702,
      "step": 33400
    },
    {
      "epoch": 3.6002583144979012,
      "grad_norm": 0.6367589831352234,
      "learning_rate": 0.00038447581079625035,
      "loss": 3.4549,
      "step": 33450
    },
    {
      "epoch": 3.6056398665375093,
      "grad_norm": 0.6836481094360352,
      "learning_rate": 0.00038415256976618895,
      "loss": 3.4663,
      "step": 33500
    },
    {
      "epoch": 3.611021418577118,
      "grad_norm": 0.5707299113273621,
      "learning_rate": 0.00038383579355672875,
      "loss": 3.4491,
      "step": 33550
    },
    {
      "epoch": 3.616402970616726,
      "grad_norm": 0.6836397647857666,
      "learning_rate": 0.00038351255252666735,
      "loss": 3.4571,
      "step": 33600
    },
    {
      "epoch": 3.621784522656334,
      "grad_norm": 0.6017842292785645,
      "learning_rate": 0.00038318931149660594,
      "loss": 3.4476,
      "step": 33650
    },
    {
      "epoch": 3.627166074695942,
      "grad_norm": 0.5937101244926453,
      "learning_rate": 0.00038286607046654454,
      "loss": 3.4556,
      "step": 33700
    },
    {
      "epoch": 3.6325476267355503,
      "grad_norm": 0.6376599669456482,
      "learning_rate": 0.00038254282943648313,
      "loss": 3.4615,
      "step": 33750
    },
    {
      "epoch": 3.637929178775159,
      "grad_norm": 0.6555869579315186,
      "learning_rate": 0.00038221958840642167,
      "loss": 3.4632,
      "step": 33800
    },
    {
      "epoch": 3.643310730814767,
      "grad_norm": 0.6084161996841431,
      "learning_rate": 0.00038189634737636027,
      "loss": 3.4688,
      "step": 33850
    },
    {
      "epoch": 3.648692282854375,
      "grad_norm": 0.5938872694969177,
      "learning_rate": 0.0003815731063462988,
      "loss": 3.4464,
      "step": 33900
    },
    {
      "epoch": 3.6540738348939836,
      "grad_norm": 0.602902352809906,
      "learning_rate": 0.00038124986531623745,
      "loss": 3.4619,
      "step": 33950
    },
    {
      "epoch": 3.6594553869335917,
      "grad_norm": 0.59919273853302,
      "learning_rate": 0.00038092662428617605,
      "loss": 3.4438,
      "step": 34000
    },
    {
      "epoch": 3.6594553869335917,
      "eval_accuracy": 0.37377516957727835,
      "eval_loss": 3.4657740592956543,
      "eval_runtime": 181.6412,
      "eval_samples_per_second": 99.157,
      "eval_steps_per_second": 6.199,
      "step": 34000
    },
    {
      "epoch": 3.6648369389732,
      "grad_norm": 0.6346879601478577,
      "learning_rate": 0.0003806033832561146,
      "loss": 3.4588,
      "step": 34050
    },
    {
      "epoch": 3.670218491012808,
      "grad_norm": 0.6415278911590576,
      "learning_rate": 0.0003802801422260532,
      "loss": 3.4737,
      "step": 34100
    },
    {
      "epoch": 3.675600043052416,
      "grad_norm": 0.599931538105011,
      "learning_rate": 0.0003799569011959918,
      "loss": 3.4605,
      "step": 34150
    },
    {
      "epoch": 3.6809815950920246,
      "grad_norm": 0.60602867603302,
      "learning_rate": 0.0003796336601659303,
      "loss": 3.4582,
      "step": 34200
    },
    {
      "epoch": 3.6863631471316327,
      "grad_norm": 0.6026973724365234,
      "learning_rate": 0.00037931041913586897,
      "loss": 3.4464,
      "step": 34250
    },
    {
      "epoch": 3.691744699171241,
      "grad_norm": 0.6112213730812073,
      "learning_rate": 0.00037898717810580756,
      "loss": 3.4563,
      "step": 34300
    },
    {
      "epoch": 3.6971262512108494,
      "grad_norm": 0.6018295288085938,
      "learning_rate": 0.0003786639370757461,
      "loss": 3.4277,
      "step": 34350
    },
    {
      "epoch": 3.7025078032504575,
      "grad_norm": 0.5976279973983765,
      "learning_rate": 0.0003783406960456847,
      "loss": 3.4653,
      "step": 34400
    },
    {
      "epoch": 3.7078893552900656,
      "grad_norm": 0.6697100400924683,
      "learning_rate": 0.00037801745501562324,
      "loss": 3.4574,
      "step": 34450
    },
    {
      "epoch": 3.713270907329674,
      "grad_norm": 0.6143800616264343,
      "learning_rate": 0.0003776942139855619,
      "loss": 3.4588,
      "step": 34500
    },
    {
      "epoch": 3.7186524593692822,
      "grad_norm": 0.5781146287918091,
      "learning_rate": 0.0003773709729555005,
      "loss": 3.4447,
      "step": 34550
    },
    {
      "epoch": 3.7240340114088903,
      "grad_norm": 0.6037390232086182,
      "learning_rate": 0.000377047731925439,
      "loss": 3.4787,
      "step": 34600
    },
    {
      "epoch": 3.7294155634484984,
      "grad_norm": 0.658016562461853,
      "learning_rate": 0.0003767244908953776,
      "loss": 3.4765,
      "step": 34650
    },
    {
      "epoch": 3.7347971154881066,
      "grad_norm": 0.5910735726356506,
      "learning_rate": 0.0003764012498653162,
      "loss": 3.4587,
      "step": 34700
    },
    {
      "epoch": 3.740178667527715,
      "grad_norm": 0.6199873685836792,
      "learning_rate": 0.00037607800883525475,
      "loss": 3.4337,
      "step": 34750
    },
    {
      "epoch": 3.745560219567323,
      "grad_norm": 0.5841977596282959,
      "learning_rate": 0.0003757547678051934,
      "loss": 3.4574,
      "step": 34800
    },
    {
      "epoch": 3.7509417716069313,
      "grad_norm": 0.5918092131614685,
      "learning_rate": 0.000375431526775132,
      "loss": 3.4576,
      "step": 34850
    },
    {
      "epoch": 3.75632332364654,
      "grad_norm": 0.6155259013175964,
      "learning_rate": 0.00037510828574507054,
      "loss": 3.4578,
      "step": 34900
    },
    {
      "epoch": 3.761704875686148,
      "grad_norm": 0.6626490354537964,
      "learning_rate": 0.00037478504471500913,
      "loss": 3.4367,
      "step": 34950
    },
    {
      "epoch": 3.767086427725756,
      "grad_norm": 0.6320561766624451,
      "learning_rate": 0.00037446180368494767,
      "loss": 3.4534,
      "step": 35000
    },
    {
      "epoch": 3.767086427725756,
      "eval_accuracy": 0.37498708388796104,
      "eval_loss": 3.4590563774108887,
      "eval_runtime": 181.8972,
      "eval_samples_per_second": 99.017,
      "eval_steps_per_second": 6.19,
      "step": 35000
    },
    {
      "epoch": 3.772467979765364,
      "grad_norm": 0.6445649862289429,
      "learning_rate": 0.00037413856265488627,
      "loss": 3.4482,
      "step": 35050
    },
    {
      "epoch": 3.7778495318049723,
      "grad_norm": 0.6827800273895264,
      "learning_rate": 0.0003738153216248249,
      "loss": 3.4591,
      "step": 35100
    },
    {
      "epoch": 3.783231083844581,
      "grad_norm": 0.591343879699707,
      "learning_rate": 0.00037349208059476346,
      "loss": 3.456,
      "step": 35150
    },
    {
      "epoch": 3.788612635884189,
      "grad_norm": 0.609891951084137,
      "learning_rate": 0.00037316883956470205,
      "loss": 3.4587,
      "step": 35200
    },
    {
      "epoch": 3.793994187923797,
      "grad_norm": 0.6593916416168213,
      "learning_rate": 0.00037284559853464064,
      "loss": 3.4495,
      "step": 35250
    },
    {
      "epoch": 3.7993757399634056,
      "grad_norm": 0.6485829949378967,
      "learning_rate": 0.0003725223575045792,
      "loss": 3.4612,
      "step": 35300
    },
    {
      "epoch": 3.8047572920030137,
      "grad_norm": 0.6140214204788208,
      "learning_rate": 0.0003721991164745178,
      "loss": 3.4568,
      "step": 35350
    },
    {
      "epoch": 3.810138844042622,
      "grad_norm": 0.6210808157920837,
      "learning_rate": 0.00037187587544445643,
      "loss": 3.4739,
      "step": 35400
    },
    {
      "epoch": 3.8155203960822304,
      "grad_norm": 0.5969124436378479,
      "learning_rate": 0.00037155263441439497,
      "loss": 3.4415,
      "step": 35450
    },
    {
      "epoch": 3.8209019481218385,
      "grad_norm": 0.6249026656150818,
      "learning_rate": 0.00037122939338433356,
      "loss": 3.4523,
      "step": 35500
    },
    {
      "epoch": 3.8262835001614466,
      "grad_norm": 0.5949249863624573,
      "learning_rate": 0.0003709061523542721,
      "loss": 3.446,
      "step": 35550
    },
    {
      "epoch": 3.8316650522010547,
      "grad_norm": 0.6464911103248596,
      "learning_rate": 0.00037058937614481197,
      "loss": 3.4587,
      "step": 35600
    },
    {
      "epoch": 3.837046604240663,
      "grad_norm": 0.6356381773948669,
      "learning_rate": 0.0003702661351147505,
      "loss": 3.4812,
      "step": 35650
    },
    {
      "epoch": 3.8424281562802713,
      "grad_norm": 0.6141090393066406,
      "learning_rate": 0.0003699428940846891,
      "loss": 3.457,
      "step": 35700
    },
    {
      "epoch": 3.8478097083198795,
      "grad_norm": 0.5806219577789307,
      "learning_rate": 0.00036961965305462775,
      "loss": 3.4454,
      "step": 35750
    },
    {
      "epoch": 3.8531912603594876,
      "grad_norm": 0.6731585264205933,
      "learning_rate": 0.0003692964120245663,
      "loss": 3.4546,
      "step": 35800
    },
    {
      "epoch": 3.858572812399096,
      "grad_norm": 0.6387206315994263,
      "learning_rate": 0.0003689731709945049,
      "loss": 3.4657,
      "step": 35850
    },
    {
      "epoch": 3.863954364438704,
      "grad_norm": 0.6080002188682556,
      "learning_rate": 0.0003686499299644434,
      "loss": 3.474,
      "step": 35900
    },
    {
      "epoch": 3.8693359164783123,
      "grad_norm": 0.6493811011314392,
      "learning_rate": 0.000368326688934382,
      "loss": 3.4488,
      "step": 35950
    },
    {
      "epoch": 3.8747174685179204,
      "grad_norm": 0.6227429509162903,
      "learning_rate": 0.0003680034479043206,
      "loss": 3.4599,
      "step": 36000
    },
    {
      "epoch": 3.8747174685179204,
      "eval_accuracy": 0.3753126079398532,
      "eval_loss": 3.452214479446411,
      "eval_runtime": 181.6123,
      "eval_samples_per_second": 99.173,
      "eval_steps_per_second": 6.2,
      "step": 36000
    },
    {
      "epoch": 3.8800990205575285,
      "grad_norm": 0.6624184250831604,
      "learning_rate": 0.0003676802068742592,
      "loss": 3.4544,
      "step": 36050
    },
    {
      "epoch": 3.885480572597137,
      "grad_norm": 0.6249173879623413,
      "learning_rate": 0.0003673569658441978,
      "loss": 3.4587,
      "step": 36100
    },
    {
      "epoch": 3.890862124636745,
      "grad_norm": 0.6171535849571228,
      "learning_rate": 0.0003670337248141364,
      "loss": 3.4538,
      "step": 36150
    },
    {
      "epoch": 3.8962436766763533,
      "grad_norm": 0.6062988042831421,
      "learning_rate": 0.00036671048378407494,
      "loss": 3.4383,
      "step": 36200
    },
    {
      "epoch": 3.901625228715962,
      "grad_norm": 0.6102847456932068,
      "learning_rate": 0.00036638724275401353,
      "loss": 3.446,
      "step": 36250
    },
    {
      "epoch": 3.90700678075557,
      "grad_norm": 0.6128280162811279,
      "learning_rate": 0.0003660640017239522,
      "loss": 3.4628,
      "step": 36300
    },
    {
      "epoch": 3.912388332795178,
      "grad_norm": 0.6398362517356873,
      "learning_rate": 0.0003657407606938907,
      "loss": 3.4552,
      "step": 36350
    },
    {
      "epoch": 3.9177698848347866,
      "grad_norm": 0.6833635568618774,
      "learning_rate": 0.0003654175196638293,
      "loss": 3.4522,
      "step": 36400
    },
    {
      "epoch": 3.9231514368743947,
      "grad_norm": 0.6374655961990356,
      "learning_rate": 0.00036509427863376786,
      "loss": 3.4501,
      "step": 36450
    },
    {
      "epoch": 3.928532988914003,
      "grad_norm": 0.5738528966903687,
      "learning_rate": 0.00036477103760370645,
      "loss": 3.4539,
      "step": 36500
    },
    {
      "epoch": 3.933914540953611,
      "grad_norm": 0.6408839225769043,
      "learning_rate": 0.00036444779657364505,
      "loss": 3.4485,
      "step": 36550
    },
    {
      "epoch": 3.939296092993219,
      "grad_norm": 0.625890851020813,
      "learning_rate": 0.00036412455554358364,
      "loss": 3.4486,
      "step": 36600
    },
    {
      "epoch": 3.9446776450328276,
      "grad_norm": 0.621280312538147,
      "learning_rate": 0.00036380131451352224,
      "loss": 3.4675,
      "step": 36650
    },
    {
      "epoch": 3.9500591970724357,
      "grad_norm": 0.6417353749275208,
      "learning_rate": 0.00036347807348346083,
      "loss": 3.4307,
      "step": 36700
    },
    {
      "epoch": 3.955440749112044,
      "grad_norm": 0.7096593976020813,
      "learning_rate": 0.00036315483245339937,
      "loss": 3.4523,
      "step": 36750
    },
    {
      "epoch": 3.9608223011516523,
      "grad_norm": 0.554982602596283,
      "learning_rate": 0.00036283159142333797,
      "loss": 3.4447,
      "step": 36800
    },
    {
      "epoch": 3.9662038531912605,
      "grad_norm": 0.5648015141487122,
      "learning_rate": 0.0003625083503932765,
      "loss": 3.455,
      "step": 36850
    },
    {
      "epoch": 3.9715854052308686,
      "grad_norm": 0.6671751141548157,
      "learning_rate": 0.00036218510936321516,
      "loss": 3.4646,
      "step": 36900
    },
    {
      "epoch": 3.9769669572704767,
      "grad_norm": 0.6073707342147827,
      "learning_rate": 0.00036186186833315375,
      "loss": 3.4336,
      "step": 36950
    },
    {
      "epoch": 3.9823485093100848,
      "grad_norm": 0.6519392132759094,
      "learning_rate": 0.0003615386273030923,
      "loss": 3.4511,
      "step": 37000
    },
    {
      "epoch": 3.9823485093100848,
      "eval_accuracy": 0.3759151968556724,
      "eval_loss": 3.4474339485168457,
      "eval_runtime": 181.5089,
      "eval_samples_per_second": 99.229,
      "eval_steps_per_second": 6.204,
      "step": 37000
    },
    {
      "epoch": 3.9877300613496933,
      "grad_norm": 0.6184501051902771,
      "learning_rate": 0.0003612153862730309,
      "loss": 3.4502,
      "step": 37050
    },
    {
      "epoch": 3.9931116133893014,
      "grad_norm": 0.7173271179199219,
      "learning_rate": 0.0003608921452429695,
      "loss": 3.4458,
      "step": 37100
    },
    {
      "epoch": 3.9984931654289095,
      "grad_norm": 0.6187272667884827,
      "learning_rate": 0.000360568904212908,
      "loss": 3.4496,
      "step": 37150
    },
    {
      "epoch": 4.003874717468518,
      "grad_norm": 0.6606798768043518,
      "learning_rate": 0.00036024566318284667,
      "loss": 3.3755,
      "step": 37200
    },
    {
      "epoch": 4.009256269508126,
      "grad_norm": 0.6213893294334412,
      "learning_rate": 0.00035992242215278526,
      "loss": 3.3723,
      "step": 37250
    },
    {
      "epoch": 4.014637821547734,
      "grad_norm": 0.6549476981163025,
      "learning_rate": 0.0003595991811227238,
      "loss": 3.3458,
      "step": 37300
    },
    {
      "epoch": 4.020019373587343,
      "grad_norm": 0.6069085597991943,
      "learning_rate": 0.0003592759400926624,
      "loss": 3.3497,
      "step": 37350
    },
    {
      "epoch": 4.0254009256269505,
      "grad_norm": 0.6898066401481628,
      "learning_rate": 0.00035895269906260094,
      "loss": 3.3691,
      "step": 37400
    },
    {
      "epoch": 4.030782477666559,
      "grad_norm": 0.6674637198448181,
      "learning_rate": 0.0003586294580325396,
      "loss": 3.3458,
      "step": 37450
    },
    {
      "epoch": 4.036164029706168,
      "grad_norm": 0.6998133063316345,
      "learning_rate": 0.0003583062170024782,
      "loss": 3.3686,
      "step": 37500
    },
    {
      "epoch": 4.041545581745775,
      "grad_norm": 0.6106459498405457,
      "learning_rate": 0.0003579829759724167,
      "loss": 3.3485,
      "step": 37550
    },
    {
      "epoch": 4.046927133785384,
      "grad_norm": 0.6252102851867676,
      "learning_rate": 0.0003576661997629566,
      "loss": 3.3623,
      "step": 37600
    },
    {
      "epoch": 4.0523086858249915,
      "grad_norm": 0.6635556221008301,
      "learning_rate": 0.0003573494235534964,
      "loss": 3.3922,
      "step": 37650
    },
    {
      "epoch": 4.0576902378646,
      "grad_norm": 0.6523422598838806,
      "learning_rate": 0.00035702618252343493,
      "loss": 3.3496,
      "step": 37700
    },
    {
      "epoch": 4.063071789904209,
      "grad_norm": 0.6615346074104309,
      "learning_rate": 0.0003567029414933735,
      "loss": 3.3431,
      "step": 37750
    },
    {
      "epoch": 4.068453341943816,
      "grad_norm": 0.633729100227356,
      "learning_rate": 0.0003563797004633121,
      "loss": 3.3695,
      "step": 37800
    },
    {
      "epoch": 4.073834893983425,
      "grad_norm": 0.656389594078064,
      "learning_rate": 0.00035605645943325066,
      "loss": 3.3688,
      "step": 37850
    },
    {
      "epoch": 4.079216446023033,
      "grad_norm": 0.7012368440628052,
      "learning_rate": 0.0003557332184031893,
      "loss": 3.3855,
      "step": 37900
    },
    {
      "epoch": 4.084597998062641,
      "grad_norm": 0.6505855917930603,
      "learning_rate": 0.0003554099773731279,
      "loss": 3.3538,
      "step": 37950
    },
    {
      "epoch": 4.08997955010225,
      "grad_norm": 0.6584123969078064,
      "learning_rate": 0.00035508673634306644,
      "loss": 3.3814,
      "step": 38000
    },
    {
      "epoch": 4.08997955010225,
      "eval_accuracy": 0.3763834908021528,
      "eval_loss": 3.4496569633483887,
      "eval_runtime": 181.3774,
      "eval_samples_per_second": 99.301,
      "eval_steps_per_second": 6.208,
      "step": 38000
    },
    {
      "epoch": 4.095361102141858,
      "grad_norm": 0.7007384300231934,
      "learning_rate": 0.00035476349531300504,
      "loss": 3.3839,
      "step": 38050
    },
    {
      "epoch": 4.100742654181466,
      "grad_norm": 0.6659685969352722,
      "learning_rate": 0.0003544402542829436,
      "loss": 3.3642,
      "step": 38100
    },
    {
      "epoch": 4.106124206221074,
      "grad_norm": 0.6207466125488281,
      "learning_rate": 0.0003541170132528822,
      "loss": 3.36,
      "step": 38150
    },
    {
      "epoch": 4.111505758260682,
      "grad_norm": 0.6935344338417053,
      "learning_rate": 0.0003537937722228208,
      "loss": 3.3661,
      "step": 38200
    },
    {
      "epoch": 4.1168873103002905,
      "grad_norm": 0.6358532905578613,
      "learning_rate": 0.00035347053119275936,
      "loss": 3.3609,
      "step": 38250
    },
    {
      "epoch": 4.122268862339899,
      "grad_norm": 0.6551490426063538,
      "learning_rate": 0.00035314729016269796,
      "loss": 3.3752,
      "step": 38300
    },
    {
      "epoch": 4.127650414379507,
      "grad_norm": 0.6481474041938782,
      "learning_rate": 0.00035282404913263655,
      "loss": 3.3875,
      "step": 38350
    },
    {
      "epoch": 4.133031966419115,
      "grad_norm": 0.6185916066169739,
      "learning_rate": 0.0003525008081025751,
      "loss": 3.3731,
      "step": 38400
    },
    {
      "epoch": 4.138413518458724,
      "grad_norm": 0.6477680802345276,
      "learning_rate": 0.0003521775670725137,
      "loss": 3.3902,
      "step": 38450
    },
    {
      "epoch": 4.1437950704983315,
      "grad_norm": 0.6429976224899292,
      "learning_rate": 0.00035185432604245234,
      "loss": 3.3892,
      "step": 38500
    },
    {
      "epoch": 4.14917662253794,
      "grad_norm": 0.659056544303894,
      "learning_rate": 0.0003515310850123909,
      "loss": 3.3942,
      "step": 38550
    },
    {
      "epoch": 4.154558174577549,
      "grad_norm": 0.6266878843307495,
      "learning_rate": 0.00035120784398232947,
      "loss": 3.3522,
      "step": 38600
    },
    {
      "epoch": 4.159939726617156,
      "grad_norm": 0.6292558312416077,
      "learning_rate": 0.000350884602952268,
      "loss": 3.365,
      "step": 38650
    },
    {
      "epoch": 4.165321278656765,
      "grad_norm": 0.6782827973365784,
      "learning_rate": 0.0003505613619222066,
      "loss": 3.3882,
      "step": 38700
    },
    {
      "epoch": 4.1707028306963725,
      "grad_norm": 0.627225399017334,
      "learning_rate": 0.0003502381208921452,
      "loss": 3.3995,
      "step": 38750
    },
    {
      "epoch": 4.176084382735981,
      "grad_norm": 0.6418184041976929,
      "learning_rate": 0.0003499148798620838,
      "loss": 3.3786,
      "step": 38800
    },
    {
      "epoch": 4.18146593477559,
      "grad_norm": 0.663533627986908,
      "learning_rate": 0.0003495916388320224,
      "loss": 3.3967,
      "step": 38850
    },
    {
      "epoch": 4.186847486815197,
      "grad_norm": 0.6446039080619812,
      "learning_rate": 0.000349268397801961,
      "loss": 3.367,
      "step": 38900
    },
    {
      "epoch": 4.192229038854806,
      "grad_norm": 0.7204474210739136,
      "learning_rate": 0.0003489451567718995,
      "loss": 3.3895,
      "step": 38950
    },
    {
      "epoch": 4.197610590894414,
      "grad_norm": 0.6014676094055176,
      "learning_rate": 0.0003486219157418381,
      "loss": 3.3711,
      "step": 39000
    },
    {
      "epoch": 4.197610590894414,
      "eval_accuracy": 0.37688220755722124,
      "eval_loss": 3.4471263885498047,
      "eval_runtime": 181.7237,
      "eval_samples_per_second": 99.112,
      "eval_steps_per_second": 6.196,
      "step": 39000
    },
    {
      "epoch": 4.202992142934022,
      "grad_norm": 0.6324586272239685,
      "learning_rate": 0.00034829867471177677,
      "loss": 3.373,
      "step": 39050
    },
    {
      "epoch": 4.208373694973631,
      "grad_norm": 0.6122462749481201,
      "learning_rate": 0.0003479754336817153,
      "loss": 3.3817,
      "step": 39100
    },
    {
      "epoch": 4.213755247013238,
      "grad_norm": 0.6824414730072021,
      "learning_rate": 0.0003476521926516539,
      "loss": 3.3653,
      "step": 39150
    },
    {
      "epoch": 4.219136799052847,
      "grad_norm": 0.6874934434890747,
      "learning_rate": 0.00034732895162159245,
      "loss": 3.3845,
      "step": 39200
    },
    {
      "epoch": 4.224518351092455,
      "grad_norm": 0.6804373860359192,
      "learning_rate": 0.00034700571059153104,
      "loss": 3.3852,
      "step": 39250
    },
    {
      "epoch": 4.229899903132063,
      "grad_norm": 0.6622738242149353,
      "learning_rate": 0.00034668246956146963,
      "loss": 3.3849,
      "step": 39300
    },
    {
      "epoch": 4.2352814551716715,
      "grad_norm": 0.6400346159934998,
      "learning_rate": 0.00034635922853140823,
      "loss": 3.4028,
      "step": 39350
    },
    {
      "epoch": 4.24066300721128,
      "grad_norm": 0.6083793044090271,
      "learning_rate": 0.0003460359875013468,
      "loss": 3.3733,
      "step": 39400
    },
    {
      "epoch": 4.246044559250888,
      "grad_norm": 0.6313726305961609,
      "learning_rate": 0.0003457127464712854,
      "loss": 3.413,
      "step": 39450
    },
    {
      "epoch": 4.251426111290496,
      "grad_norm": 0.638217568397522,
      "learning_rate": 0.00034538950544122396,
      "loss": 3.3933,
      "step": 39500
    },
    {
      "epoch": 4.256807663330104,
      "grad_norm": 0.6545212268829346,
      "learning_rate": 0.00034506626441116255,
      "loss": 3.3926,
      "step": 39550
    },
    {
      "epoch": 4.2621892153697125,
      "grad_norm": 0.6842652559280396,
      "learning_rate": 0.0003447430233811011,
      "loss": 3.3901,
      "step": 39600
    },
    {
      "epoch": 4.267570767409321,
      "grad_norm": 0.6875464916229248,
      "learning_rate": 0.00034441978235103974,
      "loss": 3.4002,
      "step": 39650
    },
    {
      "epoch": 4.272952319448929,
      "grad_norm": 0.6873559951782227,
      "learning_rate": 0.00034409654132097834,
      "loss": 3.3748,
      "step": 39700
    },
    {
      "epoch": 4.278333871488537,
      "grad_norm": 0.6414678692817688,
      "learning_rate": 0.0003437733002909169,
      "loss": 3.375,
      "step": 39750
    },
    {
      "epoch": 4.283715423528146,
      "grad_norm": 0.6236132979393005,
      "learning_rate": 0.00034345005926085547,
      "loss": 3.3894,
      "step": 39800
    },
    {
      "epoch": 4.2890969755677535,
      "grad_norm": 0.719924807548523,
      "learning_rate": 0.00034312681823079407,
      "loss": 3.3875,
      "step": 39850
    },
    {
      "epoch": 4.294478527607362,
      "grad_norm": 0.6209768056869507,
      "learning_rate": 0.00034280357720073266,
      "loss": 3.3897,
      "step": 39900
    },
    {
      "epoch": 4.299860079646971,
      "grad_norm": 0.653572678565979,
      "learning_rate": 0.00034248033617067126,
      "loss": 3.3899,
      "step": 39950
    },
    {
      "epoch": 4.305241631686578,
      "grad_norm": 0.6849296689033508,
      "learning_rate": 0.00034215709514060985,
      "loss": 3.4021,
      "step": 40000
    },
    {
      "epoch": 4.305241631686578,
      "eval_accuracy": 0.3772555388797518,
      "eval_loss": 3.43839693069458,
      "eval_runtime": 181.7729,
      "eval_samples_per_second": 99.085,
      "eval_steps_per_second": 6.195,
      "step": 40000
    },
    {
      "epoch": 4.310623183726187,
      "grad_norm": 0.6363487243652344,
      "learning_rate": 0.0003418338541105484,
      "loss": 3.3837,
      "step": 40050
    },
    {
      "epoch": 4.3160047357657945,
      "grad_norm": 0.6702711582183838,
      "learning_rate": 0.000341510613080487,
      "loss": 3.3864,
      "step": 40100
    },
    {
      "epoch": 4.321386287805403,
      "grad_norm": 0.7086125016212463,
      "learning_rate": 0.0003411873720504255,
      "loss": 3.3963,
      "step": 40150
    },
    {
      "epoch": 4.326767839845012,
      "grad_norm": 0.6283889412879944,
      "learning_rate": 0.0003408641310203642,
      "loss": 3.3806,
      "step": 40200
    },
    {
      "epoch": 4.332149391884619,
      "grad_norm": 0.6452383399009705,
      "learning_rate": 0.00034054088999030277,
      "loss": 3.3999,
      "step": 40250
    },
    {
      "epoch": 4.337530943924228,
      "grad_norm": 0.61143559217453,
      "learning_rate": 0.0003402176489602413,
      "loss": 3.3837,
      "step": 40300
    },
    {
      "epoch": 4.342912495963836,
      "grad_norm": 0.7060933709144592,
      "learning_rate": 0.0003398944079301799,
      "loss": 3.3918,
      "step": 40350
    },
    {
      "epoch": 4.348294048003444,
      "grad_norm": 0.6808872818946838,
      "learning_rate": 0.0003395711669001185,
      "loss": 3.3921,
      "step": 40400
    },
    {
      "epoch": 4.3536756000430525,
      "grad_norm": 0.7051424384117126,
      "learning_rate": 0.00033924792587005704,
      "loss": 3.3848,
      "step": 40450
    },
    {
      "epoch": 4.359057152082661,
      "grad_norm": 0.7035077810287476,
      "learning_rate": 0.0003389246848399957,
      "loss": 3.3952,
      "step": 40500
    },
    {
      "epoch": 4.364438704122269,
      "grad_norm": 0.6903010606765747,
      "learning_rate": 0.0003386014438099343,
      "loss": 3.382,
      "step": 40550
    },
    {
      "epoch": 4.369820256161877,
      "grad_norm": 0.6336603760719299,
      "learning_rate": 0.0003382782027798728,
      "loss": 3.3899,
      "step": 40600
    },
    {
      "epoch": 4.375201808201485,
      "grad_norm": 0.674616277217865,
      "learning_rate": 0.0003379549617498114,
      "loss": 3.3944,
      "step": 40650
    },
    {
      "epoch": 4.3805833602410935,
      "grad_norm": 0.7368704080581665,
      "learning_rate": 0.00033763172071974996,
      "loss": 3.4015,
      "step": 40700
    },
    {
      "epoch": 4.385964912280702,
      "grad_norm": 0.6510969400405884,
      "learning_rate": 0.00033730847968968855,
      "loss": 3.4018,
      "step": 40750
    },
    {
      "epoch": 4.39134646432031,
      "grad_norm": 0.6755726337432861,
      "learning_rate": 0.0003369852386596272,
      "loss": 3.3994,
      "step": 40800
    },
    {
      "epoch": 4.396728016359918,
      "grad_norm": 0.725128710269928,
      "learning_rate": 0.00033666199762956574,
      "loss": 3.3805,
      "step": 40850
    },
    {
      "epoch": 4.402109568399527,
      "grad_norm": 0.6525242328643799,
      "learning_rate": 0.00033633875659950434,
      "loss": 3.3988,
      "step": 40900
    },
    {
      "epoch": 4.4074911204391345,
      "grad_norm": 0.6580588221549988,
      "learning_rate": 0.0003360155155694429,
      "loss": 3.3902,
      "step": 40950
    },
    {
      "epoch": 4.412872672478743,
      "grad_norm": 0.6928750276565552,
      "learning_rate": 0.0003356922745393815,
      "loss": 3.3845,
      "step": 41000
    },
    {
      "epoch": 4.412872672478743,
      "eval_accuracy": 0.3773817935353922,
      "eval_loss": 3.436155080795288,
      "eval_runtime": 181.5976,
      "eval_samples_per_second": 99.181,
      "eval_steps_per_second": 6.201,
      "step": 41000
    },
    {
      "epoch": 4.418254224518351,
      "grad_norm": 0.6127524971961975,
      "learning_rate": 0.0003353690335093201,
      "loss": 3.3973,
      "step": 41050
    },
    {
      "epoch": 4.423635776557959,
      "grad_norm": 0.662311315536499,
      "learning_rate": 0.0003350457924792587,
      "loss": 3.3919,
      "step": 41100
    },
    {
      "epoch": 4.429017328597568,
      "grad_norm": 0.643417239189148,
      "learning_rate": 0.00033472255144919726,
      "loss": 3.3899,
      "step": 41150
    },
    {
      "epoch": 4.4343988806371755,
      "grad_norm": 0.6452197432518005,
      "learning_rate": 0.00033439931041913585,
      "loss": 3.38,
      "step": 41200
    },
    {
      "epoch": 4.439780432676784,
      "grad_norm": 0.6416789889335632,
      "learning_rate": 0.0003340760693890744,
      "loss": 3.3878,
      "step": 41250
    },
    {
      "epoch": 4.445161984716393,
      "grad_norm": 0.6784626245498657,
      "learning_rate": 0.000333752828359013,
      "loss": 3.3667,
      "step": 41300
    },
    {
      "epoch": 4.450543536756,
      "grad_norm": 0.7039202451705933,
      "learning_rate": 0.00033342958732895164,
      "loss": 3.4011,
      "step": 41350
    },
    {
      "epoch": 4.455925088795609,
      "grad_norm": 0.6793909668922424,
      "learning_rate": 0.0003331063462988902,
      "loss": 3.3912,
      "step": 41400
    },
    {
      "epoch": 4.461306640835216,
      "grad_norm": 0.6063440442085266,
      "learning_rate": 0.00033278310526882877,
      "loss": 3.4005,
      "step": 41450
    },
    {
      "epoch": 4.466688192874825,
      "grad_norm": 0.6609463691711426,
      "learning_rate": 0.0003324598642387673,
      "loss": 3.3727,
      "step": 41500
    },
    {
      "epoch": 4.4720697449144335,
      "grad_norm": 0.6385359764099121,
      "learning_rate": 0.0003321366232087059,
      "loss": 3.4078,
      "step": 41550
    },
    {
      "epoch": 4.477451296954041,
      "grad_norm": 0.6570550203323364,
      "learning_rate": 0.0003318133821786445,
      "loss": 3.3934,
      "step": 41600
    },
    {
      "epoch": 4.48283284899365,
      "grad_norm": 0.6949108839035034,
      "learning_rate": 0.0003314966059691843,
      "loss": 3.4147,
      "step": 41650
    },
    {
      "epoch": 4.488214401033258,
      "grad_norm": 0.6790487170219421,
      "learning_rate": 0.00033117336493912296,
      "loss": 3.3838,
      "step": 41700
    },
    {
      "epoch": 4.493595953072866,
      "grad_norm": 0.7082216739654541,
      "learning_rate": 0.0003308501239090615,
      "loss": 3.4013,
      "step": 41750
    },
    {
      "epoch": 4.4989775051124745,
      "grad_norm": 0.6384736895561218,
      "learning_rate": 0.0003305268828790001,
      "loss": 3.3838,
      "step": 41800
    },
    {
      "epoch": 4.504359057152083,
      "grad_norm": 0.6703992486000061,
      "learning_rate": 0.0003302036418489387,
      "loss": 3.3896,
      "step": 41850
    },
    {
      "epoch": 4.509740609191691,
      "grad_norm": 0.673731803894043,
      "learning_rate": 0.0003298804008188772,
      "loss": 3.3965,
      "step": 41900
    },
    {
      "epoch": 4.515122161231299,
      "grad_norm": 0.6469528675079346,
      "learning_rate": 0.0003295571597888158,
      "loss": 3.3976,
      "step": 41950
    },
    {
      "epoch": 4.520503713270907,
      "grad_norm": 0.6746436953544617,
      "learning_rate": 0.00032923391875875447,
      "loss": 3.3866,
      "step": 42000
    },
    {
      "epoch": 4.520503713270907,
      "eval_accuracy": 0.3782347187047359,
      "eval_loss": 3.4307525157928467,
      "eval_runtime": 181.4244,
      "eval_samples_per_second": 99.276,
      "eval_steps_per_second": 6.206,
      "step": 42000
    },
    {
      "epoch": 4.5258852653105155,
      "grad_norm": 0.6295075416564941,
      "learning_rate": 0.000328910677728693,
      "loss": 3.3938,
      "step": 42050
    },
    {
      "epoch": 4.531266817350124,
      "grad_norm": 0.6308449506759644,
      "learning_rate": 0.0003285874366986316,
      "loss": 3.403,
      "step": 42100
    },
    {
      "epoch": 4.536648369389732,
      "grad_norm": 0.6503342986106873,
      "learning_rate": 0.00032826419566857015,
      "loss": 3.4066,
      "step": 42150
    },
    {
      "epoch": 4.54202992142934,
      "grad_norm": 0.7063515782356262,
      "learning_rate": 0.00032794095463850874,
      "loss": 3.3833,
      "step": 42200
    },
    {
      "epoch": 4.547411473468949,
      "grad_norm": 0.7079864144325256,
      "learning_rate": 0.0003276177136084473,
      "loss": 3.4028,
      "step": 42250
    },
    {
      "epoch": 4.5527930255085565,
      "grad_norm": 0.6294508576393127,
      "learning_rate": 0.00032729447257838593,
      "loss": 3.3788,
      "step": 42300
    },
    {
      "epoch": 4.558174577548165,
      "grad_norm": 0.7007628083229065,
      "learning_rate": 0.0003269712315483245,
      "loss": 3.4069,
      "step": 42350
    },
    {
      "epoch": 4.563556129587774,
      "grad_norm": 0.7026863694190979,
      "learning_rate": 0.00032664799051826306,
      "loss": 3.3852,
      "step": 42400
    },
    {
      "epoch": 4.568937681627381,
      "grad_norm": 0.6379575133323669,
      "learning_rate": 0.00032632474948820166,
      "loss": 3.3836,
      "step": 42450
    },
    {
      "epoch": 4.57431923366699,
      "grad_norm": 0.6681700348854065,
      "learning_rate": 0.00032600150845814025,
      "loss": 3.3814,
      "step": 42500
    },
    {
      "epoch": 4.579700785706597,
      "grad_norm": 0.6520051956176758,
      "learning_rate": 0.0003256782674280788,
      "loss": 3.394,
      "step": 42550
    },
    {
      "epoch": 4.585082337746206,
      "grad_norm": 0.7294343709945679,
      "learning_rate": 0.00032535502639801744,
      "loss": 3.3869,
      "step": 42600
    },
    {
      "epoch": 4.5904638897858145,
      "grad_norm": 0.6844450235366821,
      "learning_rate": 0.00032503178536795604,
      "loss": 3.367,
      "step": 42650
    },
    {
      "epoch": 4.595845441825422,
      "grad_norm": 0.6300180554389954,
      "learning_rate": 0.0003247085443378946,
      "loss": 3.3879,
      "step": 42700
    },
    {
      "epoch": 4.601226993865031,
      "grad_norm": 0.6881728172302246,
      "learning_rate": 0.0003243853033078332,
      "loss": 3.3959,
      "step": 42750
    },
    {
      "epoch": 4.606608545904638,
      "grad_norm": 0.6692599654197693,
      "learning_rate": 0.0003240620622777717,
      "loss": 3.3808,
      "step": 42800
    },
    {
      "epoch": 4.611990097944247,
      "grad_norm": 0.6763837337493896,
      "learning_rate": 0.00032373882124771036,
      "loss": 3.3858,
      "step": 42850
    },
    {
      "epoch": 4.6173716499838555,
      "grad_norm": 0.6325679421424866,
      "learning_rate": 0.0003234220450382501,
      "loss": 3.3865,
      "step": 42900
    },
    {
      "epoch": 4.622753202023463,
      "grad_norm": 0.614045262336731,
      "learning_rate": 0.00032309880400818876,
      "loss": 3.3857,
      "step": 42950
    },
    {
      "epoch": 4.628134754063072,
      "grad_norm": 0.6941338777542114,
      "learning_rate": 0.00032277556297812736,
      "loss": 3.386,
      "step": 43000
    },
    {
      "epoch": 4.628134754063072,
      "eval_accuracy": 0.37871637695641747,
      "eval_loss": 3.429509162902832,
      "eval_runtime": 181.3637,
      "eval_samples_per_second": 99.309,
      "eval_steps_per_second": 6.209,
      "step": 43000
    },
    {
      "epoch": 4.63351630610268,
      "grad_norm": 0.681847333908081,
      "learning_rate": 0.0003224523219480659,
      "loss": 3.3997,
      "step": 43050
    },
    {
      "epoch": 4.638897858142288,
      "grad_norm": 0.6491574645042419,
      "learning_rate": 0.0003221290809180045,
      "loss": 3.4064,
      "step": 43100
    },
    {
      "epoch": 4.6442794101818965,
      "grad_norm": 0.6105673909187317,
      "learning_rate": 0.0003218058398879431,
      "loss": 3.4021,
      "step": 43150
    },
    {
      "epoch": 4.649660962221505,
      "grad_norm": 0.6620272397994995,
      "learning_rate": 0.00032148259885788163,
      "loss": 3.3956,
      "step": 43200
    },
    {
      "epoch": 4.655042514261113,
      "grad_norm": 0.6198567748069763,
      "learning_rate": 0.0003211593578278203,
      "loss": 3.4026,
      "step": 43250
    },
    {
      "epoch": 4.660424066300721,
      "grad_norm": 0.6246040463447571,
      "learning_rate": 0.00032083611679775887,
      "loss": 3.4021,
      "step": 43300
    },
    {
      "epoch": 4.665805618340329,
      "grad_norm": 0.6644244194030762,
      "learning_rate": 0.0003205128757676974,
      "loss": 3.3952,
      "step": 43350
    },
    {
      "epoch": 4.6711871703799375,
      "grad_norm": 0.7720144391059875,
      "learning_rate": 0.000320189634737636,
      "loss": 3.3935,
      "step": 43400
    },
    {
      "epoch": 4.676568722419546,
      "grad_norm": 0.6637791395187378,
      "learning_rate": 0.00031986639370757455,
      "loss": 3.3898,
      "step": 43450
    },
    {
      "epoch": 4.681950274459154,
      "grad_norm": 0.6843057870864868,
      "learning_rate": 0.0003195431526775132,
      "loss": 3.3975,
      "step": 43500
    },
    {
      "epoch": 4.687331826498762,
      "grad_norm": 0.677645742893219,
      "learning_rate": 0.0003192199116474518,
      "loss": 3.3849,
      "step": 43550
    },
    {
      "epoch": 4.692713378538371,
      "grad_norm": 0.6362695693969727,
      "learning_rate": 0.00031889667061739033,
      "loss": 3.3855,
      "step": 43600
    },
    {
      "epoch": 4.6980949305779784,
      "grad_norm": 0.7136296033859253,
      "learning_rate": 0.0003185734295873289,
      "loss": 3.3898,
      "step": 43650
    },
    {
      "epoch": 4.703476482617587,
      "grad_norm": 0.6304780840873718,
      "learning_rate": 0.00031825018855726747,
      "loss": 3.3953,
      "step": 43700
    },
    {
      "epoch": 4.7088580346571955,
      "grad_norm": 0.679415762424469,
      "learning_rate": 0.00031792694752720606,
      "loss": 3.4077,
      "step": 43750
    },
    {
      "epoch": 4.714239586696803,
      "grad_norm": 0.6899905800819397,
      "learning_rate": 0.0003176037064971447,
      "loss": 3.3804,
      "step": 43800
    },
    {
      "epoch": 4.719621138736412,
      "grad_norm": 0.6690274477005005,
      "learning_rate": 0.0003172804654670833,
      "loss": 3.3976,
      "step": 43850
    },
    {
      "epoch": 4.725002690776019,
      "grad_norm": 0.6933522820472717,
      "learning_rate": 0.00031695722443702185,
      "loss": 3.4121,
      "step": 43900
    },
    {
      "epoch": 4.730384242815628,
      "grad_norm": 0.7179710268974304,
      "learning_rate": 0.00031663398340696044,
      "loss": 3.3859,
      "step": 43950
    },
    {
      "epoch": 4.7357657948552365,
      "grad_norm": 0.6381292343139648,
      "learning_rate": 0.000316310742376899,
      "loss": 3.392,
      "step": 44000
    },
    {
      "epoch": 4.7357657948552365,
      "eval_accuracy": 0.37950704402104346,
      "eval_loss": 3.4197468757629395,
      "eval_runtime": 183.9498,
      "eval_samples_per_second": 97.913,
      "eval_steps_per_second": 6.121,
      "step": 44000
    },
    {
      "epoch": 4.741147346894844,
      "grad_norm": 0.6101086139678955,
      "learning_rate": 0.0003159875013468376,
      "loss": 3.4109,
      "step": 44050
    },
    {
      "epoch": 4.746528898934453,
      "grad_norm": 0.6533230543136597,
      "learning_rate": 0.0003156642603167762,
      "loss": 3.3873,
      "step": 44100
    },
    {
      "epoch": 4.751910450974061,
      "grad_norm": 0.6808860898017883,
      "learning_rate": 0.00031534101928671476,
      "loss": 3.392,
      "step": 44150
    },
    {
      "epoch": 4.757292003013669,
      "grad_norm": 0.6969290971755981,
      "learning_rate": 0.00031501777825665336,
      "loss": 3.3987,
      "step": 44200
    },
    {
      "epoch": 4.7626735550532775,
      "grad_norm": 0.6486523747444153,
      "learning_rate": 0.0003146945372265919,
      "loss": 3.3907,
      "step": 44250
    },
    {
      "epoch": 4.768055107092886,
      "grad_norm": 0.6745399832725525,
      "learning_rate": 0.0003143712961965305,
      "loss": 3.3984,
      "step": 44300
    },
    {
      "epoch": 4.773436659132494,
      "grad_norm": 0.6679968237876892,
      "learning_rate": 0.0003140480551664691,
      "loss": 3.4033,
      "step": 44350
    },
    {
      "epoch": 4.778818211172102,
      "grad_norm": 0.6706650257110596,
      "learning_rate": 0.0003137248141364077,
      "loss": 3.3736,
      "step": 44400
    },
    {
      "epoch": 4.78419976321171,
      "grad_norm": 0.6594488024711609,
      "learning_rate": 0.0003134015731063463,
      "loss": 3.3952,
      "step": 44450
    },
    {
      "epoch": 4.7895813152513185,
      "grad_norm": 0.6256148219108582,
      "learning_rate": 0.0003130783320762849,
      "loss": 3.4024,
      "step": 44500
    },
    {
      "epoch": 4.794962867290927,
      "grad_norm": 0.689626932144165,
      "learning_rate": 0.0003127550910462234,
      "loss": 3.3809,
      "step": 44550
    },
    {
      "epoch": 4.800344419330535,
      "grad_norm": 0.6695735454559326,
      "learning_rate": 0.000312431850016162,
      "loss": 3.3778,
      "step": 44600
    },
    {
      "epoch": 4.805725971370143,
      "grad_norm": 0.6721578240394592,
      "learning_rate": 0.00031210860898610066,
      "loss": 3.3947,
      "step": 44650
    },
    {
      "epoch": 4.811107523409751,
      "grad_norm": 0.6975816488265991,
      "learning_rate": 0.0003117853679560392,
      "loss": 3.3955,
      "step": 44700
    },
    {
      "epoch": 4.8164890754493594,
      "grad_norm": 0.6698117852210999,
      "learning_rate": 0.0003114621269259778,
      "loss": 3.3824,
      "step": 44750
    },
    {
      "epoch": 4.821870627488968,
      "grad_norm": 0.6787844896316528,
      "learning_rate": 0.00031113888589591633,
      "loss": 3.4021,
      "step": 44800
    },
    {
      "epoch": 4.827252179528576,
      "grad_norm": 0.6478824019432068,
      "learning_rate": 0.00031081564486585493,
      "loss": 3.3883,
      "step": 44850
    },
    {
      "epoch": 4.832633731568184,
      "grad_norm": 0.7417387366294861,
      "learning_rate": 0.0003104924038357935,
      "loss": 3.4148,
      "step": 44900
    },
    {
      "epoch": 4.838015283607793,
      "grad_norm": 0.7233253717422485,
      "learning_rate": 0.0003101691628057321,
      "loss": 3.3979,
      "step": 44950
    },
    {
      "epoch": 4.8433968356474,
      "grad_norm": 0.6635757684707642,
      "learning_rate": 0.0003098459217756707,
      "loss": 3.3942,
      "step": 45000
    },
    {
      "epoch": 4.8433968356474,
      "eval_accuracy": 0.3797414083000593,
      "eval_loss": 3.4171788692474365,
      "eval_runtime": 186.8547,
      "eval_samples_per_second": 96.39,
      "eval_steps_per_second": 6.026,
      "step": 45000
    },
    {
      "epoch": 4.848778387687009,
      "grad_norm": 0.6752907633781433,
      "learning_rate": 0.0003095226807456093,
      "loss": 3.3923,
      "step": 45050
    },
    {
      "epoch": 4.8541599397266175,
      "grad_norm": 0.6921593546867371,
      "learning_rate": 0.00030919943971554785,
      "loss": 3.3699,
      "step": 45100
    },
    {
      "epoch": 4.859541491766225,
      "grad_norm": 0.6852372884750366,
      "learning_rate": 0.00030887619868548644,
      "loss": 3.3919,
      "step": 45150
    },
    {
      "epoch": 4.864923043805834,
      "grad_norm": 0.6900740265846252,
      "learning_rate": 0.000308552957655425,
      "loss": 3.4028,
      "step": 45200
    },
    {
      "epoch": 4.870304595845441,
      "grad_norm": 0.6453278064727783,
      "learning_rate": 0.00030822971662536363,
      "loss": 3.4007,
      "step": 45250
    },
    {
      "epoch": 4.87568614788505,
      "grad_norm": 0.7267393469810486,
      "learning_rate": 0.0003079064755953022,
      "loss": 3.3879,
      "step": 45300
    },
    {
      "epoch": 4.8810676999246585,
      "grad_norm": 0.6296945214271545,
      "learning_rate": 0.00030758323456524077,
      "loss": 3.3873,
      "step": 45350
    },
    {
      "epoch": 4.886449251964266,
      "grad_norm": 0.7078624963760376,
      "learning_rate": 0.00030725999353517936,
      "loss": 3.3859,
      "step": 45400
    },
    {
      "epoch": 4.891830804003875,
      "grad_norm": 0.6566046476364136,
      "learning_rate": 0.00030693675250511795,
      "loss": 3.412,
      "step": 45450
    },
    {
      "epoch": 4.897212356043483,
      "grad_norm": 0.6785820126533508,
      "learning_rate": 0.00030661351147505655,
      "loss": 3.3875,
      "step": 45500
    },
    {
      "epoch": 4.902593908083091,
      "grad_norm": 0.6094133853912354,
      "learning_rate": 0.00030629027044499514,
      "loss": 3.3768,
      "step": 45550
    },
    {
      "epoch": 4.9079754601226995,
      "grad_norm": 0.6580680012702942,
      "learning_rate": 0.00030596702941493374,
      "loss": 3.386,
      "step": 45600
    },
    {
      "epoch": 4.913357012162308,
      "grad_norm": 0.6653516888618469,
      "learning_rate": 0.0003056437883848723,
      "loss": 3.3835,
      "step": 45650
    },
    {
      "epoch": 4.918738564201916,
      "grad_norm": 0.6739216446876526,
      "learning_rate": 0.0003053205473548109,
      "loss": 3.4006,
      "step": 45700
    },
    {
      "epoch": 4.924120116241524,
      "grad_norm": 0.6470935344696045,
      "learning_rate": 0.0003049973063247494,
      "loss": 3.4077,
      "step": 45750
    },
    {
      "epoch": 4.929501668281132,
      "grad_norm": 0.6572386026382446,
      "learning_rate": 0.00030467406529468806,
      "loss": 3.4005,
      "step": 45800
    },
    {
      "epoch": 4.9348832203207404,
      "grad_norm": 0.6769603490829468,
      "learning_rate": 0.00030435082426462666,
      "loss": 3.3927,
      "step": 45850
    },
    {
      "epoch": 4.940264772360349,
      "grad_norm": 0.6704162955284119,
      "learning_rate": 0.0003040275832345652,
      "loss": 3.3835,
      "step": 45900
    },
    {
      "epoch": 4.945646324399957,
      "grad_norm": 0.6614569425582886,
      "learning_rate": 0.0003037043422045038,
      "loss": 3.4112,
      "step": 45950
    },
    {
      "epoch": 4.951027876439565,
      "grad_norm": 0.6573112607002258,
      "learning_rate": 0.0003033811011744424,
      "loss": 3.3991,
      "step": 46000
    },
    {
      "epoch": 4.951027876439565,
      "eval_accuracy": 0.38033161078666755,
      "eval_loss": 3.410231828689575,
      "eval_runtime": 187.5923,
      "eval_samples_per_second": 96.011,
      "eval_steps_per_second": 6.002,
      "step": 46000
    },
    {
      "epoch": 4.956409428479174,
      "grad_norm": 0.6917462944984436,
      "learning_rate": 0.00030305786014438093,
      "loss": 3.3986,
      "step": 46050
    },
    {
      "epoch": 4.961790980518781,
      "grad_norm": 0.6433039307594299,
      "learning_rate": 0.0003027346191143196,
      "loss": 3.3804,
      "step": 46100
    },
    {
      "epoch": 4.96717253255839,
      "grad_norm": 0.7002160549163818,
      "learning_rate": 0.00030241137808425817,
      "loss": 3.3954,
      "step": 46150
    },
    {
      "epoch": 4.9725540845979985,
      "grad_norm": 0.7559657692909241,
      "learning_rate": 0.0003020881370541967,
      "loss": 3.3975,
      "step": 46200
    },
    {
      "epoch": 4.977935636637606,
      "grad_norm": 0.7186838388442993,
      "learning_rate": 0.0003017648960241353,
      "loss": 3.3906,
      "step": 46250
    },
    {
      "epoch": 4.983317188677215,
      "grad_norm": 0.644106924533844,
      "learning_rate": 0.00030144165499407385,
      "loss": 3.394,
      "step": 46300
    },
    {
      "epoch": 4.988698740716822,
      "grad_norm": 0.6522652506828308,
      "learning_rate": 0.00030111841396401244,
      "loss": 3.3987,
      "step": 46350
    },
    {
      "epoch": 4.994080292756431,
      "grad_norm": 0.7429907917976379,
      "learning_rate": 0.0003007951729339511,
      "loss": 3.3898,
      "step": 46400
    },
    {
      "epoch": 4.9994618447960395,
      "grad_norm": 0.6467660069465637,
      "learning_rate": 0.00030047193190388963,
      "loss": 3.397,
      "step": 46450
    },
    {
      "epoch": 5.004843396835647,
      "grad_norm": 0.6881029009819031,
      "learning_rate": 0.0003001486908738282,
      "loss": 3.3067,
      "step": 46500
    },
    {
      "epoch": 5.010224948875256,
      "grad_norm": 0.6249831914901733,
      "learning_rate": 0.0002998254498437668,
      "loss": 3.3004,
      "step": 46550
    },
    {
      "epoch": 5.015606500914864,
      "grad_norm": 0.678883969783783,
      "learning_rate": 0.0002995022088137054,
      "loss": 3.308,
      "step": 46600
    },
    {
      "epoch": 5.020988052954472,
      "grad_norm": 0.711815595626831,
      "learning_rate": 0.00029917896778364396,
      "loss": 3.2918,
      "step": 46650
    },
    {
      "epoch": 5.0263696049940805,
      "grad_norm": 0.7060233354568481,
      "learning_rate": 0.00029885572675358255,
      "loss": 3.3008,
      "step": 46700
    },
    {
      "epoch": 5.031751157033688,
      "grad_norm": 0.6653878688812256,
      "learning_rate": 0.00029853248572352114,
      "loss": 3.2967,
      "step": 46750
    },
    {
      "epoch": 5.037132709073297,
      "grad_norm": 0.6747201085090637,
      "learning_rate": 0.00029820924469345974,
      "loss": 3.3203,
      "step": 46800
    },
    {
      "epoch": 5.042514261112905,
      "grad_norm": 0.6810873746871948,
      "learning_rate": 0.00029789246848399955,
      "loss": 3.3204,
      "step": 46850
    },
    {
      "epoch": 5.047895813152513,
      "grad_norm": 0.682019054889679,
      "learning_rate": 0.00029756922745393814,
      "loss": 3.3034,
      "step": 46900
    },
    {
      "epoch": 5.0532773651921215,
      "grad_norm": 0.6843183040618896,
      "learning_rate": 0.00029724598642387674,
      "loss": 3.3085,
      "step": 46950
    },
    {
      "epoch": 5.05865891723173,
      "grad_norm": 0.7059671878814697,
      "learning_rate": 0.0002969227453938153,
      "loss": 3.3117,
      "step": 47000
    },
    {
      "epoch": 5.05865891723173,
      "eval_accuracy": 0.3807751318747263,
      "eval_loss": 3.412182569503784,
      "eval_runtime": 197.9259,
      "eval_samples_per_second": 90.999,
      "eval_steps_per_second": 5.689,
      "step": 47000
    },
    {
      "epoch": 5.064040469271338,
      "grad_norm": 0.6879417300224304,
      "learning_rate": 0.00029659950436375387,
      "loss": 3.3109,
      "step": 47050
    },
    {
      "epoch": 5.069422021310946,
      "grad_norm": 0.7069340348243713,
      "learning_rate": 0.00029627626333369246,
      "loss": 3.2938,
      "step": 47100
    },
    {
      "epoch": 5.074803573350554,
      "grad_norm": 0.7323874831199646,
      "learning_rate": 0.00029595302230363106,
      "loss": 3.3155,
      "step": 47150
    },
    {
      "epoch": 5.080185125390162,
      "grad_norm": 0.6994755268096924,
      "learning_rate": 0.0002956297812735696,
      "loss": 3.3061,
      "step": 47200
    },
    {
      "epoch": 5.085566677429771,
      "grad_norm": 0.6636136770248413,
      "learning_rate": 0.00029530654024350825,
      "loss": 3.3185,
      "step": 47250
    },
    {
      "epoch": 5.090948229469379,
      "grad_norm": 0.6855831146240234,
      "learning_rate": 0.0002949832992134468,
      "loss": 3.3059,
      "step": 47300
    },
    {
      "epoch": 5.096329781508987,
      "grad_norm": 0.654964029788971,
      "learning_rate": 0.0002946600581833854,
      "loss": 3.3207,
      "step": 47350
    },
    {
      "epoch": 5.101711333548596,
      "grad_norm": 0.6662684082984924,
      "learning_rate": 0.000294336817153324,
      "loss": 3.3129,
      "step": 47400
    },
    {
      "epoch": 5.107092885588203,
      "grad_norm": 0.6747322678565979,
      "learning_rate": 0.0002940135761232626,
      "loss": 3.3062,
      "step": 47450
    },
    {
      "epoch": 5.112474437627812,
      "grad_norm": 0.7205665111541748,
      "learning_rate": 0.0002936903350932011,
      "loss": 3.3175,
      "step": 47500
    },
    {
      "epoch": 5.1178559896674205,
      "grad_norm": 0.6925020217895508,
      "learning_rate": 0.0002933670940631397,
      "loss": 3.3115,
      "step": 47550
    },
    {
      "epoch": 5.123237541707028,
      "grad_norm": 0.6592434048652649,
      "learning_rate": 0.0002930438530330783,
      "loss": 3.329,
      "step": 47600
    },
    {
      "epoch": 5.128619093746637,
      "grad_norm": 0.6856623291969299,
      "learning_rate": 0.0002927206120030169,
      "loss": 3.3114,
      "step": 47650
    },
    {
      "epoch": 5.134000645786244,
      "grad_norm": 0.6598321199417114,
      "learning_rate": 0.0002923973709729555,
      "loss": 3.33,
      "step": 47700
    },
    {
      "epoch": 5.139382197825853,
      "grad_norm": 0.7250847220420837,
      "learning_rate": 0.00029207412994289403,
      "loss": 3.3208,
      "step": 47750
    },
    {
      "epoch": 5.1447637498654615,
      "grad_norm": 0.6782087087631226,
      "learning_rate": 0.0002917508889128327,
      "loss": 3.3361,
      "step": 47800
    },
    {
      "epoch": 5.150145301905069,
      "grad_norm": 0.7318218350410461,
      "learning_rate": 0.0002914276478827712,
      "loss": 3.3181,
      "step": 47850
    },
    {
      "epoch": 5.155526853944678,
      "grad_norm": 0.6483197808265686,
      "learning_rate": 0.0002911044068527098,
      "loss": 3.3149,
      "step": 47900
    },
    {
      "epoch": 5.160908405984286,
      "grad_norm": 0.6683578491210938,
      "learning_rate": 0.0002907811658226484,
      "loss": 3.3039,
      "step": 47950
    },
    {
      "epoch": 5.166289958023894,
      "grad_norm": 0.6492442488670349,
      "learning_rate": 0.000290457924792587,
      "loss": 3.3122,
      "step": 48000
    },
    {
      "epoch": 5.166289958023894,
      "eval_accuracy": 0.3809452822970437,
      "eval_loss": 3.4117515087127686,
      "eval_runtime": 184.2175,
      "eval_samples_per_second": 97.77,
      "eval_steps_per_second": 6.112,
      "step": 48000
    },
    {
      "epoch": 5.1716715100635025,
      "grad_norm": 0.6810211539268494,
      "learning_rate": 0.00029013468376252555,
      "loss": 3.3132,
      "step": 48050
    },
    {
      "epoch": 5.17705306210311,
      "grad_norm": 0.7479050755500793,
      "learning_rate": 0.00028981144273246414,
      "loss": 3.3258,
      "step": 48100
    },
    {
      "epoch": 5.182434614142719,
      "grad_norm": 0.6982147693634033,
      "learning_rate": 0.00028948820170240274,
      "loss": 3.333,
      "step": 48150
    },
    {
      "epoch": 5.187816166182327,
      "grad_norm": 0.6847436428070068,
      "learning_rate": 0.00028916496067234133,
      "loss": 3.3327,
      "step": 48200
    },
    {
      "epoch": 5.193197718221935,
      "grad_norm": 0.6415330171585083,
      "learning_rate": 0.0002888417196422799,
      "loss": 3.331,
      "step": 48250
    },
    {
      "epoch": 5.198579270261543,
      "grad_norm": 0.6779004335403442,
      "learning_rate": 0.00028851847861221847,
      "loss": 3.3118,
      "step": 48300
    },
    {
      "epoch": 5.203960822301152,
      "grad_norm": 0.7085497975349426,
      "learning_rate": 0.00028819523758215706,
      "loss": 3.3289,
      "step": 48350
    },
    {
      "epoch": 5.20934237434076,
      "grad_norm": 0.6577271223068237,
      "learning_rate": 0.00028787199655209566,
      "loss": 3.3068,
      "step": 48400
    },
    {
      "epoch": 5.214723926380368,
      "grad_norm": 0.6932440996170044,
      "learning_rate": 0.00028754875552203425,
      "loss": 3.3236,
      "step": 48450
    },
    {
      "epoch": 5.220105478419977,
      "grad_norm": 0.7089775800704956,
      "learning_rate": 0.0002872255144919728,
      "loss": 3.3248,
      "step": 48500
    },
    {
      "epoch": 5.225487030459584,
      "grad_norm": 0.7029323577880859,
      "learning_rate": 0.00028690227346191144,
      "loss": 3.3345,
      "step": 48550
    },
    {
      "epoch": 5.230868582499193,
      "grad_norm": 0.6357343792915344,
      "learning_rate": 0.00028657903243185,
      "loss": 3.3299,
      "step": 48600
    },
    {
      "epoch": 5.236250134538801,
      "grad_norm": 0.734144926071167,
      "learning_rate": 0.0002862557914017886,
      "loss": 3.3135,
      "step": 48650
    },
    {
      "epoch": 5.241631686578409,
      "grad_norm": 0.6767412424087524,
      "learning_rate": 0.00028593255037172717,
      "loss": 3.3154,
      "step": 48700
    },
    {
      "epoch": 5.247013238618018,
      "grad_norm": 0.6620224118232727,
      "learning_rate": 0.00028560930934166576,
      "loss": 3.3152,
      "step": 48750
    },
    {
      "epoch": 5.252394790657625,
      "grad_norm": 0.7147397398948669,
      "learning_rate": 0.00028528606831160436,
      "loss": 3.3366,
      "step": 48800
    },
    {
      "epoch": 5.257776342697234,
      "grad_norm": 0.673425555229187,
      "learning_rate": 0.0002849628272815429,
      "loss": 3.3295,
      "step": 48850
    },
    {
      "epoch": 5.2631578947368425,
      "grad_norm": 0.6758955121040344,
      "learning_rate": 0.0002846395862514815,
      "loss": 3.3339,
      "step": 48900
    },
    {
      "epoch": 5.26853944677645,
      "grad_norm": 0.7019620537757874,
      "learning_rate": 0.0002843163452214201,
      "loss": 3.3099,
      "step": 48950
    },
    {
      "epoch": 5.273920998816059,
      "grad_norm": 0.6793907880783081,
      "learning_rate": 0.0002839931041913587,
      "loss": 3.3299,
      "step": 49000
    },
    {
      "epoch": 5.273920998816059,
      "eval_accuracy": 0.38137880731942353,
      "eval_loss": 3.406912326812744,
      "eval_runtime": 186.699,
      "eval_samples_per_second": 96.471,
      "eval_steps_per_second": 6.031,
      "step": 49000
    },
    {
      "epoch": 5.279302550855666,
      "grad_norm": 0.6639112234115601,
      "learning_rate": 0.0002836698631612972,
      "loss": 3.3271,
      "step": 49050
    },
    {
      "epoch": 5.284684102895275,
      "grad_norm": 0.6406859159469604,
      "learning_rate": 0.00028334662213123587,
      "loss": 3.3398,
      "step": 49100
    },
    {
      "epoch": 5.2900656549348835,
      "grad_norm": 0.6863929629325867,
      "learning_rate": 0.0002830233811011744,
      "loss": 3.3243,
      "step": 49150
    },
    {
      "epoch": 5.295447206974491,
      "grad_norm": 0.6703143119812012,
      "learning_rate": 0.000282700140071113,
      "loss": 3.3319,
      "step": 49200
    },
    {
      "epoch": 5.3008287590141,
      "grad_norm": 0.6466113924980164,
      "learning_rate": 0.0002823768990410516,
      "loss": 3.3469,
      "step": 49250
    },
    {
      "epoch": 5.306210311053708,
      "grad_norm": 0.7590684294700623,
      "learning_rate": 0.00028205365801099014,
      "loss": 3.3207,
      "step": 49300
    },
    {
      "epoch": 5.311591863093316,
      "grad_norm": 0.6959227919578552,
      "learning_rate": 0.00028173041698092874,
      "loss": 3.344,
      "step": 49350
    },
    {
      "epoch": 5.316973415132924,
      "grad_norm": 0.6902022361755371,
      "learning_rate": 0.00028140717595086733,
      "loss": 3.3188,
      "step": 49400
    },
    {
      "epoch": 5.322354967172533,
      "grad_norm": 0.6852561235427856,
      "learning_rate": 0.0002810839349208059,
      "loss": 3.319,
      "step": 49450
    },
    {
      "epoch": 5.327736519212141,
      "grad_norm": 0.7446426153182983,
      "learning_rate": 0.00028076069389074447,
      "loss": 3.314,
      "step": 49500
    },
    {
      "epoch": 5.333118071251749,
      "grad_norm": 0.6811358332633972,
      "learning_rate": 0.0002804374528606831,
      "loss": 3.3329,
      "step": 49550
    },
    {
      "epoch": 5.338499623291357,
      "grad_norm": 0.6912984251976013,
      "learning_rate": 0.00028011421183062166,
      "loss": 3.3266,
      "step": 49600
    },
    {
      "epoch": 5.343881175330965,
      "grad_norm": 0.7043926119804382,
      "learning_rate": 0.00027979097080056025,
      "loss": 3.3225,
      "step": 49650
    },
    {
      "epoch": 5.349262727370574,
      "grad_norm": 0.6830223798751831,
      "learning_rate": 0.00027946772977049885,
      "loss": 3.3298,
      "step": 49700
    },
    {
      "epoch": 5.354644279410182,
      "grad_norm": 0.6773084402084351,
      "learning_rate": 0.00027914448874043744,
      "loss": 3.3322,
      "step": 49750
    },
    {
      "epoch": 5.36002583144979,
      "grad_norm": 0.7058982849121094,
      "learning_rate": 0.00027882124771037603,
      "loss": 3.3404,
      "step": 49800
    },
    {
      "epoch": 5.365407383489399,
      "grad_norm": 0.6620261073112488,
      "learning_rate": 0.0002784980066803146,
      "loss": 3.3301,
      "step": 49850
    },
    {
      "epoch": 5.370788935529006,
      "grad_norm": 0.7332042455673218,
      "learning_rate": 0.00027817476565025317,
      "loss": 3.3405,
      "step": 49900
    },
    {
      "epoch": 5.376170487568615,
      "grad_norm": 0.7393403053283691,
      "learning_rate": 0.00027785152462019176,
      "loss": 3.3237,
      "step": 49950
    },
    {
      "epoch": 5.3815520396082235,
      "grad_norm": 0.7388954162597656,
      "learning_rate": 0.00027752828359013036,
      "loss": 3.3347,
      "step": 50000
    },
    {
      "epoch": 5.3815520396082235,
      "eval_accuracy": 0.3817418166176117,
      "eval_loss": 3.403921127319336,
      "eval_runtime": 190.4965,
      "eval_samples_per_second": 94.548,
      "eval_steps_per_second": 5.911,
      "step": 50000
    },
    {
      "epoch": 5.386933591647831,
      "grad_norm": 0.6593722105026245,
      "learning_rate": 0.0002772050425600689,
      "loss": 3.3248,
      "step": 50050
    },
    {
      "epoch": 5.39231514368744,
      "grad_norm": 0.7128427028656006,
      "learning_rate": 0.00027688180153000755,
      "loss": 3.3216,
      "step": 50100
    },
    {
      "epoch": 5.397696695727047,
      "grad_norm": 0.7100169062614441,
      "learning_rate": 0.0002765585604999461,
      "loss": 3.3309,
      "step": 50150
    },
    {
      "epoch": 5.403078247766656,
      "grad_norm": 0.6927211284637451,
      "learning_rate": 0.0002762353194698847,
      "loss": 3.3046,
      "step": 50200
    },
    {
      "epoch": 5.4084597998062645,
      "grad_norm": 0.6714285612106323,
      "learning_rate": 0.0002759120784398233,
      "loss": 3.3222,
      "step": 50250
    },
    {
      "epoch": 5.413841351845872,
      "grad_norm": 0.6753862500190735,
      "learning_rate": 0.00027558883740976187,
      "loss": 3.326,
      "step": 50300
    },
    {
      "epoch": 5.419222903885481,
      "grad_norm": 0.7439519166946411,
      "learning_rate": 0.0002752655963797004,
      "loss": 3.3353,
      "step": 50350
    },
    {
      "epoch": 5.424604455925088,
      "grad_norm": 0.7135826945304871,
      "learning_rate": 0.000274942355349639,
      "loss": 3.335,
      "step": 50400
    },
    {
      "epoch": 5.429986007964697,
      "grad_norm": 0.6776095032691956,
      "learning_rate": 0.0002746191143195776,
      "loss": 3.3428,
      "step": 50450
    },
    {
      "epoch": 5.435367560004305,
      "grad_norm": 0.7246741652488708,
      "learning_rate": 0.0002742958732895162,
      "loss": 3.3294,
      "step": 50500
    },
    {
      "epoch": 5.440749112043913,
      "grad_norm": 0.7674691081047058,
      "learning_rate": 0.0002739726322594548,
      "loss": 3.335,
      "step": 50550
    },
    {
      "epoch": 5.446130664083522,
      "grad_norm": 0.6608890295028687,
      "learning_rate": 0.00027364939122939333,
      "loss": 3.3369,
      "step": 50600
    },
    {
      "epoch": 5.45151221612313,
      "grad_norm": 0.7248181700706482,
      "learning_rate": 0.0002733261501993319,
      "loss": 3.3382,
      "step": 50650
    },
    {
      "epoch": 5.456893768162738,
      "grad_norm": 0.7393496632575989,
      "learning_rate": 0.0002730029091692705,
      "loss": 3.3484,
      "step": 50700
    },
    {
      "epoch": 5.462275320202346,
      "grad_norm": 0.6910891532897949,
      "learning_rate": 0.0002726796681392091,
      "loss": 3.3352,
      "step": 50750
    },
    {
      "epoch": 5.467656872241955,
      "grad_norm": 0.6502571105957031,
      "learning_rate": 0.0002723564271091477,
      "loss": 3.3228,
      "step": 50800
    },
    {
      "epoch": 5.473038424281563,
      "grad_norm": 0.7313735485076904,
      "learning_rate": 0.0002720396508996875,
      "loss": 3.3474,
      "step": 50850
    },
    {
      "epoch": 5.478419976321171,
      "grad_norm": 0.7241185307502747,
      "learning_rate": 0.0002717164098696261,
      "loss": 3.3298,
      "step": 50900
    },
    {
      "epoch": 5.483801528360779,
      "grad_norm": 0.6608176231384277,
      "learning_rate": 0.00027139316883956465,
      "loss": 3.338,
      "step": 50950
    },
    {
      "epoch": 5.489183080400387,
      "grad_norm": 0.6401441097259521,
      "learning_rate": 0.00027106992780950325,
      "loss": 3.3354,
      "step": 51000
    },
    {
      "epoch": 5.489183080400387,
      "eval_accuracy": 0.38204734853814604,
      "eval_loss": 3.4011025428771973,
      "eval_runtime": 196.5172,
      "eval_samples_per_second": 91.651,
      "eval_steps_per_second": 5.73,
      "step": 51000
    },
    {
      "epoch": 5.494564632439996,
      "grad_norm": 0.6640450954437256,
      "learning_rate": 0.00027074668677944184,
      "loss": 3.3478,
      "step": 51050
    },
    {
      "epoch": 5.499946184479604,
      "grad_norm": 0.6522714495658875,
      "learning_rate": 0.00027042344574938044,
      "loss": 3.3231,
      "step": 51100
    },
    {
      "epoch": 5.505327736519212,
      "grad_norm": 0.6780000329017639,
      "learning_rate": 0.000270100204719319,
      "loss": 3.3409,
      "step": 51150
    },
    {
      "epoch": 5.510709288558821,
      "grad_norm": 0.714978039264679,
      "learning_rate": 0.0002697769636892576,
      "loss": 3.3307,
      "step": 51200
    },
    {
      "epoch": 5.516090840598428,
      "grad_norm": 0.6895531415939331,
      "learning_rate": 0.00026945372265919617,
      "loss": 3.3431,
      "step": 51250
    },
    {
      "epoch": 5.521472392638037,
      "grad_norm": 0.7261839509010315,
      "learning_rate": 0.00026913048162913476,
      "loss": 3.3401,
      "step": 51300
    },
    {
      "epoch": 5.5268539446776455,
      "grad_norm": 0.759393572807312,
      "learning_rate": 0.00026880724059907336,
      "loss": 3.3479,
      "step": 51350
    },
    {
      "epoch": 5.532235496717253,
      "grad_norm": 0.7153398394584656,
      "learning_rate": 0.00026848399956901195,
      "loss": 3.3599,
      "step": 51400
    },
    {
      "epoch": 5.537617048756862,
      "grad_norm": 0.6823909878730774,
      "learning_rate": 0.0002681607585389505,
      "loss": 3.3326,
      "step": 51450
    },
    {
      "epoch": 5.542998600796469,
      "grad_norm": 0.6902871131896973,
      "learning_rate": 0.0002678375175088891,
      "loss": 3.346,
      "step": 51500
    },
    {
      "epoch": 5.548380152836078,
      "grad_norm": 0.6893585920333862,
      "learning_rate": 0.0002675142764788277,
      "loss": 3.326,
      "step": 51550
    },
    {
      "epoch": 5.553761704875686,
      "grad_norm": 0.6639092564582825,
      "learning_rate": 0.0002671910354487663,
      "loss": 3.3237,
      "step": 51600
    },
    {
      "epoch": 5.559143256915294,
      "grad_norm": 0.684249758720398,
      "learning_rate": 0.00026686779441870487,
      "loss": 3.3484,
      "step": 51650
    },
    {
      "epoch": 5.564524808954903,
      "grad_norm": 0.7169504165649414,
      "learning_rate": 0.0002665445533886434,
      "loss": 3.3434,
      "step": 51700
    },
    {
      "epoch": 5.569906360994511,
      "grad_norm": 0.7079775333404541,
      "learning_rate": 0.00026622131235858206,
      "loss": 3.3329,
      "step": 51750
    },
    {
      "epoch": 5.575287913034119,
      "grad_norm": 0.6866129040718079,
      "learning_rate": 0.0002658980713285206,
      "loss": 3.3396,
      "step": 51800
    },
    {
      "epoch": 5.580669465073727,
      "grad_norm": 0.7243232131004333,
      "learning_rate": 0.0002655748302984592,
      "loss": 3.3431,
      "step": 51850
    },
    {
      "epoch": 5.586051017113336,
      "grad_norm": 0.7045604586601257,
      "learning_rate": 0.0002652515892683978,
      "loss": 3.3354,
      "step": 51900
    },
    {
      "epoch": 5.591432569152944,
      "grad_norm": 0.718021035194397,
      "learning_rate": 0.0002649283482383364,
      "loss": 3.3249,
      "step": 51950
    },
    {
      "epoch": 5.596814121192552,
      "grad_norm": 0.6556090116500854,
      "learning_rate": 0.0002646051072082749,
      "loss": 3.3326,
      "step": 52000
    },
    {
      "epoch": 5.596814121192552,
      "eval_accuracy": 0.38278064687800595,
      "eval_loss": 3.3935627937316895,
      "eval_runtime": 192.2945,
      "eval_samples_per_second": 93.664,
      "eval_steps_per_second": 5.856,
      "step": 52000
    },
    {
      "epoch": 5.60219567323216,
      "grad_norm": 0.7427969574928284,
      "learning_rate": 0.0002642818661782135,
      "loss": 3.3466,
      "step": 52050
    },
    {
      "epoch": 5.607577225271768,
      "grad_norm": 0.699838399887085,
      "learning_rate": 0.0002639586251481521,
      "loss": 3.3265,
      "step": 52100
    },
    {
      "epoch": 5.612958777311377,
      "grad_norm": 0.7209939956665039,
      "learning_rate": 0.0002636353841180907,
      "loss": 3.3395,
      "step": 52150
    },
    {
      "epoch": 5.618340329350985,
      "grad_norm": 0.7315608859062195,
      "learning_rate": 0.0002633121430880293,
      "loss": 3.3407,
      "step": 52200
    },
    {
      "epoch": 5.623721881390593,
      "grad_norm": 0.7655720114707947,
      "learning_rate": 0.00026298890205796784,
      "loss": 3.3195,
      "step": 52250
    },
    {
      "epoch": 5.629103433430201,
      "grad_norm": 0.7014591693878174,
      "learning_rate": 0.00026266566102790644,
      "loss": 3.3393,
      "step": 52300
    },
    {
      "epoch": 5.634484985469809,
      "grad_norm": 0.7004824280738831,
      "learning_rate": 0.00026234241999784503,
      "loss": 3.3312,
      "step": 52350
    },
    {
      "epoch": 5.639866537509418,
      "grad_norm": 0.6728544235229492,
      "learning_rate": 0.0002620191789677836,
      "loss": 3.342,
      "step": 52400
    },
    {
      "epoch": 5.645248089549026,
      "grad_norm": 0.7336904406547546,
      "learning_rate": 0.00026169593793772217,
      "loss": 3.3455,
      "step": 52450
    },
    {
      "epoch": 5.650629641588634,
      "grad_norm": 0.6965534687042236,
      "learning_rate": 0.0002613726969076608,
      "loss": 3.3222,
      "step": 52500
    },
    {
      "epoch": 5.656011193628243,
      "grad_norm": 0.6964438557624817,
      "learning_rate": 0.00026104945587759936,
      "loss": 3.3211,
      "step": 52550
    },
    {
      "epoch": 5.66139274566785,
      "grad_norm": 0.8172469139099121,
      "learning_rate": 0.00026072621484753795,
      "loss": 3.348,
      "step": 52600
    },
    {
      "epoch": 5.666774297707459,
      "grad_norm": 0.7247955203056335,
      "learning_rate": 0.00026040297381747655,
      "loss": 3.3591,
      "step": 52650
    },
    {
      "epoch": 5.672155849747067,
      "grad_norm": 0.7142777442932129,
      "learning_rate": 0.00026007973278741514,
      "loss": 3.334,
      "step": 52700
    },
    {
      "epoch": 5.677537401786675,
      "grad_norm": 0.6640527248382568,
      "learning_rate": 0.00025975649175735373,
      "loss": 3.3326,
      "step": 52750
    },
    {
      "epoch": 5.682918953826284,
      "grad_norm": 0.6708357334136963,
      "learning_rate": 0.0002594332507272923,
      "loss": 3.3398,
      "step": 52800
    },
    {
      "epoch": 5.688300505865891,
      "grad_norm": 0.7626410126686096,
      "learning_rate": 0.00025911647451783214,
      "loss": 3.316,
      "step": 52850
    },
    {
      "epoch": 5.6936820579055,
      "grad_norm": 0.7377467751502991,
      "learning_rate": 0.0002587932334877707,
      "loss": 3.3357,
      "step": 52900
    },
    {
      "epoch": 5.699063609945108,
      "grad_norm": 0.684335470199585,
      "learning_rate": 0.00025846999245770927,
      "loss": 3.3383,
      "step": 52950
    },
    {
      "epoch": 5.704445161984716,
      "grad_norm": 0.7713633179664612,
      "learning_rate": 0.00025814675142764787,
      "loss": 3.331,
      "step": 53000
    },
    {
      "epoch": 5.704445161984716,
      "eval_accuracy": 0.38316625597685955,
      "eval_loss": 3.3910470008850098,
      "eval_runtime": 184.3061,
      "eval_samples_per_second": 97.723,
      "eval_steps_per_second": 6.109,
      "step": 53000
    },
    {
      "epoch": 5.709826714024325,
      "grad_norm": 0.6859487891197205,
      "learning_rate": 0.00025782351039758646,
      "loss": 3.3552,
      "step": 53050
    },
    {
      "epoch": 5.715208266063933,
      "grad_norm": 0.70652174949646,
      "learning_rate": 0.000257500269367525,
      "loss": 3.3354,
      "step": 53100
    },
    {
      "epoch": 5.720589818103541,
      "grad_norm": 0.7098658680915833,
      "learning_rate": 0.0002571770283374636,
      "loss": 3.3216,
      "step": 53150
    },
    {
      "epoch": 5.725971370143149,
      "grad_norm": 0.7051847577095032,
      "learning_rate": 0.0002568537873074022,
      "loss": 3.3259,
      "step": 53200
    },
    {
      "epoch": 5.731352922182758,
      "grad_norm": 0.7178789377212524,
      "learning_rate": 0.0002565305462773408,
      "loss": 3.3402,
      "step": 53250
    },
    {
      "epoch": 5.736734474222366,
      "grad_norm": 0.7154682874679565,
      "learning_rate": 0.0002562073052472794,
      "loss": 3.3394,
      "step": 53300
    },
    {
      "epoch": 5.742116026261974,
      "grad_norm": 0.7090694308280945,
      "learning_rate": 0.0002558840642172179,
      "loss": 3.3338,
      "step": 53350
    },
    {
      "epoch": 5.747497578301582,
      "grad_norm": 0.7228304147720337,
      "learning_rate": 0.00025556082318715657,
      "loss": 3.3477,
      "step": 53400
    },
    {
      "epoch": 5.75287913034119,
      "grad_norm": 0.7012549042701721,
      "learning_rate": 0.0002552375821570951,
      "loss": 3.3512,
      "step": 53450
    },
    {
      "epoch": 5.758260682380799,
      "grad_norm": 0.6874874234199524,
      "learning_rate": 0.0002549143411270337,
      "loss": 3.3236,
      "step": 53500
    },
    {
      "epoch": 5.763642234420407,
      "grad_norm": 0.7078413367271423,
      "learning_rate": 0.0002545911000969723,
      "loss": 3.3324,
      "step": 53550
    },
    {
      "epoch": 5.769023786460015,
      "grad_norm": 0.6936997771263123,
      "learning_rate": 0.0002542678590669109,
      "loss": 3.3367,
      "step": 53600
    },
    {
      "epoch": 5.774405338499624,
      "grad_norm": 0.7468472719192505,
      "learning_rate": 0.00025394461803684943,
      "loss": 3.3215,
      "step": 53650
    },
    {
      "epoch": 5.779786890539231,
      "grad_norm": 0.7272358536720276,
      "learning_rate": 0.00025362137700678803,
      "loss": 3.3368,
      "step": 53700
    },
    {
      "epoch": 5.78516844257884,
      "grad_norm": 0.7411605715751648,
      "learning_rate": 0.0002532981359767266,
      "loss": 3.3408,
      "step": 53750
    },
    {
      "epoch": 5.790549994618448,
      "grad_norm": 0.7038905024528503,
      "learning_rate": 0.0002529748949466652,
      "loss": 3.3503,
      "step": 53800
    },
    {
      "epoch": 5.795931546658056,
      "grad_norm": 0.7428696751594543,
      "learning_rate": 0.000252658118737205,
      "loss": 3.3443,
      "step": 53850
    },
    {
      "epoch": 5.801313098697665,
      "grad_norm": 0.7399723529815674,
      "learning_rate": 0.00025233487770714356,
      "loss": 3.3426,
      "step": 53900
    },
    {
      "epoch": 5.806694650737272,
      "grad_norm": 0.6805725693702698,
      "learning_rate": 0.0002520116366770822,
      "loss": 3.3336,
      "step": 53950
    },
    {
      "epoch": 5.812076202776881,
      "grad_norm": 0.688302755355835,
      "learning_rate": 0.00025168839564702075,
      "loss": 3.3336,
      "step": 54000
    },
    {
      "epoch": 5.812076202776881,
      "eval_accuracy": 0.3835990204290246,
      "eval_loss": 3.384124279022217,
      "eval_runtime": 186.2069,
      "eval_samples_per_second": 96.726,
      "eval_steps_per_second": 6.047,
      "step": 54000
    },
    {
      "epoch": 5.817457754816489,
      "grad_norm": 0.7363406419754028,
      "learning_rate": 0.00025136515461695935,
      "loss": 3.3418,
      "step": 54050
    },
    {
      "epoch": 5.822839306856097,
      "grad_norm": 0.7254767417907715,
      "learning_rate": 0.00025104191358689794,
      "loss": 3.3267,
      "step": 54100
    },
    {
      "epoch": 5.828220858895706,
      "grad_norm": 0.7623255252838135,
      "learning_rate": 0.00025071867255683654,
      "loss": 3.3313,
      "step": 54150
    },
    {
      "epoch": 5.833602410935313,
      "grad_norm": 0.6968920230865479,
      "learning_rate": 0.00025039543152677513,
      "loss": 3.3555,
      "step": 54200
    },
    {
      "epoch": 5.838983962974922,
      "grad_norm": 0.6651339530944824,
      "learning_rate": 0.0002500721904967137,
      "loss": 3.3318,
      "step": 54250
    },
    {
      "epoch": 5.84436551501453,
      "grad_norm": 0.7694635987281799,
      "learning_rate": 0.00024974894946665227,
      "loss": 3.3406,
      "step": 54300
    },
    {
      "epoch": 5.849747067054138,
      "grad_norm": 0.7057002782821655,
      "learning_rate": 0.00024942570843659086,
      "loss": 3.3226,
      "step": 54350
    },
    {
      "epoch": 5.855128619093747,
      "grad_norm": 0.7110609412193298,
      "learning_rate": 0.00024910246740652946,
      "loss": 3.3398,
      "step": 54400
    },
    {
      "epoch": 5.860510171133355,
      "grad_norm": 0.6615331768989563,
      "learning_rate": 0.000248779226376468,
      "loss": 3.327,
      "step": 54450
    },
    {
      "epoch": 5.865891723172963,
      "grad_norm": 0.6870415806770325,
      "learning_rate": 0.00024845598534640665,
      "loss": 3.3332,
      "step": 54500
    },
    {
      "epoch": 5.871273275212571,
      "grad_norm": 0.7046707272529602,
      "learning_rate": 0.0002481327443163452,
      "loss": 3.3337,
      "step": 54550
    },
    {
      "epoch": 5.87665482725218,
      "grad_norm": 0.6837175488471985,
      "learning_rate": 0.0002478095032862838,
      "loss": 3.3241,
      "step": 54600
    },
    {
      "epoch": 5.882036379291788,
      "grad_norm": 0.7234786748886108,
      "learning_rate": 0.0002474862622562224,
      "loss": 3.3379,
      "step": 54650
    },
    {
      "epoch": 5.887417931331396,
      "grad_norm": 0.6777711510658264,
      "learning_rate": 0.00024716302122616097,
      "loss": 3.3221,
      "step": 54700
    },
    {
      "epoch": 5.892799483371004,
      "grad_norm": 0.6779975891113281,
      "learning_rate": 0.0002468397801960995,
      "loss": 3.3658,
      "step": 54750
    },
    {
      "epoch": 5.898181035410612,
      "grad_norm": 0.76872318983078,
      "learning_rate": 0.0002465165391660381,
      "loss": 3.3387,
      "step": 54800
    },
    {
      "epoch": 5.903562587450221,
      "grad_norm": 0.6578140258789062,
      "learning_rate": 0.0002461932981359767,
      "loss": 3.3186,
      "step": 54850
    },
    {
      "epoch": 5.9089441394898286,
      "grad_norm": 0.7238888144493103,
      "learning_rate": 0.0002458700571059153,
      "loss": 3.3428,
      "step": 54900
    },
    {
      "epoch": 5.914325691529437,
      "grad_norm": 0.7324863076210022,
      "learning_rate": 0.0002455468160758539,
      "loss": 3.3374,
      "step": 54950
    },
    {
      "epoch": 5.919707243569046,
      "grad_norm": 0.7290207743644714,
      "learning_rate": 0.00024522357504579243,
      "loss": 3.3482,
      "step": 55000
    },
    {
      "epoch": 5.919707243569046,
      "eval_accuracy": 0.3840113581382806,
      "eval_loss": 3.3812263011932373,
      "eval_runtime": 187.8274,
      "eval_samples_per_second": 95.891,
      "eval_steps_per_second": 5.995,
      "step": 55000
    },
    {
      "epoch": 5.925088795608653,
      "grad_norm": 0.6966691017150879,
      "learning_rate": 0.000244900334015731,
      "loss": 3.3331,
      "step": 55050
    },
    {
      "epoch": 5.930470347648262,
      "grad_norm": 0.6742926836013794,
      "learning_rate": 0.0002445770929856696,
      "loss": 3.3338,
      "step": 55100
    },
    {
      "epoch": 5.93585189968787,
      "grad_norm": 0.7050507068634033,
      "learning_rate": 0.0002442538519556082,
      "loss": 3.3415,
      "step": 55150
    },
    {
      "epoch": 5.941233451727478,
      "grad_norm": 0.7647225856781006,
      "learning_rate": 0.0002439306109255468,
      "loss": 3.3378,
      "step": 55200
    },
    {
      "epoch": 5.946615003767087,
      "grad_norm": 0.7093396186828613,
      "learning_rate": 0.00024360736989548538,
      "loss": 3.3418,
      "step": 55250
    },
    {
      "epoch": 5.951996555806694,
      "grad_norm": 0.6999906301498413,
      "learning_rate": 0.00024328412886542394,
      "loss": 3.3382,
      "step": 55300
    },
    {
      "epoch": 5.957378107846303,
      "grad_norm": 0.7449384331703186,
      "learning_rate": 0.00024296088783536257,
      "loss": 3.3484,
      "step": 55350
    },
    {
      "epoch": 5.962759659885911,
      "grad_norm": 0.7350170612335205,
      "learning_rate": 0.00024263764680530113,
      "loss": 3.3426,
      "step": 55400
    },
    {
      "epoch": 5.968141211925519,
      "grad_norm": 0.690458357334137,
      "learning_rate": 0.0002423144057752397,
      "loss": 3.3457,
      "step": 55450
    },
    {
      "epoch": 5.973522763965128,
      "grad_norm": 0.7245633602142334,
      "learning_rate": 0.00024199116474517832,
      "loss": 3.3438,
      "step": 55500
    },
    {
      "epoch": 5.978904316004736,
      "grad_norm": 0.6709914207458496,
      "learning_rate": 0.0002416679237151169,
      "loss": 3.335,
      "step": 55550
    },
    {
      "epoch": 5.984285868044344,
      "grad_norm": 0.7330343723297119,
      "learning_rate": 0.00024134468268505546,
      "loss": 3.3281,
      "step": 55600
    },
    {
      "epoch": 5.989667420083952,
      "grad_norm": 0.7124666571617126,
      "learning_rate": 0.00024102144165499405,
      "loss": 3.3297,
      "step": 55650
    },
    {
      "epoch": 5.995048972123561,
      "grad_norm": 0.7754617929458618,
      "learning_rate": 0.00024069820062493265,
      "loss": 3.338,
      "step": 55700
    },
    {
      "epoch": 6.000430524163169,
      "grad_norm": 0.7203042507171631,
      "learning_rate": 0.00024037495959487121,
      "loss": 3.3332,
      "step": 55750
    },
    {
      "epoch": 6.005812076202777,
      "grad_norm": 0.7282465100288391,
      "learning_rate": 0.0002400517185648098,
      "loss": 3.2626,
      "step": 55800
    },
    {
      "epoch": 6.011193628242385,
      "grad_norm": 0.6757826209068298,
      "learning_rate": 0.0002397349423553496,
      "loss": 3.2493,
      "step": 55850
    },
    {
      "epoch": 6.016575180281993,
      "grad_norm": 0.7024554014205933,
      "learning_rate": 0.0002394117013252882,
      "loss": 3.2581,
      "step": 55900
    },
    {
      "epoch": 6.021956732321602,
      "grad_norm": 0.7048636078834534,
      "learning_rate": 0.00023908846029522678,
      "loss": 3.2499,
      "step": 55950
    },
    {
      "epoch": 6.0273382843612096,
      "grad_norm": 0.7078518271446228,
      "learning_rate": 0.00023876521926516537,
      "loss": 3.2433,
      "step": 56000
    },
    {
      "epoch": 6.0273382843612096,
      "eval_accuracy": 0.38392704349733653,
      "eval_loss": 3.3852083683013916,
      "eval_runtime": 186.3591,
      "eval_samples_per_second": 96.647,
      "eval_steps_per_second": 6.042,
      "step": 56000
    },
    {
      "epoch": 6.032719836400818,
      "grad_norm": 0.6915884613990784,
      "learning_rate": 0.00023844197823510397,
      "loss": 3.2437,
      "step": 56050
    },
    {
      "epoch": 6.038101388440427,
      "grad_norm": 0.7067051529884338,
      "learning_rate": 0.00023811873720504253,
      "loss": 3.2598,
      "step": 56100
    },
    {
      "epoch": 6.043482940480034,
      "grad_norm": 0.7345446348190308,
      "learning_rate": 0.00023779549617498113,
      "loss": 3.241,
      "step": 56150
    },
    {
      "epoch": 6.048864492519643,
      "grad_norm": 0.7410269975662231,
      "learning_rate": 0.0002374722551449197,
      "loss": 3.26,
      "step": 56200
    },
    {
      "epoch": 6.0542460445592505,
      "grad_norm": 0.699095606803894,
      "learning_rate": 0.0002371490141148583,
      "loss": 3.2503,
      "step": 56250
    },
    {
      "epoch": 6.059627596598859,
      "grad_norm": 0.7725237607955933,
      "learning_rate": 0.00023682577308479689,
      "loss": 3.2608,
      "step": 56300
    },
    {
      "epoch": 6.065009148638468,
      "grad_norm": 0.7087113857269287,
      "learning_rate": 0.00023650253205473545,
      "loss": 3.2484,
      "step": 56350
    },
    {
      "epoch": 6.070390700678075,
      "grad_norm": 0.7354804873466492,
      "learning_rate": 0.00023617929102467402,
      "loss": 3.2305,
      "step": 56400
    },
    {
      "epoch": 6.075772252717684,
      "grad_norm": 0.6822298169136047,
      "learning_rate": 0.00023585604999461264,
      "loss": 3.2501,
      "step": 56450
    },
    {
      "epoch": 6.081153804757292,
      "grad_norm": 0.7278683185577393,
      "learning_rate": 0.0002355328089645512,
      "loss": 3.2631,
      "step": 56500
    },
    {
      "epoch": 6.0865353567969,
      "grad_norm": 0.6803918480873108,
      "learning_rate": 0.00023520956793448978,
      "loss": 3.2419,
      "step": 56550
    },
    {
      "epoch": 6.091916908836509,
      "grad_norm": 0.7024580836296082,
      "learning_rate": 0.0002348863269044284,
      "loss": 3.2351,
      "step": 56600
    },
    {
      "epoch": 6.097298460876116,
      "grad_norm": 0.6841206550598145,
      "learning_rate": 0.00023456308587436697,
      "loss": 3.2629,
      "step": 56650
    },
    {
      "epoch": 6.102680012915725,
      "grad_norm": 0.6789579391479492,
      "learning_rate": 0.00023423984484430554,
      "loss": 3.2714,
      "step": 56700
    },
    {
      "epoch": 6.108061564955333,
      "grad_norm": 0.7267230153083801,
      "learning_rate": 0.00023391660381424413,
      "loss": 3.2517,
      "step": 56750
    },
    {
      "epoch": 6.113443116994941,
      "grad_norm": 0.7273861765861511,
      "learning_rate": 0.00023359336278418272,
      "loss": 3.2635,
      "step": 56800
    },
    {
      "epoch": 6.11882466903455,
      "grad_norm": 0.7234520316123962,
      "learning_rate": 0.0002332701217541213,
      "loss": 3.2625,
      "step": 56850
    },
    {
      "epoch": 6.124206221074158,
      "grad_norm": 0.7325701117515564,
      "learning_rate": 0.0002329468807240599,
      "loss": 3.273,
      "step": 56900
    },
    {
      "epoch": 6.129587773113766,
      "grad_norm": 0.7831119298934937,
      "learning_rate": 0.00023262363969399845,
      "loss": 3.2462,
      "step": 56950
    },
    {
      "epoch": 6.134969325153374,
      "grad_norm": 0.7361143231391907,
      "learning_rate": 0.00023230039866393708,
      "loss": 3.2862,
      "step": 57000
    },
    {
      "epoch": 6.134969325153374,
      "eval_accuracy": 0.38425647905319005,
      "eval_loss": 3.3835434913635254,
      "eval_runtime": 189.2623,
      "eval_samples_per_second": 95.164,
      "eval_steps_per_second": 5.949,
      "step": 57000
    },
    {
      "epoch": 6.140350877192983,
      "grad_norm": 0.7020624279975891,
      "learning_rate": 0.00023197715763387564,
      "loss": 3.237,
      "step": 57050
    },
    {
      "epoch": 6.1457324292325906,
      "grad_norm": 0.6859740018844604,
      "learning_rate": 0.0002316539166038142,
      "loss": 3.2637,
      "step": 57100
    },
    {
      "epoch": 6.151113981272199,
      "grad_norm": 0.7237862348556519,
      "learning_rate": 0.00023133067557375283,
      "loss": 3.2679,
      "step": 57150
    },
    {
      "epoch": 6.156495533311807,
      "grad_norm": 0.7217773795127869,
      "learning_rate": 0.0002310074345436914,
      "loss": 3.276,
      "step": 57200
    },
    {
      "epoch": 6.161877085351415,
      "grad_norm": 0.7584754824638367,
      "learning_rate": 0.00023068419351362997,
      "loss": 3.2651,
      "step": 57250
    },
    {
      "epoch": 6.167258637391024,
      "grad_norm": 0.7323378324508667,
      "learning_rate": 0.00023036095248356856,
      "loss": 3.2537,
      "step": 57300
    },
    {
      "epoch": 6.1726401894306315,
      "grad_norm": 0.7462666630744934,
      "learning_rate": 0.00023003771145350716,
      "loss": 3.2409,
      "step": 57350
    },
    {
      "epoch": 6.17802174147024,
      "grad_norm": 0.7341803312301636,
      "learning_rate": 0.00022971447042344572,
      "loss": 3.2871,
      "step": 57400
    },
    {
      "epoch": 6.183403293509849,
      "grad_norm": 0.7513673305511475,
      "learning_rate": 0.00022939122939338432,
      "loss": 3.2784,
      "step": 57450
    },
    {
      "epoch": 6.188784845549456,
      "grad_norm": 0.6771014928817749,
      "learning_rate": 0.0002290679883633229,
      "loss": 3.2649,
      "step": 57500
    },
    {
      "epoch": 6.194166397589065,
      "grad_norm": 0.7689410448074341,
      "learning_rate": 0.00022874474733326148,
      "loss": 3.2706,
      "step": 57550
    },
    {
      "epoch": 6.1995479496286725,
      "grad_norm": 0.7244313955307007,
      "learning_rate": 0.00022842150630320008,
      "loss": 3.2798,
      "step": 57600
    },
    {
      "epoch": 6.204929501668281,
      "grad_norm": 0.7801254391670227,
      "learning_rate": 0.00022809826527313864,
      "loss": 3.2657,
      "step": 57650
    },
    {
      "epoch": 6.21031105370789,
      "grad_norm": 0.7798529267311096,
      "learning_rate": 0.0002277750242430772,
      "loss": 3.2887,
      "step": 57700
    },
    {
      "epoch": 6.215692605747497,
      "grad_norm": 0.7633011937141418,
      "learning_rate": 0.00022745178321301583,
      "loss": 3.274,
      "step": 57750
    },
    {
      "epoch": 6.221074157787106,
      "grad_norm": 0.7147380709648132,
      "learning_rate": 0.0002271285421829544,
      "loss": 3.2846,
      "step": 57800
    },
    {
      "epoch": 6.226455709826714,
      "grad_norm": 0.7156368494033813,
      "learning_rate": 0.00022680530115289297,
      "loss": 3.2514,
      "step": 57850
    },
    {
      "epoch": 6.231837261866322,
      "grad_norm": 0.7495132684707642,
      "learning_rate": 0.0002264820601228316,
      "loss": 3.2961,
      "step": 57900
    },
    {
      "epoch": 6.237218813905931,
      "grad_norm": 0.7189834713935852,
      "learning_rate": 0.00022615881909277016,
      "loss": 3.285,
      "step": 57950
    },
    {
      "epoch": 6.242600365945538,
      "grad_norm": 0.7525097131729126,
      "learning_rate": 0.00022583557806270875,
      "loss": 3.2768,
      "step": 58000
    },
    {
      "epoch": 6.242600365945538,
      "eval_accuracy": 0.3846801166627787,
      "eval_loss": 3.381192207336426,
      "eval_runtime": 190.6782,
      "eval_samples_per_second": 94.458,
      "eval_steps_per_second": 5.905,
      "step": 58000
    },
    {
      "epoch": 6.247981917985147,
      "grad_norm": 0.7216876745223999,
      "learning_rate": 0.00022551233703264732,
      "loss": 3.2955,
      "step": 58050
    },
    {
      "epoch": 6.253363470024755,
      "grad_norm": 0.6835768222808838,
      "learning_rate": 0.0002251890960025859,
      "loss": 3.2793,
      "step": 58100
    },
    {
      "epoch": 6.258745022064363,
      "grad_norm": 0.7529338002204895,
      "learning_rate": 0.0002248658549725245,
      "loss": 3.2804,
      "step": 58150
    },
    {
      "epoch": 6.264126574103972,
      "grad_norm": 0.7358905673027039,
      "learning_rate": 0.00022454261394246308,
      "loss": 3.2704,
      "step": 58200
    },
    {
      "epoch": 6.26950812614358,
      "grad_norm": 0.720579981803894,
      "learning_rate": 0.00022421937291240164,
      "loss": 3.2773,
      "step": 58250
    },
    {
      "epoch": 6.274889678183188,
      "grad_norm": 0.7319722175598145,
      "learning_rate": 0.00022389613188234027,
      "loss": 3.2644,
      "step": 58300
    },
    {
      "epoch": 6.280271230222796,
      "grad_norm": 0.7133744955062866,
      "learning_rate": 0.00022357289085227883,
      "loss": 3.2816,
      "step": 58350
    },
    {
      "epoch": 6.285652782262405,
      "grad_norm": 0.7793900370597839,
      "learning_rate": 0.0002232496498222174,
      "loss": 3.2736,
      "step": 58400
    },
    {
      "epoch": 6.2910343343020125,
      "grad_norm": 0.7565712928771973,
      "learning_rate": 0.000222926408792156,
      "loss": 3.2694,
      "step": 58450
    },
    {
      "epoch": 6.296415886341621,
      "grad_norm": 0.7122904062271118,
      "learning_rate": 0.0002226031677620946,
      "loss": 3.2805,
      "step": 58500
    },
    {
      "epoch": 6.301797438381229,
      "grad_norm": 0.7574246525764465,
      "learning_rate": 0.00022227992673203316,
      "loss": 3.2911,
      "step": 58550
    },
    {
      "epoch": 6.307178990420837,
      "grad_norm": 0.6819460988044739,
      "learning_rate": 0.00022195668570197175,
      "loss": 3.2831,
      "step": 58600
    },
    {
      "epoch": 6.312560542460446,
      "grad_norm": 0.6889560222625732,
      "learning_rate": 0.00022163344467191032,
      "loss": 3.2651,
      "step": 58650
    },
    {
      "epoch": 6.3179420945000535,
      "grad_norm": 0.7568337321281433,
      "learning_rate": 0.00022131020364184891,
      "loss": 3.2751,
      "step": 58700
    },
    {
      "epoch": 6.323323646539662,
      "grad_norm": 0.7178793549537659,
      "learning_rate": 0.0002209869626117875,
      "loss": 3.278,
      "step": 58750
    },
    {
      "epoch": 6.328705198579271,
      "grad_norm": 0.7153880000114441,
      "learning_rate": 0.00022066372158172608,
      "loss": 3.2718,
      "step": 58800
    },
    {
      "epoch": 6.334086750618878,
      "grad_norm": 0.7389101982116699,
      "learning_rate": 0.00022034048055166464,
      "loss": 3.2816,
      "step": 58850
    },
    {
      "epoch": 6.339468302658487,
      "grad_norm": 0.7171434760093689,
      "learning_rate": 0.00022001723952160327,
      "loss": 3.2787,
      "step": 58900
    },
    {
      "epoch": 6.344849854698095,
      "grad_norm": 0.7473244071006775,
      "learning_rate": 0.00021969399849154183,
      "loss": 3.297,
      "step": 58950
    },
    {
      "epoch": 6.350231406737703,
      "grad_norm": 0.7457278966903687,
      "learning_rate": 0.00021937075746148043,
      "loss": 3.2746,
      "step": 59000
    },
    {
      "epoch": 6.350231406737703,
      "eval_accuracy": 0.38505790275370966,
      "eval_loss": 3.3773982524871826,
      "eval_runtime": 196.0856,
      "eval_samples_per_second": 91.853,
      "eval_steps_per_second": 5.742,
      "step": 59000
    },
    {
      "epoch": 6.355612958777312,
      "grad_norm": 0.7415329813957214,
      "learning_rate": 0.00021904751643141902,
      "loss": 3.2815,
      "step": 59050
    },
    {
      "epoch": 6.360994510816919,
      "grad_norm": 0.7817324995994568,
      "learning_rate": 0.0002187242754013576,
      "loss": 3.2693,
      "step": 59100
    },
    {
      "epoch": 6.366376062856528,
      "grad_norm": 0.741486132144928,
      "learning_rate": 0.00021840103437129619,
      "loss": 3.2902,
      "step": 59150
    },
    {
      "epoch": 6.371757614896136,
      "grad_norm": 0.7398223280906677,
      "learning_rate": 0.00021807779334123475,
      "loss": 3.2979,
      "step": 59200
    },
    {
      "epoch": 6.377139166935744,
      "grad_norm": 0.7425299882888794,
      "learning_rate": 0.00021775455231117335,
      "loss": 3.2821,
      "step": 59250
    },
    {
      "epoch": 6.382520718975353,
      "grad_norm": 0.7253338098526001,
      "learning_rate": 0.00021743131128111194,
      "loss": 3.2657,
      "step": 59300
    },
    {
      "epoch": 6.387902271014961,
      "grad_norm": 0.7191407680511475,
      "learning_rate": 0.0002171080702510505,
      "loss": 3.2782,
      "step": 59350
    },
    {
      "epoch": 6.393283823054569,
      "grad_norm": 0.7446361780166626,
      "learning_rate": 0.00021678482922098908,
      "loss": 3.2761,
      "step": 59400
    },
    {
      "epoch": 6.398665375094177,
      "grad_norm": 0.7482697367668152,
      "learning_rate": 0.0002164615881909277,
      "loss": 3.2949,
      "step": 59450
    },
    {
      "epoch": 6.404046927133785,
      "grad_norm": 0.7431824803352356,
      "learning_rate": 0.00021613834716086627,
      "loss": 3.2733,
      "step": 59500
    },
    {
      "epoch": 6.4094284791733935,
      "grad_norm": 0.7506404519081116,
      "learning_rate": 0.00021581510613080483,
      "loss": 3.2847,
      "step": 59550
    },
    {
      "epoch": 6.414810031213002,
      "grad_norm": 0.7272698879241943,
      "learning_rate": 0.00021549186510074346,
      "loss": 3.2835,
      "step": 59600
    },
    {
      "epoch": 6.42019158325261,
      "grad_norm": 0.7136017084121704,
      "learning_rate": 0.00021516862407068202,
      "loss": 3.2912,
      "step": 59650
    },
    {
      "epoch": 6.425573135292218,
      "grad_norm": 0.7518767714500427,
      "learning_rate": 0.0002148453830406206,
      "loss": 3.2925,
      "step": 59700
    },
    {
      "epoch": 6.430954687331827,
      "grad_norm": 0.758926272392273,
      "learning_rate": 0.00021452214201055919,
      "loss": 3.2933,
      "step": 59750
    },
    {
      "epoch": 6.4363362393714345,
      "grad_norm": 0.783856987953186,
      "learning_rate": 0.00021419890098049778,
      "loss": 3.2764,
      "step": 59800
    },
    {
      "epoch": 6.441717791411043,
      "grad_norm": 0.7272980809211731,
      "learning_rate": 0.00021387565995043638,
      "loss": 3.2885,
      "step": 59850
    },
    {
      "epoch": 6.447099343450651,
      "grad_norm": 0.7294760346412659,
      "learning_rate": 0.00021355888374097615,
      "loss": 3.2805,
      "step": 59900
    },
    {
      "epoch": 6.452480895490259,
      "grad_norm": 0.6946467161178589,
      "learning_rate": 0.00021323564271091478,
      "loss": 3.2758,
      "step": 59950
    },
    {
      "epoch": 6.457862447529868,
      "grad_norm": 0.7636728286743164,
      "learning_rate": 0.00021291240168085334,
      "loss": 3.2685,
      "step": 60000
    },
    {
      "epoch": 6.457862447529868,
      "eval_accuracy": 0.3857693618631189,
      "eval_loss": 3.3723151683807373,
      "eval_runtime": 196.2384,
      "eval_samples_per_second": 91.781,
      "eval_steps_per_second": 5.738,
      "step": 60000
    },
    {
      "epoch": 6.4632439995694755,
      "grad_norm": 0.766710102558136,
      "learning_rate": 0.0002125891606507919,
      "loss": 3.2915,
      "step": 60050
    },
    {
      "epoch": 6.468625551609084,
      "grad_norm": 0.7683334350585938,
      "learning_rate": 0.0002122659196207305,
      "loss": 3.2879,
      "step": 60100
    },
    {
      "epoch": 6.474007103648693,
      "grad_norm": 0.7413205504417419,
      "learning_rate": 0.0002119426785906691,
      "loss": 3.2874,
      "step": 60150
    },
    {
      "epoch": 6.4793886556883,
      "grad_norm": 0.740182101726532,
      "learning_rate": 0.00021161943756060767,
      "loss": 3.2904,
      "step": 60200
    },
    {
      "epoch": 6.484770207727909,
      "grad_norm": 0.7152962684631348,
      "learning_rate": 0.00021129619653054626,
      "loss": 3.258,
      "step": 60250
    },
    {
      "epoch": 6.490151759767517,
      "grad_norm": 0.7539137005805969,
      "learning_rate": 0.00021097295550048483,
      "loss": 3.2983,
      "step": 60300
    },
    {
      "epoch": 6.495533311807125,
      "grad_norm": 0.8189778923988342,
      "learning_rate": 0.00021064971447042343,
      "loss": 3.2626,
      "step": 60350
    },
    {
      "epoch": 6.500914863846734,
      "grad_norm": 0.7144876718521118,
      "learning_rate": 0.00021032647344036202,
      "loss": 3.2721,
      "step": 60400
    },
    {
      "epoch": 6.506296415886341,
      "grad_norm": 0.7215985655784607,
      "learning_rate": 0.0002100032324103006,
      "loss": 3.2917,
      "step": 60450
    },
    {
      "epoch": 6.51167796792595,
      "grad_norm": 0.7393590807914734,
      "learning_rate": 0.00020967999138023916,
      "loss": 3.2807,
      "step": 60500
    },
    {
      "epoch": 6.517059519965558,
      "grad_norm": 0.7382612228393555,
      "learning_rate": 0.00020935675035017778,
      "loss": 3.2719,
      "step": 60550
    },
    {
      "epoch": 6.522441072005166,
      "grad_norm": 0.7286345958709717,
      "learning_rate": 0.00020903350932011634,
      "loss": 3.2735,
      "step": 60600
    },
    {
      "epoch": 6.5278226240447745,
      "grad_norm": 0.7717954516410828,
      "learning_rate": 0.0002087102682900549,
      "loss": 3.2811,
      "step": 60650
    },
    {
      "epoch": 6.533204176084383,
      "grad_norm": 0.7473860383033752,
      "learning_rate": 0.00020838702725999353,
      "loss": 3.2869,
      "step": 60700
    },
    {
      "epoch": 6.538585728123991,
      "grad_norm": 0.735973060131073,
      "learning_rate": 0.0002080637862299321,
      "loss": 3.3027,
      "step": 60750
    },
    {
      "epoch": 6.543967280163599,
      "grad_norm": 0.8099279999732971,
      "learning_rate": 0.0002077405451998707,
      "loss": 3.2854,
      "step": 60800
    },
    {
      "epoch": 6.549348832203208,
      "grad_norm": 0.7157101631164551,
      "learning_rate": 0.00020741730416980926,
      "loss": 3.2726,
      "step": 60850
    },
    {
      "epoch": 6.5547303842428155,
      "grad_norm": 0.8149197101593018,
      "learning_rate": 0.00020709406313974786,
      "loss": 3.2843,
      "step": 60900
    },
    {
      "epoch": 6.560111936282424,
      "grad_norm": 0.726717472076416,
      "learning_rate": 0.00020677082210968645,
      "loss": 3.2715,
      "step": 60950
    },
    {
      "epoch": 6.565493488322032,
      "grad_norm": 0.7151013016700745,
      "learning_rate": 0.00020644758107962502,
      "loss": 3.2924,
      "step": 61000
    },
    {
      "epoch": 6.565493488322032,
      "eval_accuracy": 0.38572014210493893,
      "eval_loss": 3.369555950164795,
      "eval_runtime": 188.3148,
      "eval_samples_per_second": 95.643,
      "eval_steps_per_second": 5.979,
      "step": 61000
    },
    {
      "epoch": 6.57087504036164,
      "grad_norm": 0.7728192210197449,
      "learning_rate": 0.0002061243400495636,
      "loss": 3.294,
      "step": 61050
    },
    {
      "epoch": 6.576256592401249,
      "grad_norm": 0.7109768986701965,
      "learning_rate": 0.0002058010990195022,
      "loss": 3.2851,
      "step": 61100
    },
    {
      "epoch": 6.5816381444408565,
      "grad_norm": 0.7330248355865479,
      "learning_rate": 0.00020547785798944078,
      "loss": 3.2957,
      "step": 61150
    },
    {
      "epoch": 6.587019696480465,
      "grad_norm": 0.7273966073989868,
      "learning_rate": 0.00020515461695937934,
      "loss": 3.2847,
      "step": 61200
    },
    {
      "epoch": 6.592401248520073,
      "grad_norm": 0.7017806172370911,
      "learning_rate": 0.00020483137592931797,
      "loss": 3.2852,
      "step": 61250
    },
    {
      "epoch": 6.597782800559681,
      "grad_norm": 0.7176810503005981,
      "learning_rate": 0.00020450813489925653,
      "loss": 3.295,
      "step": 61300
    },
    {
      "epoch": 6.60316435259929,
      "grad_norm": 0.7577967643737793,
      "learning_rate": 0.0002041848938691951,
      "loss": 3.2991,
      "step": 61350
    },
    {
      "epoch": 6.608545904638898,
      "grad_norm": 0.7231495976448059,
      "learning_rate": 0.0002038616528391337,
      "loss": 3.2831,
      "step": 61400
    },
    {
      "epoch": 6.613927456678506,
      "grad_norm": 0.6778291463851929,
      "learning_rate": 0.00020353841180907226,
      "loss": 3.2933,
      "step": 61450
    },
    {
      "epoch": 6.619309008718115,
      "grad_norm": 0.7604323029518127,
      "learning_rate": 0.00020321517077901086,
      "loss": 3.285,
      "step": 61500
    },
    {
      "epoch": 6.624690560757722,
      "grad_norm": 0.7915641069412231,
      "learning_rate": 0.00020289192974894945,
      "loss": 3.2925,
      "step": 61550
    },
    {
      "epoch": 6.630072112797331,
      "grad_norm": 0.7588294148445129,
      "learning_rate": 0.00020256868871888802,
      "loss": 3.2757,
      "step": 61600
    },
    {
      "epoch": 6.635453664836939,
      "grad_norm": 0.7528614401817322,
      "learning_rate": 0.00020224544768882664,
      "loss": 3.279,
      "step": 61650
    },
    {
      "epoch": 6.640835216876547,
      "grad_norm": 0.7734187841415405,
      "learning_rate": 0.0002019222066587652,
      "loss": 3.2766,
      "step": 61700
    },
    {
      "epoch": 6.6462167689161555,
      "grad_norm": 0.7793465852737427,
      "learning_rate": 0.00020159896562870378,
      "loss": 3.2807,
      "step": 61750
    },
    {
      "epoch": 6.651598320955763,
      "grad_norm": 0.754044234752655,
      "learning_rate": 0.00020127572459864237,
      "loss": 3.3039,
      "step": 61800
    },
    {
      "epoch": 6.656979872995372,
      "grad_norm": 0.7209697365760803,
      "learning_rate": 0.00020095248356858097,
      "loss": 3.2764,
      "step": 61850
    },
    {
      "epoch": 6.66236142503498,
      "grad_norm": 0.772503674030304,
      "learning_rate": 0.00020063570735912077,
      "loss": 3.2958,
      "step": 61900
    },
    {
      "epoch": 6.667742977074588,
      "grad_norm": 0.7553082704544067,
      "learning_rate": 0.00020031246632905934,
      "loss": 3.3003,
      "step": 61950
    },
    {
      "epoch": 6.6731245291141965,
      "grad_norm": 0.7089201211929321,
      "learning_rate": 0.00019998922529899794,
      "loss": 3.2959,
      "step": 62000
    },
    {
      "epoch": 6.6731245291141965,
      "eval_accuracy": 0.3862941553112628,
      "eval_loss": 3.3636035919189453,
      "eval_runtime": 193.0116,
      "eval_samples_per_second": 93.316,
      "eval_steps_per_second": 5.834,
      "step": 62000
    },
    {
      "epoch": 6.678506081153805,
      "grad_norm": 0.7147092223167419,
      "learning_rate": 0.00019966598426893653,
      "loss": 3.3084,
      "step": 62050
    },
    {
      "epoch": 6.683887633193413,
      "grad_norm": 0.7536850571632385,
      "learning_rate": 0.0001993427432388751,
      "loss": 3.3219,
      "step": 62100
    },
    {
      "epoch": 6.689269185233021,
      "grad_norm": 0.7886611223220825,
      "learning_rate": 0.00019901950220881367,
      "loss": 3.2882,
      "step": 62150
    },
    {
      "epoch": 6.69465073727263,
      "grad_norm": 0.7684109210968018,
      "learning_rate": 0.0001986962611787523,
      "loss": 3.2743,
      "step": 62200
    },
    {
      "epoch": 6.7000322893122375,
      "grad_norm": 0.7373045682907104,
      "learning_rate": 0.00019837302014869085,
      "loss": 3.3058,
      "step": 62250
    },
    {
      "epoch": 6.705413841351846,
      "grad_norm": 0.7927104234695435,
      "learning_rate": 0.00019804977911862942,
      "loss": 3.2884,
      "step": 62300
    },
    {
      "epoch": 6.710795393391454,
      "grad_norm": 0.716905951499939,
      "learning_rate": 0.00019772653808856804,
      "loss": 3.252,
      "step": 62350
    },
    {
      "epoch": 6.716176945431062,
      "grad_norm": 0.7859448194503784,
      "learning_rate": 0.0001974032970585066,
      "loss": 3.2779,
      "step": 62400
    },
    {
      "epoch": 6.721558497470671,
      "grad_norm": 0.7113184332847595,
      "learning_rate": 0.00019708005602844518,
      "loss": 3.2821,
      "step": 62450
    },
    {
      "epoch": 6.7269400495102785,
      "grad_norm": 0.7067203521728516,
      "learning_rate": 0.00019675681499838377,
      "loss": 3.2872,
      "step": 62500
    },
    {
      "epoch": 6.732321601549887,
      "grad_norm": 0.7456042766571045,
      "learning_rate": 0.00019643357396832237,
      "loss": 3.2746,
      "step": 62550
    },
    {
      "epoch": 6.737703153589496,
      "grad_norm": 0.7183045148849487,
      "learning_rate": 0.00019611033293826096,
      "loss": 3.2732,
      "step": 62600
    },
    {
      "epoch": 6.743084705629103,
      "grad_norm": 0.722294807434082,
      "learning_rate": 0.00019578709190819953,
      "loss": 3.2753,
      "step": 62650
    },
    {
      "epoch": 6.748466257668712,
      "grad_norm": 0.7375461459159851,
      "learning_rate": 0.0001954638508781381,
      "loss": 3.2987,
      "step": 62700
    },
    {
      "epoch": 6.75384780970832,
      "grad_norm": 0.7404730916023254,
      "learning_rate": 0.00019514060984807672,
      "loss": 3.2842,
      "step": 62750
    },
    {
      "epoch": 6.759229361747928,
      "grad_norm": 0.7886555194854736,
      "learning_rate": 0.0001948173688180153,
      "loss": 3.2802,
      "step": 62800
    },
    {
      "epoch": 6.7646109137875365,
      "grad_norm": 0.7428334951400757,
      "learning_rate": 0.00019449412778795386,
      "loss": 3.2823,
      "step": 62850
    },
    {
      "epoch": 6.769992465827144,
      "grad_norm": 0.8270326256752014,
      "learning_rate": 0.00019417088675789245,
      "loss": 3.276,
      "step": 62900
    },
    {
      "epoch": 6.775374017866753,
      "grad_norm": 0.7734887003898621,
      "learning_rate": 0.00019384764572783104,
      "loss": 3.2947,
      "step": 62950
    },
    {
      "epoch": 6.780755569906361,
      "grad_norm": 0.7507820129394531,
      "learning_rate": 0.0001935244046977696,
      "loss": 3.2936,
      "step": 63000
    },
    {
      "epoch": 6.780755569906361,
      "eval_accuracy": 0.3865039640376326,
      "eval_loss": 3.362807273864746,
      "eval_runtime": 192.84,
      "eval_samples_per_second": 93.399,
      "eval_steps_per_second": 5.839,
      "step": 63000
    },
    {
      "epoch": 6.786137121945969,
      "grad_norm": 0.7971484661102295,
      "learning_rate": 0.0001932011636677082,
      "loss": 3.2758,
      "step": 63050
    },
    {
      "epoch": 6.7915186739855775,
      "grad_norm": 0.8225180506706238,
      "learning_rate": 0.00019287792263764677,
      "loss": 3.2817,
      "step": 63100
    },
    {
      "epoch": 6.796900226025185,
      "grad_norm": 0.7670020461082458,
      "learning_rate": 0.00019255468160758537,
      "loss": 3.3007,
      "step": 63150
    },
    {
      "epoch": 6.802281778064794,
      "grad_norm": 0.7603561878204346,
      "learning_rate": 0.00019223144057752396,
      "loss": 3.2762,
      "step": 63200
    },
    {
      "epoch": 6.807663330104402,
      "grad_norm": 0.7325078248977661,
      "learning_rate": 0.00019190819954746253,
      "loss": 3.2778,
      "step": 63250
    },
    {
      "epoch": 6.813044882144011,
      "grad_norm": 0.7761296033859253,
      "learning_rate": 0.0001915849585174011,
      "loss": 3.283,
      "step": 63300
    },
    {
      "epoch": 6.8184264341836185,
      "grad_norm": 0.7328671216964722,
      "learning_rate": 0.00019126171748733972,
      "loss": 3.2868,
      "step": 63350
    },
    {
      "epoch": 6.823807986223227,
      "grad_norm": 0.7327736020088196,
      "learning_rate": 0.0001909384764572783,
      "loss": 3.3034,
      "step": 63400
    },
    {
      "epoch": 6.829189538262835,
      "grad_norm": 0.6879764795303345,
      "learning_rate": 0.00019061523542721688,
      "loss": 3.2806,
      "step": 63450
    },
    {
      "epoch": 6.834571090302443,
      "grad_norm": 0.7344197034835815,
      "learning_rate": 0.00019029199439715548,
      "loss": 3.2907,
      "step": 63500
    },
    {
      "epoch": 6.839952642342052,
      "grad_norm": 0.7892281413078308,
      "learning_rate": 0.00018996875336709404,
      "loss": 3.2762,
      "step": 63550
    },
    {
      "epoch": 6.8453341943816595,
      "grad_norm": 0.745854377746582,
      "learning_rate": 0.00018964551233703264,
      "loss": 3.3011,
      "step": 63600
    },
    {
      "epoch": 6.850715746421268,
      "grad_norm": 0.7420300245285034,
      "learning_rate": 0.0001893222713069712,
      "loss": 3.2842,
      "step": 63650
    },
    {
      "epoch": 6.856097298460876,
      "grad_norm": 0.7359969019889832,
      "learning_rate": 0.0001889990302769098,
      "loss": 3.2875,
      "step": 63700
    },
    {
      "epoch": 6.861478850500484,
      "grad_norm": 0.741371750831604,
      "learning_rate": 0.0001886757892468484,
      "loss": 3.2824,
      "step": 63750
    },
    {
      "epoch": 6.866860402540093,
      "grad_norm": 0.7492727041244507,
      "learning_rate": 0.00018835254821678696,
      "loss": 3.2882,
      "step": 63800
    },
    {
      "epoch": 6.8722419545797,
      "grad_norm": 0.7490824460983276,
      "learning_rate": 0.00018802930718672553,
      "loss": 3.2903,
      "step": 63850
    },
    {
      "epoch": 6.877623506619309,
      "grad_norm": 0.7324548959732056,
      "learning_rate": 0.00018770606615666415,
      "loss": 3.3011,
      "step": 63900
    },
    {
      "epoch": 6.8830050586589175,
      "grad_norm": 0.7864335179328918,
      "learning_rate": 0.00018738928994720393,
      "loss": 3.2987,
      "step": 63950
    },
    {
      "epoch": 6.888386610698525,
      "grad_norm": 0.7713813185691833,
      "learning_rate": 0.00018706604891714255,
      "loss": 3.2965,
      "step": 64000
    },
    {
      "epoch": 6.888386610698525,
      "eval_accuracy": 0.3872971301186783,
      "eval_loss": 3.355391263961792,
      "eval_runtime": 188.0081,
      "eval_samples_per_second": 95.799,
      "eval_steps_per_second": 5.989,
      "step": 64000
    },
    {
      "epoch": 6.893768162738134,
      "grad_norm": 0.7347550988197327,
      "learning_rate": 0.00018674280788708112,
      "loss": 3.2957,
      "step": 64050
    },
    {
      "epoch": 6.899149714777742,
      "grad_norm": 0.7845778465270996,
      "learning_rate": 0.0001864195668570197,
      "loss": 3.2784,
      "step": 64100
    },
    {
      "epoch": 6.90453126681735,
      "grad_norm": 0.7102124094963074,
      "learning_rate": 0.00018609632582695828,
      "loss": 3.2874,
      "step": 64150
    },
    {
      "epoch": 6.9099128188569585,
      "grad_norm": 0.7680567502975464,
      "learning_rate": 0.00018577308479689685,
      "loss": 3.2881,
      "step": 64200
    },
    {
      "epoch": 6.915294370896566,
      "grad_norm": 0.7605462670326233,
      "learning_rate": 0.00018544984376683545,
      "loss": 3.2875,
      "step": 64250
    },
    {
      "epoch": 6.920675922936175,
      "grad_norm": 0.7726824283599854,
      "learning_rate": 0.00018512660273677404,
      "loss": 3.2868,
      "step": 64300
    },
    {
      "epoch": 6.926057474975783,
      "grad_norm": 0.728093147277832,
      "learning_rate": 0.0001848033617067126,
      "loss": 3.2774,
      "step": 64350
    },
    {
      "epoch": 6.931439027015391,
      "grad_norm": 0.7621104121208191,
      "learning_rate": 0.00018448012067665123,
      "loss": 3.2764,
      "step": 64400
    },
    {
      "epoch": 6.9368205790549995,
      "grad_norm": 0.7729492783546448,
      "learning_rate": 0.0001841568796465898,
      "loss": 3.297,
      "step": 64450
    },
    {
      "epoch": 6.942202131094608,
      "grad_norm": 0.8617759346961975,
      "learning_rate": 0.00018383363861652837,
      "loss": 3.2866,
      "step": 64500
    },
    {
      "epoch": 6.947583683134216,
      "grad_norm": 0.7472865581512451,
      "learning_rate": 0.00018351039758646696,
      "loss": 3.2976,
      "step": 64550
    },
    {
      "epoch": 6.952965235173824,
      "grad_norm": 0.7201014757156372,
      "learning_rate": 0.00018318715655640555,
      "loss": 3.2892,
      "step": 64600
    },
    {
      "epoch": 6.958346787213433,
      "grad_norm": 0.7721759676933289,
      "learning_rate": 0.00018286391552634412,
      "loss": 3.2748,
      "step": 64650
    },
    {
      "epoch": 6.9637283392530405,
      "grad_norm": 0.7249536514282227,
      "learning_rate": 0.00018254067449628272,
      "loss": 3.28,
      "step": 64700
    },
    {
      "epoch": 6.969109891292649,
      "grad_norm": 0.7963593006134033,
      "learning_rate": 0.00018221743346622128,
      "loss": 3.2952,
      "step": 64750
    },
    {
      "epoch": 6.974491443332257,
      "grad_norm": 0.7510018944740295,
      "learning_rate": 0.00018189419243615988,
      "loss": 3.2929,
      "step": 64800
    },
    {
      "epoch": 6.979872995371865,
      "grad_norm": 0.7646748423576355,
      "learning_rate": 0.00018157095140609847,
      "loss": 3.2948,
      "step": 64850
    },
    {
      "epoch": 6.985254547411474,
      "grad_norm": 0.7526684999465942,
      "learning_rate": 0.00018124771037603704,
      "loss": 3.2782,
      "step": 64900
    },
    {
      "epoch": 6.990636099451081,
      "grad_norm": 0.7465810179710388,
      "learning_rate": 0.0001809244693459756,
      "loss": 3.3115,
      "step": 64950
    },
    {
      "epoch": 6.99601765149069,
      "grad_norm": 0.7795827388763428,
      "learning_rate": 0.00018060122831591423,
      "loss": 3.2838,
      "step": 65000
    },
    {
      "epoch": 6.99601765149069,
      "eval_accuracy": 0.38741284544420074,
      "eval_loss": 3.352747678756714,
      "eval_runtime": 181.6864,
      "eval_samples_per_second": 99.132,
      "eval_steps_per_second": 6.197,
      "step": 65000
    },
    {
      "epoch": 7.0013992035302985,
      "grad_norm": 0.742527961730957,
      "learning_rate": 0.0001802779872858528,
      "loss": 3.2429,
      "step": 65050
    },
    {
      "epoch": 7.006780755569906,
      "grad_norm": 0.7803651094436646,
      "learning_rate": 0.00017995474625579137,
      "loss": 3.1991,
      "step": 65100
    },
    {
      "epoch": 7.012162307609515,
      "grad_norm": 0.7279430031776428,
      "learning_rate": 0.00017963150522573,
      "loss": 3.2116,
      "step": 65150
    },
    {
      "epoch": 7.017543859649122,
      "grad_norm": 0.8659780621528625,
      "learning_rate": 0.00017930826419566856,
      "loss": 3.207,
      "step": 65200
    },
    {
      "epoch": 7.022925411688731,
      "grad_norm": 0.7237939238548279,
      "learning_rate": 0.00017898502316560712,
      "loss": 3.2011,
      "step": 65250
    },
    {
      "epoch": 7.0283069637283395,
      "grad_norm": 0.7747291922569275,
      "learning_rate": 0.00017866178213554572,
      "loss": 3.2147,
      "step": 65300
    },
    {
      "epoch": 7.033688515767947,
      "grad_norm": 0.7699519395828247,
      "learning_rate": 0.0001783385411054843,
      "loss": 3.2144,
      "step": 65350
    },
    {
      "epoch": 7.039070067807556,
      "grad_norm": 0.7601963877677917,
      "learning_rate": 0.0001780153000754229,
      "loss": 3.2177,
      "step": 65400
    },
    {
      "epoch": 7.044451619847164,
      "grad_norm": 0.8109810948371887,
      "learning_rate": 0.00017769205904536147,
      "loss": 3.2219,
      "step": 65450
    },
    {
      "epoch": 7.049833171886772,
      "grad_norm": 0.7614369988441467,
      "learning_rate": 0.00017736881801530004,
      "loss": 3.2048,
      "step": 65500
    },
    {
      "epoch": 7.0552147239263805,
      "grad_norm": 0.7626005411148071,
      "learning_rate": 0.00017704557698523866,
      "loss": 3.1978,
      "step": 65550
    },
    {
      "epoch": 7.060596275965988,
      "grad_norm": 0.7414499521255493,
      "learning_rate": 0.00017672233595517723,
      "loss": 3.2197,
      "step": 65600
    },
    {
      "epoch": 7.065977828005597,
      "grad_norm": 0.7871726155281067,
      "learning_rate": 0.0001763990949251158,
      "loss": 3.199,
      "step": 65650
    },
    {
      "epoch": 7.071359380045205,
      "grad_norm": 0.7167683839797974,
      "learning_rate": 0.00017607585389505442,
      "loss": 3.2101,
      "step": 65700
    },
    {
      "epoch": 7.076740932084813,
      "grad_norm": 0.8087835907936096,
      "learning_rate": 0.000175752612864993,
      "loss": 3.2164,
      "step": 65750
    },
    {
      "epoch": 7.0821224841244215,
      "grad_norm": 0.8234426379203796,
      "learning_rate": 0.00017542937183493156,
      "loss": 3.1993,
      "step": 65800
    },
    {
      "epoch": 7.08750403616403,
      "grad_norm": 0.7910786271095276,
      "learning_rate": 0.00017510613080487015,
      "loss": 3.2324,
      "step": 65850
    },
    {
      "epoch": 7.092885588203638,
      "grad_norm": 0.7745718955993652,
      "learning_rate": 0.00017478288977480874,
      "loss": 3.2122,
      "step": 65900
    },
    {
      "epoch": 7.098267140243246,
      "grad_norm": 0.7764036059379578,
      "learning_rate": 0.0001744596487447473,
      "loss": 3.2241,
      "step": 65950
    },
    {
      "epoch": 7.103648692282855,
      "grad_norm": 0.7580572962760925,
      "learning_rate": 0.0001741364077146859,
      "loss": 3.2163,
      "step": 66000
    },
    {
      "epoch": 7.103648692282855,
      "eval_accuracy": 0.387470648780518,
      "eval_loss": 3.360036849975586,
      "eval_runtime": 181.694,
      "eval_samples_per_second": 99.128,
      "eval_steps_per_second": 6.197,
      "step": 66000
    },
    {
      "epoch": 7.109030244322462,
      "grad_norm": 0.7622532248497009,
      "learning_rate": 0.00017381963150522569,
      "loss": 3.2172,
      "step": 66050
    },
    {
      "epoch": 7.114411796362071,
      "grad_norm": 0.7368565201759338,
      "learning_rate": 0.0001734963904751643,
      "loss": 3.2152,
      "step": 66100
    },
    {
      "epoch": 7.119793348401679,
      "grad_norm": 0.7732806205749512,
      "learning_rate": 0.00017317314944510288,
      "loss": 3.2242,
      "step": 66150
    },
    {
      "epoch": 7.125174900441287,
      "grad_norm": 0.7661331295967102,
      "learning_rate": 0.00017284990841504147,
      "loss": 3.2234,
      "step": 66200
    },
    {
      "epoch": 7.130556452480896,
      "grad_norm": 0.7559083104133606,
      "learning_rate": 0.00017252666738498007,
      "loss": 3.2143,
      "step": 66250
    },
    {
      "epoch": 7.135938004520503,
      "grad_norm": 0.8089791536331177,
      "learning_rate": 0.00017220342635491863,
      "loss": 3.1996,
      "step": 66300
    },
    {
      "epoch": 7.141319556560112,
      "grad_norm": 0.7578461766242981,
      "learning_rate": 0.00017188018532485723,
      "loss": 3.2134,
      "step": 66350
    },
    {
      "epoch": 7.1467011085997205,
      "grad_norm": 0.8119689226150513,
      "learning_rate": 0.0001715569442947958,
      "loss": 3.2187,
      "step": 66400
    },
    {
      "epoch": 7.152082660639328,
      "grad_norm": 0.7538573145866394,
      "learning_rate": 0.0001712337032647344,
      "loss": 3.2292,
      "step": 66450
    },
    {
      "epoch": 7.157464212678937,
      "grad_norm": 0.7325875163078308,
      "learning_rate": 0.00017091046223467298,
      "loss": 3.2225,
      "step": 66500
    },
    {
      "epoch": 7.162845764718545,
      "grad_norm": 0.7585879564285278,
      "learning_rate": 0.00017058722120461155,
      "loss": 3.2261,
      "step": 66550
    },
    {
      "epoch": 7.168227316758153,
      "grad_norm": 0.7373594641685486,
      "learning_rate": 0.00017026398017455012,
      "loss": 3.2088,
      "step": 66600
    },
    {
      "epoch": 7.1736088687977615,
      "grad_norm": 0.8094114065170288,
      "learning_rate": 0.00016994073914448874,
      "loss": 3.2134,
      "step": 66650
    },
    {
      "epoch": 7.178990420837369,
      "grad_norm": 0.7807801365852356,
      "learning_rate": 0.0001696174981144273,
      "loss": 3.2229,
      "step": 66700
    },
    {
      "epoch": 7.184371972876978,
      "grad_norm": 0.7658737897872925,
      "learning_rate": 0.00016929425708436588,
      "loss": 3.2167,
      "step": 66750
    },
    {
      "epoch": 7.189753524916586,
      "grad_norm": 0.7401807904243469,
      "learning_rate": 0.0001689710160543045,
      "loss": 3.2366,
      "step": 66800
    },
    {
      "epoch": 7.195135076956194,
      "grad_norm": 0.7520387768745422,
      "learning_rate": 0.00016864777502424307,
      "loss": 3.2251,
      "step": 66850
    },
    {
      "epoch": 7.2005166289958025,
      "grad_norm": 0.832176148891449,
      "learning_rate": 0.00016832453399418163,
      "loss": 3.2088,
      "step": 66900
    },
    {
      "epoch": 7.205898181035411,
      "grad_norm": 0.7509732842445374,
      "learning_rate": 0.00016800129296412023,
      "loss": 3.2371,
      "step": 66950
    },
    {
      "epoch": 7.211279733075019,
      "grad_norm": 0.7592307925224304,
      "learning_rate": 0.00016767805193405882,
      "loss": 3.2317,
      "step": 67000
    },
    {
      "epoch": 7.211279733075019,
      "eval_accuracy": 0.38735764977719095,
      "eval_loss": 3.355743646621704,
      "eval_runtime": 181.5927,
      "eval_samples_per_second": 99.183,
      "eval_steps_per_second": 6.201,
      "step": 67000
    },
    {
      "epoch": 7.216661285114627,
      "grad_norm": 0.7399337887763977,
      "learning_rate": 0.0001673548109039974,
      "loss": 3.2227,
      "step": 67050
    },
    {
      "epoch": 7.222042837154235,
      "grad_norm": 0.7558543086051941,
      "learning_rate": 0.00016703156987393598,
      "loss": 3.2097,
      "step": 67100
    },
    {
      "epoch": 7.2274243891938434,
      "grad_norm": 0.8038825392723083,
      "learning_rate": 0.00016670832884387455,
      "loss": 3.2372,
      "step": 67150
    },
    {
      "epoch": 7.232805941233452,
      "grad_norm": 0.7517168521881104,
      "learning_rate": 0.00016638508781381317,
      "loss": 3.2315,
      "step": 67200
    },
    {
      "epoch": 7.23818749327306,
      "grad_norm": 0.7720323204994202,
      "learning_rate": 0.00016606184678375174,
      "loss": 3.2047,
      "step": 67250
    },
    {
      "epoch": 7.243569045312668,
      "grad_norm": 0.7484326362609863,
      "learning_rate": 0.0001657386057536903,
      "loss": 3.2323,
      "step": 67300
    },
    {
      "epoch": 7.248950597352277,
      "grad_norm": 0.7701733708381653,
      "learning_rate": 0.00016541536472362893,
      "loss": 3.2321,
      "step": 67350
    },
    {
      "epoch": 7.254332149391884,
      "grad_norm": 0.7842766046524048,
      "learning_rate": 0.0001650921236935675,
      "loss": 3.2285,
      "step": 67400
    },
    {
      "epoch": 7.259713701431493,
      "grad_norm": 0.7515990734100342,
      "learning_rate": 0.00016476888266350607,
      "loss": 3.2373,
      "step": 67450
    },
    {
      "epoch": 7.265095253471101,
      "grad_norm": 0.7927265167236328,
      "learning_rate": 0.00016444564163344466,
      "loss": 3.2298,
      "step": 67500
    },
    {
      "epoch": 7.270476805510709,
      "grad_norm": 0.7914713025093079,
      "learning_rate": 0.00016412240060338326,
      "loss": 3.2397,
      "step": 67550
    },
    {
      "epoch": 7.275858357550318,
      "grad_norm": 0.8250563144683838,
      "learning_rate": 0.00016379915957332182,
      "loss": 3.217,
      "step": 67600
    },
    {
      "epoch": 7.281239909589925,
      "grad_norm": 0.8030664920806885,
      "learning_rate": 0.00016347591854326042,
      "loss": 3.225,
      "step": 67650
    },
    {
      "epoch": 7.286621461629534,
      "grad_norm": 0.8381434679031372,
      "learning_rate": 0.00016315267751319898,
      "loss": 3.2301,
      "step": 67700
    },
    {
      "epoch": 7.2920030136691425,
      "grad_norm": 0.7992256283760071,
      "learning_rate": 0.00016282943648313755,
      "loss": 3.2091,
      "step": 67750
    },
    {
      "epoch": 7.29738456570875,
      "grad_norm": 0.7981523275375366,
      "learning_rate": 0.00016250619545307617,
      "loss": 3.2225,
      "step": 67800
    },
    {
      "epoch": 7.302766117748359,
      "grad_norm": 0.7885528802871704,
      "learning_rate": 0.00016218295442301474,
      "loss": 3.2188,
      "step": 67850
    },
    {
      "epoch": 7.308147669787967,
      "grad_norm": 0.7823498249053955,
      "learning_rate": 0.0001618597133929533,
      "loss": 3.2278,
      "step": 67900
    },
    {
      "epoch": 7.313529221827575,
      "grad_norm": 0.7816159725189209,
      "learning_rate": 0.00016153647236289193,
      "loss": 3.2325,
      "step": 67950
    },
    {
      "epoch": 7.3189107738671835,
      "grad_norm": 0.7746354341506958,
      "learning_rate": 0.0001612132313328305,
      "loss": 3.2348,
      "step": 68000
    },
    {
      "epoch": 7.3189107738671835,
      "eval_accuracy": 0.3876868680272688,
      "eval_loss": 3.354743003845215,
      "eval_runtime": 181.5639,
      "eval_samples_per_second": 99.199,
      "eval_steps_per_second": 6.202,
      "step": 68000
    },
    {
      "epoch": 7.324292325906791,
      "grad_norm": 0.7708259224891663,
      "learning_rate": 0.0001608964551233703,
      "loss": 3.2392,
      "step": 68050
    },
    {
      "epoch": 7.3296738779464,
      "grad_norm": 0.780198335647583,
      "learning_rate": 0.0001605732140933089,
      "loss": 3.2218,
      "step": 68100
    },
    {
      "epoch": 7.335055429986008,
      "grad_norm": 0.7893949747085571,
      "learning_rate": 0.0001602499730632475,
      "loss": 3.2385,
      "step": 68150
    },
    {
      "epoch": 7.340436982025616,
      "grad_norm": 0.7591102719306946,
      "learning_rate": 0.00015992673203318606,
      "loss": 3.2113,
      "step": 68200
    },
    {
      "epoch": 7.3458185340652244,
      "grad_norm": 0.7581298351287842,
      "learning_rate": 0.00015960349100312463,
      "loss": 3.2214,
      "step": 68250
    },
    {
      "epoch": 7.351200086104833,
      "grad_norm": 0.748222827911377,
      "learning_rate": 0.00015928024997306325,
      "loss": 3.211,
      "step": 68300
    },
    {
      "epoch": 7.356581638144441,
      "grad_norm": 0.7463315725326538,
      "learning_rate": 0.00015895700894300182,
      "loss": 3.2416,
      "step": 68350
    },
    {
      "epoch": 7.361963190184049,
      "grad_norm": 0.7461612820625305,
      "learning_rate": 0.00015863376791294039,
      "loss": 3.2353,
      "step": 68400
    },
    {
      "epoch": 7.367344742223658,
      "grad_norm": 0.8405778408050537,
      "learning_rate": 0.000158310526882879,
      "loss": 3.2239,
      "step": 68450
    },
    {
      "epoch": 7.372726294263265,
      "grad_norm": 0.8319187760353088,
      "learning_rate": 0.00015798728585281758,
      "loss": 3.2307,
      "step": 68500
    },
    {
      "epoch": 7.378107846302874,
      "grad_norm": 0.7909452319145203,
      "learning_rate": 0.00015766404482275614,
      "loss": 3.2299,
      "step": 68550
    },
    {
      "epoch": 7.383489398342482,
      "grad_norm": 0.7923781275749207,
      "learning_rate": 0.00015734080379269474,
      "loss": 3.2245,
      "step": 68600
    },
    {
      "epoch": 7.38887095038209,
      "grad_norm": 0.802844762802124,
      "learning_rate": 0.00015701756276263333,
      "loss": 3.2438,
      "step": 68650
    },
    {
      "epoch": 7.394252502421699,
      "grad_norm": 0.8220252394676208,
      "learning_rate": 0.0001566943217325719,
      "loss": 3.2444,
      "step": 68700
    },
    {
      "epoch": 7.399634054461306,
      "grad_norm": 0.7514073848724365,
      "learning_rate": 0.0001563710807025105,
      "loss": 3.24,
      "step": 68750
    },
    {
      "epoch": 7.405015606500915,
      "grad_norm": 0.7862988114356995,
      "learning_rate": 0.00015604783967244906,
      "loss": 3.2076,
      "step": 68800
    },
    {
      "epoch": 7.4103971585405235,
      "grad_norm": 0.7839958667755127,
      "learning_rate": 0.00015572459864238763,
      "loss": 3.2275,
      "step": 68850
    },
    {
      "epoch": 7.415778710580131,
      "grad_norm": 0.7606488466262817,
      "learning_rate": 0.00015540135761232625,
      "loss": 3.2299,
      "step": 68900
    },
    {
      "epoch": 7.42116026261974,
      "grad_norm": 0.8225962519645691,
      "learning_rate": 0.00015507811658226482,
      "loss": 3.2373,
      "step": 68950
    },
    {
      "epoch": 7.426541814659347,
      "grad_norm": 0.79766845703125,
      "learning_rate": 0.00015475487555220344,
      "loss": 3.2434,
      "step": 69000
    },
    {
      "epoch": 7.426541814659347,
      "eval_accuracy": 0.38811137485996,
      "eval_loss": 3.3514444828033447,
      "eval_runtime": 181.6495,
      "eval_samples_per_second": 99.152,
      "eval_steps_per_second": 6.199,
      "step": 69000
    },
    {
      "epoch": 7.431923366698956,
      "grad_norm": 0.7720604538917542,
      "learning_rate": 0.000154431634522142,
      "loss": 3.237,
      "step": 69050
    },
    {
      "epoch": 7.4373049187385645,
      "grad_norm": 0.7784266471862793,
      "learning_rate": 0.00015410839349208058,
      "loss": 3.2397,
      "step": 69100
    },
    {
      "epoch": 7.442686470778172,
      "grad_norm": 0.7668012976646423,
      "learning_rate": 0.00015378515246201917,
      "loss": 3.229,
      "step": 69150
    },
    {
      "epoch": 7.448068022817781,
      "grad_norm": 0.8084332942962646,
      "learning_rate": 0.00015346191143195774,
      "loss": 3.2431,
      "step": 69200
    },
    {
      "epoch": 7.453449574857389,
      "grad_norm": 0.7846125960350037,
      "learning_rate": 0.00015313867040189633,
      "loss": 3.2169,
      "step": 69250
    },
    {
      "epoch": 7.458831126896997,
      "grad_norm": 0.7493143677711487,
      "learning_rate": 0.00015281542937183493,
      "loss": 3.2369,
      "step": 69300
    },
    {
      "epoch": 7.4642126789366054,
      "grad_norm": 0.7812135815620422,
      "learning_rate": 0.0001524921883417735,
      "loss": 3.2433,
      "step": 69350
    },
    {
      "epoch": 7.469594230976213,
      "grad_norm": 0.7857301235198975,
      "learning_rate": 0.00015216894731171206,
      "loss": 3.235,
      "step": 69400
    },
    {
      "epoch": 7.474975783015822,
      "grad_norm": 0.7799569368362427,
      "learning_rate": 0.00015184570628165068,
      "loss": 3.2373,
      "step": 69450
    },
    {
      "epoch": 7.48035733505543,
      "grad_norm": 0.8212476968765259,
      "learning_rate": 0.00015152246525158925,
      "loss": 3.2356,
      "step": 69500
    },
    {
      "epoch": 7.485738887095038,
      "grad_norm": 0.7620745897293091,
      "learning_rate": 0.00015119922422152782,
      "loss": 3.2212,
      "step": 69550
    },
    {
      "epoch": 7.491120439134646,
      "grad_norm": 0.8068429231643677,
      "learning_rate": 0.00015087598319146644,
      "loss": 3.23,
      "step": 69600
    },
    {
      "epoch": 7.496501991174255,
      "grad_norm": 0.8344736099243164,
      "learning_rate": 0.000150552742161405,
      "loss": 3.2434,
      "step": 69650
    },
    {
      "epoch": 7.501883543213863,
      "grad_norm": 0.7793090343475342,
      "learning_rate": 0.00015022950113134358,
      "loss": 3.2339,
      "step": 69700
    },
    {
      "epoch": 7.507265095253471,
      "grad_norm": 0.858687698841095,
      "learning_rate": 0.00014990626010128217,
      "loss": 3.245,
      "step": 69750
    },
    {
      "epoch": 7.51264664729308,
      "grad_norm": 0.8149943947792053,
      "learning_rate": 0.00014958301907122077,
      "loss": 3.2407,
      "step": 69800
    },
    {
      "epoch": 7.518028199332687,
      "grad_norm": 0.763905942440033,
      "learning_rate": 0.00014925977804115933,
      "loss": 3.2402,
      "step": 69850
    },
    {
      "epoch": 7.523409751372296,
      "grad_norm": 0.8066909909248352,
      "learning_rate": 0.00014893653701109793,
      "loss": 3.2289,
      "step": 69900
    },
    {
      "epoch": 7.528791303411904,
      "grad_norm": 0.7837918996810913,
      "learning_rate": 0.0001486132959810365,
      "loss": 3.2423,
      "step": 69950
    },
    {
      "epoch": 7.534172855451512,
      "grad_norm": 0.7814309000968933,
      "learning_rate": 0.0001482900549509751,
      "loss": 3.2367,
      "step": 70000
    },
    {
      "epoch": 7.534172855451512,
      "eval_accuracy": 0.38881186002769996,
      "eval_loss": 3.345881700515747,
      "eval_runtime": 181.7688,
      "eval_samples_per_second": 99.087,
      "eval_steps_per_second": 6.195,
      "step": 70000
    },
    {
      "epoch": 7.539554407491121,
      "grad_norm": 0.7925463318824768,
      "learning_rate": 0.00014796681392091368,
      "loss": 3.2313,
      "step": 70050
    },
    {
      "epoch": 7.544935959530728,
      "grad_norm": 0.7930192351341248,
      "learning_rate": 0.0001476500377114535,
      "loss": 3.2405,
      "step": 70100
    },
    {
      "epoch": 7.550317511570337,
      "grad_norm": 0.7638927102088928,
      "learning_rate": 0.00014732679668139209,
      "loss": 3.2313,
      "step": 70150
    },
    {
      "epoch": 7.5556990636099455,
      "grad_norm": 0.8079395294189453,
      "learning_rate": 0.00014700355565133068,
      "loss": 3.2304,
      "step": 70200
    },
    {
      "epoch": 7.561080615649553,
      "grad_norm": 0.7861980199813843,
      "learning_rate": 0.00014668031462126925,
      "loss": 3.2324,
      "step": 70250
    },
    {
      "epoch": 7.566462167689162,
      "grad_norm": 0.8878296613693237,
      "learning_rate": 0.00014635707359120784,
      "loss": 3.2479,
      "step": 70300
    },
    {
      "epoch": 7.57184371972877,
      "grad_norm": 0.7934320569038391,
      "learning_rate": 0.0001460338325611464,
      "loss": 3.2427,
      "step": 70350
    },
    {
      "epoch": 7.577225271768378,
      "grad_norm": 0.8343617916107178,
      "learning_rate": 0.00014571059153108498,
      "loss": 3.254,
      "step": 70400
    },
    {
      "epoch": 7.5826068238079865,
      "grad_norm": 0.8173631429672241,
      "learning_rate": 0.00014538735050102357,
      "loss": 3.222,
      "step": 70450
    },
    {
      "epoch": 7.587988375847594,
      "grad_norm": 0.753925085067749,
      "learning_rate": 0.00014506410947096217,
      "loss": 3.2545,
      "step": 70500
    },
    {
      "epoch": 7.593369927887203,
      "grad_norm": 0.8206301927566528,
      "learning_rate": 0.00014474086844090076,
      "loss": 3.236,
      "step": 70550
    },
    {
      "epoch": 7.598751479926811,
      "grad_norm": 0.8335825204849243,
      "learning_rate": 0.00014441762741083933,
      "loss": 3.2269,
      "step": 70600
    },
    {
      "epoch": 7.604133031966419,
      "grad_norm": 0.7902333736419678,
      "learning_rate": 0.00014410085120137916,
      "loss": 3.2432,
      "step": 70650
    },
    {
      "epoch": 7.609514584006027,
      "grad_norm": 0.8634610176086426,
      "learning_rate": 0.00014377761017131773,
      "loss": 3.2333,
      "step": 70700
    },
    {
      "epoch": 7.614896136045635,
      "grad_norm": 0.8081899285316467,
      "learning_rate": 0.00014345436914125633,
      "loss": 3.2463,
      "step": 70750
    },
    {
      "epoch": 7.620277688085244,
      "grad_norm": 0.798829197883606,
      "learning_rate": 0.0001431311281111949,
      "loss": 3.2289,
      "step": 70800
    },
    {
      "epoch": 7.625659240124852,
      "grad_norm": 0.7915818691253662,
      "learning_rate": 0.0001428078870811335,
      "loss": 3.2312,
      "step": 70850
    },
    {
      "epoch": 7.63104079216446,
      "grad_norm": 0.8368874192237854,
      "learning_rate": 0.00014248464605107206,
      "loss": 3.2469,
      "step": 70900
    },
    {
      "epoch": 7.636422344204068,
      "grad_norm": 0.8483619093894958,
      "learning_rate": 0.00014216140502101065,
      "loss": 3.2399,
      "step": 70950
    },
    {
      "epoch": 7.641803896243677,
      "grad_norm": 0.7691642642021179,
      "learning_rate": 0.00014183816399094924,
      "loss": 3.2355,
      "step": 71000
    },
    {
      "epoch": 7.641803896243677,
      "eval_accuracy": 0.38913651485648965,
      "eval_loss": 3.342181444168091,
      "eval_runtime": 181.7059,
      "eval_samples_per_second": 99.122,
      "eval_steps_per_second": 6.197,
      "step": 71000
    },
    {
      "epoch": 7.647185448283285,
      "grad_norm": 0.8278589248657227,
      "learning_rate": 0.0001415149229608878,
      "loss": 3.2411,
      "step": 71050
    },
    {
      "epoch": 7.652567000322893,
      "grad_norm": 0.8062448501586914,
      "learning_rate": 0.0001411916819308264,
      "loss": 3.2354,
      "step": 71100
    },
    {
      "epoch": 7.657948552362502,
      "grad_norm": 0.7902856469154358,
      "learning_rate": 0.000140868440900765,
      "loss": 3.2282,
      "step": 71150
    },
    {
      "epoch": 7.663330104402109,
      "grad_norm": 0.7867428660392761,
      "learning_rate": 0.00014054519987070357,
      "loss": 3.2448,
      "step": 71200
    },
    {
      "epoch": 7.668711656441718,
      "grad_norm": 0.803004264831543,
      "learning_rate": 0.00014022195884064216,
      "loss": 3.2433,
      "step": 71250
    },
    {
      "epoch": 7.674093208481326,
      "grad_norm": 0.7462981343269348,
      "learning_rate": 0.00013989871781058076,
      "loss": 3.2216,
      "step": 71300
    },
    {
      "epoch": 7.679474760520934,
      "grad_norm": 0.8529239296913147,
      "learning_rate": 0.00013957547678051933,
      "loss": 3.2367,
      "step": 71350
    },
    {
      "epoch": 7.684856312560543,
      "grad_norm": 0.8136504888534546,
      "learning_rate": 0.00013925223575045792,
      "loss": 3.2154,
      "step": 71400
    },
    {
      "epoch": 7.69023786460015,
      "grad_norm": 0.8041613698005676,
      "learning_rate": 0.0001389289947203965,
      "loss": 3.2388,
      "step": 71450
    },
    {
      "epoch": 7.695619416639759,
      "grad_norm": 0.7778359651565552,
      "learning_rate": 0.00013860575369033508,
      "loss": 3.245,
      "step": 71500
    },
    {
      "epoch": 7.7010009686793675,
      "grad_norm": 0.7557926177978516,
      "learning_rate": 0.00013828251266027365,
      "loss": 3.2415,
      "step": 71550
    },
    {
      "epoch": 7.706382520718975,
      "grad_norm": 0.8063387274742126,
      "learning_rate": 0.00013795927163021224,
      "loss": 3.2262,
      "step": 71600
    },
    {
      "epoch": 7.711764072758584,
      "grad_norm": 0.7979904413223267,
      "learning_rate": 0.00013763603060015084,
      "loss": 3.2372,
      "step": 71650
    },
    {
      "epoch": 7.717145624798192,
      "grad_norm": 0.8079133033752441,
      "learning_rate": 0.0001373127895700894,
      "loss": 3.235,
      "step": 71700
    },
    {
      "epoch": 7.7225271768378,
      "grad_norm": 0.8874371647834778,
      "learning_rate": 0.000136989548540028,
      "loss": 3.238,
      "step": 71750
    },
    {
      "epoch": 7.727908728877408,
      "grad_norm": 0.821037232875824,
      "learning_rate": 0.0001366663075099666,
      "loss": 3.2342,
      "step": 71800
    },
    {
      "epoch": 7.733290280917016,
      "grad_norm": 0.8241324424743652,
      "learning_rate": 0.0001363430664799052,
      "loss": 3.2457,
      "step": 71850
    },
    {
      "epoch": 7.738671832956625,
      "grad_norm": 0.816264271736145,
      "learning_rate": 0.00013601982544984376,
      "loss": 3.2107,
      "step": 71900
    },
    {
      "epoch": 7.744053384996233,
      "grad_norm": 0.7497118711471558,
      "learning_rate": 0.00013569658441978233,
      "loss": 3.2401,
      "step": 71950
    },
    {
      "epoch": 7.749434937035841,
      "grad_norm": 0.8234139680862427,
      "learning_rate": 0.00013537334338972092,
      "loss": 3.2215,
      "step": 72000
    },
    {
      "epoch": 7.749434937035841,
      "eval_accuracy": 0.3894860511965888,
      "eval_loss": 3.3387584686279297,
      "eval_runtime": 181.6118,
      "eval_samples_per_second": 99.173,
      "eval_steps_per_second": 6.2,
      "step": 72000
    },
    {
      "epoch": 7.754816489075449,
      "grad_norm": 0.7728801965713501,
      "learning_rate": 0.0001350501023596595,
      "loss": 3.23,
      "step": 72050
    },
    {
      "epoch": 7.760198041115058,
      "grad_norm": 0.8014196157455444,
      "learning_rate": 0.00013472686132959808,
      "loss": 3.221,
      "step": 72100
    },
    {
      "epoch": 7.765579593154666,
      "grad_norm": 0.8494840860366821,
      "learning_rate": 0.00013440362029953668,
      "loss": 3.2326,
      "step": 72150
    },
    {
      "epoch": 7.770961145194274,
      "grad_norm": 0.7425557971000671,
      "learning_rate": 0.00013408037926947525,
      "loss": 3.2335,
      "step": 72200
    },
    {
      "epoch": 7.776342697233883,
      "grad_norm": 0.8224286437034607,
      "learning_rate": 0.00013375713823941384,
      "loss": 3.2371,
      "step": 72250
    },
    {
      "epoch": 7.78172424927349,
      "grad_norm": 0.75400710105896,
      "learning_rate": 0.00013343389720935243,
      "loss": 3.226,
      "step": 72300
    },
    {
      "epoch": 7.787105801313099,
      "grad_norm": 0.85414057970047,
      "learning_rate": 0.00013311065617929103,
      "loss": 3.2387,
      "step": 72350
    },
    {
      "epoch": 7.792487353352707,
      "grad_norm": 0.7863251566886902,
      "learning_rate": 0.0001327874151492296,
      "loss": 3.2505,
      "step": 72400
    },
    {
      "epoch": 7.797868905392315,
      "grad_norm": 0.8297466039657593,
      "learning_rate": 0.0001324641741191682,
      "loss": 3.2304,
      "step": 72450
    },
    {
      "epoch": 7.803250457431924,
      "grad_norm": 0.754863440990448,
      "learning_rate": 0.00013214093308910676,
      "loss": 3.2306,
      "step": 72500
    },
    {
      "epoch": 7.808632009471531,
      "grad_norm": 0.804352879524231,
      "learning_rate": 0.00013181769205904535,
      "loss": 3.2313,
      "step": 72550
    },
    {
      "epoch": 7.81401356151114,
      "grad_norm": 0.7696698307991028,
      "learning_rate": 0.00013149445102898392,
      "loss": 3.2289,
      "step": 72600
    },
    {
      "epoch": 7.819395113550748,
      "grad_norm": 0.8198527693748474,
      "learning_rate": 0.00013117120999892252,
      "loss": 3.2448,
      "step": 72650
    },
    {
      "epoch": 7.824776665590356,
      "grad_norm": 0.7953658103942871,
      "learning_rate": 0.00013084796896886108,
      "loss": 3.2266,
      "step": 72700
    },
    {
      "epoch": 7.830158217629965,
      "grad_norm": 0.7886081337928772,
      "learning_rate": 0.00013053119275940092,
      "loss": 3.226,
      "step": 72750
    },
    {
      "epoch": 7.835539769669572,
      "grad_norm": 0.751487672328949,
      "learning_rate": 0.0001302079517293395,
      "loss": 3.2451,
      "step": 72800
    },
    {
      "epoch": 7.840921321709181,
      "grad_norm": 0.8409981727600098,
      "learning_rate": 0.00012988471069927808,
      "loss": 3.2301,
      "step": 72850
    },
    {
      "epoch": 7.846302873748789,
      "grad_norm": 0.8401812314987183,
      "learning_rate": 0.00012956146966921667,
      "loss": 3.2313,
      "step": 72900
    },
    {
      "epoch": 7.851684425788397,
      "grad_norm": 0.850455105304718,
      "learning_rate": 0.00012923822863915527,
      "loss": 3.2546,
      "step": 72950
    },
    {
      "epoch": 7.857065977828006,
      "grad_norm": 0.809169590473175,
      "learning_rate": 0.00012891498760909384,
      "loss": 3.2211,
      "step": 73000
    },
    {
      "epoch": 7.857065977828006,
      "eval_accuracy": 0.3896964031873977,
      "eval_loss": 3.337717294692993,
      "eval_runtime": 181.5955,
      "eval_samples_per_second": 99.182,
      "eval_steps_per_second": 6.201,
      "step": 73000
    },
    {
      "epoch": 7.862447529867614,
      "grad_norm": 0.8002745509147644,
      "learning_rate": 0.00012859174657903243,
      "loss": 3.2462,
      "step": 73050
    },
    {
      "epoch": 7.867829081907222,
      "grad_norm": 0.8426328897476196,
      "learning_rate": 0.000128268505548971,
      "loss": 3.2424,
      "step": 73100
    },
    {
      "epoch": 7.87321063394683,
      "grad_norm": 0.8348875641822815,
      "learning_rate": 0.0001279452645189096,
      "loss": 3.2364,
      "step": 73150
    },
    {
      "epoch": 7.878592185986438,
      "grad_norm": 0.7860669493675232,
      "learning_rate": 0.00012762202348884816,
      "loss": 3.2385,
      "step": 73200
    },
    {
      "epoch": 7.883973738026047,
      "grad_norm": 0.846741795539856,
      "learning_rate": 0.00012729878245878676,
      "loss": 3.2445,
      "step": 73250
    },
    {
      "epoch": 7.889355290065655,
      "grad_norm": 0.7715853452682495,
      "learning_rate": 0.00012697554142872535,
      "loss": 3.2378,
      "step": 73300
    },
    {
      "epoch": 7.894736842105263,
      "grad_norm": 0.8243204355239868,
      "learning_rate": 0.00012665230039866392,
      "loss": 3.2364,
      "step": 73350
    },
    {
      "epoch": 7.900118394144871,
      "grad_norm": 0.8148744702339172,
      "learning_rate": 0.0001263290593686025,
      "loss": 3.2573,
      "step": 73400
    },
    {
      "epoch": 7.90549994618448,
      "grad_norm": 0.7907306551933289,
      "learning_rate": 0.0001260058183385411,
      "loss": 3.2382,
      "step": 73450
    },
    {
      "epoch": 7.910881498224088,
      "grad_norm": 0.7823526859283447,
      "learning_rate": 0.00012568257730847967,
      "loss": 3.2489,
      "step": 73500
    },
    {
      "epoch": 7.916263050263696,
      "grad_norm": 0.8189488649368286,
      "learning_rate": 0.00012535933627841827,
      "loss": 3.2448,
      "step": 73550
    },
    {
      "epoch": 7.921644602303305,
      "grad_norm": 0.7964639663696289,
      "learning_rate": 0.00012503609524835684,
      "loss": 3.2257,
      "step": 73600
    },
    {
      "epoch": 7.927026154342912,
      "grad_norm": 0.7787854075431824,
      "learning_rate": 0.00012471285421829543,
      "loss": 3.2468,
      "step": 73650
    },
    {
      "epoch": 7.932407706382521,
      "grad_norm": 0.7919983863830566,
      "learning_rate": 0.000124389613188234,
      "loss": 3.2333,
      "step": 73700
    },
    {
      "epoch": 7.937789258422129,
      "grad_norm": 0.8007507920265198,
      "learning_rate": 0.0001240663721581726,
      "loss": 3.2406,
      "step": 73750
    },
    {
      "epoch": 7.943170810461737,
      "grad_norm": 0.818049430847168,
      "learning_rate": 0.0001237431311281112,
      "loss": 3.2438,
      "step": 73800
    },
    {
      "epoch": 7.948552362501346,
      "grad_norm": 0.810982346534729,
      "learning_rate": 0.00012341989009804976,
      "loss": 3.2282,
      "step": 73850
    },
    {
      "epoch": 7.953933914540953,
      "grad_norm": 0.7912732362747192,
      "learning_rate": 0.00012309664906798835,
      "loss": 3.2397,
      "step": 73900
    },
    {
      "epoch": 7.959315466580562,
      "grad_norm": 0.7852593064308167,
      "learning_rate": 0.00012277340803792694,
      "loss": 3.2455,
      "step": 73950
    },
    {
      "epoch": 7.96469701862017,
      "grad_norm": 0.8599876761436462,
      "learning_rate": 0.0001224501670078655,
      "loss": 3.2382,
      "step": 74000
    },
    {
      "epoch": 7.96469701862017,
      "eval_accuracy": 0.39043502551876047,
      "eval_loss": 3.331582546234131,
      "eval_runtime": 181.4266,
      "eval_samples_per_second": 99.274,
      "eval_steps_per_second": 6.206,
      "step": 74000
    },
    {
      "epoch": 7.970078570659778,
      "grad_norm": 0.7820436954498291,
      "learning_rate": 0.0001221269259778041,
      "loss": 3.234,
      "step": 74050
    },
    {
      "epoch": 7.975460122699387,
      "grad_norm": 0.7919771671295166,
      "learning_rate": 0.00012180368494774269,
      "loss": 3.2328,
      "step": 74100
    },
    {
      "epoch": 7.980841674738995,
      "grad_norm": 0.8493819832801819,
      "learning_rate": 0.00012148044391768128,
      "loss": 3.239,
      "step": 74150
    },
    {
      "epoch": 7.986223226778603,
      "grad_norm": 0.8364114761352539,
      "learning_rate": 0.00012115720288761985,
      "loss": 3.2228,
      "step": 74200
    },
    {
      "epoch": 7.991604778818211,
      "grad_norm": 0.7972021698951721,
      "learning_rate": 0.00012083396185755845,
      "loss": 3.2395,
      "step": 74250
    },
    {
      "epoch": 7.996986330857819,
      "grad_norm": 0.846747100353241,
      "learning_rate": 0.00012051072082749703,
      "loss": 3.2309,
      "step": 74300
    },
    {
      "epoch": 8.002367882897428,
      "grad_norm": 0.8001648783683777,
      "learning_rate": 0.00012018747979743561,
      "loss": 3.1999,
      "step": 74350
    },
    {
      "epoch": 8.007749434937036,
      "grad_norm": 0.7929868698120117,
      "learning_rate": 0.00011986423876737419,
      "loss": 3.1565,
      "step": 74400
    },
    {
      "epoch": 8.013130986976645,
      "grad_norm": 0.7931369543075562,
      "learning_rate": 0.00011954099773731278,
      "loss": 3.1585,
      "step": 74450
    },
    {
      "epoch": 8.018512539016251,
      "grad_norm": 0.8325871229171753,
      "learning_rate": 0.00011921775670725135,
      "loss": 3.1668,
      "step": 74500
    },
    {
      "epoch": 8.02389409105586,
      "grad_norm": 0.78069669008255,
      "learning_rate": 0.00011889451567718995,
      "loss": 3.149,
      "step": 74550
    },
    {
      "epoch": 8.029275643095469,
      "grad_norm": 0.8134227395057678,
      "learning_rate": 0.00011857127464712854,
      "loss": 3.1649,
      "step": 74600
    },
    {
      "epoch": 8.034657195135077,
      "grad_norm": 0.7680069804191589,
      "learning_rate": 0.00011824803361706712,
      "loss": 3.1722,
      "step": 74650
    },
    {
      "epoch": 8.040038747174686,
      "grad_norm": 0.7962333559989929,
      "learning_rate": 0.00011792479258700569,
      "loss": 3.1737,
      "step": 74700
    },
    {
      "epoch": 8.045420299214294,
      "grad_norm": 0.846343994140625,
      "learning_rate": 0.00011760155155694428,
      "loss": 3.1607,
      "step": 74750
    },
    {
      "epoch": 8.050801851253901,
      "grad_norm": 0.7806451320648193,
      "learning_rate": 0.00011727831052688288,
      "loss": 3.1832,
      "step": 74800
    },
    {
      "epoch": 8.05618340329351,
      "grad_norm": 0.827904462814331,
      "learning_rate": 0.00011695506949682145,
      "loss": 3.1758,
      "step": 74850
    },
    {
      "epoch": 8.061564955333118,
      "grad_norm": 0.8272219300270081,
      "learning_rate": 0.00011663182846676004,
      "loss": 3.1488,
      "step": 74900
    },
    {
      "epoch": 8.066946507372727,
      "grad_norm": 0.7844431400299072,
      "learning_rate": 0.00011630858743669862,
      "loss": 3.1752,
      "step": 74950
    },
    {
      "epoch": 8.072328059412335,
      "grad_norm": 0.7881186604499817,
      "learning_rate": 0.0001159853464066372,
      "loss": 3.1799,
      "step": 75000
    },
    {
      "epoch": 8.072328059412335,
      "eval_accuracy": 0.39022891099057644,
      "eval_loss": 3.3360397815704346,
      "eval_runtime": 181.4781,
      "eval_samples_per_second": 99.246,
      "eval_steps_per_second": 6.205,
      "step": 75000
    },
    {
      "epoch": 8.077709611451942,
      "grad_norm": 0.8300902843475342,
      "learning_rate": 0.00011566210537657578,
      "loss": 3.1682,
      "step": 75050
    },
    {
      "epoch": 8.08309116349155,
      "grad_norm": 0.9226604700088501,
      "learning_rate": 0.00011533886434651438,
      "loss": 3.1727,
      "step": 75100
    },
    {
      "epoch": 8.088472715531159,
      "grad_norm": 0.9241642355918884,
      "learning_rate": 0.00011501562331645296,
      "loss": 3.1514,
      "step": 75150
    },
    {
      "epoch": 8.093854267570768,
      "grad_norm": 0.8121653199195862,
      "learning_rate": 0.00011469238228639154,
      "loss": 3.167,
      "step": 75200
    },
    {
      "epoch": 8.099235819610376,
      "grad_norm": 0.8434556126594543,
      "learning_rate": 0.00011436914125633012,
      "loss": 3.1837,
      "step": 75250
    },
    {
      "epoch": 8.104617371649983,
      "grad_norm": 0.8443838357925415,
      "learning_rate": 0.00011404590022626872,
      "loss": 3.1602,
      "step": 75300
    },
    {
      "epoch": 8.109998923689592,
      "grad_norm": 0.7634623646736145,
      "learning_rate": 0.00011372265919620728,
      "loss": 3.1584,
      "step": 75350
    },
    {
      "epoch": 8.1153804757292,
      "grad_norm": 0.7895340323448181,
      "learning_rate": 0.00011339941816614588,
      "loss": 3.1633,
      "step": 75400
    },
    {
      "epoch": 8.120762027768809,
      "grad_norm": 0.8200235366821289,
      "learning_rate": 0.00011307617713608447,
      "loss": 3.1405,
      "step": 75450
    },
    {
      "epoch": 8.126143579808417,
      "grad_norm": 0.8956516981124878,
      "learning_rate": 0.00011275293610602305,
      "loss": 3.1643,
      "step": 75500
    },
    {
      "epoch": 8.131525131848026,
      "grad_norm": 0.8653746247291565,
      "learning_rate": 0.00011242969507596164,
      "loss": 3.1743,
      "step": 75550
    },
    {
      "epoch": 8.136906683887632,
      "grad_norm": 0.8259373903274536,
      "learning_rate": 0.00011210645404590022,
      "loss": 3.1817,
      "step": 75600
    },
    {
      "epoch": 8.142288235927241,
      "grad_norm": 0.8495562076568604,
      "learning_rate": 0.00011178321301583881,
      "loss": 3.1575,
      "step": 75650
    },
    {
      "epoch": 8.14766978796685,
      "grad_norm": 0.8133755326271057,
      "learning_rate": 0.00011145997198577738,
      "loss": 3.1814,
      "step": 75700
    },
    {
      "epoch": 8.153051340006458,
      "grad_norm": 0.8063134551048279,
      "learning_rate": 0.00011113673095571597,
      "loss": 3.1745,
      "step": 75750
    },
    {
      "epoch": 8.158432892046067,
      "grad_norm": 0.8115857839584351,
      "learning_rate": 0.00011081348992565455,
      "loss": 3.1791,
      "step": 75800
    },
    {
      "epoch": 8.163814444085673,
      "grad_norm": 0.8251967430114746,
      "learning_rate": 0.00011049024889559314,
      "loss": 3.1617,
      "step": 75850
    },
    {
      "epoch": 8.169195996125282,
      "grad_norm": 0.7790846824645996,
      "learning_rate": 0.00011016700786553172,
      "loss": 3.1836,
      "step": 75900
    },
    {
      "epoch": 8.17457754816489,
      "grad_norm": 0.8241043090820312,
      "learning_rate": 0.00010984376683547031,
      "loss": 3.1739,
      "step": 75950
    },
    {
      "epoch": 8.1799591002045,
      "grad_norm": 0.834149181842804,
      "learning_rate": 0.00010952052580540889,
      "loss": 3.1929,
      "step": 76000
    },
    {
      "epoch": 8.1799591002045,
      "eval_accuracy": 0.3905490023980779,
      "eval_loss": 3.3340322971343994,
      "eval_runtime": 181.8523,
      "eval_samples_per_second": 99.042,
      "eval_steps_per_second": 6.192,
      "step": 76000
    },
    {
      "epoch": 8.185340652244108,
      "grad_norm": 0.8253046870231628,
      "learning_rate": 0.00010919728477534747,
      "loss": 3.159,
      "step": 76050
    },
    {
      "epoch": 8.190722204283716,
      "grad_norm": 0.8409565687179565,
      "learning_rate": 0.00010887404374528605,
      "loss": 3.182,
      "step": 76100
    },
    {
      "epoch": 8.196103756323323,
      "grad_norm": 0.8012614846229553,
      "learning_rate": 0.00010855080271522465,
      "loss": 3.1665,
      "step": 76150
    },
    {
      "epoch": 8.201485308362932,
      "grad_norm": 0.8171277046203613,
      "learning_rate": 0.00010822756168516322,
      "loss": 3.1577,
      "step": 76200
    },
    {
      "epoch": 8.20686686040254,
      "grad_norm": 0.8523988723754883,
      "learning_rate": 0.00010790432065510181,
      "loss": 3.1805,
      "step": 76250
    },
    {
      "epoch": 8.212248412442149,
      "grad_norm": 0.8467804193496704,
      "learning_rate": 0.0001075810796250404,
      "loss": 3.18,
      "step": 76300
    },
    {
      "epoch": 8.217629964481757,
      "grad_norm": 0.815090000629425,
      "learning_rate": 0.00010725783859497897,
      "loss": 3.1722,
      "step": 76350
    },
    {
      "epoch": 8.223011516521364,
      "grad_norm": 0.822231650352478,
      "learning_rate": 0.00010693459756491757,
      "loss": 3.1892,
      "step": 76400
    },
    {
      "epoch": 8.228393068560973,
      "grad_norm": 0.8185964822769165,
      "learning_rate": 0.00010661135653485615,
      "loss": 3.1822,
      "step": 76450
    },
    {
      "epoch": 8.233774620600581,
      "grad_norm": 0.8560529351234436,
      "learning_rate": 0.00010628811550479474,
      "loss": 3.1803,
      "step": 76500
    },
    {
      "epoch": 8.23915617264019,
      "grad_norm": 0.8595798015594482,
      "learning_rate": 0.00010596487447473331,
      "loss": 3.1728,
      "step": 76550
    },
    {
      "epoch": 8.244537724679798,
      "grad_norm": 0.7991068363189697,
      "learning_rate": 0.0001056416334446719,
      "loss": 3.1731,
      "step": 76600
    },
    {
      "epoch": 8.249919276719407,
      "grad_norm": 0.8382046818733215,
      "learning_rate": 0.00010531839241461049,
      "loss": 3.1937,
      "step": 76650
    },
    {
      "epoch": 8.255300828759013,
      "grad_norm": 0.8160362243652344,
      "learning_rate": 0.00010499515138454907,
      "loss": 3.1853,
      "step": 76700
    },
    {
      "epoch": 8.260682380798622,
      "grad_norm": 0.8607310056686401,
      "learning_rate": 0.00010467837517508889,
      "loss": 3.1894,
      "step": 76750
    },
    {
      "epoch": 8.26606393283823,
      "grad_norm": 0.8041144013404846,
      "learning_rate": 0.00010435513414502746,
      "loss": 3.1892,
      "step": 76800
    },
    {
      "epoch": 8.27144548487784,
      "grad_norm": 0.8637329339981079,
      "learning_rate": 0.00010403189311496605,
      "loss": 3.1735,
      "step": 76850
    },
    {
      "epoch": 8.276827036917448,
      "grad_norm": 0.845224142074585,
      "learning_rate": 0.00010370865208490463,
      "loss": 3.1772,
      "step": 76900
    },
    {
      "epoch": 8.282208588957054,
      "grad_norm": 0.819871723651886,
      "learning_rate": 0.00010338541105484323,
      "loss": 3.2137,
      "step": 76950
    },
    {
      "epoch": 8.287590140996663,
      "grad_norm": 0.7852009534835815,
      "learning_rate": 0.0001030621700247818,
      "loss": 3.1542,
      "step": 77000
    },
    {
      "epoch": 8.287590140996663,
      "eval_accuracy": 0.3907576159426817,
      "eval_loss": 3.3315377235412598,
      "eval_runtime": 181.2025,
      "eval_samples_per_second": 99.397,
      "eval_steps_per_second": 6.214,
      "step": 77000
    },
    {
      "epoch": 8.292971693036272,
      "grad_norm": 0.8374649286270142,
      "learning_rate": 0.00010273892899472039,
      "loss": 3.1828,
      "step": 77050
    },
    {
      "epoch": 8.29835324507588,
      "grad_norm": 0.80661541223526,
      "learning_rate": 0.00010241568796465898,
      "loss": 3.1823,
      "step": 77100
    },
    {
      "epoch": 8.303734797115489,
      "grad_norm": 0.8352391123771667,
      "learning_rate": 0.00010209244693459755,
      "loss": 3.1823,
      "step": 77150
    },
    {
      "epoch": 8.309116349155097,
      "grad_norm": 0.8535267114639282,
      "learning_rate": 0.00010176920590453613,
      "loss": 3.1887,
      "step": 77200
    },
    {
      "epoch": 8.314497901194704,
      "grad_norm": 0.845064640045166,
      "learning_rate": 0.00010144596487447473,
      "loss": 3.1834,
      "step": 77250
    },
    {
      "epoch": 8.319879453234313,
      "grad_norm": 0.8102766871452332,
      "learning_rate": 0.00010112272384441332,
      "loss": 3.1901,
      "step": 77300
    },
    {
      "epoch": 8.325261005273921,
      "grad_norm": 0.8534091114997864,
      "learning_rate": 0.00010079948281435189,
      "loss": 3.1885,
      "step": 77350
    },
    {
      "epoch": 8.33064255731353,
      "grad_norm": 0.8641312718391418,
      "learning_rate": 0.00010047624178429048,
      "loss": 3.1927,
      "step": 77400
    },
    {
      "epoch": 8.336024109353138,
      "grad_norm": 0.8088270425796509,
      "learning_rate": 0.00010015300075422906,
      "loss": 3.1778,
      "step": 77450
    },
    {
      "epoch": 8.341405661392745,
      "grad_norm": 0.8496790528297424,
      "learning_rate": 9.982975972416765e-05,
      "loss": 3.1865,
      "step": 77500
    },
    {
      "epoch": 8.346787213432354,
      "grad_norm": 0.8531822562217712,
      "learning_rate": 9.950651869410623e-05,
      "loss": 3.1752,
      "step": 77550
    },
    {
      "epoch": 8.352168765471962,
      "grad_norm": 0.8303291201591492,
      "learning_rate": 9.918327766404482e-05,
      "loss": 3.1872,
      "step": 77600
    },
    {
      "epoch": 8.35755031751157,
      "grad_norm": 0.885569155216217,
      "learning_rate": 9.886003663398339e-05,
      "loss": 3.1745,
      "step": 77650
    },
    {
      "epoch": 8.36293186955118,
      "grad_norm": 0.8533552289009094,
      "learning_rate": 9.853679560392198e-05,
      "loss": 3.1816,
      "step": 77700
    },
    {
      "epoch": 8.368313421590786,
      "grad_norm": 0.8035406470298767,
      "learning_rate": 9.821355457386056e-05,
      "loss": 3.1896,
      "step": 77750
    },
    {
      "epoch": 8.373694973630395,
      "grad_norm": 0.819151759147644,
      "learning_rate": 9.789031354379916e-05,
      "loss": 3.1712,
      "step": 77800
    },
    {
      "epoch": 8.379076525670003,
      "grad_norm": 0.850290834903717,
      "learning_rate": 9.756707251373773e-05,
      "loss": 3.1992,
      "step": 77850
    },
    {
      "epoch": 8.384458077709612,
      "grad_norm": 0.8152411580085754,
      "learning_rate": 9.724383148367632e-05,
      "loss": 3.1983,
      "step": 77900
    },
    {
      "epoch": 8.38983962974922,
      "grad_norm": 0.7889878749847412,
      "learning_rate": 9.692059045361492e-05,
      "loss": 3.1958,
      "step": 77950
    },
    {
      "epoch": 8.395221181788829,
      "grad_norm": 0.8082390427589417,
      "learning_rate": 9.659734942355348e-05,
      "loss": 3.1945,
      "step": 78000
    },
    {
      "epoch": 8.395221181788829,
      "eval_accuracy": 0.3908649649958424,
      "eval_loss": 3.3302736282348633,
      "eval_runtime": 181.6759,
      "eval_samples_per_second": 99.138,
      "eval_steps_per_second": 6.198,
      "step": 78000
    },
    {
      "epoch": 8.400602733828435,
      "grad_norm": 0.8724849224090576,
      "learning_rate": 9.627410839349208e-05,
      "loss": 3.1874,
      "step": 78050
    },
    {
      "epoch": 8.405984285868044,
      "grad_norm": 0.8187736868858337,
      "learning_rate": 9.595086736343066e-05,
      "loss": 3.1782,
      "step": 78100
    },
    {
      "epoch": 8.411365837907653,
      "grad_norm": 0.8466920256614685,
      "learning_rate": 9.562762633336923e-05,
      "loss": 3.1679,
      "step": 78150
    },
    {
      "epoch": 8.416747389947261,
      "grad_norm": 0.8440642356872559,
      "learning_rate": 9.530438530330782e-05,
      "loss": 3.1944,
      "step": 78200
    },
    {
      "epoch": 8.42212894198687,
      "grad_norm": 0.8101809024810791,
      "learning_rate": 9.498114427324642e-05,
      "loss": 3.1597,
      "step": 78250
    },
    {
      "epoch": 8.427510494026476,
      "grad_norm": 0.8751645088195801,
      "learning_rate": 9.4657903243185e-05,
      "loss": 3.1832,
      "step": 78300
    },
    {
      "epoch": 8.432892046066085,
      "grad_norm": 0.8489078283309937,
      "learning_rate": 9.433466221312358e-05,
      "loss": 3.1937,
      "step": 78350
    },
    {
      "epoch": 8.438273598105694,
      "grad_norm": 0.8680893778800964,
      "learning_rate": 9.401142118306216e-05,
      "loss": 3.2039,
      "step": 78400
    },
    {
      "epoch": 8.443655150145302,
      "grad_norm": 0.8613045811653137,
      "learning_rate": 9.368818015300075e-05,
      "loss": 3.192,
      "step": 78450
    },
    {
      "epoch": 8.44903670218491,
      "grad_norm": 0.8499318361282349,
      "learning_rate": 9.336493912293932e-05,
      "loss": 3.1736,
      "step": 78500
    },
    {
      "epoch": 8.45441825422452,
      "grad_norm": 0.8549458980560303,
      "learning_rate": 9.304169809287792e-05,
      "loss": 3.1873,
      "step": 78550
    },
    {
      "epoch": 8.459799806264126,
      "grad_norm": 0.8840112090110779,
      "learning_rate": 9.27184570628165e-05,
      "loss": 3.1803,
      "step": 78600
    },
    {
      "epoch": 8.465181358303735,
      "grad_norm": 0.867172122001648,
      "learning_rate": 9.239521603275508e-05,
      "loss": 3.1691,
      "step": 78650
    },
    {
      "epoch": 8.470562910343343,
      "grad_norm": 0.8183926939964294,
      "learning_rate": 9.207197500269366e-05,
      "loss": 3.182,
      "step": 78700
    },
    {
      "epoch": 8.475944462382952,
      "grad_norm": 0.8585873246192932,
      "learning_rate": 9.174873397263225e-05,
      "loss": 3.2117,
      "step": 78750
    },
    {
      "epoch": 8.48132601442256,
      "grad_norm": 0.8468736410140991,
      "learning_rate": 9.143195776317206e-05,
      "loss": 3.1891,
      "step": 78800
    },
    {
      "epoch": 8.486707566462167,
      "grad_norm": 0.8052743077278137,
      "learning_rate": 9.110871673311064e-05,
      "loss": 3.1939,
      "step": 78850
    },
    {
      "epoch": 8.492089118501776,
      "grad_norm": 0.8322098851203918,
      "learning_rate": 9.078547570304924e-05,
      "loss": 3.1829,
      "step": 78900
    },
    {
      "epoch": 8.497470670541384,
      "grad_norm": 0.8150096535682678,
      "learning_rate": 9.04622346729878e-05,
      "loss": 3.1734,
      "step": 78950
    },
    {
      "epoch": 8.502852222580993,
      "grad_norm": 0.8648785352706909,
      "learning_rate": 9.01389936429264e-05,
      "loss": 3.1779,
      "step": 79000
    },
    {
      "epoch": 8.502852222580993,
      "eval_accuracy": 0.39132923878547365,
      "eval_loss": 3.3274991512298584,
      "eval_runtime": 181.4697,
      "eval_samples_per_second": 99.251,
      "eval_steps_per_second": 6.205,
      "step": 79000
    },
    {
      "epoch": 8.508233774620601,
      "grad_norm": 0.8067166805267334,
      "learning_rate": 8.9815752612865e-05,
      "loss": 3.1895,
      "step": 79050
    },
    {
      "epoch": 8.513615326660208,
      "grad_norm": 0.8531827330589294,
      "learning_rate": 8.949251158280356e-05,
      "loss": 3.1844,
      "step": 79100
    },
    {
      "epoch": 8.518996878699816,
      "grad_norm": 0.8360551595687866,
      "learning_rate": 8.916927055274216e-05,
      "loss": 3.1747,
      "step": 79150
    },
    {
      "epoch": 8.524378430739425,
      "grad_norm": 0.8578321933746338,
      "learning_rate": 8.884602952268074e-05,
      "loss": 3.1885,
      "step": 79200
    },
    {
      "epoch": 8.529759982779034,
      "grad_norm": 0.8434401750564575,
      "learning_rate": 8.852278849261933e-05,
      "loss": 3.1717,
      "step": 79250
    },
    {
      "epoch": 8.535141534818642,
      "grad_norm": 0.8778765201568604,
      "learning_rate": 8.81995474625579e-05,
      "loss": 3.1854,
      "step": 79300
    },
    {
      "epoch": 8.54052308685825,
      "grad_norm": 0.9001104235649109,
      "learning_rate": 8.78763064324965e-05,
      "loss": 3.2035,
      "step": 79350
    },
    {
      "epoch": 8.545904638897857,
      "grad_norm": 0.8159927129745483,
      "learning_rate": 8.755306540243508e-05,
      "loss": 3.189,
      "step": 79400
    },
    {
      "epoch": 8.551286190937466,
      "grad_norm": 0.7953808307647705,
      "learning_rate": 8.722982437237366e-05,
      "loss": 3.1856,
      "step": 79450
    },
    {
      "epoch": 8.556667742977075,
      "grad_norm": 0.8317734003067017,
      "learning_rate": 8.690658334231224e-05,
      "loss": 3.1934,
      "step": 79500
    },
    {
      "epoch": 8.562049295016683,
      "grad_norm": 0.8778324127197266,
      "learning_rate": 8.658334231225083e-05,
      "loss": 3.1796,
      "step": 79550
    },
    {
      "epoch": 8.567430847056292,
      "grad_norm": 0.8970025181770325,
      "learning_rate": 8.626010128218943e-05,
      "loss": 3.1745,
      "step": 79600
    },
    {
      "epoch": 8.572812399095898,
      "grad_norm": 0.8384948372840881,
      "learning_rate": 8.5936860252128e-05,
      "loss": 3.1845,
      "step": 79650
    },
    {
      "epoch": 8.578193951135507,
      "grad_norm": 0.8064723014831543,
      "learning_rate": 8.561361922206658e-05,
      "loss": 3.1975,
      "step": 79700
    },
    {
      "epoch": 8.583575503175116,
      "grad_norm": 0.8992934823036194,
      "learning_rate": 8.529037819200517e-05,
      "loss": 3.1722,
      "step": 79750
    },
    {
      "epoch": 8.588957055214724,
      "grad_norm": 0.8171969652175903,
      "learning_rate": 8.496713716194374e-05,
      "loss": 3.1819,
      "step": 79800
    },
    {
      "epoch": 8.594338607254333,
      "grad_norm": 0.8536673784255981,
      "learning_rate": 8.464389613188233e-05,
      "loss": 3.1841,
      "step": 79850
    },
    {
      "epoch": 8.599720159293941,
      "grad_norm": 0.8994986414909363,
      "learning_rate": 8.432065510182093e-05,
      "loss": 3.2134,
      "step": 79900
    },
    {
      "epoch": 8.605101711333548,
      "grad_norm": 0.8320143222808838,
      "learning_rate": 8.39974140717595e-05,
      "loss": 3.1882,
      "step": 79950
    },
    {
      "epoch": 8.610483263373157,
      "grad_norm": 0.840640127658844,
      "learning_rate": 8.367417304169809e-05,
      "loss": 3.1859,
      "step": 80000
    },
    {
      "epoch": 8.610483263373157,
      "eval_accuracy": 0.39175678789902363,
      "eval_loss": 3.3228001594543457,
      "eval_runtime": 181.8894,
      "eval_samples_per_second": 99.022,
      "eval_steps_per_second": 6.191,
      "step": 80000
    },
    {
      "epoch": 8.615864815412765,
      "grad_norm": 0.8592311143875122,
      "learning_rate": 8.335093201163667e-05,
      "loss": 3.1894,
      "step": 80050
    },
    {
      "epoch": 8.621246367452374,
      "grad_norm": 0.8602043390274048,
      "learning_rate": 8.302769098157526e-05,
      "loss": 3.1888,
      "step": 80100
    },
    {
      "epoch": 8.626627919491982,
      "grad_norm": 0.8518027067184448,
      "learning_rate": 8.270444995151383e-05,
      "loss": 3.1936,
      "step": 80150
    },
    {
      "epoch": 8.632009471531589,
      "grad_norm": 0.8605726957321167,
      "learning_rate": 8.238120892145243e-05,
      "loss": 3.166,
      "step": 80200
    },
    {
      "epoch": 8.637391023571197,
      "grad_norm": 0.8911870121955872,
      "learning_rate": 8.205796789139101e-05,
      "loss": 3.1851,
      "step": 80250
    },
    {
      "epoch": 8.642772575610806,
      "grad_norm": 0.8654616475105286,
      "learning_rate": 8.173472686132959e-05,
      "loss": 3.1892,
      "step": 80300
    },
    {
      "epoch": 8.648154127650415,
      "grad_norm": 0.8468880653381348,
      "learning_rate": 8.141148583126817e-05,
      "loss": 3.1976,
      "step": 80350
    },
    {
      "epoch": 8.653535679690023,
      "grad_norm": 0.850554347038269,
      "learning_rate": 8.108824480120676e-05,
      "loss": 3.1923,
      "step": 80400
    },
    {
      "epoch": 8.658917231729632,
      "grad_norm": 0.8488112092018127,
      "learning_rate": 8.076500377114533e-05,
      "loss": 3.1851,
      "step": 80450
    },
    {
      "epoch": 8.664298783769238,
      "grad_norm": 0.8007790446281433,
      "learning_rate": 8.044176274108393e-05,
      "loss": 3.1823,
      "step": 80500
    },
    {
      "epoch": 8.669680335808847,
      "grad_norm": 0.8189157247543335,
      "learning_rate": 8.011852171102252e-05,
      "loss": 3.2056,
      "step": 80550
    },
    {
      "epoch": 8.675061887848456,
      "grad_norm": 0.8117685317993164,
      "learning_rate": 7.97952806809611e-05,
      "loss": 3.1909,
      "step": 80600
    },
    {
      "epoch": 8.680443439888064,
      "grad_norm": 0.8486753106117249,
      "learning_rate": 7.947203965089967e-05,
      "loss": 3.1813,
      "step": 80650
    },
    {
      "epoch": 8.685824991927673,
      "grad_norm": 0.8410837650299072,
      "learning_rate": 7.914879862083827e-05,
      "loss": 3.1934,
      "step": 80700
    },
    {
      "epoch": 8.69120654396728,
      "grad_norm": 0.8123865723609924,
      "learning_rate": 7.882555759077686e-05,
      "loss": 3.1644,
      "step": 80750
    },
    {
      "epoch": 8.696588096006888,
      "grad_norm": 0.8456774950027466,
      "learning_rate": 7.850878138131667e-05,
      "loss": 3.1985,
      "step": 80800
    },
    {
      "epoch": 8.701969648046497,
      "grad_norm": 0.84990394115448,
      "learning_rate": 7.818554035125525e-05,
      "loss": 3.1899,
      "step": 80850
    },
    {
      "epoch": 8.707351200086105,
      "grad_norm": 0.8262625336647034,
      "learning_rate": 7.786229932119381e-05,
      "loss": 3.1668,
      "step": 80900
    },
    {
      "epoch": 8.712732752125714,
      "grad_norm": 0.866935670375824,
      "learning_rate": 7.753905829113241e-05,
      "loss": 3.1929,
      "step": 80950
    },
    {
      "epoch": 8.718114304165322,
      "grad_norm": 0.8075240254402161,
      "learning_rate": 7.7215817261071e-05,
      "loss": 3.2008,
      "step": 81000
    },
    {
      "epoch": 8.718114304165322,
      "eval_accuracy": 0.3919235700818189,
      "eval_loss": 3.320359230041504,
      "eval_runtime": 181.4498,
      "eval_samples_per_second": 99.262,
      "eval_steps_per_second": 6.206,
      "step": 81000
    },
    {
      "epoch": 8.723495856204929,
      "grad_norm": 0.8287115097045898,
      "learning_rate": 7.689257623100959e-05,
      "loss": 3.1862,
      "step": 81050
    },
    {
      "epoch": 8.728877408244538,
      "grad_norm": 0.8814197182655334,
      "learning_rate": 7.656933520094817e-05,
      "loss": 3.175,
      "step": 81100
    },
    {
      "epoch": 8.734258960284146,
      "grad_norm": 0.8789302706718445,
      "learning_rate": 7.624609417088675e-05,
      "loss": 3.1839,
      "step": 81150
    },
    {
      "epoch": 8.739640512323755,
      "grad_norm": 0.841218113899231,
      "learning_rate": 7.592285314082534e-05,
      "loss": 3.1845,
      "step": 81200
    },
    {
      "epoch": 8.745022064363363,
      "grad_norm": 0.8557459115982056,
      "learning_rate": 7.559961211076391e-05,
      "loss": 3.1938,
      "step": 81250
    },
    {
      "epoch": 8.75040361640297,
      "grad_norm": 0.8115799427032471,
      "learning_rate": 7.52763710807025e-05,
      "loss": 3.1916,
      "step": 81300
    },
    {
      "epoch": 8.755785168442578,
      "grad_norm": 0.8878167271614075,
      "learning_rate": 7.495313005064109e-05,
      "loss": 3.1769,
      "step": 81350
    },
    {
      "epoch": 8.761166720482187,
      "grad_norm": 0.8369986414909363,
      "learning_rate": 7.462988902057967e-05,
      "loss": 3.1953,
      "step": 81400
    },
    {
      "epoch": 8.766548272521796,
      "grad_norm": 0.9095105528831482,
      "learning_rate": 7.430664799051825e-05,
      "loss": 3.1925,
      "step": 81450
    },
    {
      "epoch": 8.771929824561404,
      "grad_norm": 0.7997031211853027,
      "learning_rate": 7.398340696045684e-05,
      "loss": 3.1809,
      "step": 81500
    },
    {
      "epoch": 8.777311376601011,
      "grad_norm": 0.9019036889076233,
      "learning_rate": 7.366016593039542e-05,
      "loss": 3.1829,
      "step": 81550
    },
    {
      "epoch": 8.78269292864062,
      "grad_norm": 0.8855484127998352,
      "learning_rate": 7.333692490033402e-05,
      "loss": 3.1805,
      "step": 81600
    },
    {
      "epoch": 8.788074480680228,
      "grad_norm": 0.8776411414146423,
      "learning_rate": 7.30136838702726e-05,
      "loss": 3.1751,
      "step": 81650
    },
    {
      "epoch": 8.793456032719837,
      "grad_norm": 0.8693180680274963,
      "learning_rate": 7.269044284021118e-05,
      "loss": 3.1746,
      "step": 81700
    },
    {
      "epoch": 8.798837584759445,
      "grad_norm": 0.8301169276237488,
      "learning_rate": 7.236720181014976e-05,
      "loss": 3.2012,
      "step": 81750
    },
    {
      "epoch": 8.804219136799054,
      "grad_norm": 0.8729484677314758,
      "learning_rate": 7.204396078008834e-05,
      "loss": 3.1745,
      "step": 81800
    },
    {
      "epoch": 8.80960068883866,
      "grad_norm": 0.8853919506072998,
      "learning_rate": 7.172071975002694e-05,
      "loss": 3.1828,
      "step": 81850
    },
    {
      "epoch": 8.814982240878269,
      "grad_norm": 0.8428437113761902,
      "learning_rate": 7.139747871996552e-05,
      "loss": 3.1784,
      "step": 81900
    },
    {
      "epoch": 8.820363792917878,
      "grad_norm": 0.8393434286117554,
      "learning_rate": 7.10742376899041e-05,
      "loss": 3.2037,
      "step": 81950
    },
    {
      "epoch": 8.825745344957486,
      "grad_norm": 0.816623330116272,
      "learning_rate": 7.075099665984268e-05,
      "loss": 3.1848,
      "step": 82000
    },
    {
      "epoch": 8.825745344957486,
      "eval_accuracy": 0.39235187976558356,
      "eval_loss": 3.3170218467712402,
      "eval_runtime": 181.7896,
      "eval_samples_per_second": 99.076,
      "eval_steps_per_second": 6.194,
      "step": 82000
    },
    {
      "epoch": 8.831126896997095,
      "grad_norm": 0.8039261102676392,
      "learning_rate": 7.042775562978126e-05,
      "loss": 3.1814,
      "step": 82050
    },
    {
      "epoch": 8.836508449036701,
      "grad_norm": 0.8676542043685913,
      "learning_rate": 7.010451459971986e-05,
      "loss": 3.1946,
      "step": 82100
    },
    {
      "epoch": 8.84189000107631,
      "grad_norm": 0.816257655620575,
      "learning_rate": 6.978127356965844e-05,
      "loss": 3.19,
      "step": 82150
    },
    {
      "epoch": 8.847271553115919,
      "grad_norm": 0.8966904878616333,
      "learning_rate": 6.945803253959702e-05,
      "loss": 3.1899,
      "step": 82200
    },
    {
      "epoch": 8.852653105155527,
      "grad_norm": 0.8523572087287903,
      "learning_rate": 6.91347915095356e-05,
      "loss": 3.1738,
      "step": 82250
    },
    {
      "epoch": 8.858034657195136,
      "grad_norm": 0.8071206212043762,
      "learning_rate": 6.881155047947418e-05,
      "loss": 3.1795,
      "step": 82300
    },
    {
      "epoch": 8.863416209234742,
      "grad_norm": 0.8405489921569824,
      "learning_rate": 6.848830944941278e-05,
      "loss": 3.2009,
      "step": 82350
    },
    {
      "epoch": 8.868797761274351,
      "grad_norm": 0.8709424734115601,
      "learning_rate": 6.816506841935136e-05,
      "loss": 3.1851,
      "step": 82400
    },
    {
      "epoch": 8.87417931331396,
      "grad_norm": 0.8822046518325806,
      "learning_rate": 6.784182738928994e-05,
      "loss": 3.1926,
      "step": 82450
    },
    {
      "epoch": 8.879560865353568,
      "grad_norm": 0.9115912318229675,
      "learning_rate": 6.751858635922853e-05,
      "loss": 3.1866,
      "step": 82500
    },
    {
      "epoch": 8.884942417393177,
      "grad_norm": 0.8065259456634521,
      "learning_rate": 6.719534532916711e-05,
      "loss": 3.1899,
      "step": 82550
    },
    {
      "epoch": 8.890323969432785,
      "grad_norm": 0.8843277096748352,
      "learning_rate": 6.68721042991057e-05,
      "loss": 3.1772,
      "step": 82600
    },
    {
      "epoch": 8.895705521472392,
      "grad_norm": 0.8429102301597595,
      "learning_rate": 6.654886326904428e-05,
      "loss": 3.1845,
      "step": 82650
    },
    {
      "epoch": 8.901087073512,
      "grad_norm": 0.8341004252433777,
      "learning_rate": 6.622562223898286e-05,
      "loss": 3.1867,
      "step": 82700
    },
    {
      "epoch": 8.906468625551609,
      "grad_norm": 0.8851515650749207,
      "learning_rate": 6.590238120892145e-05,
      "loss": 3.1952,
      "step": 82750
    },
    {
      "epoch": 8.911850177591218,
      "grad_norm": 0.8779100179672241,
      "learning_rate": 6.558560499946126e-05,
      "loss": 3.1847,
      "step": 82800
    },
    {
      "epoch": 8.917231729630826,
      "grad_norm": 0.8266280293464661,
      "learning_rate": 6.526236396939984e-05,
      "loss": 3.1842,
      "step": 82850
    },
    {
      "epoch": 8.922613281670433,
      "grad_norm": 0.8020144104957581,
      "learning_rate": 6.493912293933843e-05,
      "loss": 3.1707,
      "step": 82900
    },
    {
      "epoch": 8.927994833710041,
      "grad_norm": 0.8632928729057312,
      "learning_rate": 6.461588190927701e-05,
      "loss": 3.1856,
      "step": 82950
    },
    {
      "epoch": 8.93337638574965,
      "grad_norm": 0.8674875497817993,
      "learning_rate": 6.42926408792156e-05,
      "loss": 3.1879,
      "step": 83000
    },
    {
      "epoch": 8.93337638574965,
      "eval_accuracy": 0.39265197904172716,
      "eval_loss": 3.314535140991211,
      "eval_runtime": 181.8109,
      "eval_samples_per_second": 99.064,
      "eval_steps_per_second": 6.193,
      "step": 83000
    },
    {
      "epoch": 8.938757937789259,
      "grad_norm": 0.8514391183853149,
      "learning_rate": 6.396939984915418e-05,
      "loss": 3.1845,
      "step": 83050
    },
    {
      "epoch": 8.944139489828867,
      "grad_norm": 0.8340780735015869,
      "learning_rate": 6.364615881909276e-05,
      "loss": 3.2002,
      "step": 83100
    },
    {
      "epoch": 8.949521041868476,
      "grad_norm": 0.8299768567085266,
      "learning_rate": 6.332291778903135e-05,
      "loss": 3.1582,
      "step": 83150
    },
    {
      "epoch": 8.954902593908082,
      "grad_norm": 0.9063717126846313,
      "learning_rate": 6.299967675896993e-05,
      "loss": 3.1748,
      "step": 83200
    },
    {
      "epoch": 8.960284145947691,
      "grad_norm": 0.8796325922012329,
      "learning_rate": 6.267643572890851e-05,
      "loss": 3.1669,
      "step": 83250
    },
    {
      "epoch": 8.9656656979873,
      "grad_norm": 0.8968151807785034,
      "learning_rate": 6.235319469884711e-05,
      "loss": 3.1807,
      "step": 83300
    },
    {
      "epoch": 8.971047250026908,
      "grad_norm": 0.8620778322219849,
      "learning_rate": 6.202995366878569e-05,
      "loss": 3.186,
      "step": 83350
    },
    {
      "epoch": 8.976428802066517,
      "grad_norm": 0.8873798847198486,
      "learning_rate": 6.170671263872427e-05,
      "loss": 3.172,
      "step": 83400
    },
    {
      "epoch": 8.981810354106123,
      "grad_norm": 0.9013848304748535,
      "learning_rate": 6.138347160866285e-05,
      "loss": 3.1874,
      "step": 83450
    },
    {
      "epoch": 8.987191906145732,
      "grad_norm": 0.9206412434577942,
      "learning_rate": 6.106023057860143e-05,
      "loss": 3.188,
      "step": 83500
    },
    {
      "epoch": 8.99257345818534,
      "grad_norm": 0.8976477384567261,
      "learning_rate": 6.073698954854002e-05,
      "loss": 3.1983,
      "step": 83550
    },
    {
      "epoch": 8.997955010224949,
      "grad_norm": 0.8122299313545227,
      "learning_rate": 6.04137485184786e-05,
      "loss": 3.1808,
      "step": 83600
    },
    {
      "epoch": 9.003336562264558,
      "grad_norm": 0.8545308709144592,
      "learning_rate": 6.00905074884172e-05,
      "loss": 3.1484,
      "step": 83650
    },
    {
      "epoch": 9.008718114304166,
      "grad_norm": 0.8612087368965149,
      "learning_rate": 5.976726645835577e-05,
      "loss": 3.1132,
      "step": 83700
    },
    {
      "epoch": 9.014099666343773,
      "grad_norm": 0.8591105341911316,
      "learning_rate": 5.944402542829435e-05,
      "loss": 3.1048,
      "step": 83750
    },
    {
      "epoch": 9.019481218383381,
      "grad_norm": 0.8598650693893433,
      "learning_rate": 5.912078439823295e-05,
      "loss": 3.107,
      "step": 83800
    },
    {
      "epoch": 9.02486277042299,
      "grad_norm": 0.8437498211860657,
      "learning_rate": 5.879754336817153e-05,
      "loss": 3.1262,
      "step": 83850
    },
    {
      "epoch": 9.030244322462599,
      "grad_norm": 0.8361445665359497,
      "learning_rate": 5.847430233811012e-05,
      "loss": 3.1347,
      "step": 83900
    },
    {
      "epoch": 9.035625874502207,
      "grad_norm": 0.9162716269493103,
      "learning_rate": 5.81510613080487e-05,
      "loss": 3.1228,
      "step": 83950
    },
    {
      "epoch": 9.041007426541814,
      "grad_norm": 0.8598710894584656,
      "learning_rate": 5.782782027798728e-05,
      "loss": 3.1259,
      "step": 84000
    },
    {
      "epoch": 9.041007426541814,
      "eval_accuracy": 0.39285657242948185,
      "eval_loss": 3.3162240982055664,
      "eval_runtime": 181.6488,
      "eval_samples_per_second": 99.153,
      "eval_steps_per_second": 6.199,
      "step": 84000
    },
    {
      "epoch": 9.046388978581422,
      "grad_norm": 0.8036484122276306,
      "learning_rate": 5.750457924792587e-05,
      "loss": 3.1347,
      "step": 84050
    },
    {
      "epoch": 9.051770530621031,
      "grad_norm": 0.84344881772995,
      "learning_rate": 5.718133821786445e-05,
      "loss": 3.126,
      "step": 84100
    },
    {
      "epoch": 9.05715208266064,
      "grad_norm": 0.8223302364349365,
      "learning_rate": 5.6858097187803036e-05,
      "loss": 3.121,
      "step": 84150
    },
    {
      "epoch": 9.062533634700248,
      "grad_norm": 0.8906209468841553,
      "learning_rate": 5.653485615774162e-05,
      "loss": 3.1402,
      "step": 84200
    },
    {
      "epoch": 9.067915186739857,
      "grad_norm": 0.891982913017273,
      "learning_rate": 5.62116151276802e-05,
      "loss": 3.1177,
      "step": 84250
    },
    {
      "epoch": 9.073296738779463,
      "grad_norm": 0.8835547566413879,
      "learning_rate": 5.5888374097618786e-05,
      "loss": 3.1287,
      "step": 84300
    },
    {
      "epoch": 9.078678290819072,
      "grad_norm": 0.8735035061836243,
      "learning_rate": 5.556513306755737e-05,
      "loss": 3.1282,
      "step": 84350
    },
    {
      "epoch": 9.08405984285868,
      "grad_norm": 0.8939276933670044,
      "learning_rate": 5.5241892037495955e-05,
      "loss": 3.1255,
      "step": 84400
    },
    {
      "epoch": 9.089441394898289,
      "grad_norm": 0.8506489396095276,
      "learning_rate": 5.4918651007434536e-05,
      "loss": 3.1286,
      "step": 84450
    },
    {
      "epoch": 9.094822946937898,
      "grad_norm": 0.8801854252815247,
      "learning_rate": 5.459540997737312e-05,
      "loss": 3.1441,
      "step": 84500
    },
    {
      "epoch": 9.100204498977504,
      "grad_norm": 0.8314129710197449,
      "learning_rate": 5.427216894731171e-05,
      "loss": 3.1232,
      "step": 84550
    },
    {
      "epoch": 9.105586051017113,
      "grad_norm": 0.8708404302597046,
      "learning_rate": 5.394892791725029e-05,
      "loss": 3.1281,
      "step": 84600
    },
    {
      "epoch": 9.110967603056721,
      "grad_norm": 0.8082948327064514,
      "learning_rate": 5.362568688718888e-05,
      "loss": 3.1269,
      "step": 84650
    },
    {
      "epoch": 9.11634915509633,
      "grad_norm": 0.9207304120063782,
      "learning_rate": 5.330244585712746e-05,
      "loss": 3.1344,
      "step": 84700
    },
    {
      "epoch": 9.121730707135939,
      "grad_norm": 0.869328498840332,
      "learning_rate": 5.297920482706604e-05,
      "loss": 3.1232,
      "step": 84750
    },
    {
      "epoch": 9.127112259175545,
      "grad_norm": 0.8711875081062317,
      "learning_rate": 5.2662428617605856e-05,
      "loss": 3.1193,
      "step": 84800
    },
    {
      "epoch": 9.132493811215154,
      "grad_norm": 0.8316624760627747,
      "learning_rate": 5.2339187587544444e-05,
      "loss": 3.1487,
      "step": 84850
    },
    {
      "epoch": 9.137875363254762,
      "grad_norm": 0.8905116319656372,
      "learning_rate": 5.2015946557483025e-05,
      "loss": 3.1374,
      "step": 84900
    },
    {
      "epoch": 9.143256915294371,
      "grad_norm": 0.8803269863128662,
      "learning_rate": 5.169270552742161e-05,
      "loss": 3.1351,
      "step": 84950
    },
    {
      "epoch": 9.14863846733398,
      "grad_norm": 0.8589026927947998,
      "learning_rate": 5.1369464497360194e-05,
      "loss": 3.1498,
      "step": 85000
    },
    {
      "epoch": 9.14863846733398,
      "eval_accuracy": 0.3929965173489869,
      "eval_loss": 3.3155078887939453,
      "eval_runtime": 181.7858,
      "eval_samples_per_second": 99.078,
      "eval_steps_per_second": 6.194,
      "step": 85000
    },
    {
      "epoch": 9.154020019373588,
      "grad_norm": 0.8760117292404175,
      "learning_rate": 5.1046223467298775e-05,
      "loss": 3.1194,
      "step": 85050
    },
    {
      "epoch": 9.159401571413195,
      "grad_norm": 0.8562877774238586,
      "learning_rate": 5.072298243723736e-05,
      "loss": 3.1226,
      "step": 85100
    },
    {
      "epoch": 9.164783123452803,
      "grad_norm": 0.872101366519928,
      "learning_rate": 5.0399741407175944e-05,
      "loss": 3.1507,
      "step": 85150
    },
    {
      "epoch": 9.170164675492412,
      "grad_norm": 0.8153966665267944,
      "learning_rate": 5.007650037711453e-05,
      "loss": 3.1201,
      "step": 85200
    },
    {
      "epoch": 9.17554622753202,
      "grad_norm": 0.8699036836624146,
      "learning_rate": 4.9753259347053113e-05,
      "loss": 3.1464,
      "step": 85250
    },
    {
      "epoch": 9.180927779571629,
      "grad_norm": 0.8697440028190613,
      "learning_rate": 4.9430018316991694e-05,
      "loss": 3.1261,
      "step": 85300
    },
    {
      "epoch": 9.186309331611236,
      "grad_norm": 0.8695237040519714,
      "learning_rate": 4.910677728693028e-05,
      "loss": 3.1411,
      "step": 85350
    },
    {
      "epoch": 9.191690883650844,
      "grad_norm": 0.8495423793792725,
      "learning_rate": 4.8783536256868863e-05,
      "loss": 3.1274,
      "step": 85400
    },
    {
      "epoch": 9.197072435690453,
      "grad_norm": 0.8449037671089172,
      "learning_rate": 4.846029522680746e-05,
      "loss": 3.1422,
      "step": 85450
    },
    {
      "epoch": 9.202453987730062,
      "grad_norm": 0.8752495050430298,
      "learning_rate": 4.813705419674604e-05,
      "loss": 3.1302,
      "step": 85500
    },
    {
      "epoch": 9.20783553976967,
      "grad_norm": 0.8375797867774963,
      "learning_rate": 4.7813813166684614e-05,
      "loss": 3.1299,
      "step": 85550
    },
    {
      "epoch": 9.213217091809279,
      "grad_norm": 0.8613424301147461,
      "learning_rate": 4.749057213662321e-05,
      "loss": 3.1412,
      "step": 85600
    },
    {
      "epoch": 9.218598643848885,
      "grad_norm": 0.8562580943107605,
      "learning_rate": 4.716733110656179e-05,
      "loss": 3.1356,
      "step": 85650
    },
    {
      "epoch": 9.223980195888494,
      "grad_norm": 0.864129364490509,
      "learning_rate": 4.684409007650038e-05,
      "loss": 3.1337,
      "step": 85700
    },
    {
      "epoch": 9.229361747928102,
      "grad_norm": 0.9025206565856934,
      "learning_rate": 4.652084904643896e-05,
      "loss": 3.1277,
      "step": 85750
    },
    {
      "epoch": 9.234743299967711,
      "grad_norm": 0.8444358110427856,
      "learning_rate": 4.619760801637754e-05,
      "loss": 3.109,
      "step": 85800
    },
    {
      "epoch": 9.24012485200732,
      "grad_norm": 0.8708114624023438,
      "learning_rate": 4.587436698631613e-05,
      "loss": 3.1492,
      "step": 85850
    },
    {
      "epoch": 9.245506404046926,
      "grad_norm": 0.8606985807418823,
      "learning_rate": 4.555112595625471e-05,
      "loss": 3.1512,
      "step": 85900
    },
    {
      "epoch": 9.250887956086535,
      "grad_norm": 0.8782875537872314,
      "learning_rate": 4.5227884926193296e-05,
      "loss": 3.1392,
      "step": 85950
    },
    {
      "epoch": 9.256269508126143,
      "grad_norm": 0.8578618764877319,
      "learning_rate": 4.490464389613188e-05,
      "loss": 3.1444,
      "step": 86000
    },
    {
      "epoch": 9.256269508126143,
      "eval_accuracy": 0.3932052395464785,
      "eval_loss": 3.3132030963897705,
      "eval_runtime": 181.2715,
      "eval_samples_per_second": 99.359,
      "eval_steps_per_second": 6.212,
      "step": 86000
    },
    {
      "epoch": 9.261651060165752,
      "grad_norm": 0.8433346152305603,
      "learning_rate": 4.458140286607046e-05,
      "loss": 3.1358,
      "step": 86050
    },
    {
      "epoch": 9.26703261220536,
      "grad_norm": 0.8320572972297668,
      "learning_rate": 4.4258161836009046e-05,
      "loss": 3.1298,
      "step": 86100
    },
    {
      "epoch": 9.272414164244967,
      "grad_norm": 0.8475552797317505,
      "learning_rate": 4.393492080594763e-05,
      "loss": 3.1365,
      "step": 86150
    },
    {
      "epoch": 9.277795716284576,
      "grad_norm": 0.8832123875617981,
      "learning_rate": 4.3611679775886215e-05,
      "loss": 3.1363,
      "step": 86200
    },
    {
      "epoch": 9.283177268324184,
      "grad_norm": 0.8612068295478821,
      "learning_rate": 4.3288438745824797e-05,
      "loss": 3.1412,
      "step": 86250
    },
    {
      "epoch": 9.288558820363793,
      "grad_norm": 0.8757711052894592,
      "learning_rate": 4.296519771576338e-05,
      "loss": 3.1577,
      "step": 86300
    },
    {
      "epoch": 9.293940372403402,
      "grad_norm": 0.8518192172050476,
      "learning_rate": 4.264195668570197e-05,
      "loss": 3.1377,
      "step": 86350
    },
    {
      "epoch": 9.29932192444301,
      "grad_norm": 0.8497964143753052,
      "learning_rate": 4.231871565564055e-05,
      "loss": 3.1296,
      "step": 86400
    },
    {
      "epoch": 9.304703476482617,
      "grad_norm": 0.884699821472168,
      "learning_rate": 4.199547462557914e-05,
      "loss": 3.1208,
      "step": 86450
    },
    {
      "epoch": 9.310085028522225,
      "grad_norm": 0.8705397248268127,
      "learning_rate": 4.167223359551772e-05,
      "loss": 3.1496,
      "step": 86500
    },
    {
      "epoch": 9.315466580561834,
      "grad_norm": 0.8114369511604309,
      "learning_rate": 4.1348992565456303e-05,
      "loss": 3.1309,
      "step": 86550
    },
    {
      "epoch": 9.320848132601443,
      "grad_norm": 0.8481574058532715,
      "learning_rate": 4.102575153539489e-05,
      "loss": 3.1232,
      "step": 86600
    },
    {
      "epoch": 9.326229684641051,
      "grad_norm": 0.8696604371070862,
      "learning_rate": 4.070251050533347e-05,
      "loss": 3.1279,
      "step": 86650
    },
    {
      "epoch": 9.331611236680658,
      "grad_norm": 0.8767442107200623,
      "learning_rate": 4.037926947527206e-05,
      "loss": 3.1458,
      "step": 86700
    },
    {
      "epoch": 9.336992788720266,
      "grad_norm": 0.8947004079818726,
      "learning_rate": 4.005602844521064e-05,
      "loss": 3.1326,
      "step": 86750
    },
    {
      "epoch": 9.342374340759875,
      "grad_norm": 0.861763596534729,
      "learning_rate": 3.973278741514922e-05,
      "loss": 3.1561,
      "step": 86800
    },
    {
      "epoch": 9.347755892799483,
      "grad_norm": 0.8483734130859375,
      "learning_rate": 3.940954638508781e-05,
      "loss": 3.1258,
      "step": 86850
    },
    {
      "epoch": 9.353137444839092,
      "grad_norm": 0.8890226483345032,
      "learning_rate": 3.908630535502639e-05,
      "loss": 3.143,
      "step": 86900
    },
    {
      "epoch": 9.3585189968787,
      "grad_norm": 0.8986713290214539,
      "learning_rate": 3.8769529145566205e-05,
      "loss": 3.1268,
      "step": 86950
    },
    {
      "epoch": 9.363900548918307,
      "grad_norm": 0.9096682071685791,
      "learning_rate": 3.844628811550479e-05,
      "loss": 3.131,
      "step": 87000
    },
    {
      "epoch": 9.363900548918307,
      "eval_accuracy": 0.39342689143762005,
      "eval_loss": 3.3110592365264893,
      "eval_runtime": 181.8152,
      "eval_samples_per_second": 99.062,
      "eval_steps_per_second": 6.193,
      "step": 87000
    },
    {
      "epoch": 9.369282100957916,
      "grad_norm": 0.8793152570724487,
      "learning_rate": 3.8123047085443374e-05,
      "loss": 3.1346,
      "step": 87050
    },
    {
      "epoch": 9.374663652997524,
      "grad_norm": 0.8756136894226074,
      "learning_rate": 3.7799806055381955e-05,
      "loss": 3.1207,
      "step": 87100
    },
    {
      "epoch": 9.380045205037133,
      "grad_norm": 0.8575154542922974,
      "learning_rate": 3.747656502532054e-05,
      "loss": 3.1325,
      "step": 87150
    },
    {
      "epoch": 9.385426757076742,
      "grad_norm": 0.8399129509925842,
      "learning_rate": 3.7153323995259124e-05,
      "loss": 3.128,
      "step": 87200
    },
    {
      "epoch": 9.390808309116348,
      "grad_norm": 0.8848307728767395,
      "learning_rate": 3.683008296519771e-05,
      "loss": 3.1418,
      "step": 87250
    },
    {
      "epoch": 9.396189861155957,
      "grad_norm": 0.8613168597221375,
      "learning_rate": 3.65068419351363e-05,
      "loss": 3.1114,
      "step": 87300
    },
    {
      "epoch": 9.401571413195565,
      "grad_norm": 0.8859587907791138,
      "learning_rate": 3.618360090507488e-05,
      "loss": 3.1516,
      "step": 87350
    },
    {
      "epoch": 9.406952965235174,
      "grad_norm": 0.8782614469528198,
      "learning_rate": 3.586035987501347e-05,
      "loss": 3.1245,
      "step": 87400
    },
    {
      "epoch": 9.412334517274783,
      "grad_norm": 0.8449487090110779,
      "learning_rate": 3.553711884495205e-05,
      "loss": 3.1401,
      "step": 87450
    },
    {
      "epoch": 9.417716069314391,
      "grad_norm": 0.8706283569335938,
      "learning_rate": 3.521387781489063e-05,
      "loss": 3.1375,
      "step": 87500
    },
    {
      "epoch": 9.423097621353998,
      "grad_norm": 0.8328177332878113,
      "learning_rate": 3.489063678482922e-05,
      "loss": 3.1097,
      "step": 87550
    },
    {
      "epoch": 9.428479173393606,
      "grad_norm": 0.8526630401611328,
      "learning_rate": 3.45673957547678e-05,
      "loss": 3.1231,
      "step": 87600
    },
    {
      "epoch": 9.433860725433215,
      "grad_norm": 0.7787594199180603,
      "learning_rate": 3.424415472470639e-05,
      "loss": 3.1194,
      "step": 87650
    },
    {
      "epoch": 9.439242277472824,
      "grad_norm": 0.8276976346969604,
      "learning_rate": 3.392091369464497e-05,
      "loss": 3.1428,
      "step": 87700
    },
    {
      "epoch": 9.444623829512432,
      "grad_norm": 0.8594440817832947,
      "learning_rate": 3.359767266458356e-05,
      "loss": 3.1356,
      "step": 87750
    },
    {
      "epoch": 9.450005381552039,
      "grad_norm": 0.8682234287261963,
      "learning_rate": 3.327443163452214e-05,
      "loss": 3.1262,
      "step": 87800
    },
    {
      "epoch": 9.455386933591647,
      "grad_norm": 0.8570556044578552,
      "learning_rate": 3.2951190604460726e-05,
      "loss": 3.1479,
      "step": 87850
    },
    {
      "epoch": 9.460768485631256,
      "grad_norm": 0.8625676035881042,
      "learning_rate": 3.262794957439931e-05,
      "loss": 3.1218,
      "step": 87900
    },
    {
      "epoch": 9.466150037670864,
      "grad_norm": 0.8185434341430664,
      "learning_rate": 3.230470854433789e-05,
      "loss": 3.1275,
      "step": 87950
    },
    {
      "epoch": 9.471531589710473,
      "grad_norm": 0.8566237092018127,
      "learning_rate": 3.1981467514276476e-05,
      "loss": 3.1316,
      "step": 88000
    },
    {
      "epoch": 9.471531589710473,
      "eval_accuracy": 0.39365582307224517,
      "eval_loss": 3.3083837032318115,
      "eval_runtime": 181.4473,
      "eval_samples_per_second": 99.263,
      "eval_steps_per_second": 6.206,
      "step": 88000
    },
    {
      "epoch": 9.476913141750082,
      "grad_norm": 0.9225597381591797,
      "learning_rate": 3.165822648421506e-05,
      "loss": 3.126,
      "step": 88050
    },
    {
      "epoch": 9.482294693789688,
      "grad_norm": 0.8356655240058899,
      "learning_rate": 3.1334985454153645e-05,
      "loss": 3.1342,
      "step": 88100
    },
    {
      "epoch": 9.487676245829297,
      "grad_norm": 0.907640814781189,
      "learning_rate": 3.101174442409223e-05,
      "loss": 3.1335,
      "step": 88150
    },
    {
      "epoch": 9.493057797868905,
      "grad_norm": 0.8918790817260742,
      "learning_rate": 3.0688503394030814e-05,
      "loss": 3.1509,
      "step": 88200
    },
    {
      "epoch": 9.498439349908514,
      "grad_norm": 0.8624308705329895,
      "learning_rate": 3.0365262363969395e-05,
      "loss": 3.133,
      "step": 88250
    },
    {
      "epoch": 9.503820901948123,
      "grad_norm": 0.8854585289955139,
      "learning_rate": 3.0042021333907983e-05,
      "loss": 3.1271,
      "step": 88300
    },
    {
      "epoch": 9.50920245398773,
      "grad_norm": 0.9087257385253906,
      "learning_rate": 2.9718780303846567e-05,
      "loss": 3.1334,
      "step": 88350
    },
    {
      "epoch": 9.514584006027338,
      "grad_norm": 0.8362172245979309,
      "learning_rate": 2.9395539273785152e-05,
      "loss": 3.1372,
      "step": 88400
    },
    {
      "epoch": 9.519965558066946,
      "grad_norm": 0.8345738053321838,
      "learning_rate": 2.9072298243723733e-05,
      "loss": 3.1565,
      "step": 88450
    },
    {
      "epoch": 9.525347110106555,
      "grad_norm": 0.8579692840576172,
      "learning_rate": 2.8749057213662317e-05,
      "loss": 3.1408,
      "step": 88500
    },
    {
      "epoch": 9.530728662146164,
      "grad_norm": 0.8452519178390503,
      "learning_rate": 2.8425816183600902e-05,
      "loss": 3.1412,
      "step": 88550
    },
    {
      "epoch": 9.536110214185772,
      "grad_norm": 0.8474915623664856,
      "learning_rate": 2.8102575153539486e-05,
      "loss": 3.1329,
      "step": 88600
    },
    {
      "epoch": 9.541491766225379,
      "grad_norm": 0.8602463006973267,
      "learning_rate": 2.777933412347807e-05,
      "loss": 3.1359,
      "step": 88650
    },
    {
      "epoch": 9.546873318264987,
      "grad_norm": 0.8580049276351929,
      "learning_rate": 2.7456093093416652e-05,
      "loss": 3.1282,
      "step": 88700
    },
    {
      "epoch": 9.552254870304596,
      "grad_norm": 0.8471787571907043,
      "learning_rate": 2.713285206335524e-05,
      "loss": 3.1262,
      "step": 88750
    },
    {
      "epoch": 9.557636422344205,
      "grad_norm": 0.8755500316619873,
      "learning_rate": 2.6809611033293824e-05,
      "loss": 3.1342,
      "step": 88800
    },
    {
      "epoch": 9.563017974383813,
      "grad_norm": 0.8807862401008606,
      "learning_rate": 2.648637000323241e-05,
      "loss": 3.1465,
      "step": 88850
    },
    {
      "epoch": 9.56839952642342,
      "grad_norm": 0.9071460962295532,
      "learning_rate": 2.6163128973170993e-05,
      "loss": 3.1367,
      "step": 88900
    },
    {
      "epoch": 9.573781078463028,
      "grad_norm": 0.8721023797988892,
      "learning_rate": 2.5846352763710807e-05,
      "loss": 3.1484,
      "step": 88950
    },
    {
      "epoch": 9.579162630502637,
      "grad_norm": 0.8423963785171509,
      "learning_rate": 2.5523111733649388e-05,
      "loss": 3.1437,
      "step": 89000
    },
    {
      "epoch": 9.579162630502637,
      "eval_accuracy": 0.39397395872776597,
      "eval_loss": 3.306657075881958,
      "eval_runtime": 181.8278,
      "eval_samples_per_second": 99.055,
      "eval_steps_per_second": 6.193,
      "step": 89000
    },
    {
      "epoch": 9.584544182542245,
      "grad_norm": 0.8806051015853882,
      "learning_rate": 2.5199870703587972e-05,
      "loss": 3.1196,
      "step": 89050
    },
    {
      "epoch": 9.589925734581854,
      "grad_norm": 0.8471317291259766,
      "learning_rate": 2.4876629673526557e-05,
      "loss": 3.1425,
      "step": 89100
    },
    {
      "epoch": 9.59530728662146,
      "grad_norm": 0.829846203327179,
      "learning_rate": 2.455338864346514e-05,
      "loss": 3.1334,
      "step": 89150
    },
    {
      "epoch": 9.60068883866107,
      "grad_norm": 0.8600969314575195,
      "learning_rate": 2.423014761340373e-05,
      "loss": 3.1355,
      "step": 89200
    },
    {
      "epoch": 9.606070390700678,
      "grad_norm": 0.9080954790115356,
      "learning_rate": 2.3906906583342307e-05,
      "loss": 3.1473,
      "step": 89250
    },
    {
      "epoch": 9.611451942740286,
      "grad_norm": 0.8821889758110046,
      "learning_rate": 2.3583665553280895e-05,
      "loss": 3.149,
      "step": 89300
    },
    {
      "epoch": 9.616833494779895,
      "grad_norm": 0.860896110534668,
      "learning_rate": 2.326042452321948e-05,
      "loss": 3.1276,
      "step": 89350
    },
    {
      "epoch": 9.622215046819504,
      "grad_norm": 0.8885331749916077,
      "learning_rate": 2.2937183493158064e-05,
      "loss": 3.1219,
      "step": 89400
    },
    {
      "epoch": 9.62759659885911,
      "grad_norm": 0.8656351566314697,
      "learning_rate": 2.2613942463096648e-05,
      "loss": 3.1493,
      "step": 89450
    },
    {
      "epoch": 9.632978150898719,
      "grad_norm": 0.870037853717804,
      "learning_rate": 2.229070143303523e-05,
      "loss": 3.1246,
      "step": 89500
    },
    {
      "epoch": 9.638359702938327,
      "grad_norm": 0.8361915946006775,
      "learning_rate": 2.1967460402973814e-05,
      "loss": 3.1311,
      "step": 89550
    },
    {
      "epoch": 9.643741254977936,
      "grad_norm": 0.8589765429496765,
      "learning_rate": 2.1644219372912398e-05,
      "loss": 3.1252,
      "step": 89600
    },
    {
      "epoch": 9.649122807017545,
      "grad_norm": 0.8745176196098328,
      "learning_rate": 2.1320978342850986e-05,
      "loss": 3.1278,
      "step": 89650
    },
    {
      "epoch": 9.654504359057151,
      "grad_norm": 0.8605846762657166,
      "learning_rate": 2.099773731278957e-05,
      "loss": 3.1462,
      "step": 89700
    },
    {
      "epoch": 9.65988591109676,
      "grad_norm": 0.8302273154258728,
      "learning_rate": 2.0674496282728152e-05,
      "loss": 3.1527,
      "step": 89750
    },
    {
      "epoch": 9.665267463136368,
      "grad_norm": 0.8520982265472412,
      "learning_rate": 2.0351255252666736e-05,
      "loss": 3.1221,
      "step": 89800
    },
    {
      "epoch": 9.670649015175977,
      "grad_norm": 0.8517409563064575,
      "learning_rate": 2.002801422260532e-05,
      "loss": 3.1297,
      "step": 89850
    },
    {
      "epoch": 9.676030567215586,
      "grad_norm": 0.8885224461555481,
      "learning_rate": 1.9704773192543905e-05,
      "loss": 3.123,
      "step": 89900
    },
    {
      "epoch": 9.681412119255192,
      "grad_norm": 0.8758842945098877,
      "learning_rate": 1.938153216248249e-05,
      "loss": 3.1115,
      "step": 89950
    },
    {
      "epoch": 9.6867936712948,
      "grad_norm": 0.8573728203773499,
      "learning_rate": 1.905829113242107e-05,
      "loss": 3.148,
      "step": 90000
    },
    {
      "epoch": 9.6867936712948,
      "eval_accuracy": 0.3941756184875496,
      "eval_loss": 3.304328680038452,
      "eval_runtime": 181.39,
      "eval_samples_per_second": 99.294,
      "eval_steps_per_second": 6.208,
      "step": 90000
    },
    {
      "epoch": 9.69217522333441,
      "grad_norm": 0.9495829343795776,
      "learning_rate": 1.8735050102359655e-05,
      "loss": 3.1385,
      "step": 90050
    },
    {
      "epoch": 9.697556775374018,
      "grad_norm": 0.8677942156791687,
      "learning_rate": 1.8411809072298243e-05,
      "loss": 3.1659,
      "step": 90100
    },
    {
      "epoch": 9.702938327413626,
      "grad_norm": 0.8478468656539917,
      "learning_rate": 1.8088568042236828e-05,
      "loss": 3.1357,
      "step": 90150
    },
    {
      "epoch": 9.708319879453235,
      "grad_norm": 0.8803367614746094,
      "learning_rate": 1.776532701217541e-05,
      "loss": 3.138,
      "step": 90200
    },
    {
      "epoch": 9.713701431492842,
      "grad_norm": 0.9188342094421387,
      "learning_rate": 1.7442085982113997e-05,
      "loss": 3.1397,
      "step": 90250
    },
    {
      "epoch": 9.71908298353245,
      "grad_norm": 0.8881900906562805,
      "learning_rate": 1.7118844952052578e-05,
      "loss": 3.1317,
      "step": 90300
    },
    {
      "epoch": 9.724464535572059,
      "grad_norm": 0.8622229099273682,
      "learning_rate": 1.6795603921991162e-05,
      "loss": 3.1496,
      "step": 90350
    },
    {
      "epoch": 9.729846087611667,
      "grad_norm": 0.8497686982154846,
      "learning_rate": 1.6472362891929747e-05,
      "loss": 3.1379,
      "step": 90400
    },
    {
      "epoch": 9.735227639651276,
      "grad_norm": 0.8307311534881592,
      "learning_rate": 1.614912186186833e-05,
      "loss": 3.1136,
      "step": 90450
    },
    {
      "epoch": 9.740609191690883,
      "grad_norm": 0.8386715650558472,
      "learning_rate": 1.5825880831806916e-05,
      "loss": 3.1255,
      "step": 90500
    },
    {
      "epoch": 9.745990743730491,
      "grad_norm": 0.8816338181495667,
      "learning_rate": 1.55026398017455e-05,
      "loss": 3.1297,
      "step": 90550
    },
    {
      "epoch": 9.7513722957701,
      "grad_norm": 0.8843310475349426,
      "learning_rate": 1.5179398771684085e-05,
      "loss": 3.1235,
      "step": 90600
    },
    {
      "epoch": 9.756753847809708,
      "grad_norm": 0.8617357611656189,
      "learning_rate": 1.485615774162267e-05,
      "loss": 3.1084,
      "step": 90650
    },
    {
      "epoch": 9.762135399849317,
      "grad_norm": 0.8439122438430786,
      "learning_rate": 1.4532916711561252e-05,
      "loss": 3.1341,
      "step": 90700
    },
    {
      "epoch": 9.767516951888926,
      "grad_norm": 0.8367996215820312,
      "learning_rate": 1.4209675681499837e-05,
      "loss": 3.1322,
      "step": 90750
    },
    {
      "epoch": 9.772898503928532,
      "grad_norm": 0.8703616857528687,
      "learning_rate": 1.3886434651438423e-05,
      "loss": 3.127,
      "step": 90800
    },
    {
      "epoch": 9.77828005596814,
      "grad_norm": 0.8630653619766235,
      "learning_rate": 1.3563193621377006e-05,
      "loss": 3.144,
      "step": 90850
    },
    {
      "epoch": 9.78366160800775,
      "grad_norm": 0.8248385190963745,
      "learning_rate": 1.323995259131559e-05,
      "loss": 3.13,
      "step": 90900
    },
    {
      "epoch": 9.789043160047358,
      "grad_norm": 0.8596407175064087,
      "learning_rate": 1.2916711561254173e-05,
      "loss": 3.1348,
      "step": 90950
    },
    {
      "epoch": 9.794424712086967,
      "grad_norm": 0.8804730772972107,
      "learning_rate": 1.2599935351793986e-05,
      "loss": 3.1242,
      "step": 91000
    },
    {
      "epoch": 9.794424712086967,
      "eval_accuracy": 0.39443986231071443,
      "eval_loss": 3.302253007888794,
      "eval_runtime": 181.6654,
      "eval_samples_per_second": 99.144,
      "eval_steps_per_second": 6.198,
      "step": 91000
    },
    {
      "epoch": 9.799806264126573,
      "grad_norm": 0.8498719930648804,
      "learning_rate": 1.227669432173257e-05,
      "loss": 3.1434,
      "step": 91050
    },
    {
      "epoch": 9.805187816166182,
      "grad_norm": 0.8903072476387024,
      "learning_rate": 1.1953453291671153e-05,
      "loss": 3.1455,
      "step": 91100
    },
    {
      "epoch": 9.81056936820579,
      "grad_norm": 0.8415913581848145,
      "learning_rate": 1.163021226160974e-05,
      "loss": 3.1258,
      "step": 91150
    },
    {
      "epoch": 9.815950920245399,
      "grad_norm": 0.9075040221214294,
      "learning_rate": 1.1306971231548324e-05,
      "loss": 3.1432,
      "step": 91200
    },
    {
      "epoch": 9.821332472285007,
      "grad_norm": 0.8513578772544861,
      "learning_rate": 1.0983730201486907e-05,
      "loss": 3.1293,
      "step": 91250
    },
    {
      "epoch": 9.826714024324616,
      "grad_norm": 0.8302252888679504,
      "learning_rate": 1.0660489171425493e-05,
      "loss": 3.1491,
      "step": 91300
    },
    {
      "epoch": 9.832095576364223,
      "grad_norm": 0.849096953868866,
      "learning_rate": 1.0337248141364076e-05,
      "loss": 3.1365,
      "step": 91350
    },
    {
      "epoch": 9.837477128403831,
      "grad_norm": 0.8712232112884521,
      "learning_rate": 1.001400711130266e-05,
      "loss": 3.1265,
      "step": 91400
    },
    {
      "epoch": 9.84285868044344,
      "grad_norm": 0.8380471467971802,
      "learning_rate": 9.690766081241245e-06,
      "loss": 3.1358,
      "step": 91450
    },
    {
      "epoch": 9.848240232483048,
      "grad_norm": 0.8673737049102783,
      "learning_rate": 9.367525051179828e-06,
      "loss": 3.1296,
      "step": 91500
    },
    {
      "epoch": 9.853621784522657,
      "grad_norm": 0.8602688908576965,
      "learning_rate": 9.044284021118414e-06,
      "loss": 3.1279,
      "step": 91550
    },
    {
      "epoch": 9.859003336562264,
      "grad_norm": 0.876515805721283,
      "learning_rate": 8.721042991056998e-06,
      "loss": 3.1416,
      "step": 91600
    },
    {
      "epoch": 9.864384888601872,
      "grad_norm": 0.8537608981132507,
      "learning_rate": 8.397801960995581e-06,
      "loss": 3.1251,
      "step": 91650
    },
    {
      "epoch": 9.869766440641481,
      "grad_norm": 0.8682351112365723,
      "learning_rate": 8.074560930934166e-06,
      "loss": 3.1111,
      "step": 91700
    },
    {
      "epoch": 9.87514799268109,
      "grad_norm": 0.8808197379112244,
      "learning_rate": 7.75131990087275e-06,
      "loss": 3.1179,
      "step": 91750
    },
    {
      "epoch": 9.880529544720698,
      "grad_norm": 0.8611780405044556,
      "learning_rate": 7.428078870811335e-06,
      "loss": 3.1311,
      "step": 91800
    },
    {
      "epoch": 9.885911096760307,
      "grad_norm": 0.8665386438369751,
      "learning_rate": 7.104837840749918e-06,
      "loss": 3.136,
      "step": 91850
    },
    {
      "epoch": 9.891292648799913,
      "grad_norm": 0.9230782389640808,
      "learning_rate": 6.781596810688503e-06,
      "loss": 3.1406,
      "step": 91900
    },
    {
      "epoch": 9.896674200839522,
      "grad_norm": 0.877312421798706,
      "learning_rate": 6.458355780627086e-06,
      "loss": 3.1363,
      "step": 91950
    },
    {
      "epoch": 9.90205575287913,
      "grad_norm": 0.8286560773849487,
      "learning_rate": 6.135114750565672e-06,
      "loss": 3.1324,
      "step": 92000
    },
    {
      "epoch": 9.90205575287913,
      "eval_accuracy": 0.39467466120128153,
      "eval_loss": 3.300579071044922,
      "eval_runtime": 181.7248,
      "eval_samples_per_second": 99.111,
      "eval_steps_per_second": 6.196,
      "step": 92000
    },
    {
      "epoch": 9.907437304918739,
      "grad_norm": 0.8866351842880249,
      "learning_rate": 5.811873720504255e-06,
      "loss": 3.1394,
      "step": 92050
    },
    {
      "epoch": 9.912818856958348,
      "grad_norm": 0.8790309429168701,
      "learning_rate": 5.48863269044284e-06,
      "loss": 3.1355,
      "step": 92100
    },
    {
      "epoch": 9.918200408997954,
      "grad_norm": 0.9022679328918457,
      "learning_rate": 5.1653916603814235e-06,
      "loss": 3.1325,
      "step": 92150
    },
    {
      "epoch": 9.923581961037563,
      "grad_norm": 0.8517763614654541,
      "learning_rate": 4.842150630320008e-06,
      "loss": 3.127,
      "step": 92200
    },
    {
      "epoch": 9.928963513077171,
      "grad_norm": 0.8727012276649475,
      "learning_rate": 4.5189096002585925e-06,
      "loss": 3.1229,
      "step": 92250
    },
    {
      "epoch": 9.93434506511678,
      "grad_norm": 0.853391170501709,
      "learning_rate": 4.195668570197177e-06,
      "loss": 3.1223,
      "step": 92300
    },
    {
      "epoch": 9.939726617156388,
      "grad_norm": 0.8921687006950378,
      "learning_rate": 3.872427540135761e-06,
      "loss": 3.1264,
      "step": 92350
    },
    {
      "epoch": 9.945108169195997,
      "grad_norm": 0.8760066032409668,
      "learning_rate": 3.549186510074345e-06,
      "loss": 3.129,
      "step": 92400
    },
    {
      "epoch": 9.950489721235604,
      "grad_norm": 0.8418174982070923,
      "learning_rate": 3.2259454800129297e-06,
      "loss": 3.138,
      "step": 92450
    },
    {
      "epoch": 9.955871273275212,
      "grad_norm": 0.8595894575119019,
      "learning_rate": 2.9027044499515133e-06,
      "loss": 3.1398,
      "step": 92500
    },
    {
      "epoch": 9.961252825314821,
      "grad_norm": 0.8547601699829102,
      "learning_rate": 2.5794634198900982e-06,
      "loss": 3.1338,
      "step": 92550
    },
    {
      "epoch": 9.96663437735443,
      "grad_norm": 0.8525407314300537,
      "learning_rate": 2.256222389828682e-06,
      "loss": 3.1222,
      "step": 92600
    },
    {
      "epoch": 9.972015929394038,
      "grad_norm": 0.8325614333152771,
      "learning_rate": 1.9329813597672664e-06,
      "loss": 3.1525,
      "step": 92650
    },
    {
      "epoch": 9.977397481433645,
      "grad_norm": 0.8448876738548279,
      "learning_rate": 1.6097403297058506e-06,
      "loss": 3.1409,
      "step": 92700
    },
    {
      "epoch": 9.982779033473253,
      "grad_norm": 0.8599051237106323,
      "learning_rate": 1.2864992996444347e-06,
      "loss": 3.1632,
      "step": 92750
    },
    {
      "epoch": 9.988160585512862,
      "grad_norm": 0.8988490700721741,
      "learning_rate": 9.63258269583019e-07,
      "loss": 3.1453,
      "step": 92800
    },
    {
      "epoch": 9.99354213755247,
      "grad_norm": 0.8121970295906067,
      "learning_rate": 6.400172395216032e-07,
      "loss": 3.108,
      "step": 92850
    },
    {
      "epoch": 9.998923689592079,
      "grad_norm": 0.8757498264312744,
      "learning_rate": 3.167762094601874e-07,
      "loss": 3.1224,
      "step": 92900
    },
    {
      "epoch": 10.0,
      "step": 92910,
      "total_flos": 7.7681859821568e+17,
      "train_loss": 3.4581149110803304,
      "train_runtime": 79999.4738,
      "train_samples_per_second": 37.163,
      "train_steps_per_second": 1.161
    }
  ],
  "logging_steps": 50,
  "max_steps": 92910,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 10,
  "save_steps": 10000,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 7.7681859821568e+17,
  "train_batch_size": 32,
  "trial_name": null,
  "trial_params": null
}