{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.333901761331791,
  "eval_steps": 500,
  "global_step": 70000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.00023850125809413643,
      "grad_norm": 1.5476292371749878,
      "learning_rate": 0.0001,
      "loss": 9.8285,
      "num_input_tokens_seen": 13107200,
      "step": 50
    },
    {
      "epoch": 0.00047700251618827287,
      "grad_norm": 0.47720426321029663,
      "learning_rate": 0.0002,
      "loss": 7.964,
      "num_input_tokens_seen": 26214400,
      "step": 100
    },
    {
      "epoch": 0.0007155037742824094,
      "grad_norm": 0.8443030714988708,
      "learning_rate": 0.0003,
      "loss": 7.0452,
      "num_input_tokens_seen": 39321600,
      "step": 150
    },
    {
      "epoch": 0.0009540050323765457,
      "grad_norm": 0.5895723104476929,
      "learning_rate": 0.0004,
      "loss": 6.355,
      "num_input_tokens_seen": 52428800,
      "step": 200
    },
    {
      "epoch": 0.0011925062904706823,
      "grad_norm": 0.8343789577484131,
      "learning_rate": 0.0005,
      "loss": 5.8716,
      "num_input_tokens_seen": 65536000,
      "step": 250
    },
    {
      "epoch": 0.0014310075485648188,
      "grad_norm": 0.5747953057289124,
      "learning_rate": 0.0006,
      "loss": 5.5086,
      "num_input_tokens_seen": 78643200,
      "step": 300
    },
    {
      "epoch": 0.0016695088066589552,
      "grad_norm": 0.8383421301841736,
      "learning_rate": 0.0007,
      "loss": 5.2217,
      "num_input_tokens_seen": 91750400,
      "step": 350
    },
    {
      "epoch": 0.0019080100647530915,
      "grad_norm": 0.5696113109588623,
      "learning_rate": 0.0008,
      "loss": 4.9683,
      "num_input_tokens_seen": 104857600,
      "step": 400
    },
    {
      "epoch": 0.002146511322847228,
      "grad_norm": 0.5431691408157349,
      "learning_rate": 0.0009000000000000001,
      "loss": 4.7629,
      "num_input_tokens_seen": 117964800,
      "step": 450
    },
    {
      "epoch": 0.0023850125809413646,
      "grad_norm": 0.4571855664253235,
      "learning_rate": 0.001,
      "loss": 4.5284,
      "num_input_tokens_seen": 131072000,
      "step": 500
    },
    {
      "epoch": 0.0023850125809413646,
      "eval_loss": 4.309167385101318,
      "eval_runtime": 53.3891,
      "eval_samples_per_second": 93.652,
      "eval_steps_per_second": 23.413,
      "num_input_tokens_seen": 131072000,
      "step": 500
    },
    {
      "epoch": 0.002623513839035501,
      "grad_norm": 0.43464773893356323,
      "learning_rate": 0.001,
      "loss": 4.3379,
      "num_input_tokens_seen": 144179200,
      "step": 550
    },
    {
      "epoch": 0.0028620150971296375,
      "grad_norm": 0.49611660838127136,
      "learning_rate": 0.001,
      "loss": 4.1712,
      "num_input_tokens_seen": 157286400,
      "step": 600
    },
    {
      "epoch": 0.0031005163552237738,
      "grad_norm": 0.4060957729816437,
      "learning_rate": 0.001,
      "loss": 4.0436,
      "num_input_tokens_seen": 170393600,
      "step": 650
    },
    {
      "epoch": 0.0033390176133179105,
      "grad_norm": 0.37300577759742737,
      "learning_rate": 0.001,
      "loss": 3.9582,
      "num_input_tokens_seen": 183500800,
      "step": 700
    },
    {
      "epoch": 0.0035775188714120467,
      "grad_norm": 0.4117021858692169,
      "learning_rate": 0.001,
      "loss": 3.8674,
      "num_input_tokens_seen": 196608000,
      "step": 750
    },
    {
      "epoch": 0.003816020129506183,
      "grad_norm": 0.3335980772972107,
      "learning_rate": 0.001,
      "loss": 3.8031,
      "num_input_tokens_seen": 209715200,
      "step": 800
    },
    {
      "epoch": 0.004054521387600319,
      "grad_norm": 0.35943159461021423,
      "learning_rate": 0.001,
      "loss": 3.7534,
      "num_input_tokens_seen": 222822400,
      "step": 850
    },
    {
      "epoch": 0.004293022645694456,
      "grad_norm": 0.40000948309898376,
      "learning_rate": 0.001,
      "loss": 3.6867,
      "num_input_tokens_seen": 235929600,
      "step": 900
    },
    {
      "epoch": 0.0045315239037885926,
      "grad_norm": 0.3165877163410187,
      "learning_rate": 0.001,
      "loss": 3.6565,
      "num_input_tokens_seen": 249036800,
      "step": 950
    },
    {
      "epoch": 0.004770025161882729,
      "grad_norm": 0.3687070906162262,
      "learning_rate": 0.001,
      "loss": 3.6005,
      "num_input_tokens_seen": 262144000,
      "step": 1000
    },
    {
      "epoch": 0.004770025161882729,
      "eval_loss": 3.4853296279907227,
      "eval_runtime": 52.477,
      "eval_samples_per_second": 95.28,
      "eval_steps_per_second": 23.82,
      "num_input_tokens_seen": 262144000,
      "step": 1000
    },
    {
      "epoch": 0.005008526419976865,
      "grad_norm": 0.32389721274375916,
      "learning_rate": 0.001,
      "loss": 3.5663,
      "num_input_tokens_seen": 275251200,
      "step": 1050
    },
    {
      "epoch": 0.005247027678071002,
      "grad_norm": 0.3202049434185028,
      "learning_rate": 0.001,
      "loss": 3.5376,
      "num_input_tokens_seen": 288358400,
      "step": 1100
    },
    {
      "epoch": 0.005485528936165138,
      "grad_norm": 0.30287981033325195,
      "learning_rate": 0.001,
      "loss": 3.5135,
      "num_input_tokens_seen": 301465600,
      "step": 1150
    },
    {
      "epoch": 0.005724030194259275,
      "grad_norm": 0.3624540865421295,
      "learning_rate": 0.001,
      "loss": 3.4814,
      "num_input_tokens_seen": 314572800,
      "step": 1200
    },
    {
      "epoch": 0.005962531452353411,
      "grad_norm": 0.30017992854118347,
      "learning_rate": 0.001,
      "loss": 3.4476,
      "num_input_tokens_seen": 327680000,
      "step": 1250
    },
    {
      "epoch": 0.0062010327104475476,
      "grad_norm": 0.3169330060482025,
      "learning_rate": 0.001,
      "loss": 3.4179,
      "num_input_tokens_seen": 340787200,
      "step": 1300
    },
    {
      "epoch": 0.006439533968541684,
      "grad_norm": 0.2730589210987091,
      "learning_rate": 0.001,
      "loss": 3.4074,
      "num_input_tokens_seen": 353894400,
      "step": 1350
    },
    {
      "epoch": 0.006678035226635821,
      "grad_norm": 0.2927146553993225,
      "learning_rate": 0.001,
      "loss": 3.3757,
      "num_input_tokens_seen": 367001600,
      "step": 1400
    },
    {
      "epoch": 0.006916536484729957,
      "grad_norm": 0.34230080246925354,
      "learning_rate": 0.001,
      "loss": 3.3502,
      "num_input_tokens_seen": 380108800,
      "step": 1450
    },
    {
      "epoch": 0.007155037742824093,
      "grad_norm": 0.30472344160079956,
      "learning_rate": 0.001,
      "loss": 3.3639,
      "num_input_tokens_seen": 393216000,
      "step": 1500
    },
    {
      "epoch": 0.007155037742824093,
      "eval_loss": 3.2486374378204346,
      "eval_runtime": 52.482,
      "eval_samples_per_second": 95.271,
      "eval_steps_per_second": 23.818,
      "num_input_tokens_seen": 393216000,
      "step": 1500
    },
    {
      "epoch": 0.00739353900091823,
      "grad_norm": 0.26124337315559387,
      "learning_rate": 0.001,
      "loss": 3.3521,
      "num_input_tokens_seen": 406323200,
      "step": 1550
    },
    {
      "epoch": 0.007632040259012366,
      "grad_norm": 0.29117754101753235,
      "learning_rate": 0.001,
      "loss": 3.315,
      "num_input_tokens_seen": 419430400,
      "step": 1600
    },
    {
      "epoch": 0.007870541517106503,
      "grad_norm": 0.24080802500247955,
      "learning_rate": 0.001,
      "loss": 3.3103,
      "num_input_tokens_seen": 432537600,
      "step": 1650
    },
    {
      "epoch": 0.008109042775200638,
      "grad_norm": 0.29982003569602966,
      "learning_rate": 0.001,
      "loss": 3.2926,
      "num_input_tokens_seen": 445644800,
      "step": 1700
    },
    {
      "epoch": 0.008347544033294775,
      "grad_norm": 0.26795274019241333,
      "learning_rate": 0.001,
      "loss": 3.2843,
      "num_input_tokens_seen": 458752000,
      "step": 1750
    },
    {
      "epoch": 0.008586045291388912,
      "grad_norm": 0.252774715423584,
      "learning_rate": 0.001,
      "loss": 3.274,
      "num_input_tokens_seen": 471859200,
      "step": 1800
    },
    {
      "epoch": 0.008824546549483048,
      "grad_norm": 0.25432145595550537,
      "learning_rate": 0.001,
      "loss": 3.2533,
      "num_input_tokens_seen": 484966400,
      "step": 1850
    },
    {
      "epoch": 0.009063047807577185,
      "grad_norm": 0.25918108224868774,
      "learning_rate": 0.001,
      "loss": 3.2501,
      "num_input_tokens_seen": 498073600,
      "step": 1900
    },
    {
      "epoch": 0.009301549065671322,
      "grad_norm": 0.2482348382472992,
      "learning_rate": 0.001,
      "loss": 3.2541,
      "num_input_tokens_seen": 511180800,
      "step": 1950
    },
    {
      "epoch": 0.009540050323765458,
      "grad_norm": 0.2615273594856262,
      "learning_rate": 0.001,
      "loss": 3.2218,
      "num_input_tokens_seen": 524288000,
      "step": 2000
    },
    {
      "epoch": 0.009540050323765458,
      "eval_loss": 3.1193039417266846,
      "eval_runtime": 52.7955,
      "eval_samples_per_second": 94.705,
      "eval_steps_per_second": 23.676,
      "num_input_tokens_seen": 524288000,
      "step": 2000
    },
    {
      "epoch": 0.009778551581859595,
      "grad_norm": 0.2637729048728943,
      "learning_rate": 0.001,
      "loss": 3.2285,
      "num_input_tokens_seen": 537395200,
      "step": 2050
    },
    {
      "epoch": 0.01001705283995373,
      "grad_norm": 0.23936080932617188,
      "learning_rate": 0.001,
      "loss": 3.2119,
      "num_input_tokens_seen": 550502400,
      "step": 2100
    },
    {
      "epoch": 0.010255554098047867,
      "grad_norm": 0.2469020038843155,
      "learning_rate": 0.001,
      "loss": 3.2021,
      "num_input_tokens_seen": 563609600,
      "step": 2150
    },
    {
      "epoch": 0.010494055356142003,
      "grad_norm": 0.2304004430770874,
      "learning_rate": 0.001,
      "loss": 3.1874,
      "num_input_tokens_seen": 576716800,
      "step": 2200
    },
    {
      "epoch": 0.01073255661423614,
      "grad_norm": 0.232864648103714,
      "learning_rate": 0.001,
      "loss": 3.1897,
      "num_input_tokens_seen": 589824000,
      "step": 2250
    },
    {
      "epoch": 0.010971057872330277,
      "grad_norm": 0.23161470890045166,
      "learning_rate": 0.001,
      "loss": 3.1689,
      "num_input_tokens_seen": 602931200,
      "step": 2300
    },
    {
      "epoch": 0.011209559130424413,
      "grad_norm": 0.20868408679962158,
      "learning_rate": 0.001,
      "loss": 3.1615,
      "num_input_tokens_seen": 616038400,
      "step": 2350
    },
    {
      "epoch": 0.01144806038851855,
      "grad_norm": 0.23374608159065247,
      "learning_rate": 0.001,
      "loss": 3.1556,
      "num_input_tokens_seen": 629145600,
      "step": 2400
    },
    {
      "epoch": 0.011686561646612685,
      "grad_norm": 0.21716611087322235,
      "learning_rate": 0.001,
      "loss": 3.1463,
      "num_input_tokens_seen": 642252800,
      "step": 2450
    },
    {
      "epoch": 0.011925062904706822,
      "grad_norm": 0.23689670860767365,
      "learning_rate": 0.001,
      "loss": 3.1433,
      "num_input_tokens_seen": 655360000,
      "step": 2500
    },
    {
      "epoch": 0.011925062904706822,
      "eval_loss": 3.040046215057373,
      "eval_runtime": 52.9109,
      "eval_samples_per_second": 94.498,
      "eval_steps_per_second": 23.625,
      "num_input_tokens_seen": 655360000,
      "step": 2500
    },
    {
      "epoch": 0.012163564162800958,
      "grad_norm": 0.2245575189590454,
      "learning_rate": 0.001,
      "loss": 3.1445,
      "num_input_tokens_seen": 668467200,
      "step": 2550
    },
    {
      "epoch": 0.012402065420895095,
      "grad_norm": 0.20992259681224823,
      "learning_rate": 0.001,
      "loss": 3.1447,
      "num_input_tokens_seen": 681574400,
      "step": 2600
    },
    {
      "epoch": 0.012640566678989232,
      "grad_norm": 0.21792201697826385,
      "learning_rate": 0.001,
      "loss": 3.1323,
      "num_input_tokens_seen": 694681600,
      "step": 2650
    },
    {
      "epoch": 0.012879067937083368,
      "grad_norm": 0.243458554148674,
      "learning_rate": 0.001,
      "loss": 3.1084,
      "num_input_tokens_seen": 707788800,
      "step": 2700
    },
    {
      "epoch": 0.013117569195177505,
      "grad_norm": 0.21190515160560608,
      "learning_rate": 0.001,
      "loss": 3.1202,
      "num_input_tokens_seen": 720896000,
      "step": 2750
    },
    {
      "epoch": 0.013356070453271642,
      "grad_norm": 0.2461613118648529,
      "learning_rate": 0.001,
      "loss": 3.1007,
      "num_input_tokens_seen": 734003200,
      "step": 2800
    },
    {
      "epoch": 0.013594571711365777,
      "grad_norm": 0.1976248323917389,
      "learning_rate": 0.001,
      "loss": 3.1079,
      "num_input_tokens_seen": 747110400,
      "step": 2850
    },
    {
      "epoch": 0.013833072969459913,
      "grad_norm": 0.22097842395305634,
      "learning_rate": 0.001,
      "loss": 3.0846,
      "num_input_tokens_seen": 760217600,
      "step": 2900
    },
    {
      "epoch": 0.01407157422755405,
      "grad_norm": 0.20581132173538208,
      "learning_rate": 0.001,
      "loss": 3.0995,
      "num_input_tokens_seen": 773324800,
      "step": 2950
    },
    {
      "epoch": 0.014310075485648187,
      "grad_norm": 0.19790051877498627,
      "learning_rate": 0.001,
      "loss": 3.0977,
      "num_input_tokens_seen": 786432000,
      "step": 3000
    },
    {
      "epoch": 0.014310075485648187,
      "eval_loss": 2.9804909229278564,
      "eval_runtime": 53.1278,
      "eval_samples_per_second": 94.113,
      "eval_steps_per_second": 23.528,
      "num_input_tokens_seen": 786432000,
      "step": 3000
    },
    {
      "epoch": 0.014548576743742323,
      "grad_norm": 0.20328116416931152,
      "learning_rate": 0.001,
      "loss": 3.0872,
      "num_input_tokens_seen": 799539200,
      "step": 3050
    },
    {
      "epoch": 0.01478707800183646,
      "grad_norm": 0.21318025887012482,
      "learning_rate": 0.001,
      "loss": 3.0861,
      "num_input_tokens_seen": 812646400,
      "step": 3100
    },
    {
      "epoch": 0.015025579259930597,
      "grad_norm": 0.22170069813728333,
      "learning_rate": 0.001,
      "loss": 3.0618,
      "num_input_tokens_seen": 825753600,
      "step": 3150
    },
    {
      "epoch": 0.015264080518024732,
      "grad_norm": 0.21292312443256378,
      "learning_rate": 0.001,
      "loss": 3.0567,
      "num_input_tokens_seen": 838860800,
      "step": 3200
    },
    {
      "epoch": 0.015502581776118868,
      "grad_norm": 0.2331959754228592,
      "learning_rate": 0.001,
      "loss": 3.0714,
      "num_input_tokens_seen": 851968000,
      "step": 3250
    },
    {
      "epoch": 0.015741083034213007,
      "grad_norm": 0.19236011803150177,
      "learning_rate": 0.001,
      "loss": 3.059,
      "num_input_tokens_seen": 865075200,
      "step": 3300
    },
    {
      "epoch": 0.015979584292307142,
      "grad_norm": 0.19991376996040344,
      "learning_rate": 0.001,
      "loss": 3.0542,
      "num_input_tokens_seen": 878182400,
      "step": 3350
    },
    {
      "epoch": 0.016218085550401277,
      "grad_norm": 0.2042934149503708,
      "learning_rate": 0.001,
      "loss": 3.0517,
      "num_input_tokens_seen": 891289600,
      "step": 3400
    },
    {
      "epoch": 0.016456586808495415,
      "grad_norm": 0.19254428148269653,
      "learning_rate": 0.001,
      "loss": 3.0415,
      "num_input_tokens_seen": 904396800,
      "step": 3450
    },
    {
      "epoch": 0.01669508806658955,
      "grad_norm": 0.19211998581886292,
      "learning_rate": 0.001,
      "loss": 3.0253,
      "num_input_tokens_seen": 917504000,
      "step": 3500
    },
    {
      "epoch": 0.01669508806658955,
      "eval_loss": 2.937037944793701,
      "eval_runtime": 52.6773,
      "eval_samples_per_second": 94.918,
      "eval_steps_per_second": 23.729,
      "num_input_tokens_seen": 917504000,
      "step": 3500
    },
    {
      "epoch": 0.01693358932468369,
      "grad_norm": 0.19596482813358307,
      "learning_rate": 0.001,
      "loss": 3.053,
      "num_input_tokens_seen": 930611200,
      "step": 3550
    },
    {
      "epoch": 0.017172090582777823,
      "grad_norm": 0.20214103162288666,
      "learning_rate": 0.001,
      "loss": 3.0385,
      "num_input_tokens_seen": 943718400,
      "step": 3600
    },
    {
      "epoch": 0.017410591840871962,
      "grad_norm": 0.18580283224582672,
      "learning_rate": 0.001,
      "loss": 3.0354,
      "num_input_tokens_seen": 956825600,
      "step": 3650
    },
    {
      "epoch": 0.017649093098966097,
      "grad_norm": 0.18928515911102295,
      "learning_rate": 0.001,
      "loss": 3.0292,
      "num_input_tokens_seen": 969932800,
      "step": 3700
    },
    {
      "epoch": 0.017887594357060232,
      "grad_norm": 0.19066137075424194,
      "learning_rate": 0.001,
      "loss": 3.0206,
      "num_input_tokens_seen": 983040000,
      "step": 3750
    },
    {
      "epoch": 0.01812609561515437,
      "grad_norm": 0.20291416347026825,
      "learning_rate": 0.001,
      "loss": 3.0254,
      "num_input_tokens_seen": 996147200,
      "step": 3800
    },
    {
      "epoch": 0.018364596873248505,
      "grad_norm": 0.19991491734981537,
      "learning_rate": 0.001,
      "loss": 3.0212,
      "num_input_tokens_seen": 1009254400,
      "step": 3850
    },
    {
      "epoch": 0.018603098131342644,
      "grad_norm": 0.19553051888942719,
      "learning_rate": 0.001,
      "loss": 3.0229,
      "num_input_tokens_seen": 1022361600,
      "step": 3900
    },
    {
      "epoch": 0.01884159938943678,
      "grad_norm": 0.19302095472812653,
      "learning_rate": 0.001,
      "loss": 3.0137,
      "num_input_tokens_seen": 1035468800,
      "step": 3950
    },
    {
      "epoch": 0.019080100647530917,
      "grad_norm": 0.18680201470851898,
      "learning_rate": 0.001,
      "loss": 3.0106,
      "num_input_tokens_seen": 1048576000,
      "step": 4000
    },
    {
      "epoch": 0.019080100647530917,
      "eval_loss": 2.8984477519989014,
      "eval_runtime": 52.851,
      "eval_samples_per_second": 94.606,
      "eval_steps_per_second": 23.651,
      "num_input_tokens_seen": 1048576000,
      "step": 4000
    },
    {
      "epoch": 0.019318601905625052,
      "grad_norm": 0.18222174048423767,
      "learning_rate": 0.001,
      "loss": 3.0095,
      "num_input_tokens_seen": 1061683200,
      "step": 4050
    },
    {
      "epoch": 0.01955710316371919,
      "grad_norm": 0.1929137110710144,
      "learning_rate": 0.001,
      "loss": 3.0022,
      "num_input_tokens_seen": 1074790400,
      "step": 4100
    },
    {
      "epoch": 0.019795604421813325,
      "grad_norm": 0.19358602166175842,
      "learning_rate": 0.001,
      "loss": 2.9978,
      "num_input_tokens_seen": 1087897600,
      "step": 4150
    },
    {
      "epoch": 0.02003410567990746,
      "grad_norm": 0.19070614874362946,
      "learning_rate": 0.001,
      "loss": 3.0016,
      "num_input_tokens_seen": 1101004800,
      "step": 4200
    },
    {
      "epoch": 0.0202726069380016,
      "grad_norm": 0.17888160049915314,
      "learning_rate": 0.001,
      "loss": 2.9984,
      "num_input_tokens_seen": 1114112000,
      "step": 4250
    },
    {
      "epoch": 0.020511108196095734,
      "grad_norm": 0.1823708564043045,
      "learning_rate": 0.001,
      "loss": 3.004,
      "num_input_tokens_seen": 1127219200,
      "step": 4300
    },
    {
      "epoch": 0.020749609454189872,
      "grad_norm": 0.1753600388765335,
      "learning_rate": 0.001,
      "loss": 2.9814,
      "num_input_tokens_seen": 1140326400,
      "step": 4350
    },
    {
      "epoch": 0.020988110712284007,
      "grad_norm": 0.1710510551929474,
      "learning_rate": 0.001,
      "loss": 2.9597,
      "num_input_tokens_seen": 1153433600,
      "step": 4400
    },
    {
      "epoch": 0.021226611970378145,
      "grad_norm": 0.18727277219295502,
      "learning_rate": 0.001,
      "loss": 2.9695,
      "num_input_tokens_seen": 1166540800,
      "step": 4450
    },
    {
      "epoch": 0.02146511322847228,
      "grad_norm": 0.17773132026195526,
      "learning_rate": 0.001,
      "loss": 2.9664,
      "num_input_tokens_seen": 1179648000,
      "step": 4500
    },
    {
      "epoch": 0.02146511322847228,
      "eval_loss": 2.871137857437134,
      "eval_runtime": 51.4876,
      "eval_samples_per_second": 97.111,
      "eval_steps_per_second": 24.278,
      "num_input_tokens_seen": 1179648000,
      "step": 4500
    },
    {
      "epoch": 0.021703614486566415,
      "grad_norm": 0.1875799000263214,
      "learning_rate": 0.001,
      "loss": 2.9682,
      "num_input_tokens_seen": 1192755200,
      "step": 4550
    },
    {
      "epoch": 0.021942115744660554,
      "grad_norm": 0.18222226202487946,
      "learning_rate": 0.001,
      "loss": 2.9484,
      "num_input_tokens_seen": 1205862400,
      "step": 4600
    },
    {
      "epoch": 0.02218061700275469,
      "grad_norm": 0.191411092877388,
      "learning_rate": 0.001,
      "loss": 2.9637,
      "num_input_tokens_seen": 1218969600,
      "step": 4650
    },
    {
      "epoch": 0.022419118260848827,
      "grad_norm": 0.17608201503753662,
      "learning_rate": 0.001,
      "loss": 2.9792,
      "num_input_tokens_seen": 1232076800,
      "step": 4700
    },
    {
      "epoch": 0.022657619518942962,
      "grad_norm": 0.1718858927488327,
      "learning_rate": 0.001,
      "loss": 2.9674,
      "num_input_tokens_seen": 1245184000,
      "step": 4750
    },
    {
      "epoch": 0.0228961207770371,
      "grad_norm": 0.18428942561149597,
      "learning_rate": 0.001,
      "loss": 2.976,
      "num_input_tokens_seen": 1258291200,
      "step": 4800
    },
    {
      "epoch": 0.023134622035131235,
      "grad_norm": 0.16696259379386902,
      "learning_rate": 0.001,
      "loss": 2.9486,
      "num_input_tokens_seen": 1271398400,
      "step": 4850
    },
    {
      "epoch": 0.02337312329322537,
      "grad_norm": 0.18239040672779083,
      "learning_rate": 0.001,
      "loss": 2.956,
      "num_input_tokens_seen": 1284505600,
      "step": 4900
    },
    {
      "epoch": 0.02361162455131951,
      "grad_norm": 0.17167994379997253,
      "learning_rate": 0.001,
      "loss": 2.9449,
      "num_input_tokens_seen": 1297612800,
      "step": 4950
    },
    {
      "epoch": 0.023850125809413644,
      "grad_norm": 0.18532761931419373,
      "learning_rate": 0.001,
      "loss": 2.947,
      "num_input_tokens_seen": 1310720000,
      "step": 5000
    },
    {
      "epoch": 0.023850125809413644,
      "eval_loss": 2.8470754623413086,
      "eval_runtime": 51.04,
      "eval_samples_per_second": 97.962,
      "eval_steps_per_second": 24.491,
      "num_input_tokens_seen": 1310720000,
      "step": 5000
    },
    {
      "epoch": 0.024088627067507782,
      "grad_norm": 0.21697266399860382,
      "learning_rate": 0.001,
      "loss": 2.963,
      "num_input_tokens_seen": 1323827200,
      "step": 5050
    },
    {
      "epoch": 0.024327128325601917,
      "grad_norm": 0.17018833756446838,
      "learning_rate": 0.001,
      "loss": 2.9453,
      "num_input_tokens_seen": 1336934400,
      "step": 5100
    },
    {
      "epoch": 0.024565629583696055,
      "grad_norm": 0.17473167181015015,
      "learning_rate": 0.001,
      "loss": 2.9516,
      "num_input_tokens_seen": 1350041600,
      "step": 5150
    },
    {
      "epoch": 0.02480413084179019,
      "grad_norm": 0.18488293886184692,
      "learning_rate": 0.001,
      "loss": 2.9404,
      "num_input_tokens_seen": 1363148800,
      "step": 5200
    },
    {
      "epoch": 0.025042632099884325,
      "grad_norm": 0.17348967492580414,
      "learning_rate": 0.001,
      "loss": 2.9275,
      "num_input_tokens_seen": 1376256000,
      "step": 5250
    },
    {
      "epoch": 0.025281133357978464,
      "grad_norm": 0.16547563672065735,
      "learning_rate": 0.001,
      "loss": 2.9464,
      "num_input_tokens_seen": 1389363200,
      "step": 5300
    },
    {
      "epoch": 0.0255196346160726,
      "grad_norm": 0.17538361251354218,
      "learning_rate": 0.001,
      "loss": 2.94,
      "num_input_tokens_seen": 1402470400,
      "step": 5350
    },
    {
      "epoch": 0.025758135874166737,
      "grad_norm": 0.17068558931350708,
      "learning_rate": 0.001,
      "loss": 2.9382,
      "num_input_tokens_seen": 1415577600,
      "step": 5400
    },
    {
      "epoch": 0.025996637132260872,
      "grad_norm": 0.17389337718486786,
      "learning_rate": 0.001,
      "loss": 2.9254,
      "num_input_tokens_seen": 1428684800,
      "step": 5450
    },
    {
      "epoch": 0.02623513839035501,
      "grad_norm": 0.17620491981506348,
      "learning_rate": 0.001,
      "loss": 2.9221,
      "num_input_tokens_seen": 1441792000,
      "step": 5500
    },
    {
      "epoch": 0.02623513839035501,
      "eval_loss": 2.8246922492980957,
      "eval_runtime": 50.2832,
      "eval_samples_per_second": 99.437,
      "eval_steps_per_second": 24.859,
      "num_input_tokens_seen": 1441792000,
      "step": 5500
    },
    {
      "epoch": 0.026473639648449145,
      "grad_norm": 0.15889622271060944,
      "learning_rate": 0.001,
      "loss": 2.923,
      "num_input_tokens_seen": 1454899200,
      "step": 5550
    },
    {
      "epoch": 0.026712140906543284,
      "grad_norm": 0.17490123212337494,
      "learning_rate": 0.001,
      "loss": 2.9146,
      "num_input_tokens_seen": 1468006400,
      "step": 5600
    },
    {
      "epoch": 0.02695064216463742,
      "grad_norm": 0.17789559066295624,
      "learning_rate": 0.001,
      "loss": 2.9253,
      "num_input_tokens_seen": 1481113600,
      "step": 5650
    },
    {
      "epoch": 0.027189143422731554,
      "grad_norm": 0.17113780975341797,
      "learning_rate": 0.001,
      "loss": 2.9267,
      "num_input_tokens_seen": 1494220800,
      "step": 5700
    },
    {
      "epoch": 0.027427644680825692,
      "grad_norm": 0.1671907901763916,
      "learning_rate": 0.001,
      "loss": 2.9178,
      "num_input_tokens_seen": 1507328000,
      "step": 5750
    },
    {
      "epoch": 0.027666145938919827,
      "grad_norm": 0.17511603236198425,
      "learning_rate": 0.001,
      "loss": 2.9341,
      "num_input_tokens_seen": 1520435200,
      "step": 5800
    },
    {
      "epoch": 0.027904647197013965,
      "grad_norm": 0.1821524053812027,
      "learning_rate": 0.001,
      "loss": 2.9076,
      "num_input_tokens_seen": 1533542400,
      "step": 5850
    },
    {
      "epoch": 0.0281431484551081,
      "grad_norm": 0.16259051859378815,
      "learning_rate": 0.001,
      "loss": 2.9212,
      "num_input_tokens_seen": 1546649600,
      "step": 5900
    },
    {
      "epoch": 0.02838164971320224,
      "grad_norm": 0.18584352731704712,
      "learning_rate": 0.001,
      "loss": 2.927,
      "num_input_tokens_seen": 1559756800,
      "step": 5950
    },
    {
      "epoch": 0.028620150971296374,
      "grad_norm": 0.181602343916893,
      "learning_rate": 0.001,
      "loss": 2.9096,
      "num_input_tokens_seen": 1572864000,
      "step": 6000
    },
    {
      "epoch": 0.028620150971296374,
      "eval_loss": 2.8036017417907715,
      "eval_runtime": 50.543,
      "eval_samples_per_second": 98.926,
      "eval_steps_per_second": 24.731,
      "num_input_tokens_seen": 1572864000,
      "step": 6000
    },
    {
      "epoch": 0.02885865222939051,
      "grad_norm": 0.1653270423412323,
      "learning_rate": 0.001,
      "loss": 2.9214,
      "num_input_tokens_seen": 1585971200,
      "step": 6050
    },
    {
      "epoch": 0.029097153487484647,
      "grad_norm": 0.17030183970928192,
      "learning_rate": 0.001,
      "loss": 2.9081,
      "num_input_tokens_seen": 1599078400,
      "step": 6100
    },
    {
      "epoch": 0.029335654745578782,
      "grad_norm": 0.17734774947166443,
      "learning_rate": 0.001,
      "loss": 2.9128,
      "num_input_tokens_seen": 1612185600,
      "step": 6150
    },
    {
      "epoch": 0.02957415600367292,
      "grad_norm": 0.1664343774318695,
      "learning_rate": 0.001,
      "loss": 2.9084,
      "num_input_tokens_seen": 1625292800,
      "step": 6200
    },
    {
      "epoch": 0.029812657261767055,
      "grad_norm": 0.15939603745937347,
      "learning_rate": 0.001,
      "loss": 2.9049,
      "num_input_tokens_seen": 1638400000,
      "step": 6250
    },
    {
      "epoch": 0.030051158519861194,
      "grad_norm": 0.16107864677906036,
      "learning_rate": 0.001,
      "loss": 2.8889,
      "num_input_tokens_seen": 1651507200,
      "step": 6300
    },
    {
      "epoch": 0.03028965977795533,
      "grad_norm": 0.1734771579504013,
      "learning_rate": 0.001,
      "loss": 2.8951,
      "num_input_tokens_seen": 1664614400,
      "step": 6350
    },
    {
      "epoch": 0.030528161036049464,
      "grad_norm": 0.1804204136133194,
      "learning_rate": 0.001,
      "loss": 2.8877,
      "num_input_tokens_seen": 1677721600,
      "step": 6400
    },
    {
      "epoch": 0.030766662294143602,
      "grad_norm": 0.16369500756263733,
      "learning_rate": 0.001,
      "loss": 2.8764,
      "num_input_tokens_seen": 1690828800,
      "step": 6450
    },
    {
      "epoch": 0.031005163552237737,
      "grad_norm": 0.1704144924879074,
      "learning_rate": 0.001,
      "loss": 2.8965,
      "num_input_tokens_seen": 1703936000,
      "step": 6500
    },
    {
      "epoch": 0.031005163552237737,
      "eval_loss": 2.787343740463257,
      "eval_runtime": 50.3956,
      "eval_samples_per_second": 99.215,
      "eval_steps_per_second": 24.804,
      "num_input_tokens_seen": 1703936000,
      "step": 6500
    },
    {
      "epoch": 0.031243664810331875,
      "grad_norm": 0.17917555570602417,
      "learning_rate": 0.001,
      "loss": 2.8882,
      "num_input_tokens_seen": 1717043200,
      "step": 6550
    },
    {
      "epoch": 0.031482166068426014,
      "grad_norm": 0.18822412192821503,
      "learning_rate": 0.001,
      "loss": 2.8931,
      "num_input_tokens_seen": 1730150400,
      "step": 6600
    },
    {
      "epoch": 0.031720667326520145,
      "grad_norm": 0.1702752560377121,
      "learning_rate": 0.001,
      "loss": 2.8906,
      "num_input_tokens_seen": 1743257600,
      "step": 6650
    },
    {
      "epoch": 0.031959168584614284,
      "grad_norm": 0.16963082551956177,
      "learning_rate": 0.001,
      "loss": 2.8809,
      "num_input_tokens_seen": 1756364800,
      "step": 6700
    },
    {
      "epoch": 0.03219766984270842,
      "grad_norm": 0.17273569107055664,
      "learning_rate": 0.001,
      "loss": 2.9005,
      "num_input_tokens_seen": 1769472000,
      "step": 6750
    },
    {
      "epoch": 0.032436171100802554,
      "grad_norm": 0.21361888945102692,
      "learning_rate": 0.001,
      "loss": 2.8683,
      "num_input_tokens_seen": 1782579200,
      "step": 6800
    },
    {
      "epoch": 0.03267467235889669,
      "grad_norm": 0.16454364359378815,
      "learning_rate": 0.001,
      "loss": 2.8921,
      "num_input_tokens_seen": 1795686400,
      "step": 6850
    },
    {
      "epoch": 0.03291317361699083,
      "grad_norm": 0.1677432805299759,
      "learning_rate": 0.001,
      "loss": 2.8777,
      "num_input_tokens_seen": 1808793600,
      "step": 6900
    },
    {
      "epoch": 0.03315167487508497,
      "grad_norm": 0.17707760632038116,
      "learning_rate": 0.001,
      "loss": 2.8791,
      "num_input_tokens_seen": 1821900800,
      "step": 6950
    },
    {
      "epoch": 0.0333901761331791,
      "grad_norm": 0.1784796118736267,
      "learning_rate": 0.001,
      "loss": 2.8642,
      "num_input_tokens_seen": 1835008000,
      "step": 7000
    },
    {
      "epoch": 0.0333901761331791,
      "eval_loss": 2.7708475589752197,
      "eval_runtime": 50.9058,
      "eval_samples_per_second": 98.221,
      "eval_steps_per_second": 24.555,
      "num_input_tokens_seen": 1835008000,
      "step": 7000
    },
    {
      "epoch": 0.03362867739127324,
      "grad_norm": 0.15859876573085785,
      "learning_rate": 0.001,
      "loss": 2.8919,
      "num_input_tokens_seen": 1848115200,
      "step": 7050
    },
    {
      "epoch": 0.03386717864936738,
      "grad_norm": 0.17061467468738556,
      "learning_rate": 0.001,
      "loss": 2.868,
      "num_input_tokens_seen": 1861222400,
      "step": 7100
    },
    {
      "epoch": 0.03410567990746151,
      "grad_norm": 0.17118851840496063,
      "learning_rate": 0.001,
      "loss": 2.8677,
      "num_input_tokens_seen": 1874329600,
      "step": 7150
    },
    {
      "epoch": 0.03434418116555565,
      "grad_norm": 0.1561940759420395,
      "learning_rate": 0.001,
      "loss": 2.8701,
      "num_input_tokens_seen": 1887436800,
      "step": 7200
    },
    {
      "epoch": 0.034582682423649785,
      "grad_norm": 0.17568449676036835,
      "learning_rate": 0.001,
      "loss": 2.8652,
      "num_input_tokens_seen": 1900544000,
      "step": 7250
    },
    {
      "epoch": 0.034821183681743924,
      "grad_norm": 0.17471665143966675,
      "learning_rate": 0.001,
      "loss": 2.8614,
      "num_input_tokens_seen": 1913651200,
      "step": 7300
    },
    {
      "epoch": 0.035059684939838055,
      "grad_norm": 0.17949970066547394,
      "learning_rate": 0.001,
      "loss": 2.862,
      "num_input_tokens_seen": 1926758400,
      "step": 7350
    },
    {
      "epoch": 0.035298186197932194,
      "grad_norm": 0.17014376819133759,
      "learning_rate": 0.001,
      "loss": 2.8696,
      "num_input_tokens_seen": 1939865600,
      "step": 7400
    },
    {
      "epoch": 0.03553668745602633,
      "grad_norm": 0.166939839720726,
      "learning_rate": 0.001,
      "loss": 2.8679,
      "num_input_tokens_seen": 1952972800,
      "step": 7450
    },
    {
      "epoch": 0.035775188714120464,
      "grad_norm": 0.16403459012508392,
      "learning_rate": 0.001,
      "loss": 2.8692,
      "num_input_tokens_seen": 1966080000,
      "step": 7500
    },
    {
      "epoch": 0.035775188714120464,
      "eval_loss": 2.7581658363342285,
      "eval_runtime": 50.614,
      "eval_samples_per_second": 98.787,
      "eval_steps_per_second": 24.697,
      "num_input_tokens_seen": 1966080000,
      "step": 7500
    },
    {
      "epoch": 0.0360136899722146,
      "grad_norm": 0.16664361953735352,
      "learning_rate": 0.001,
      "loss": 2.8549,
      "num_input_tokens_seen": 1979187200,
      "step": 7550
    },
    {
      "epoch": 0.03625219123030874,
      "grad_norm": 0.165015310049057,
      "learning_rate": 0.001,
      "loss": 2.867,
      "num_input_tokens_seen": 1992294400,
      "step": 7600
    },
    {
      "epoch": 0.03649069248840288,
      "grad_norm": 0.17752580344676971,
      "learning_rate": 0.001,
      "loss": 2.8721,
      "num_input_tokens_seen": 2005401600,
      "step": 7650
    },
    {
      "epoch": 0.03672919374649701,
      "grad_norm": 0.1641317456960678,
      "learning_rate": 0.001,
      "loss": 2.8601,
      "num_input_tokens_seen": 2018508800,
      "step": 7700
    },
    {
      "epoch": 0.03696769500459115,
      "grad_norm": 0.1706378310918808,
      "learning_rate": 0.001,
      "loss": 2.8385,
      "num_input_tokens_seen": 2031616000,
      "step": 7750
    },
    {
      "epoch": 0.03720619626268529,
      "grad_norm": 0.18265438079833984,
      "learning_rate": 0.001,
      "loss": 2.8421,
      "num_input_tokens_seen": 2044723200,
      "step": 7800
    },
    {
      "epoch": 0.037444697520779426,
      "grad_norm": 0.17270897328853607,
      "learning_rate": 0.001,
      "loss": 2.8576,
      "num_input_tokens_seen": 2057830400,
      "step": 7850
    },
    {
      "epoch": 0.03768319877887356,
      "grad_norm": 0.17359280586242676,
      "learning_rate": 0.001,
      "loss": 2.8522,
      "num_input_tokens_seen": 2070937600,
      "step": 7900
    },
    {
      "epoch": 0.037921700036967695,
      "grad_norm": 0.1679411083459854,
      "learning_rate": 0.001,
      "loss": 2.854,
      "num_input_tokens_seen": 2084044800,
      "step": 7950
    },
    {
      "epoch": 0.038160201295061834,
      "grad_norm": 0.16735835373401642,
      "learning_rate": 0.001,
      "loss": 2.8494,
      "num_input_tokens_seen": 2097152000,
      "step": 8000
    },
    {
      "epoch": 0.038160201295061834,
      "eval_loss": 2.7443442344665527,
      "eval_runtime": 50.3387,
      "eval_samples_per_second": 99.327,
      "eval_steps_per_second": 24.832,
      "num_input_tokens_seen": 2097152000,
      "step": 8000
    },
    {
      "epoch": 0.038398702553155965,
      "grad_norm": 0.16059577465057373,
      "learning_rate": 0.001,
      "loss": 2.8495,
      "num_input_tokens_seen": 2110259200,
      "step": 8050
    },
    {
      "epoch": 0.038637203811250104,
      "grad_norm": 0.1842387169599533,
      "learning_rate": 0.001,
      "loss": 2.8526,
      "num_input_tokens_seen": 2123366400,
      "step": 8100
    },
    {
      "epoch": 0.03887570506934424,
      "grad_norm": 0.15922050178050995,
      "learning_rate": 0.001,
      "loss": 2.8312,
      "num_input_tokens_seen": 2136473600,
      "step": 8150
    },
    {
      "epoch": 0.03911420632743838,
      "grad_norm": 0.16642028093338013,
      "learning_rate": 0.001,
      "loss": 2.8452,
      "num_input_tokens_seen": 2149580800,
      "step": 8200
    },
    {
      "epoch": 0.03935270758553251,
      "grad_norm": 0.16174671053886414,
      "learning_rate": 0.001,
      "loss": 2.8471,
      "num_input_tokens_seen": 2162688000,
      "step": 8250
    },
    {
      "epoch": 0.03959120884362665,
      "grad_norm": 0.16786591708660126,
      "learning_rate": 0.001,
      "loss": 2.8435,
      "num_input_tokens_seen": 2175795200,
      "step": 8300
    },
    {
      "epoch": 0.03982971010172079,
      "grad_norm": 0.17107373476028442,
      "learning_rate": 0.001,
      "loss": 2.862,
      "num_input_tokens_seen": 2188902400,
      "step": 8350
    },
    {
      "epoch": 0.04006821135981492,
      "grad_norm": 0.17952118813991547,
      "learning_rate": 0.001,
      "loss": 2.8414,
      "num_input_tokens_seen": 2202009600,
      "step": 8400
    },
    {
      "epoch": 0.04030671261790906,
      "grad_norm": 0.16836482286453247,
      "learning_rate": 0.001,
      "loss": 2.8363,
      "num_input_tokens_seen": 2215116800,
      "step": 8450
    },
    {
      "epoch": 0.0405452138760032,
      "grad_norm": 0.16812962293624878,
      "learning_rate": 0.001,
      "loss": 2.844,
      "num_input_tokens_seen": 2228224000,
      "step": 8500
    },
    {
      "epoch": 0.0405452138760032,
      "eval_loss": 2.7306976318359375,
      "eval_runtime": 50.272,
      "eval_samples_per_second": 99.459,
      "eval_steps_per_second": 24.865,
      "num_input_tokens_seen": 2228224000,
      "step": 8500
    },
    {
      "epoch": 0.040783715134097336,
      "grad_norm": 0.1696135401725769,
      "learning_rate": 0.001,
      "loss": 2.8406,
      "num_input_tokens_seen": 2241331200,
      "step": 8550
    },
    {
      "epoch": 0.04102221639219147,
      "grad_norm": 0.16062459349632263,
      "learning_rate": 0.001,
      "loss": 2.8453,
      "num_input_tokens_seen": 2254438400,
      "step": 8600
    },
    {
      "epoch": 0.041260717650285605,
      "grad_norm": 0.17326433956623077,
      "learning_rate": 0.001,
      "loss": 2.8449,
      "num_input_tokens_seen": 2267545600,
      "step": 8650
    },
    {
      "epoch": 0.041499218908379744,
      "grad_norm": 0.16410672664642334,
      "learning_rate": 0.001,
      "loss": 2.8412,
      "num_input_tokens_seen": 2280652800,
      "step": 8700
    },
    {
      "epoch": 0.041737720166473875,
      "grad_norm": 0.16255012154579163,
      "learning_rate": 0.001,
      "loss": 2.8524,
      "num_input_tokens_seen": 2293760000,
      "step": 8750
    },
    {
      "epoch": 0.041976221424568014,
      "grad_norm": 0.163652241230011,
      "learning_rate": 0.001,
      "loss": 2.8528,
      "num_input_tokens_seen": 2306867200,
      "step": 8800
    },
    {
      "epoch": 0.04221472268266215,
      "grad_norm": 0.15598778426647186,
      "learning_rate": 0.001,
      "loss": 2.8255,
      "num_input_tokens_seen": 2319974400,
      "step": 8850
    },
    {
      "epoch": 0.04245322394075629,
      "grad_norm": 0.1740003079175949,
      "learning_rate": 0.001,
      "loss": 2.8278,
      "num_input_tokens_seen": 2333081600,
      "step": 8900
    },
    {
      "epoch": 0.04269172519885042,
      "grad_norm": 0.17225052416324615,
      "learning_rate": 0.001,
      "loss": 2.8334,
      "num_input_tokens_seen": 2346188800,
      "step": 8950
    },
    {
      "epoch": 0.04293022645694456,
      "grad_norm": 0.18005919456481934,
      "learning_rate": 0.001,
      "loss": 2.8044,
      "num_input_tokens_seen": 2359296000,
      "step": 9000
    },
    {
      "epoch": 0.04293022645694456,
      "eval_loss": 2.7220215797424316,
      "eval_runtime": 50.2706,
      "eval_samples_per_second": 99.462,
      "eval_steps_per_second": 24.865,
      "num_input_tokens_seen": 2359296000,
      "step": 9000
    },
    {
      "epoch": 0.0431687277150387,
      "grad_norm": 0.16554109752178192,
      "learning_rate": 0.001,
      "loss": 2.83,
      "num_input_tokens_seen": 2372403200,
      "step": 9050
    },
    {
      "epoch": 0.04340722897313283,
      "grad_norm": 0.17308101058006287,
      "learning_rate": 0.001,
      "loss": 2.8204,
      "num_input_tokens_seen": 2385510400,
      "step": 9100
    },
    {
      "epoch": 0.04364573023122697,
      "grad_norm": 0.16701756417751312,
      "learning_rate": 0.001,
      "loss": 2.836,
      "num_input_tokens_seen": 2398617600,
      "step": 9150
    },
    {
      "epoch": 0.04388423148932111,
      "grad_norm": 0.16220535337924957,
      "learning_rate": 0.001,
      "loss": 2.8194,
      "num_input_tokens_seen": 2411724800,
      "step": 9200
    },
    {
      "epoch": 0.044122732747415246,
      "grad_norm": 0.16643071174621582,
      "learning_rate": 0.001,
      "loss": 2.8157,
      "num_input_tokens_seen": 2424832000,
      "step": 9250
    },
    {
      "epoch": 0.04436123400550938,
      "grad_norm": 0.16293680667877197,
      "learning_rate": 0.001,
      "loss": 2.8147,
      "num_input_tokens_seen": 2437939200,
      "step": 9300
    },
    {
      "epoch": 0.044599735263603515,
      "grad_norm": 0.1914059966802597,
      "learning_rate": 0.001,
      "loss": 2.8164,
      "num_input_tokens_seen": 2451046400,
      "step": 9350
    },
    {
      "epoch": 0.044838236521697654,
      "grad_norm": 0.15867285430431366,
      "learning_rate": 0.001,
      "loss": 2.8063,
      "num_input_tokens_seen": 2464153600,
      "step": 9400
    },
    {
      "epoch": 0.045076737779791785,
      "grad_norm": 0.16319462656974792,
      "learning_rate": 0.001,
      "loss": 2.8096,
      "num_input_tokens_seen": 2477260800,
      "step": 9450
    },
    {
      "epoch": 0.045315239037885924,
      "grad_norm": 0.16578581929206848,
      "learning_rate": 0.001,
      "loss": 2.8106,
      "num_input_tokens_seen": 2490368000,
      "step": 9500
    },
    {
      "epoch": 0.045315239037885924,
      "eval_loss": 2.7105066776275635,
      "eval_runtime": 50.0838,
      "eval_samples_per_second": 99.833,
      "eval_steps_per_second": 24.958,
      "num_input_tokens_seen": 2490368000,
      "step": 9500
    },
    {
      "epoch": 0.04555374029598006,
      "grad_norm": 0.17125573754310608,
      "learning_rate": 0.001,
      "loss": 2.8259,
      "num_input_tokens_seen": 2503475200,
      "step": 9550
    },
    {
      "epoch": 0.0457922415540742,
      "grad_norm": 0.1661599725484848,
      "learning_rate": 0.001,
      "loss": 2.8109,
      "num_input_tokens_seen": 2516582400,
      "step": 9600
    },
    {
      "epoch": 0.04603074281216833,
      "grad_norm": 0.16203565895557404,
      "learning_rate": 0.001,
      "loss": 2.8198,
      "num_input_tokens_seen": 2529689600,
      "step": 9650
    },
    {
      "epoch": 0.04626924407026247,
      "grad_norm": 0.1869373619556427,
      "learning_rate": 0.001,
      "loss": 2.8163,
      "num_input_tokens_seen": 2542796800,
      "step": 9700
    },
    {
      "epoch": 0.04650774532835661,
      "grad_norm": 0.17401213943958282,
      "learning_rate": 0.001,
      "loss": 2.8209,
      "num_input_tokens_seen": 2555904000,
      "step": 9750
    },
    {
      "epoch": 0.04674624658645074,
      "grad_norm": 0.15835829079151154,
      "learning_rate": 0.001,
      "loss": 2.8032,
      "num_input_tokens_seen": 2569011200,
      "step": 9800
    },
    {
      "epoch": 0.04698474784454488,
      "grad_norm": 0.16554060578346252,
      "learning_rate": 0.001,
      "loss": 2.8072,
      "num_input_tokens_seen": 2582118400,
      "step": 9850
    },
    {
      "epoch": 0.04722324910263902,
      "grad_norm": 0.16941213607788086,
      "learning_rate": 0.001,
      "loss": 2.8076,
      "num_input_tokens_seen": 2595225600,
      "step": 9900
    },
    {
      "epoch": 0.047461750360733156,
      "grad_norm": 0.16324704885482788,
      "learning_rate": 0.001,
      "loss": 2.8097,
      "num_input_tokens_seen": 2608332800,
      "step": 9950
    },
    {
      "epoch": 0.04770025161882729,
      "grad_norm": 0.16865754127502441,
      "learning_rate": 0.001,
      "loss": 2.8051,
      "num_input_tokens_seen": 2621440000,
      "step": 10000
    },
    {
      "epoch": 0.04770025161882729,
      "eval_loss": 2.7000486850738525,
      "eval_runtime": 50.3365,
      "eval_samples_per_second": 99.331,
      "eval_steps_per_second": 24.833,
      "num_input_tokens_seen": 2621440000,
      "step": 10000
    },
    {
      "epoch": 0.047938752876921426,
      "grad_norm": 0.17076526582241058,
      "learning_rate": 0.001,
      "loss": 2.8148,
      "num_input_tokens_seen": 2634547200,
      "step": 10050
    },
    {
      "epoch": 0.048177254135015564,
      "grad_norm": 0.1610497534275055,
      "learning_rate": 0.001,
      "loss": 2.8012,
      "num_input_tokens_seen": 2647654400,
      "step": 10100
    },
    {
      "epoch": 0.048415755393109695,
      "grad_norm": 0.15984536707401276,
      "learning_rate": 0.001,
      "loss": 2.8086,
      "num_input_tokens_seen": 2660761600,
      "step": 10150
    },
    {
      "epoch": 0.048654256651203834,
      "grad_norm": 0.21775834262371063,
      "learning_rate": 0.001,
      "loss": 2.8021,
      "num_input_tokens_seen": 2673868800,
      "step": 10200
    },
    {
      "epoch": 0.04889275790929797,
      "grad_norm": 0.1841157227754593,
      "learning_rate": 0.001,
      "loss": 2.8152,
      "num_input_tokens_seen": 2686976000,
      "step": 10250
    },
    {
      "epoch": 0.04913125916739211,
      "grad_norm": 0.17025424540042877,
      "learning_rate": 0.001,
      "loss": 2.8131,
      "num_input_tokens_seen": 2700083200,
      "step": 10300
    },
    {
      "epoch": 0.04936976042548624,
      "grad_norm": 0.1992417722940445,
      "learning_rate": 0.001,
      "loss": 2.8039,
      "num_input_tokens_seen": 2713190400,
      "step": 10350
    },
    {
      "epoch": 0.04960826168358038,
      "grad_norm": 0.1680469959974289,
      "learning_rate": 0.001,
      "loss": 2.7921,
      "num_input_tokens_seen": 2726297600,
      "step": 10400
    },
    {
      "epoch": 0.04984676294167452,
      "grad_norm": 0.18296252191066742,
      "learning_rate": 0.001,
      "loss": 2.8036,
      "num_input_tokens_seen": 2739404800,
      "step": 10450
    },
    {
      "epoch": 0.05008526419976865,
      "grad_norm": 0.16041898727416992,
      "learning_rate": 0.001,
      "loss": 2.7979,
      "num_input_tokens_seen": 2752512000,
      "step": 10500
    },
    {
      "epoch": 0.05008526419976865,
      "eval_loss": 2.6893723011016846,
      "eval_runtime": 50.642,
      "eval_samples_per_second": 98.732,
      "eval_steps_per_second": 24.683,
      "num_input_tokens_seen": 2752512000,
      "step": 10500
    },
    {
      "epoch": 0.05032376545786279,
      "grad_norm": 0.16704030334949493,
      "learning_rate": 0.001,
      "loss": 2.79,
      "num_input_tokens_seen": 2765619200,
      "step": 10550
    },
    {
      "epoch": 0.05056226671595693,
      "grad_norm": 0.16553758084774017,
      "learning_rate": 0.001,
      "loss": 2.7964,
      "num_input_tokens_seen": 2778726400,
      "step": 10600
    },
    {
      "epoch": 0.050800767974051066,
      "grad_norm": 0.16027161478996277,
      "learning_rate": 0.001,
      "loss": 2.7937,
      "num_input_tokens_seen": 2791833600,
      "step": 10650
    },
    {
      "epoch": 0.0510392692321452,
      "grad_norm": 0.16177843511104584,
      "learning_rate": 0.001,
      "loss": 2.7957,
      "num_input_tokens_seen": 2804940800,
      "step": 10700
    },
    {
      "epoch": 0.051277770490239336,
      "grad_norm": 0.16713912785053253,
      "learning_rate": 0.001,
      "loss": 2.7949,
      "num_input_tokens_seen": 2818048000,
      "step": 10750
    },
    {
      "epoch": 0.051516271748333474,
      "grad_norm": 0.1815747618675232,
      "learning_rate": 0.001,
      "loss": 2.7915,
      "num_input_tokens_seen": 2831155200,
      "step": 10800
    },
    {
      "epoch": 0.05175477300642761,
      "grad_norm": 0.16732683777809143,
      "learning_rate": 0.001,
      "loss": 2.7994,
      "num_input_tokens_seen": 2844262400,
      "step": 10850
    },
    {
      "epoch": 0.051993274264521744,
      "grad_norm": 0.18305908143520355,
      "learning_rate": 0.001,
      "loss": 2.7888,
      "num_input_tokens_seen": 2857369600,
      "step": 10900
    },
    {
      "epoch": 0.05223177552261588,
      "grad_norm": 0.16450954973697662,
      "learning_rate": 0.001,
      "loss": 2.7834,
      "num_input_tokens_seen": 2870476800,
      "step": 10950
    },
    {
      "epoch": 0.05247027678071002,
      "grad_norm": 0.16485372185707092,
      "learning_rate": 0.001,
      "loss": 2.7976,
      "num_input_tokens_seen": 2883584000,
      "step": 11000
    },
    {
      "epoch": 0.05247027678071002,
      "eval_loss": 2.6825835704803467,
      "eval_runtime": 50.1016,
      "eval_samples_per_second": 99.797,
      "eval_steps_per_second": 24.949,
      "num_input_tokens_seen": 2883584000,
      "step": 11000
    },
    {
      "epoch": 0.05270877803880415,
      "grad_norm": 0.1733204573392868,
      "learning_rate": 0.001,
      "loss": 2.7959,
      "num_input_tokens_seen": 2896691200,
      "step": 11050
    },
    {
      "epoch": 0.05294727929689829,
      "grad_norm": 0.16432546079158783,
      "learning_rate": 0.001,
      "loss": 2.793,
      "num_input_tokens_seen": 2909798400,
      "step": 11100
    },
    {
      "epoch": 0.05318578055499243,
      "grad_norm": 0.18369582295417786,
      "learning_rate": 0.001,
      "loss": 2.8149,
      "num_input_tokens_seen": 2922905600,
      "step": 11150
    },
    {
      "epoch": 0.05342428181308657,
      "grad_norm": 0.17782896757125854,
      "learning_rate": 0.001,
      "loss": 2.7878,
      "num_input_tokens_seen": 2936012800,
      "step": 11200
    },
    {
      "epoch": 0.0536627830711807,
      "grad_norm": 0.18320836126804352,
      "learning_rate": 0.001,
      "loss": 2.8159,
      "num_input_tokens_seen": 2949120000,
      "step": 11250
    },
    {
      "epoch": 0.05390128432927484,
      "grad_norm": 0.1667925864458084,
      "learning_rate": 0.001,
      "loss": 2.795,
      "num_input_tokens_seen": 2962227200,
      "step": 11300
    },
    {
      "epoch": 0.054139785587368976,
      "grad_norm": 0.19831301271915436,
      "learning_rate": 0.001,
      "loss": 2.7907,
      "num_input_tokens_seen": 2975334400,
      "step": 11350
    },
    {
      "epoch": 0.05437828684546311,
      "grad_norm": 0.1610182225704193,
      "learning_rate": 0.001,
      "loss": 2.774,
      "num_input_tokens_seen": 2988441600,
      "step": 11400
    },
    {
      "epoch": 0.054616788103557246,
      "grad_norm": 0.15938150882720947,
      "learning_rate": 0.001,
      "loss": 2.7766,
      "num_input_tokens_seen": 3001548800,
      "step": 11450
    },
    {
      "epoch": 0.054855289361651384,
      "grad_norm": 0.15737415850162506,
      "learning_rate": 0.001,
      "loss": 2.783,
      "num_input_tokens_seen": 3014656000,
      "step": 11500
    },
    {
      "epoch": 0.054855289361651384,
      "eval_loss": 2.6739256381988525,
      "eval_runtime": 51.2462,
      "eval_samples_per_second": 97.568,
      "eval_steps_per_second": 24.392,
      "num_input_tokens_seen": 3014656000,
      "step": 11500
    },
    {
      "epoch": 0.05509379061974552,
      "grad_norm": 0.16538532078266144,
      "learning_rate": 0.001,
      "loss": 2.7966,
      "num_input_tokens_seen": 3027763200,
      "step": 11550
    },
    {
      "epoch": 0.055332291877839654,
      "grad_norm": 0.18035660684108734,
      "learning_rate": 0.001,
      "loss": 2.7789,
      "num_input_tokens_seen": 3040870400,
      "step": 11600
    },
    {
      "epoch": 0.05557079313593379,
      "grad_norm": 0.17831085622310638,
      "learning_rate": 0.001,
      "loss": 2.7962,
      "num_input_tokens_seen": 3053977600,
      "step": 11650
    },
    {
      "epoch": 0.05580929439402793,
      "grad_norm": 0.17723870277404785,
      "learning_rate": 0.001,
      "loss": 2.7791,
      "num_input_tokens_seen": 3067084800,
      "step": 11700
    },
    {
      "epoch": 0.05604779565212206,
      "grad_norm": 0.17663581669330597,
      "learning_rate": 0.001,
      "loss": 2.7696,
      "num_input_tokens_seen": 3080192000,
      "step": 11750
    },
    {
      "epoch": 0.0562862969102162,
      "grad_norm": 0.16684900224208832,
      "learning_rate": 0.001,
      "loss": 2.7762,
      "num_input_tokens_seen": 3093299200,
      "step": 11800
    },
    {
      "epoch": 0.05652479816831034,
      "grad_norm": 0.17407995462417603,
      "learning_rate": 0.001,
      "loss": 2.7767,
      "num_input_tokens_seen": 3106406400,
      "step": 11850
    },
    {
      "epoch": 0.05676329942640448,
      "grad_norm": 0.1750691831111908,
      "learning_rate": 0.001,
      "loss": 2.7785,
      "num_input_tokens_seen": 3119513600,
      "step": 11900
    },
    {
      "epoch": 0.05700180068449861,
      "grad_norm": 0.16576959192752838,
      "learning_rate": 0.001,
      "loss": 2.773,
      "num_input_tokens_seen": 3132620800,
      "step": 11950
    },
    {
      "epoch": 0.05724030194259275,
      "grad_norm": 0.16957831382751465,
      "learning_rate": 0.001,
      "loss": 2.7781,
      "num_input_tokens_seen": 3145728000,
      "step": 12000
    },
    {
      "epoch": 0.05724030194259275,
      "eval_loss": 2.6683335304260254,
      "eval_runtime": 50.6428,
      "eval_samples_per_second": 98.731,
      "eval_steps_per_second": 24.683,
      "num_input_tokens_seen": 3145728000,
      "step": 12000
    },
    {
      "epoch": 0.057478803200686886,
      "grad_norm": 0.1645338237285614,
      "learning_rate": 0.001,
      "loss": 2.7709,
      "num_input_tokens_seen": 3158835200,
      "step": 12050
    },
    {
      "epoch": 0.05771730445878102,
      "grad_norm": 0.15848694741725922,
      "learning_rate": 0.001,
      "loss": 2.7849,
      "num_input_tokens_seen": 3171942400,
      "step": 12100
    },
    {
      "epoch": 0.057955805716875156,
      "grad_norm": 0.20003071427345276,
      "learning_rate": 0.001,
      "loss": 2.7691,
      "num_input_tokens_seen": 3185049600,
      "step": 12150
    },
    {
      "epoch": 0.058194306974969294,
      "grad_norm": 0.19301050901412964,
      "learning_rate": 0.001,
      "loss": 2.7811,
      "num_input_tokens_seen": 3198156800,
      "step": 12200
    },
    {
      "epoch": 0.05843280823306343,
      "grad_norm": 0.171390563249588,
      "learning_rate": 0.001,
      "loss": 2.7712,
      "num_input_tokens_seen": 3211264000,
      "step": 12250
    },
    {
      "epoch": 0.058671309491157564,
      "grad_norm": 0.1654270589351654,
      "learning_rate": 0.001,
      "loss": 2.7788,
      "num_input_tokens_seen": 3224371200,
      "step": 12300
    },
    {
      "epoch": 0.0589098107492517,
      "grad_norm": 0.16559672355651855,
      "learning_rate": 0.001,
      "loss": 2.7839,
      "num_input_tokens_seen": 3237478400,
      "step": 12350
    },
    {
      "epoch": 0.05914831200734584,
      "grad_norm": 0.16773344576358795,
      "learning_rate": 0.001,
      "loss": 2.7896,
      "num_input_tokens_seen": 3250585600,
      "step": 12400
    },
    {
      "epoch": 0.05938681326543997,
      "grad_norm": 0.1639021933078766,
      "learning_rate": 0.001,
      "loss": 2.7704,
      "num_input_tokens_seen": 3263692800,
      "step": 12450
    },
    {
      "epoch": 0.05962531452353411,
      "grad_norm": 0.15584540367126465,
      "learning_rate": 0.001,
      "loss": 2.7687,
      "num_input_tokens_seen": 3276800000,
      "step": 12500
    },
    {
      "epoch": 0.05962531452353411,
      "eval_loss": 2.6606011390686035,
      "eval_runtime": 51.1636,
      "eval_samples_per_second": 97.726,
      "eval_steps_per_second": 24.431,
      "num_input_tokens_seen": 3276800000,
      "step": 12500
    },
    {
      "epoch": 0.05986381578162825,
      "grad_norm": 0.18144413828849792,
      "learning_rate": 0.001,
      "loss": 2.7711,
      "num_input_tokens_seen": 3289907200,
      "step": 12550
    },
    {
      "epoch": 0.06010231703972239,
      "grad_norm": 0.18225054442882538,
      "learning_rate": 0.001,
      "loss": 2.7675,
      "num_input_tokens_seen": 3303014400,
      "step": 12600
    },
    {
      "epoch": 0.06034081829781652,
      "grad_norm": 0.16542398929595947,
      "learning_rate": 0.001,
      "loss": 2.7563,
      "num_input_tokens_seen": 3316121600,
      "step": 12650
    },
    {
      "epoch": 0.06057931955591066,
      "grad_norm": 0.1765596568584442,
      "learning_rate": 0.001,
      "loss": 2.7807,
      "num_input_tokens_seen": 3329228800,
      "step": 12700
    },
    {
      "epoch": 0.060817820814004796,
      "grad_norm": 0.17469234764575958,
      "learning_rate": 0.001,
      "loss": 2.7532,
      "num_input_tokens_seen": 3342336000,
      "step": 12750
    },
    {
      "epoch": 0.06105632207209893,
      "grad_norm": 0.1841767281293869,
      "learning_rate": 0.001,
      "loss": 2.7824,
      "num_input_tokens_seen": 3355443200,
      "step": 12800
    },
    {
      "epoch": 0.061294823330193066,
      "grad_norm": 0.1667831838130951,
      "learning_rate": 0.001,
      "loss": 2.7648,
      "num_input_tokens_seen": 3368550400,
      "step": 12850
    },
    {
      "epoch": 0.061533324588287204,
      "grad_norm": 0.16561101377010345,
      "learning_rate": 0.001,
      "loss": 2.7798,
      "num_input_tokens_seen": 3381657600,
      "step": 12900
    },
    {
      "epoch": 0.06177182584638134,
      "grad_norm": 0.17370566725730896,
      "learning_rate": 0.001,
      "loss": 2.7755,
      "num_input_tokens_seen": 3394764800,
      "step": 12950
    },
    {
      "epoch": 0.062010327104475474,
      "grad_norm": 0.16871176660060883,
      "learning_rate": 0.001,
      "loss": 2.7676,
      "num_input_tokens_seen": 3407872000,
      "step": 13000
    },
    {
      "epoch": 0.062010327104475474,
      "eval_loss": 2.653367757797241,
      "eval_runtime": 50.8399,
      "eval_samples_per_second": 98.348,
      "eval_steps_per_second": 24.587,
      "num_input_tokens_seen": 3407872000,
      "step": 13000
    },
    {
      "epoch": 0.06224882836256961,
      "grad_norm": 0.17592230439186096,
      "learning_rate": 0.001,
      "loss": 2.7639,
      "num_input_tokens_seen": 3420979200,
      "step": 13050
    },
    {
      "epoch": 0.06248732962066375,
      "grad_norm": 0.1640375405550003,
      "learning_rate": 0.001,
      "loss": 2.7785,
      "num_input_tokens_seen": 3434086400,
      "step": 13100
    },
    {
      "epoch": 0.06272583087875788,
      "grad_norm": 0.16389331221580505,
      "learning_rate": 0.001,
      "loss": 2.7475,
      "num_input_tokens_seen": 3447193600,
      "step": 13150
    },
    {
      "epoch": 0.06296433213685203,
      "grad_norm": 0.1733655482530594,
      "learning_rate": 0.001,
      "loss": 2.7538,
      "num_input_tokens_seen": 3460300800,
      "step": 13200
    },
    {
      "epoch": 0.06320283339494616,
      "grad_norm": 0.19206473231315613,
      "learning_rate": 0.001,
      "loss": 2.7819,
      "num_input_tokens_seen": 3473408000,
      "step": 13250
    },
    {
      "epoch": 0.06344133465304029,
      "grad_norm": 0.1841450184583664,
      "learning_rate": 0.001,
      "loss": 2.7701,
      "num_input_tokens_seen": 3486515200,
      "step": 13300
    },
    {
      "epoch": 0.06367983591113444,
      "grad_norm": 0.1701631247997284,
      "learning_rate": 0.001,
      "loss": 2.7587,
      "num_input_tokens_seen": 3499622400,
      "step": 13350
    },
    {
      "epoch": 0.06391833716922857,
      "grad_norm": 0.17068499326705933,
      "learning_rate": 0.001,
      "loss": 2.7589,
      "num_input_tokens_seen": 3512729600,
      "step": 13400
    },
    {
      "epoch": 0.0641568384273227,
      "grad_norm": 0.17927715182304382,
      "learning_rate": 0.001,
      "loss": 2.764,
      "num_input_tokens_seen": 3525836800,
      "step": 13450
    },
    {
      "epoch": 0.06439533968541684,
      "grad_norm": 0.19105768203735352,
      "learning_rate": 0.001,
      "loss": 2.7593,
      "num_input_tokens_seen": 3538944000,
      "step": 13500
    },
    {
      "epoch": 0.06439533968541684,
      "eval_loss": 2.6473631858825684,
      "eval_runtime": 51.0846,
      "eval_samples_per_second": 97.877,
      "eval_steps_per_second": 24.469,
      "num_input_tokens_seen": 3538944000,
      "step": 13500
    },
    {
      "epoch": 0.06463384094351098,
      "grad_norm": 0.17262668907642365,
      "learning_rate": 0.001,
      "loss": 2.7522,
      "num_input_tokens_seen": 3552051200,
      "step": 13550
    },
    {
      "epoch": 0.06487234220160511,
      "grad_norm": 0.16810455918312073,
      "learning_rate": 0.001,
      "loss": 2.7664,
      "num_input_tokens_seen": 3565158400,
      "step": 13600
    },
    {
      "epoch": 0.06511084345969925,
      "grad_norm": 0.17312487959861755,
      "learning_rate": 0.001,
      "loss": 2.7557,
      "num_input_tokens_seen": 3578265600,
      "step": 13650
    },
    {
      "epoch": 0.06534934471779338,
      "grad_norm": 0.16985322535037994,
      "learning_rate": 0.001,
      "loss": 2.7449,
      "num_input_tokens_seen": 3591372800,
      "step": 13700
    },
    {
      "epoch": 0.06558784597588753,
      "grad_norm": 0.1812393069267273,
      "learning_rate": 0.001,
      "loss": 2.749,
      "num_input_tokens_seen": 3604480000,
      "step": 13750
    },
    {
      "epoch": 0.06582634723398166,
      "grad_norm": 0.183237224817276,
      "learning_rate": 0.001,
      "loss": 2.7637,
      "num_input_tokens_seen": 3617587200,
      "step": 13800
    },
    {
      "epoch": 0.06606484849207579,
      "grad_norm": 0.17770566046237946,
      "learning_rate": 0.001,
      "loss": 2.7602,
      "num_input_tokens_seen": 3630694400,
      "step": 13850
    },
    {
      "epoch": 0.06630334975016994,
      "grad_norm": 0.1678437739610672,
      "learning_rate": 0.001,
      "loss": 2.76,
      "num_input_tokens_seen": 3643801600,
      "step": 13900
    },
    {
      "epoch": 0.06654185100826407,
      "grad_norm": 0.16213107109069824,
      "learning_rate": 0.001,
      "loss": 2.7467,
      "num_input_tokens_seen": 3656908800,
      "step": 13950
    },
    {
      "epoch": 0.0667803522663582,
      "grad_norm": 0.17652907967567444,
      "learning_rate": 0.001,
      "loss": 2.7516,
      "num_input_tokens_seen": 3670016000,
      "step": 14000
    },
    {
      "epoch": 0.0667803522663582,
      "eval_loss": 2.6438815593719482,
      "eval_runtime": 50.3233,
      "eval_samples_per_second": 99.358,
      "eval_steps_per_second": 24.839,
      "num_input_tokens_seen": 3670016000,
      "step": 14000
    },
    {
      "epoch": 0.06701885352445235,
      "grad_norm": 0.1785530298948288,
      "learning_rate": 0.001,
      "loss": 2.7475,
      "num_input_tokens_seen": 3683123200,
      "step": 14050
    },
    {
      "epoch": 0.06725735478254648,
      "grad_norm": 0.15644113719463348,
      "learning_rate": 0.001,
      "loss": 2.7541,
      "num_input_tokens_seen": 3696230400,
      "step": 14100
    },
    {
      "epoch": 0.06749585604064061,
      "grad_norm": 0.183272585272789,
      "learning_rate": 0.001,
      "loss": 2.7513,
      "num_input_tokens_seen": 3709337600,
      "step": 14150
    },
    {
      "epoch": 0.06773435729873475,
      "grad_norm": 0.17523212730884552,
      "learning_rate": 0.001,
      "loss": 2.7649,
      "num_input_tokens_seen": 3722444800,
      "step": 14200
    },
    {
      "epoch": 0.06797285855682889,
      "grad_norm": 0.1778247356414795,
      "learning_rate": 0.001,
      "loss": 2.7457,
      "num_input_tokens_seen": 3735552000,
      "step": 14250
    },
    {
      "epoch": 0.06821135981492302,
      "grad_norm": 0.18277810513973236,
      "learning_rate": 0.001,
      "loss": 2.7477,
      "num_input_tokens_seen": 3748659200,
      "step": 14300
    },
    {
      "epoch": 0.06844986107301716,
      "grad_norm": 0.17541366815567017,
      "learning_rate": 0.001,
      "loss": 2.7419,
      "num_input_tokens_seen": 3761766400,
      "step": 14350
    },
    {
      "epoch": 0.0686883623311113,
      "grad_norm": 0.1701425164937973,
      "learning_rate": 0.001,
      "loss": 2.7437,
      "num_input_tokens_seen": 3774873600,
      "step": 14400
    },
    {
      "epoch": 0.06892686358920544,
      "grad_norm": 0.16685517132282257,
      "learning_rate": 0.001,
      "loss": 2.7357,
      "num_input_tokens_seen": 3787980800,
      "step": 14450
    },
    {
      "epoch": 0.06916536484729957,
      "grad_norm": 0.1738167405128479,
      "learning_rate": 0.001,
      "loss": 2.7475,
      "num_input_tokens_seen": 3801088000,
      "step": 14500
    },
    {
      "epoch": 0.06916536484729957,
      "eval_loss": 2.635887622833252,
      "eval_runtime": 50.4516,
      "eval_samples_per_second": 99.105,
      "eval_steps_per_second": 24.776,
      "num_input_tokens_seen": 3801088000,
      "step": 14500
    },
    {
      "epoch": 0.0694038661053937,
      "grad_norm": 0.18279027938842773,
      "learning_rate": 0.001,
      "loss": 2.7521,
      "num_input_tokens_seen": 3814195200,
      "step": 14550
    },
    {
      "epoch": 0.06964236736348785,
      "grad_norm": 0.1878173053264618,
      "learning_rate": 0.001,
      "loss": 2.7401,
      "num_input_tokens_seen": 3827302400,
      "step": 14600
    },
    {
      "epoch": 0.06988086862158198,
      "grad_norm": 0.17670077085494995,
      "learning_rate": 0.001,
      "loss": 2.7513,
      "num_input_tokens_seen": 3840409600,
      "step": 14650
    },
    {
      "epoch": 0.07011936987967611,
      "grad_norm": 0.17042580246925354,
      "learning_rate": 0.001,
      "loss": 2.7383,
      "num_input_tokens_seen": 3853516800,
      "step": 14700
    },
    {
      "epoch": 0.07035787113777026,
      "grad_norm": 0.17193050682544708,
      "learning_rate": 0.001,
      "loss": 2.7408,
      "num_input_tokens_seen": 3866624000,
      "step": 14750
    },
    {
      "epoch": 0.07059637239586439,
      "grad_norm": 0.16576342284679413,
      "learning_rate": 0.001,
      "loss": 2.7312,
      "num_input_tokens_seen": 3879731200,
      "step": 14800
    },
    {
      "epoch": 0.07083487365395852,
      "grad_norm": 0.18535619974136353,
      "learning_rate": 0.001,
      "loss": 2.756,
      "num_input_tokens_seen": 3892838400,
      "step": 14850
    },
    {
      "epoch": 0.07107337491205266,
      "grad_norm": 0.1729886531829834,
      "learning_rate": 0.001,
      "loss": 2.751,
      "num_input_tokens_seen": 3905945600,
      "step": 14900
    },
    {
      "epoch": 0.0713118761701468,
      "grad_norm": 0.16047705709934235,
      "learning_rate": 0.001,
      "loss": 2.7361,
      "num_input_tokens_seen": 3919052800,
      "step": 14950
    },
    {
      "epoch": 0.07155037742824093,
      "grad_norm": 0.17655611038208008,
      "learning_rate": 0.001,
      "loss": 2.7471,
      "num_input_tokens_seen": 3932160000,
      "step": 15000
    },
    {
      "epoch": 0.07155037742824093,
      "eval_loss": 2.6311256885528564,
      "eval_runtime": 51.0361,
      "eval_samples_per_second": 97.97,
      "eval_steps_per_second": 24.492,
      "num_input_tokens_seen": 3932160000,
      "step": 15000
    },
    {
      "epoch": 0.07178887868633507,
      "grad_norm": 0.19243250787258148,
      "learning_rate": 0.001,
      "loss": 2.7551,
      "num_input_tokens_seen": 3945267200,
      "step": 15050
    },
    {
      "epoch": 0.0720273799444292,
      "grad_norm": 0.17328651249408722,
      "learning_rate": 0.001,
      "loss": 2.7346,
      "num_input_tokens_seen": 3958374400,
      "step": 15100
    },
    {
      "epoch": 0.07226588120252335,
      "grad_norm": 0.16357752680778503,
      "learning_rate": 0.001,
      "loss": 2.7523,
      "num_input_tokens_seen": 3971481600,
      "step": 15150
    },
    {
      "epoch": 0.07250438246061748,
      "grad_norm": 0.1726733148097992,
      "learning_rate": 0.001,
      "loss": 2.725,
      "num_input_tokens_seen": 3984588800,
      "step": 15200
    },
    {
      "epoch": 0.07274288371871161,
      "grad_norm": 0.16912953555583954,
      "learning_rate": 0.001,
      "loss": 2.738,
      "num_input_tokens_seen": 3997696000,
      "step": 15250
    },
    {
      "epoch": 0.07298138497680576,
      "grad_norm": 0.19751113653182983,
      "learning_rate": 0.001,
      "loss": 2.7532,
      "num_input_tokens_seen": 4010803200,
      "step": 15300
    },
    {
      "epoch": 0.07321988623489989,
      "grad_norm": 0.16762405633926392,
      "learning_rate": 0.001,
      "loss": 2.7413,
      "num_input_tokens_seen": 4023910400,
      "step": 15350
    },
    {
      "epoch": 0.07345838749299402,
      "grad_norm": 0.18106459081172943,
      "learning_rate": 0.001,
      "loss": 2.7411,
      "num_input_tokens_seen": 4037017600,
      "step": 15400
    },
    {
      "epoch": 0.07369688875108817,
      "grad_norm": 0.184165820479393,
      "learning_rate": 0.001,
      "loss": 2.7449,
      "num_input_tokens_seen": 4050124800,
      "step": 15450
    },
    {
      "epoch": 0.0739353900091823,
      "grad_norm": 0.16832765936851501,
      "learning_rate": 0.001,
      "loss": 2.7442,
      "num_input_tokens_seen": 4063232000,
      "step": 15500
    },
    {
      "epoch": 0.0739353900091823,
      "eval_loss": 2.6253247261047363,
      "eval_runtime": 50.6964,
      "eval_samples_per_second": 98.626,
      "eval_steps_per_second": 24.657,
      "num_input_tokens_seen": 4063232000,
      "step": 15500
    },
    {
      "epoch": 0.07417389126727643,
      "grad_norm": 0.1663861721754074,
      "learning_rate": 0.001,
      "loss": 2.7461,
      "num_input_tokens_seen": 4076339200,
      "step": 15550
    },
    {
      "epoch": 0.07441239252537057,
      "grad_norm": 0.17217928171157837,
      "learning_rate": 0.001,
      "loss": 2.7394,
      "num_input_tokens_seen": 4089446400,
      "step": 15600
    },
    {
      "epoch": 0.0746508937834647,
      "grad_norm": 0.17169134318828583,
      "learning_rate": 0.001,
      "loss": 2.7474,
      "num_input_tokens_seen": 4102553600,
      "step": 15650
    },
    {
      "epoch": 0.07488939504155885,
      "grad_norm": 0.17074033617973328,
      "learning_rate": 0.001,
      "loss": 2.7405,
      "num_input_tokens_seen": 4115660800,
      "step": 15700
    },
    {
      "epoch": 0.07512789629965298,
      "grad_norm": 0.20199435949325562,
      "learning_rate": 0.001,
      "loss": 2.7412,
      "num_input_tokens_seen": 4128768000,
      "step": 15750
    },
    {
      "epoch": 0.07536639755774711,
      "grad_norm": 0.17569150030612946,
      "learning_rate": 0.001,
      "loss": 2.7279,
      "num_input_tokens_seen": 4141875200,
      "step": 15800
    },
    {
      "epoch": 0.07560489881584126,
      "grad_norm": 0.1753721386194229,
      "learning_rate": 0.001,
      "loss": 2.7442,
      "num_input_tokens_seen": 4154982400,
      "step": 15850
    },
    {
      "epoch": 0.07584340007393539,
      "grad_norm": 0.17356647551059723,
      "learning_rate": 0.001,
      "loss": 2.7447,
      "num_input_tokens_seen": 4168089600,
      "step": 15900
    },
    {
      "epoch": 0.07608190133202952,
      "grad_norm": 0.16931213438510895,
      "learning_rate": 0.001,
      "loss": 2.7194,
      "num_input_tokens_seen": 4181196800,
      "step": 15950
    },
    {
      "epoch": 0.07632040259012367,
      "grad_norm": 0.2109583616256714,
      "learning_rate": 0.001,
      "loss": 2.7271,
      "num_input_tokens_seen": 4194304000,
      "step": 16000
    },
    {
      "epoch": 0.07632040259012367,
      "eval_loss": 2.6222195625305176,
      "eval_runtime": 50.2121,
      "eval_samples_per_second": 99.578,
      "eval_steps_per_second": 24.894,
      "num_input_tokens_seen": 4194304000,
      "step": 16000
    },
    {
      "epoch": 0.0765589038482178,
      "grad_norm": 0.1729741096496582,
      "learning_rate": 0.001,
      "loss": 2.7273,
      "num_input_tokens_seen": 4207411200,
      "step": 16050
    },
    {
      "epoch": 0.07679740510631193,
      "grad_norm": 0.178414985537529,
      "learning_rate": 0.001,
      "loss": 2.7119,
      "num_input_tokens_seen": 4220518400,
      "step": 16100
    },
    {
      "epoch": 0.07703590636440608,
      "grad_norm": 0.16985353827476501,
      "learning_rate": 0.001,
      "loss": 2.7329,
      "num_input_tokens_seen": 4233625600,
      "step": 16150
    },
    {
      "epoch": 0.07727440762250021,
      "grad_norm": 0.1792905330657959,
      "learning_rate": 0.001,
      "loss": 2.7331,
      "num_input_tokens_seen": 4246732800,
      "step": 16200
    },
    {
      "epoch": 0.07751290888059434,
      "grad_norm": 0.17052733898162842,
      "learning_rate": 0.001,
      "loss": 2.7438,
      "num_input_tokens_seen": 4259840000,
      "step": 16250
    },
    {
      "epoch": 0.07775141013868848,
      "grad_norm": 0.18520629405975342,
      "learning_rate": 0.001,
      "loss": 2.7292,
      "num_input_tokens_seen": 4272947200,
      "step": 16300
    },
    {
      "epoch": 0.07798991139678262,
      "grad_norm": 0.18607158958911896,
      "learning_rate": 0.001,
      "loss": 2.7305,
      "num_input_tokens_seen": 4286054400,
      "step": 16350
    },
    {
      "epoch": 0.07822841265487676,
      "grad_norm": 0.1774805337190628,
      "learning_rate": 0.001,
      "loss": 2.7237,
      "num_input_tokens_seen": 4299161600,
      "step": 16400
    },
    {
      "epoch": 0.07846691391297089,
      "grad_norm": 0.17118123173713684,
      "learning_rate": 0.001,
      "loss": 2.736,
      "num_input_tokens_seen": 4312268800,
      "step": 16450
    },
    {
      "epoch": 0.07870541517106502,
      "grad_norm": 0.18550898134708405,
      "learning_rate": 0.001,
      "loss": 2.7237,
      "num_input_tokens_seen": 4325376000,
      "step": 16500
    },
    {
      "epoch": 0.07870541517106502,
      "eval_loss": 2.6178503036499023,
      "eval_runtime": 50.4959,
      "eval_samples_per_second": 99.018,
      "eval_steps_per_second": 24.754,
      "num_input_tokens_seen": 4325376000,
      "step": 16500
    },
    {
      "epoch": 0.07894391642915917,
      "grad_norm": 0.1839551031589508,
      "learning_rate": 0.001,
      "loss": 2.7312,
      "num_input_tokens_seen": 4338483200,
      "step": 16550
    },
    {
      "epoch": 0.0791824176872533,
      "grad_norm": 0.17430303990840912,
      "learning_rate": 0.001,
      "loss": 2.7138,
      "num_input_tokens_seen": 4351590400,
      "step": 16600
    },
    {
      "epoch": 0.07942091894534743,
      "grad_norm": 0.17208248376846313,
      "learning_rate": 0.001,
      "loss": 2.7459,
      "num_input_tokens_seen": 4364697600,
      "step": 16650
    },
    {
      "epoch": 0.07965942020344158,
      "grad_norm": 0.16932401061058044,
      "learning_rate": 0.001,
      "loss": 2.7358,
      "num_input_tokens_seen": 4377804800,
      "step": 16700
    },
    {
      "epoch": 0.07989792146153571,
      "grad_norm": 0.17707890272140503,
      "learning_rate": 0.001,
      "loss": 2.7169,
      "num_input_tokens_seen": 4390912000,
      "step": 16750
    },
    {
      "epoch": 0.08013642271962984,
      "grad_norm": 0.1669357717037201,
      "learning_rate": 0.001,
      "loss": 2.7296,
      "num_input_tokens_seen": 4404019200,
      "step": 16800
    },
    {
      "epoch": 0.08037492397772399,
      "grad_norm": 0.19266557693481445,
      "learning_rate": 0.001,
      "loss": 2.7187,
      "num_input_tokens_seen": 4417126400,
      "step": 16850
    },
    {
      "epoch": 0.08061342523581812,
      "grad_norm": 0.17670407891273499,
      "learning_rate": 0.001,
      "loss": 2.7339,
      "num_input_tokens_seen": 4430233600,
      "step": 16900
    },
    {
      "epoch": 0.08085192649391225,
      "grad_norm": 0.17866192758083344,
      "learning_rate": 0.001,
      "loss": 2.7167,
      "num_input_tokens_seen": 4443340800,
      "step": 16950
    },
    {
      "epoch": 0.0810904277520064,
      "grad_norm": 0.18247559666633606,
      "learning_rate": 0.001,
      "loss": 2.7151,
      "num_input_tokens_seen": 4456448000,
      "step": 17000
    },
    {
      "epoch": 0.0810904277520064,
      "eval_loss": 2.6127233505249023,
      "eval_runtime": 50.7555,
      "eval_samples_per_second": 98.512,
      "eval_steps_per_second": 24.628,
      "num_input_tokens_seen": 4456448000,
      "step": 17000
    },
    {
      "epoch": 0.08132892901010053,
      "grad_norm": 0.17702773213386536,
      "learning_rate": 0.001,
      "loss": 2.7303,
      "num_input_tokens_seen": 4469555200,
      "step": 17050
    },
    {
      "epoch": 0.08156743026819467,
      "grad_norm": 0.18900151550769806,
      "learning_rate": 0.001,
      "loss": 2.7286,
      "num_input_tokens_seen": 4482662400,
      "step": 17100
    },
    {
      "epoch": 0.0818059315262888,
      "grad_norm": 0.18566136062145233,
      "learning_rate": 0.001,
      "loss": 2.7304,
      "num_input_tokens_seen": 4495769600,
      "step": 17150
    },
    {
      "epoch": 0.08204443278438293,
      "grad_norm": 0.1759686917066574,
      "learning_rate": 0.001,
      "loss": 2.7179,
      "num_input_tokens_seen": 4508876800,
      "step": 17200
    },
    {
      "epoch": 0.08228293404247708,
      "grad_norm": 0.15799184143543243,
      "learning_rate": 0.001,
      "loss": 2.7367,
      "num_input_tokens_seen": 4521984000,
      "step": 17250
    },
    {
      "epoch": 0.08252143530057121,
      "grad_norm": 0.18740351498126984,
      "learning_rate": 0.001,
      "loss": 2.72,
      "num_input_tokens_seen": 4535091200,
      "step": 17300
    },
    {
      "epoch": 0.08275993655866534,
      "grad_norm": 0.17688381671905518,
      "learning_rate": 0.001,
      "loss": 2.7115,
      "num_input_tokens_seen": 4548198400,
      "step": 17350
    },
    {
      "epoch": 0.08299843781675949,
      "grad_norm": 0.1807299256324768,
      "learning_rate": 0.001,
      "loss": 2.7346,
      "num_input_tokens_seen": 4561305600,
      "step": 17400
    },
    {
      "epoch": 0.08323693907485362,
      "grad_norm": 0.17570430040359497,
      "learning_rate": 0.001,
      "loss": 2.7141,
      "num_input_tokens_seen": 4574412800,
      "step": 17450
    },
    {
      "epoch": 0.08347544033294775,
      "grad_norm": 0.16912159323692322,
      "learning_rate": 0.001,
      "loss": 2.7164,
      "num_input_tokens_seen": 4587520000,
      "step": 17500
    },
    {
      "epoch": 0.08347544033294775,
      "eval_loss": 2.6085972785949707,
      "eval_runtime": 50.619,
      "eval_samples_per_second": 98.777,
      "eval_steps_per_second": 24.694,
      "num_input_tokens_seen": 4587520000,
      "step": 17500
    },
    {
      "epoch": 0.0837139415910419,
      "grad_norm": 0.17684704065322876,
      "learning_rate": 0.001,
      "loss": 2.7293,
      "num_input_tokens_seen": 4600627200,
      "step": 17550
    },
    {
      "epoch": 0.08395244284913603,
      "grad_norm": 0.18020550906658173,
      "learning_rate": 0.001,
      "loss": 2.7124,
      "num_input_tokens_seen": 4613734400,
      "step": 17600
    },
    {
      "epoch": 0.08419094410723016,
      "grad_norm": 0.17311082780361176,
      "learning_rate": 0.001,
      "loss": 2.7047,
      "num_input_tokens_seen": 4626841600,
      "step": 17650
    },
    {
      "epoch": 0.0844294453653243,
      "grad_norm": 0.17366532981395721,
      "learning_rate": 0.001,
      "loss": 2.7316,
      "num_input_tokens_seen": 4639948800,
      "step": 17700
    },
    {
      "epoch": 0.08466794662341844,
      "grad_norm": 0.16526220738887787,
      "learning_rate": 0.001,
      "loss": 2.7212,
      "num_input_tokens_seen": 4653056000,
      "step": 17750
    },
    {
      "epoch": 0.08490644788151258,
      "grad_norm": 0.1746092140674591,
      "learning_rate": 0.001,
      "loss": 2.7288,
      "num_input_tokens_seen": 4666163200,
      "step": 17800
    },
    {
      "epoch": 0.08514494913960671,
      "grad_norm": 0.19404995441436768,
      "learning_rate": 0.001,
      "loss": 2.7129,
      "num_input_tokens_seen": 4679270400,
      "step": 17850
    },
    {
      "epoch": 0.08538345039770084,
      "grad_norm": 0.18850015103816986,
      "learning_rate": 0.001,
      "loss": 2.7161,
      "num_input_tokens_seen": 4692377600,
      "step": 17900
    },
    {
      "epoch": 0.08562195165579499,
      "grad_norm": 0.19126516580581665,
      "learning_rate": 0.001,
      "loss": 2.7206,
      "num_input_tokens_seen": 4705484800,
      "step": 17950
    },
    {
      "epoch": 0.08586045291388912,
      "grad_norm": 0.1802307665348053,
      "learning_rate": 0.001,
      "loss": 2.7163,
      "num_input_tokens_seen": 4718592000,
      "step": 18000
    },
    {
      "epoch": 0.08586045291388912,
      "eval_loss": 2.603686809539795,
      "eval_runtime": 50.6488,
      "eval_samples_per_second": 98.719,
      "eval_steps_per_second": 24.68,
      "num_input_tokens_seen": 4718592000,
      "step": 18000
    },
    {
      "epoch": 0.08609895417198325,
      "grad_norm": 0.18276441097259521,
      "learning_rate": 0.001,
      "loss": 2.7299,
      "num_input_tokens_seen": 4731699200,
      "step": 18050
    },
    {
      "epoch": 0.0863374554300774,
      "grad_norm": 0.17280028760433197,
      "learning_rate": 0.001,
      "loss": 2.7175,
      "num_input_tokens_seen": 4744806400,
      "step": 18100
    },
    {
      "epoch": 0.08657595668817153,
      "grad_norm": 0.17224080860614777,
      "learning_rate": 0.001,
      "loss": 2.7089,
      "num_input_tokens_seen": 4757913600,
      "step": 18150
    },
    {
      "epoch": 0.08681445794626566,
      "grad_norm": 0.17205391824245453,
      "learning_rate": 0.001,
      "loss": 2.7072,
      "num_input_tokens_seen": 4771020800,
      "step": 18200
    },
    {
      "epoch": 0.0870529592043598,
      "grad_norm": 0.1829432249069214,
      "learning_rate": 0.001,
      "loss": 2.6959,
      "num_input_tokens_seen": 4784128000,
      "step": 18250
    },
    {
      "epoch": 0.08729146046245394,
      "grad_norm": 0.1669514924287796,
      "learning_rate": 0.001,
      "loss": 2.7209,
      "num_input_tokens_seen": 4797235200,
      "step": 18300
    },
    {
      "epoch": 0.08752996172054807,
      "grad_norm": 0.18273359537124634,
      "learning_rate": 0.001,
      "loss": 2.6935,
      "num_input_tokens_seen": 4810342400,
      "step": 18350
    },
    {
      "epoch": 0.08776846297864221,
      "grad_norm": 0.21061965823173523,
      "learning_rate": 0.001,
      "loss": 2.7204,
      "num_input_tokens_seen": 4823449600,
      "step": 18400
    },
    {
      "epoch": 0.08800696423673635,
      "grad_norm": 0.17710614204406738,
      "learning_rate": 0.001,
      "loss": 2.7231,
      "num_input_tokens_seen": 4836556800,
      "step": 18450
    },
    {
      "epoch": 0.08824546549483049,
      "grad_norm": 0.17370648682117462,
      "learning_rate": 0.001,
      "loss": 2.7064,
      "num_input_tokens_seen": 4849664000,
      "step": 18500
    },
    {
      "epoch": 0.08824546549483049,
      "eval_loss": 2.600076913833618,
      "eval_runtime": 50.3596,
      "eval_samples_per_second": 99.286,
      "eval_steps_per_second": 24.822,
      "num_input_tokens_seen": 4849664000,
      "step": 18500
    },
    {
      "epoch": 0.08848396675292462,
      "grad_norm": 0.19398675858974457,
      "learning_rate": 0.001,
      "loss": 2.7118,
      "num_input_tokens_seen": 4862771200,
      "step": 18550
    },
    {
      "epoch": 0.08872246801101875,
      "grad_norm": 0.18522043526172638,
      "learning_rate": 0.001,
      "loss": 2.6998,
      "num_input_tokens_seen": 4875878400,
      "step": 18600
    },
    {
      "epoch": 0.0889609692691129,
      "grad_norm": 0.2682952880859375,
      "learning_rate": 0.001,
      "loss": 2.7057,
      "num_input_tokens_seen": 4888985600,
      "step": 18650
    },
    {
      "epoch": 0.08919947052720703,
      "grad_norm": 0.18555712699890137,
      "learning_rate": 0.001,
      "loss": 2.7127,
      "num_input_tokens_seen": 4902092800,
      "step": 18700
    },
    {
      "epoch": 0.08943797178530116,
      "grad_norm": 0.1940859854221344,
      "learning_rate": 0.001,
      "loss": 2.7054,
      "num_input_tokens_seen": 4915200000,
      "step": 18750
    },
    {
      "epoch": 0.08967647304339531,
      "grad_norm": 0.1800539344549179,
      "learning_rate": 0.001,
      "loss": 2.702,
      "num_input_tokens_seen": 4928307200,
      "step": 18800
    },
    {
      "epoch": 0.08991497430148944,
      "grad_norm": 0.19734695553779602,
      "learning_rate": 0.001,
      "loss": 2.7157,
      "num_input_tokens_seen": 4941414400,
      "step": 18850
    },
    {
      "epoch": 0.09015347555958357,
      "grad_norm": 0.16387026011943817,
      "learning_rate": 0.001,
      "loss": 2.7183,
      "num_input_tokens_seen": 4954521600,
      "step": 18900
    },
    {
      "epoch": 0.09039197681767772,
      "grad_norm": 0.19447770714759827,
      "learning_rate": 0.001,
      "loss": 2.7154,
      "num_input_tokens_seen": 4967628800,
      "step": 18950
    },
    {
      "epoch": 0.09063047807577185,
      "grad_norm": 0.17366571724414825,
      "learning_rate": 0.001,
      "loss": 2.6996,
      "num_input_tokens_seen": 4980736000,
      "step": 19000
    },
    {
      "epoch": 0.09063047807577185,
      "eval_loss": 2.5983569622039795,
      "eval_runtime": 50.8055,
      "eval_samples_per_second": 98.415,
      "eval_steps_per_second": 24.604,
      "num_input_tokens_seen": 4980736000,
      "step": 19000
    },
    {
      "epoch": 0.09086897933386599,
      "grad_norm": 0.1770928055047989,
      "learning_rate": 0.001,
      "loss": 2.7171,
      "num_input_tokens_seen": 4993843200,
      "step": 19050
    },
    {
      "epoch": 0.09110748059196012,
      "grad_norm": 0.18122689425945282,
      "learning_rate": 0.001,
      "loss": 2.7064,
      "num_input_tokens_seen": 5006950400,
      "step": 19100
    },
    {
      "epoch": 0.09134598185005426,
      "grad_norm": 0.19320747256278992,
      "learning_rate": 0.001,
      "loss": 2.7105,
      "num_input_tokens_seen": 5020057600,
      "step": 19150
    },
    {
      "epoch": 0.0915844831081484,
      "grad_norm": 0.19556616246700287,
      "learning_rate": 0.001,
      "loss": 2.7018,
      "num_input_tokens_seen": 5033164800,
      "step": 19200
    },
    {
      "epoch": 0.09182298436624253,
      "grad_norm": 0.18251653015613556,
      "learning_rate": 0.001,
      "loss": 2.7067,
      "num_input_tokens_seen": 5046272000,
      "step": 19250
    },
    {
      "epoch": 0.09206148562433666,
      "grad_norm": 0.17226757109165192,
      "learning_rate": 0.001,
      "loss": 2.6803,
      "num_input_tokens_seen": 5059379200,
      "step": 19300
    },
    {
      "epoch": 0.09229998688243081,
      "grad_norm": 0.18007858097553253,
      "learning_rate": 0.001,
      "loss": 2.6998,
      "num_input_tokens_seen": 5072486400,
      "step": 19350
    },
    {
      "epoch": 0.09253848814052494,
      "grad_norm": 0.1664605736732483,
      "learning_rate": 0.001,
      "loss": 2.6985,
      "num_input_tokens_seen": 5085593600,
      "step": 19400
    },
    {
      "epoch": 0.09277698939861907,
      "grad_norm": 0.17898677289485931,
      "learning_rate": 0.001,
      "loss": 2.7034,
      "num_input_tokens_seen": 5098700800,
      "step": 19450
    },
    {
      "epoch": 0.09301549065671322,
      "grad_norm": 0.16403160989284515,
      "learning_rate": 0.001,
      "loss": 2.7012,
      "num_input_tokens_seen": 5111808000,
      "step": 19500
    },
    {
      "epoch": 0.09301549065671322,
      "eval_loss": 2.594251871109009,
      "eval_runtime": 50.1924,
      "eval_samples_per_second": 99.617,
      "eval_steps_per_second": 24.904,
      "num_input_tokens_seen": 5111808000,
      "step": 19500
    },
    {
      "epoch": 0.09325399191480735,
      "grad_norm": 0.17973001301288605,
      "learning_rate": 0.001,
      "loss": 2.7039,
      "num_input_tokens_seen": 5124915200,
      "step": 19550
    },
    {
      "epoch": 0.09349249317290148,
      "grad_norm": 0.1667868047952652,
      "learning_rate": 0.001,
      "loss": 2.7038,
      "num_input_tokens_seen": 5138022400,
      "step": 19600
    },
    {
      "epoch": 0.09373099443099563,
      "grad_norm": 0.18338319659233093,
      "learning_rate": 0.001,
      "loss": 2.7138,
      "num_input_tokens_seen": 5151129600,
      "step": 19650
    },
    {
      "epoch": 0.09396949568908976,
      "grad_norm": 0.17962965369224548,
      "learning_rate": 0.001,
      "loss": 2.6994,
      "num_input_tokens_seen": 5164236800,
      "step": 19700
    },
    {
      "epoch": 0.0942079969471839,
      "grad_norm": 0.17233812808990479,
      "learning_rate": 0.001,
      "loss": 2.7073,
      "num_input_tokens_seen": 5177344000,
      "step": 19750
    },
    {
      "epoch": 0.09444649820527803,
      "grad_norm": 0.16720129549503326,
      "learning_rate": 0.001,
      "loss": 2.7146,
      "num_input_tokens_seen": 5190451200,
      "step": 19800
    },
    {
      "epoch": 0.09468499946337217,
      "grad_norm": 0.1732376664876938,
      "learning_rate": 0.001,
      "loss": 2.7126,
      "num_input_tokens_seen": 5203558400,
      "step": 19850
    },
    {
      "epoch": 0.09492350072146631,
      "grad_norm": 0.17245380580425262,
      "learning_rate": 0.001,
      "loss": 2.7054,
      "num_input_tokens_seen": 5216665600,
      "step": 19900
    },
    {
      "epoch": 0.09516200197956044,
      "grad_norm": 0.17415107786655426,
      "learning_rate": 0.001,
      "loss": 2.7027,
      "num_input_tokens_seen": 5229772800,
      "step": 19950
    },
    {
      "epoch": 0.09540050323765457,
      "grad_norm": 0.1747124344110489,
      "learning_rate": 0.001,
      "loss": 2.6975,
      "num_input_tokens_seen": 5242880000,
      "step": 20000
    },
    {
      "epoch": 0.09540050323765457,
      "eval_loss": 2.5900332927703857,
      "eval_runtime": 50.5898,
      "eval_samples_per_second": 98.834,
      "eval_steps_per_second": 24.709,
      "num_input_tokens_seen": 5242880000,
      "step": 20000
    },
    {
      "epoch": 0.09563900449574872,
      "grad_norm": 0.17750214040279388,
      "learning_rate": 0.001,
      "loss": 2.7,
      "num_input_tokens_seen": 5255987200,
      "step": 20050
    },
    {
      "epoch": 0.09587750575384285,
      "grad_norm": 0.16490615904331207,
      "learning_rate": 0.001,
      "loss": 2.7188,
      "num_input_tokens_seen": 5269094400,
      "step": 20100
    },
    {
      "epoch": 0.09611600701193698,
      "grad_norm": 0.20347309112548828,
      "learning_rate": 0.001,
      "loss": 2.7034,
      "num_input_tokens_seen": 5282201600,
      "step": 20150
    },
    {
      "epoch": 0.09635450827003113,
      "grad_norm": 0.19717667996883392,
      "learning_rate": 0.001,
      "loss": 2.6864,
      "num_input_tokens_seen": 5295308800,
      "step": 20200
    },
    {
      "epoch": 0.09659300952812526,
      "grad_norm": 0.17054997384548187,
      "learning_rate": 0.001,
      "loss": 2.7068,
      "num_input_tokens_seen": 5308416000,
      "step": 20250
    },
    {
      "epoch": 0.09683151078621939,
      "grad_norm": 0.1771887093782425,
      "learning_rate": 0.001,
      "loss": 2.7037,
      "num_input_tokens_seen": 5321523200,
      "step": 20300
    },
    {
      "epoch": 0.09707001204431354,
      "grad_norm": 0.17556501924991608,
      "learning_rate": 0.001,
      "loss": 2.705,
      "num_input_tokens_seen": 5334630400,
      "step": 20350
    },
    {
      "epoch": 0.09730851330240767,
      "grad_norm": 0.1696256399154663,
      "learning_rate": 0.001,
      "loss": 2.7109,
      "num_input_tokens_seen": 5347737600,
      "step": 20400
    },
    {
      "epoch": 0.09754701456050181,
      "grad_norm": 0.18629619479179382,
      "learning_rate": 0.001,
      "loss": 2.7043,
      "num_input_tokens_seen": 5360844800,
      "step": 20450
    },
    {
      "epoch": 0.09778551581859594,
      "grad_norm": 0.18701018393039703,
      "learning_rate": 0.001,
      "loss": 2.7002,
      "num_input_tokens_seen": 5373952000,
      "step": 20500
    },
    {
      "epoch": 0.09778551581859594,
      "eval_loss": 2.587498903274536,
      "eval_runtime": 51.1986,
      "eval_samples_per_second": 97.659,
      "eval_steps_per_second": 24.415,
      "num_input_tokens_seen": 5373952000,
      "step": 20500
    },
    {
      "epoch": 0.09802401707669008,
      "grad_norm": 0.1792842447757721,
      "learning_rate": 0.001,
      "loss": 2.7083,
      "num_input_tokens_seen": 5387059200,
      "step": 20550
    },
    {
      "epoch": 0.09826251833478422,
      "grad_norm": 0.18761058151721954,
      "learning_rate": 0.001,
      "loss": 2.6898,
      "num_input_tokens_seen": 5400166400,
      "step": 20600
    },
    {
      "epoch": 0.09850101959287835,
      "grad_norm": 0.1827591508626938,
      "learning_rate": 0.001,
      "loss": 2.6976,
      "num_input_tokens_seen": 5413273600,
      "step": 20650
    },
    {
      "epoch": 0.09873952085097248,
      "grad_norm": 0.16178373992443085,
      "learning_rate": 0.001,
      "loss": 2.7029,
      "num_input_tokens_seen": 5426380800,
      "step": 20700
    },
    {
      "epoch": 0.09897802210906663,
      "grad_norm": 0.1880313903093338,
      "learning_rate": 0.001,
      "loss": 2.6867,
      "num_input_tokens_seen": 5439488000,
      "step": 20750
    },
    {
      "epoch": 0.09921652336716076,
      "grad_norm": 0.17611584067344666,
      "learning_rate": 0.001,
      "loss": 2.6741,
      "num_input_tokens_seen": 5452595200,
      "step": 20800
    },
    {
      "epoch": 0.09945502462525489,
      "grad_norm": 0.17712561786174774,
      "learning_rate": 0.001,
      "loss": 2.7099,
      "num_input_tokens_seen": 5465702400,
      "step": 20850
    },
    {
      "epoch": 0.09969352588334904,
      "grad_norm": 0.18022434413433075,
      "learning_rate": 0.001,
      "loss": 2.6988,
      "num_input_tokens_seen": 5478809600,
      "step": 20900
    },
    {
      "epoch": 0.09993202714144317,
      "grad_norm": 0.17434161901474,
      "learning_rate": 0.001,
      "loss": 2.6869,
      "num_input_tokens_seen": 5491916800,
      "step": 20950
    },
    {
      "epoch": 0.1001705283995373,
      "grad_norm": 0.17802472412586212,
      "learning_rate": 0.001,
      "loss": 2.6935,
      "num_input_tokens_seen": 5505024000,
      "step": 21000
    },
    {
      "epoch": 0.1001705283995373,
      "eval_loss": 2.5838851928710938,
      "eval_runtime": 50.1977,
      "eval_samples_per_second": 99.606,
      "eval_steps_per_second": 24.902,
      "num_input_tokens_seen": 5505024000,
      "step": 21000
    },
    {
      "epoch": 0.10040902965763145,
      "grad_norm": 0.1723284274339676,
      "learning_rate": 0.001,
      "loss": 2.694,
      "num_input_tokens_seen": 5518131200,
      "step": 21050
    },
    {
      "epoch": 0.10064753091572558,
      "grad_norm": 0.1627894937992096,
      "learning_rate": 0.001,
      "loss": 2.6866,
      "num_input_tokens_seen": 5531238400,
      "step": 21100
    },
    {
      "epoch": 0.10088603217381972,
      "grad_norm": 0.20949719846248627,
      "learning_rate": 0.001,
      "loss": 2.6915,
      "num_input_tokens_seen": 5544345600,
      "step": 21150
    },
    {
      "epoch": 0.10112453343191385,
      "grad_norm": 0.1980736404657364,
      "learning_rate": 0.001,
      "loss": 2.7076,
      "num_input_tokens_seen": 5557452800,
      "step": 21200
    },
    {
      "epoch": 0.10136303469000799,
      "grad_norm": 0.20961201190948486,
      "learning_rate": 0.001,
      "loss": 2.6978,
      "num_input_tokens_seen": 5570560000,
      "step": 21250
    },
    {
      "epoch": 0.10160153594810213,
      "grad_norm": 0.18137700855731964,
      "learning_rate": 0.001,
      "loss": 2.7029,
      "num_input_tokens_seen": 5583667200,
      "step": 21300
    },
    {
      "epoch": 0.10184003720619626,
      "grad_norm": 0.17235560715198517,
      "learning_rate": 0.001,
      "loss": 2.6979,
      "num_input_tokens_seen": 5596774400,
      "step": 21350
    },
    {
      "epoch": 0.1020785384642904,
      "grad_norm": 0.17818449437618256,
      "learning_rate": 0.001,
      "loss": 2.6987,
      "num_input_tokens_seen": 5609881600,
      "step": 21400
    },
    {
      "epoch": 0.10231703972238454,
      "grad_norm": 0.1798463761806488,
      "learning_rate": 0.001,
      "loss": 2.693,
      "num_input_tokens_seen": 5622988800,
      "step": 21450
    },
    {
      "epoch": 0.10255554098047867,
      "grad_norm": 0.19028444588184357,
      "learning_rate": 0.001,
      "loss": 2.7079,
      "num_input_tokens_seen": 5636096000,
      "step": 21500
    },
    {
      "epoch": 0.10255554098047867,
      "eval_loss": 2.5816380977630615,
      "eval_runtime": 50.7808,
      "eval_samples_per_second": 98.462,
      "eval_steps_per_second": 24.616,
      "num_input_tokens_seen": 5636096000,
      "step": 21500
    },
    {
      "epoch": 0.1027940422385728,
      "grad_norm": 0.1831275075674057,
      "learning_rate": 0.001,
      "loss": 2.7038,
      "num_input_tokens_seen": 5649203200,
      "step": 21550
    },
    {
      "epoch": 0.10303254349666695,
      "grad_norm": 0.17404012382030487,
      "learning_rate": 0.001,
      "loss": 2.7071,
      "num_input_tokens_seen": 5662310400,
      "step": 21600
    },
    {
      "epoch": 0.10327104475476108,
      "grad_norm": 0.1652098149061203,
      "learning_rate": 0.001,
      "loss": 2.7033,
      "num_input_tokens_seen": 5675417600,
      "step": 21650
    },
    {
      "epoch": 0.10350954601285522,
      "grad_norm": 0.1914501190185547,
      "learning_rate": 0.001,
      "loss": 2.6844,
      "num_input_tokens_seen": 5688524800,
      "step": 21700
    },
    {
      "epoch": 0.10374804727094936,
      "grad_norm": 0.19169588387012482,
      "learning_rate": 0.001,
      "loss": 2.6793,
      "num_input_tokens_seen": 5701632000,
      "step": 21750
    },
    {
      "epoch": 0.10398654852904349,
      "grad_norm": 0.17937491834163666,
      "learning_rate": 0.001,
      "loss": 2.6972,
      "num_input_tokens_seen": 5714739200,
      "step": 21800
    },
    {
      "epoch": 0.10422504978713763,
      "grad_norm": 0.17515376210212708,
      "learning_rate": 0.001,
      "loss": 2.6995,
      "num_input_tokens_seen": 5727846400,
      "step": 21850
    },
    {
      "epoch": 0.10446355104523176,
      "grad_norm": 0.18881027400493622,
      "learning_rate": 0.001,
      "loss": 2.7097,
      "num_input_tokens_seen": 5740953600,
      "step": 21900
    },
    {
      "epoch": 0.1047020523033259,
      "grad_norm": 0.19030135869979858,
      "learning_rate": 0.001,
      "loss": 2.6801,
      "num_input_tokens_seen": 5754060800,
      "step": 21950
    },
    {
      "epoch": 0.10494055356142004,
      "grad_norm": 0.17325563728809357,
      "learning_rate": 0.001,
      "loss": 2.6803,
      "num_input_tokens_seen": 5767168000,
      "step": 22000
    },
    {
      "epoch": 0.10494055356142004,
      "eval_loss": 2.577341318130493,
      "eval_runtime": 50.8482,
      "eval_samples_per_second": 98.332,
      "eval_steps_per_second": 24.583,
      "num_input_tokens_seen": 5767168000,
      "step": 22000
    },
    {
      "epoch": 0.10517905481951417,
      "grad_norm": 0.19298380613327026,
      "learning_rate": 0.001,
      "loss": 2.6966,
      "num_input_tokens_seen": 5780275200,
      "step": 22050
    },
    {
      "epoch": 0.1054175560776083,
      "grad_norm": 0.1772100180387497,
      "learning_rate": 0.001,
      "loss": 2.6851,
      "num_input_tokens_seen": 5793382400,
      "step": 22100
    },
    {
      "epoch": 0.10565605733570245,
      "grad_norm": 0.18548481166362762,
      "learning_rate": 0.001,
      "loss": 2.7028,
      "num_input_tokens_seen": 5806489600,
      "step": 22150
    },
    {
      "epoch": 0.10589455859379658,
      "grad_norm": 0.20102089643478394,
      "learning_rate": 0.001,
      "loss": 2.6915,
      "num_input_tokens_seen": 5819596800,
      "step": 22200
    },
    {
      "epoch": 0.10613305985189071,
      "grad_norm": 0.1833849996328354,
      "learning_rate": 0.001,
      "loss": 2.6872,
      "num_input_tokens_seen": 5832704000,
      "step": 22250
    },
    {
      "epoch": 0.10637156110998486,
      "grad_norm": 0.17730027437210083,
      "learning_rate": 0.001,
      "loss": 2.6811,
      "num_input_tokens_seen": 5845811200,
      "step": 22300
    },
    {
      "epoch": 0.10661006236807899,
      "grad_norm": 0.1818256825208664,
      "learning_rate": 0.001,
      "loss": 2.7,
      "num_input_tokens_seen": 5858918400,
      "step": 22350
    },
    {
      "epoch": 0.10684856362617313,
      "grad_norm": 0.16850312054157257,
      "learning_rate": 0.001,
      "loss": 2.6927,
      "num_input_tokens_seen": 5872025600,
      "step": 22400
    },
    {
      "epoch": 0.10708706488426727,
      "grad_norm": 0.209822878241539,
      "learning_rate": 0.001,
      "loss": 2.6881,
      "num_input_tokens_seen": 5885132800,
      "step": 22450
    },
    {
      "epoch": 0.1073255661423614,
      "grad_norm": 0.2131560891866684,
      "learning_rate": 0.001,
      "loss": 2.6797,
      "num_input_tokens_seen": 5898240000,
      "step": 22500
    },
    {
      "epoch": 0.1073255661423614,
      "eval_loss": 2.575388193130493,
      "eval_runtime": 50.9696,
      "eval_samples_per_second": 98.098,
      "eval_steps_per_second": 24.524,
      "num_input_tokens_seen": 5898240000,
      "step": 22500
    },
    {
      "epoch": 0.10756406740045554,
      "grad_norm": 0.18200135231018066,
      "learning_rate": 0.001,
      "loss": 2.6837,
      "num_input_tokens_seen": 5911347200,
      "step": 22550
    },
    {
      "epoch": 0.10780256865854967,
      "grad_norm": 0.1830984354019165,
      "learning_rate": 0.001,
      "loss": 2.7159,
      "num_input_tokens_seen": 5924454400,
      "step": 22600
    },
    {
      "epoch": 0.1080410699166438,
      "grad_norm": 0.1700614094734192,
      "learning_rate": 0.001,
      "loss": 2.6852,
      "num_input_tokens_seen": 5937561600,
      "step": 22650
    },
    {
      "epoch": 0.10827957117473795,
      "grad_norm": 0.18473868072032928,
      "learning_rate": 0.001,
      "loss": 2.6857,
      "num_input_tokens_seen": 5950668800,
      "step": 22700
    },
    {
      "epoch": 0.10851807243283208,
      "grad_norm": 0.19345365464687347,
      "learning_rate": 0.001,
      "loss": 2.69,
      "num_input_tokens_seen": 5963776000,
      "step": 22750
    },
    {
      "epoch": 0.10875657369092621,
      "grad_norm": 0.18807141482830048,
      "learning_rate": 0.001,
      "loss": 2.6897,
      "num_input_tokens_seen": 5976883200,
      "step": 22800
    },
    {
      "epoch": 0.10899507494902036,
      "grad_norm": 0.18426446616649628,
      "learning_rate": 0.001,
      "loss": 2.6855,
      "num_input_tokens_seen": 5989990400,
      "step": 22850
    },
    {
      "epoch": 0.10923357620711449,
      "grad_norm": 0.19184571504592896,
      "learning_rate": 0.001,
      "loss": 2.6914,
      "num_input_tokens_seen": 6003097600,
      "step": 22900
    },
    {
      "epoch": 0.10947207746520862,
      "grad_norm": 0.22897471487522125,
      "learning_rate": 0.001,
      "loss": 2.6812,
      "num_input_tokens_seen": 6016204800,
      "step": 22950
    },
    {
      "epoch": 0.10971057872330277,
      "grad_norm": 0.1939724087715149,
      "learning_rate": 0.001,
      "loss": 2.6836,
      "num_input_tokens_seen": 6029312000,
      "step": 23000
    },
    {
      "epoch": 0.10971057872330277,
      "eval_loss": 2.570572853088379,
      "eval_runtime": 50.0606,
      "eval_samples_per_second": 99.879,
      "eval_steps_per_second": 24.97,
      "num_input_tokens_seen": 6029312000,
      "step": 23000
    },
    {
      "epoch": 0.1099490799813969,
      "grad_norm": 0.17564797401428223,
      "learning_rate": 0.001,
      "loss": 2.6912,
      "num_input_tokens_seen": 6042419200,
      "step": 23050
    },
    {
      "epoch": 0.11018758123949104,
      "grad_norm": 0.17937473952770233,
      "learning_rate": 0.001,
      "loss": 2.6708,
      "num_input_tokens_seen": 6055526400,
      "step": 23100
    },
    {
      "epoch": 0.11042608249758518,
      "grad_norm": 0.18281136453151703,
      "learning_rate": 0.001,
      "loss": 2.6855,
      "num_input_tokens_seen": 6068633600,
      "step": 23150
    },
    {
      "epoch": 0.11066458375567931,
      "grad_norm": 0.18834726512432098,
      "learning_rate": 0.001,
      "loss": 2.6887,
      "num_input_tokens_seen": 6081740800,
      "step": 23200
    },
    {
      "epoch": 0.11090308501377345,
      "grad_norm": 0.2104720175266266,
      "learning_rate": 0.001,
      "loss": 2.6914,
      "num_input_tokens_seen": 6094848000,
      "step": 23250
    },
    {
      "epoch": 0.11114158627186758,
      "grad_norm": 0.18674172461032867,
      "learning_rate": 0.001,
      "loss": 2.6855,
      "num_input_tokens_seen": 6107955200,
      "step": 23300
    },
    {
      "epoch": 0.11138008752996172,
      "grad_norm": 0.19519701600074768,
      "learning_rate": 0.001,
      "loss": 2.6851,
      "num_input_tokens_seen": 6121062400,
      "step": 23350
    },
    {
      "epoch": 0.11161858878805586,
      "grad_norm": 0.1752537339925766,
      "learning_rate": 0.001,
      "loss": 2.692,
      "num_input_tokens_seen": 6134169600,
      "step": 23400
    },
    {
      "epoch": 0.11185709004614999,
      "grad_norm": 0.1786031723022461,
      "learning_rate": 0.001,
      "loss": 2.6785,
      "num_input_tokens_seen": 6147276800,
      "step": 23450
    },
    {
      "epoch": 0.11209559130424412,
      "grad_norm": 0.19057604670524597,
      "learning_rate": 0.001,
      "loss": 2.6798,
      "num_input_tokens_seen": 6160384000,
      "step": 23500
    },
    {
      "epoch": 0.11209559130424412,
      "eval_loss": 2.5710463523864746,
      "eval_runtime": 50.3332,
      "eval_samples_per_second": 99.338,
      "eval_steps_per_second": 24.835,
      "num_input_tokens_seen": 6160384000,
      "step": 23500
    },
    {
      "epoch": 0.11233409256233827,
      "grad_norm": 0.18272963166236877,
      "learning_rate": 0.001,
      "loss": 2.6847,
      "num_input_tokens_seen": 6173491200,
      "step": 23550
    },
    {
      "epoch": 0.1125725938204324,
      "grad_norm": 0.1666375696659088,
      "learning_rate": 0.001,
      "loss": 2.6747,
      "num_input_tokens_seen": 6186598400,
      "step": 23600
    },
    {
      "epoch": 0.11281109507852653,
      "grad_norm": 0.1688246876001358,
      "learning_rate": 0.001,
      "loss": 2.6963,
      "num_input_tokens_seen": 6199705600,
      "step": 23650
    },
    {
      "epoch": 0.11304959633662068,
      "grad_norm": 0.1970459669828415,
      "learning_rate": 0.001,
      "loss": 2.6904,
      "num_input_tokens_seen": 6212812800,
      "step": 23700
    },
    {
      "epoch": 0.11328809759471481,
      "grad_norm": 0.19660720229148865,
      "learning_rate": 0.001,
      "loss": 2.6833,
      "num_input_tokens_seen": 6225920000,
      "step": 23750
    },
    {
      "epoch": 0.11352659885280895,
      "grad_norm": 0.18711698055267334,
      "learning_rate": 0.001,
      "loss": 2.6872,
      "num_input_tokens_seen": 6239027200,
      "step": 23800
    },
    {
      "epoch": 0.11376510011090309,
      "grad_norm": 0.1878872513771057,
      "learning_rate": 0.001,
      "loss": 2.6884,
      "num_input_tokens_seen": 6252134400,
      "step": 23850
    },
    {
      "epoch": 0.11400360136899722,
      "grad_norm": 0.1969616860151291,
      "learning_rate": 0.001,
      "loss": 2.6982,
      "num_input_tokens_seen": 6265241600,
      "step": 23900
    },
    {
      "epoch": 0.11424210262709136,
      "grad_norm": 0.19693812727928162,
      "learning_rate": 0.001,
      "loss": 2.6782,
      "num_input_tokens_seen": 6278348800,
      "step": 23950
    },
    {
      "epoch": 0.1144806038851855,
      "grad_norm": 0.1731441468000412,
      "learning_rate": 0.001,
      "loss": 2.6917,
      "num_input_tokens_seen": 6291456000,
      "step": 24000
    },
    {
      "epoch": 0.1144806038851855,
      "eval_loss": 2.5664987564086914,
      "eval_runtime": 50.3452,
      "eval_samples_per_second": 99.314,
      "eval_steps_per_second": 24.829,
      "num_input_tokens_seen": 6291456000,
      "step": 24000
    },
    {
      "epoch": 0.11471910514327963,
      "grad_norm": 0.1724429428577423,
      "learning_rate": 0.001,
      "loss": 2.6806,
      "num_input_tokens_seen": 6304563200,
      "step": 24050
    },
    {
      "epoch": 0.11495760640137377,
      "grad_norm": 0.20449388027191162,
      "learning_rate": 0.001,
      "loss": 2.6873,
      "num_input_tokens_seen": 6317670400,
      "step": 24100
    },
    {
      "epoch": 0.1151961076594679,
      "grad_norm": 0.19024738669395447,
      "learning_rate": 0.001,
      "loss": 2.6811,
      "num_input_tokens_seen": 6330777600,
      "step": 24150
    },
    {
      "epoch": 0.11543460891756203,
      "grad_norm": 0.20510025322437286,
      "learning_rate": 0.001,
      "loss": 2.6643,
      "num_input_tokens_seen": 6343884800,
      "step": 24200
    },
    {
      "epoch": 0.11567311017565618,
      "grad_norm": 0.1783556044101715,
      "learning_rate": 0.001,
      "loss": 2.6709,
      "num_input_tokens_seen": 6356992000,
      "step": 24250
    },
    {
      "epoch": 0.11591161143375031,
      "grad_norm": 0.1771089732646942,
      "learning_rate": 0.001,
      "loss": 2.6677,
      "num_input_tokens_seen": 6370099200,
      "step": 24300
    },
    {
      "epoch": 0.11615011269184444,
      "grad_norm": 0.17016734182834625,
      "learning_rate": 0.001,
      "loss": 2.6681,
      "num_input_tokens_seen": 6383206400,
      "step": 24350
    },
    {
      "epoch": 0.11638861394993859,
      "grad_norm": 0.1901489496231079,
      "learning_rate": 0.001,
      "loss": 2.6811,
      "num_input_tokens_seen": 6396313600,
      "step": 24400
    },
    {
      "epoch": 0.11662711520803272,
      "grad_norm": 0.18185457587242126,
      "learning_rate": 0.001,
      "loss": 2.6787,
      "num_input_tokens_seen": 6409420800,
      "step": 24450
    },
    {
      "epoch": 0.11686561646612686,
      "grad_norm": 0.1789853274822235,
      "learning_rate": 0.001,
      "loss": 2.6657,
      "num_input_tokens_seen": 6422528000,
      "step": 24500
    },
    {
      "epoch": 0.11686561646612686,
      "eval_loss": 2.564084768295288,
      "eval_runtime": 50.4559,
      "eval_samples_per_second": 99.096,
      "eval_steps_per_second": 24.774,
      "num_input_tokens_seen": 6422528000,
      "step": 24500
    },
    {
      "epoch": 0.117104117724221,
      "grad_norm": 0.17294436693191528,
      "learning_rate": 0.001,
      "loss": 2.6812,
      "num_input_tokens_seen": 6435635200,
      "step": 24550
    },
    {
      "epoch": 0.11734261898231513,
      "grad_norm": 0.1840251386165619,
      "learning_rate": 0.001,
      "loss": 2.6599,
      "num_input_tokens_seen": 6448742400,
      "step": 24600
    },
    {
      "epoch": 0.11758112024040927,
      "grad_norm": 0.17588932812213898,
      "learning_rate": 0.001,
      "loss": 2.6742,
      "num_input_tokens_seen": 6461849600,
      "step": 24650
    },
    {
      "epoch": 0.1178196214985034,
      "grad_norm": 0.1805667132139206,
      "learning_rate": 0.001,
      "loss": 2.6647,
      "num_input_tokens_seen": 6474956800,
      "step": 24700
    },
    {
      "epoch": 0.11805812275659754,
      "grad_norm": 0.17930665612220764,
      "learning_rate": 0.001,
      "loss": 2.6763,
      "num_input_tokens_seen": 6488064000,
      "step": 24750
    },
    {
      "epoch": 0.11829662401469168,
      "grad_norm": 0.19195732474327087,
      "learning_rate": 0.001,
      "loss": 2.6716,
      "num_input_tokens_seen": 6501171200,
      "step": 24800
    },
    {
      "epoch": 0.11853512527278581,
      "grad_norm": 0.19274356961250305,
      "learning_rate": 0.001,
      "loss": 2.6702,
      "num_input_tokens_seen": 6514278400,
      "step": 24850
    },
    {
      "epoch": 0.11877362653087994,
      "grad_norm": 0.17423510551452637,
      "learning_rate": 0.001,
      "loss": 2.6733,
      "num_input_tokens_seen": 6527385600,
      "step": 24900
    },
    {
      "epoch": 0.11901212778897409,
      "grad_norm": 0.20267954468727112,
      "learning_rate": 0.001,
      "loss": 2.6649,
      "num_input_tokens_seen": 6540492800,
      "step": 24950
    },
    {
      "epoch": 0.11925062904706822,
      "grad_norm": 0.1756502240896225,
      "learning_rate": 0.001,
      "loss": 2.6582,
      "num_input_tokens_seen": 6553600000,
      "step": 25000
    },
    {
      "epoch": 0.11925062904706822,
      "eval_loss": 2.562955379486084,
      "eval_runtime": 50.0071,
      "eval_samples_per_second": 99.986,
      "eval_steps_per_second": 24.996,
      "num_input_tokens_seen": 6553600000,
      "step": 25000
    },
    {
      "epoch": 0.11948913030516237,
      "grad_norm": 0.19173742830753326,
      "learning_rate": 0.001,
      "loss": 2.6871,
      "num_input_tokens_seen": 6566707200,
      "step": 25050
    },
    {
      "epoch": 0.1197276315632565,
      "grad_norm": 0.1746075600385666,
      "learning_rate": 0.001,
      "loss": 2.7003,
      "num_input_tokens_seen": 6579814400,
      "step": 25100
    },
    {
      "epoch": 0.11996613282135063,
      "grad_norm": 0.17817530035972595,
      "learning_rate": 0.001,
      "loss": 2.6944,
      "num_input_tokens_seen": 6592921600,
      "step": 25150
    },
    {
      "epoch": 0.12020463407944477,
      "grad_norm": 0.201807901263237,
      "learning_rate": 0.001,
      "loss": 2.6766,
      "num_input_tokens_seen": 6606028800,
      "step": 25200
    },
    {
      "epoch": 0.1204431353375389,
      "grad_norm": 0.18620917201042175,
      "learning_rate": 0.001,
      "loss": 2.6802,
      "num_input_tokens_seen": 6619136000,
      "step": 25250
    },
    {
      "epoch": 0.12068163659563304,
      "grad_norm": 0.17383818328380585,
      "learning_rate": 0.001,
      "loss": 2.6698,
      "num_input_tokens_seen": 6632243200,
      "step": 25300
    },
    {
      "epoch": 0.12092013785372718,
      "grad_norm": 0.1766287237405777,
      "learning_rate": 0.001,
      "loss": 2.6705,
      "num_input_tokens_seen": 6645350400,
      "step": 25350
    },
    {
      "epoch": 0.12115863911182131,
      "grad_norm": 0.19551052153110504,
      "learning_rate": 0.001,
      "loss": 2.678,
      "num_input_tokens_seen": 6658457600,
      "step": 25400
    },
    {
      "epoch": 0.12139714036991545,
      "grad_norm": 0.18625982105731964,
      "learning_rate": 0.001,
      "loss": 2.6688,
      "num_input_tokens_seen": 6671564800,
      "step": 25450
    },
    {
      "epoch": 0.12163564162800959,
      "grad_norm": 0.18274050951004028,
      "learning_rate": 0.001,
      "loss": 2.6818,
      "num_input_tokens_seen": 6684672000,
      "step": 25500
    },
    {
      "epoch": 0.12163564162800959,
      "eval_loss": 2.5602569580078125,
      "eval_runtime": 50.4187,
      "eval_samples_per_second": 99.17,
      "eval_steps_per_second": 24.792,
      "num_input_tokens_seen": 6684672000,
      "step": 25500
    },
    {
      "epoch": 0.12187414288610372,
      "grad_norm": 0.18547837436199188,
      "learning_rate": 0.001,
      "loss": 2.6754,
      "num_input_tokens_seen": 6697779200,
      "step": 25550
    },
    {
      "epoch": 0.12211264414419785,
      "grad_norm": 0.18558937311172485,
      "learning_rate": 0.001,
      "loss": 2.6767,
      "num_input_tokens_seen": 6710886400,
      "step": 25600
    },
    {
      "epoch": 0.122351145402292,
      "grad_norm": 0.17276135087013245,
      "learning_rate": 0.001,
      "loss": 2.6775,
      "num_input_tokens_seen": 6723993600,
      "step": 25650
    },
    {
      "epoch": 0.12258964666038613,
      "grad_norm": 0.18483039736747742,
      "learning_rate": 0.001,
      "loss": 2.6818,
      "num_input_tokens_seen": 6737100800,
      "step": 25700
    },
    {
      "epoch": 0.12282814791848028,
      "grad_norm": 0.18036937713623047,
      "learning_rate": 0.001,
      "loss": 2.6669,
      "num_input_tokens_seen": 6750208000,
      "step": 25750
    },
    {
      "epoch": 0.12306664917657441,
      "grad_norm": 0.1728815734386444,
      "learning_rate": 0.001,
      "loss": 2.6789,
      "num_input_tokens_seen": 6763315200,
      "step": 25800
    },
    {
      "epoch": 0.12330515043466854,
      "grad_norm": 0.19193877279758453,
      "learning_rate": 0.001,
      "loss": 2.6487,
      "num_input_tokens_seen": 6776422400,
      "step": 25850
    },
    {
      "epoch": 0.12354365169276268,
      "grad_norm": 0.1584886610507965,
      "learning_rate": 0.001,
      "loss": 2.6638,
      "num_input_tokens_seen": 6789529600,
      "step": 25900
    },
    {
      "epoch": 0.12378215295085682,
      "grad_norm": 0.18792498111724854,
      "learning_rate": 0.001,
      "loss": 2.6754,
      "num_input_tokens_seen": 6802636800,
      "step": 25950
    },
    {
      "epoch": 0.12402065420895095,
      "grad_norm": 0.1689581423997879,
      "learning_rate": 0.001,
      "loss": 2.6682,
      "num_input_tokens_seen": 6815744000,
      "step": 26000
    },
    {
      "epoch": 0.12402065420895095,
      "eval_loss": 2.5587522983551025,
      "eval_runtime": 50.7858,
      "eval_samples_per_second": 98.453,
      "eval_steps_per_second": 24.613,
      "num_input_tokens_seen": 6815744000,
      "step": 26000
    },
    {
      "epoch": 0.1242591554670451,
      "grad_norm": 0.18573056161403656,
      "learning_rate": 0.001,
      "loss": 2.6565,
      "num_input_tokens_seen": 6828851200,
      "step": 26050
    },
    {
      "epoch": 0.12449765672513922,
      "grad_norm": 0.19160890579223633,
      "learning_rate": 0.001,
      "loss": 2.6797,
      "num_input_tokens_seen": 6841958400,
      "step": 26100
    },
    {
      "epoch": 0.12473615798323336,
      "grad_norm": 0.18323373794555664,
      "learning_rate": 0.001,
      "loss": 2.6602,
      "num_input_tokens_seen": 6855065600,
      "step": 26150
    },
    {
      "epoch": 0.1249746592413275,
      "grad_norm": 0.17691807448863983,
      "learning_rate": 0.001,
      "loss": 2.6676,
      "num_input_tokens_seen": 6868172800,
      "step": 26200
    },
    {
      "epoch": 0.12521316049942163,
      "grad_norm": 0.20718660950660706,
      "learning_rate": 0.001,
      "loss": 2.6588,
      "num_input_tokens_seen": 6881280000,
      "step": 26250
    },
    {
      "epoch": 0.12545166175751576,
      "grad_norm": 0.17811058461666107,
      "learning_rate": 0.001,
      "loss": 2.6754,
      "num_input_tokens_seen": 6894387200,
      "step": 26300
    },
    {
      "epoch": 0.1256901630156099,
      "grad_norm": 0.17490555346012115,
      "learning_rate": 0.001,
      "loss": 2.6605,
      "num_input_tokens_seen": 6907494400,
      "step": 26350
    },
    {
      "epoch": 0.12592866427370406,
      "grad_norm": 0.17391368746757507,
      "learning_rate": 0.001,
      "loss": 2.684,
      "num_input_tokens_seen": 6920601600,
      "step": 26400
    },
    {
      "epoch": 0.1261671655317982,
      "grad_norm": 0.16951416432857513,
      "learning_rate": 0.001,
      "loss": 2.6685,
      "num_input_tokens_seen": 6933708800,
      "step": 26450
    },
    {
      "epoch": 0.12640566678989232,
      "grad_norm": 0.17574581503868103,
      "learning_rate": 0.001,
      "loss": 2.6665,
      "num_input_tokens_seen": 6946816000,
      "step": 26500
    },
    {
      "epoch": 0.12640566678989232,
      "eval_loss": 2.556109666824341,
      "eval_runtime": 50.8743,
      "eval_samples_per_second": 98.281,
      "eval_steps_per_second": 24.57,
      "num_input_tokens_seen": 6946816000,
      "step": 26500
    },
    {
      "epoch": 0.12664416804798645,
      "grad_norm": 0.19910745322704315,
      "learning_rate": 0.001,
      "loss": 2.6755,
      "num_input_tokens_seen": 6959923200,
      "step": 26550
    },
    {
      "epoch": 0.12688266930608058,
      "grad_norm": 0.20141273736953735,
      "learning_rate": 0.001,
      "loss": 2.6798,
      "num_input_tokens_seen": 6973030400,
      "step": 26600
    },
    {
      "epoch": 0.1271211705641747,
      "grad_norm": 0.1732529103755951,
      "learning_rate": 0.001,
      "loss": 2.6606,
      "num_input_tokens_seen": 6986137600,
      "step": 26650
    },
    {
      "epoch": 0.12735967182226887,
      "grad_norm": 0.17546698451042175,
      "learning_rate": 0.001,
      "loss": 2.6717,
      "num_input_tokens_seen": 6999244800,
      "step": 26700
    },
    {
      "epoch": 0.127598173080363,
      "grad_norm": 0.2186097502708435,
      "learning_rate": 0.001,
      "loss": 2.6702,
      "num_input_tokens_seen": 7012352000,
      "step": 26750
    },
    {
      "epoch": 0.12783667433845713,
      "grad_norm": 0.1735202819108963,
      "learning_rate": 0.001,
      "loss": 2.6795,
      "num_input_tokens_seen": 7025459200,
      "step": 26800
    },
    {
      "epoch": 0.12807517559655127,
      "grad_norm": 0.40701860189437866,
      "learning_rate": 0.001,
      "loss": 2.6591,
      "num_input_tokens_seen": 7038566400,
      "step": 26850
    },
    {
      "epoch": 0.1283136768546454,
      "grad_norm": 0.19710049033164978,
      "learning_rate": 0.001,
      "loss": 2.6841,
      "num_input_tokens_seen": 7051673600,
      "step": 26900
    },
    {
      "epoch": 0.12855217811273956,
      "grad_norm": 0.18638554215431213,
      "learning_rate": 0.001,
      "loss": 2.6718,
      "num_input_tokens_seen": 7064780800,
      "step": 26950
    },
    {
      "epoch": 0.1287906793708337,
      "grad_norm": 0.17546561360359192,
      "learning_rate": 0.001,
      "loss": 2.6547,
      "num_input_tokens_seen": 7077888000,
      "step": 27000
    },
    {
      "epoch": 0.1287906793708337,
      "eval_loss": 2.551922559738159,
      "eval_runtime": 50.1864,
      "eval_samples_per_second": 99.629,
      "eval_steps_per_second": 24.907,
      "num_input_tokens_seen": 7077888000,
      "step": 27000
    },
    {
      "epoch": 0.12902918062892782,
      "grad_norm": 0.1790401190519333,
      "learning_rate": 0.001,
      "loss": 2.672,
      "num_input_tokens_seen": 7090995200,
      "step": 27050
    },
    {
      "epoch": 0.12926768188702195,
      "grad_norm": 0.18173836171627045,
      "learning_rate": 0.001,
      "loss": 2.6563,
      "num_input_tokens_seen": 7104102400,
      "step": 27100
    },
    {
      "epoch": 0.12950618314511608,
      "grad_norm": 0.1827983856201172,
      "learning_rate": 0.001,
      "loss": 2.665,
      "num_input_tokens_seen": 7117209600,
      "step": 27150
    },
    {
      "epoch": 0.12974468440321021,
      "grad_norm": 0.20252254605293274,
      "learning_rate": 0.001,
      "loss": 2.675,
      "num_input_tokens_seen": 7130316800,
      "step": 27200
    },
    {
      "epoch": 0.12998318566130437,
      "grad_norm": 0.18492095172405243,
      "learning_rate": 0.001,
      "loss": 2.6801,
      "num_input_tokens_seen": 7143424000,
      "step": 27250
    },
    {
      "epoch": 0.1302216869193985,
      "grad_norm": 0.1962280571460724,
      "learning_rate": 0.001,
      "loss": 2.6551,
      "num_input_tokens_seen": 7156531200,
      "step": 27300
    },
    {
      "epoch": 0.13046018817749264,
      "grad_norm": 0.18813727796077728,
      "learning_rate": 0.001,
      "loss": 2.6728,
      "num_input_tokens_seen": 7169638400,
      "step": 27350
    },
    {
      "epoch": 0.13069868943558677,
      "grad_norm": 0.18111565709114075,
      "learning_rate": 0.001,
      "loss": 2.6743,
      "num_input_tokens_seen": 7182745600,
      "step": 27400
    },
    {
      "epoch": 0.1309371906936809,
      "grad_norm": 0.1727459728717804,
      "learning_rate": 0.001,
      "loss": 2.6596,
      "num_input_tokens_seen": 7195852800,
      "step": 27450
    },
    {
      "epoch": 0.13117569195177506,
      "grad_norm": 0.20097768306732178,
      "learning_rate": 0.001,
      "loss": 2.6651,
      "num_input_tokens_seen": 7208960000,
      "step": 27500
    },
    {
      "epoch": 0.13117569195177506,
      "eval_loss": 2.5501132011413574,
      "eval_runtime": 50.3677,
      "eval_samples_per_second": 99.27,
      "eval_steps_per_second": 24.817,
      "num_input_tokens_seen": 7208960000,
      "step": 27500
    },
    {
      "epoch": 0.1314141932098692,
      "grad_norm": 0.17329637706279755,
      "learning_rate": 0.001,
      "loss": 2.663,
      "num_input_tokens_seen": 7222067200,
      "step": 27550
    },
    {
      "epoch": 0.13165269446796332,
      "grad_norm": 0.16942919790744781,
      "learning_rate": 0.001,
      "loss": 2.6609,
      "num_input_tokens_seen": 7235174400,
      "step": 27600
    },
    {
      "epoch": 0.13189119572605745,
      "grad_norm": 0.19828958809375763,
      "learning_rate": 0.001,
      "loss": 2.6625,
      "num_input_tokens_seen": 7248281600,
      "step": 27650
    },
    {
      "epoch": 0.13212969698415158,
      "grad_norm": 0.1928141862154007,
      "learning_rate": 0.001,
      "loss": 2.6597,
      "num_input_tokens_seen": 7261388800,
      "step": 27700
    },
    {
      "epoch": 0.13236819824224572,
      "grad_norm": 0.1870756894350052,
      "learning_rate": 0.001,
      "loss": 2.6718,
      "num_input_tokens_seen": 7274496000,
      "step": 27750
    },
    {
      "epoch": 0.13260669950033988,
      "grad_norm": 0.1786762923002243,
      "learning_rate": 0.001,
      "loss": 2.6631,
      "num_input_tokens_seen": 7287603200,
      "step": 27800
    },
    {
      "epoch": 0.132845200758434,
      "grad_norm": 0.1710624396800995,
      "learning_rate": 0.001,
      "loss": 2.6717,
      "num_input_tokens_seen": 7300710400,
      "step": 27850
    },
    {
      "epoch": 0.13308370201652814,
      "grad_norm": 0.1805214285850525,
      "learning_rate": 0.001,
      "loss": 2.6669,
      "num_input_tokens_seen": 7313817600,
      "step": 27900
    },
    {
      "epoch": 0.13332220327462227,
      "grad_norm": 0.18169906735420227,
      "learning_rate": 0.001,
      "loss": 2.6659,
      "num_input_tokens_seen": 7326924800,
      "step": 27950
    },
    {
      "epoch": 0.1335607045327164,
      "grad_norm": 0.16959500312805176,
      "learning_rate": 0.001,
      "loss": 2.6623,
      "num_input_tokens_seen": 7340032000,
      "step": 28000
    },
    {
      "epoch": 0.1335607045327164,
      "eval_loss": 2.548675060272217,
      "eval_runtime": 50.3022,
      "eval_samples_per_second": 99.399,
      "eval_steps_per_second": 24.85,
      "num_input_tokens_seen": 7340032000,
      "step": 28000
    },
    {
      "epoch": 0.13379920579081056,
      "grad_norm": 0.19409704208374023,
      "learning_rate": 0.001,
      "loss": 2.6776,
      "num_input_tokens_seen": 7353139200,
      "step": 28050
    },
    {
      "epoch": 0.1340377070489047,
      "grad_norm": 0.1712968647480011,
      "learning_rate": 0.001,
      "loss": 2.6679,
      "num_input_tokens_seen": 7366246400,
      "step": 28100
    },
    {
      "epoch": 0.13427620830699882,
      "grad_norm": 0.20586130023002625,
      "learning_rate": 0.001,
      "loss": 2.6633,
      "num_input_tokens_seen": 7379353600,
      "step": 28150
    },
    {
      "epoch": 0.13451470956509295,
      "grad_norm": 0.1776891052722931,
      "learning_rate": 0.001,
      "loss": 2.6683,
      "num_input_tokens_seen": 7392460800,
      "step": 28200
    },
    {
      "epoch": 0.1347532108231871,
      "grad_norm": 0.19293451309204102,
      "learning_rate": 0.001,
      "loss": 2.6645,
      "num_input_tokens_seen": 7405568000,
      "step": 28250
    },
    {
      "epoch": 0.13499171208128122,
      "grad_norm": 0.17754724621772766,
      "learning_rate": 0.001,
      "loss": 2.6685,
      "num_input_tokens_seen": 7418675200,
      "step": 28300
    },
    {
      "epoch": 0.13523021333937538,
      "grad_norm": 0.17739038169384003,
      "learning_rate": 0.001,
      "loss": 2.6607,
      "num_input_tokens_seen": 7431782400,
      "step": 28350
    },
    {
      "epoch": 0.1354687145974695,
      "grad_norm": 0.175009086728096,
      "learning_rate": 0.001,
      "loss": 2.6679,
      "num_input_tokens_seen": 7444889600,
      "step": 28400
    },
    {
      "epoch": 0.13570721585556364,
      "grad_norm": 0.2229124754667282,
      "learning_rate": 0.001,
      "loss": 2.6687,
      "num_input_tokens_seen": 7457996800,
      "step": 28450
    },
    {
      "epoch": 0.13594571711365777,
      "grad_norm": 0.1791590005159378,
      "learning_rate": 0.001,
      "loss": 2.6741,
      "num_input_tokens_seen": 7471104000,
      "step": 28500
    },
    {
      "epoch": 0.13594571711365777,
      "eval_loss": 2.5456056594848633,
      "eval_runtime": 50.6342,
      "eval_samples_per_second": 98.747,
      "eval_steps_per_second": 24.687,
      "num_input_tokens_seen": 7471104000,
      "step": 28500
    },
    {
      "epoch": 0.1361842183717519,
      "grad_norm": 0.18920041620731354,
      "learning_rate": 0.001,
      "loss": 2.6612,
      "num_input_tokens_seen": 7484211200,
      "step": 28550
    },
    {
      "epoch": 0.13642271962984603,
      "grad_norm": 0.19247522950172424,
      "learning_rate": 0.001,
      "loss": 2.6597,
      "num_input_tokens_seen": 7497318400,
      "step": 28600
    },
    {
      "epoch": 0.1366612208879402,
      "grad_norm": 0.22499197721481323,
      "learning_rate": 0.001,
      "loss": 2.6583,
      "num_input_tokens_seen": 7510425600,
      "step": 28650
    },
    {
      "epoch": 0.13689972214603432,
      "grad_norm": 0.18946559727191925,
      "learning_rate": 0.001,
      "loss": 2.6612,
      "num_input_tokens_seen": 7523532800,
      "step": 28700
    },
    {
      "epoch": 0.13713822340412846,
      "grad_norm": 0.19621454179286957,
      "learning_rate": 0.001,
      "loss": 2.6425,
      "num_input_tokens_seen": 7536640000,
      "step": 28750
    },
    {
      "epoch": 0.1373767246622226,
      "grad_norm": 0.21594376862049103,
      "learning_rate": 0.001,
      "loss": 2.6564,
      "num_input_tokens_seen": 7549747200,
      "step": 28800
    },
    {
      "epoch": 0.13761522592031672,
      "grad_norm": 0.18186470866203308,
      "learning_rate": 0.001,
      "loss": 2.6728,
      "num_input_tokens_seen": 7562854400,
      "step": 28850
    },
    {
      "epoch": 0.13785372717841088,
      "grad_norm": 0.19369743764400482,
      "learning_rate": 0.001,
      "loss": 2.6585,
      "num_input_tokens_seen": 7575961600,
      "step": 28900
    },
    {
      "epoch": 0.138092228436505,
      "grad_norm": 0.1897999793291092,
      "learning_rate": 0.001,
      "loss": 2.6564,
      "num_input_tokens_seen": 7589068800,
      "step": 28950
    },
    {
      "epoch": 0.13833072969459914,
      "grad_norm": 0.18076784908771515,
      "learning_rate": 0.001,
      "loss": 2.6453,
      "num_input_tokens_seen": 7602176000,
      "step": 29000
    },
    {
      "epoch": 0.13833072969459914,
      "eval_loss": 2.54413104057312,
      "eval_runtime": 50.9152,
      "eval_samples_per_second": 98.202,
      "eval_steps_per_second": 24.551,
      "num_input_tokens_seen": 7602176000,
      "step": 29000
    },
    {
      "epoch": 0.13856923095269327,
      "grad_norm": 0.18520566821098328,
      "learning_rate": 0.001,
      "loss": 2.6644,
      "num_input_tokens_seen": 7615283200,
      "step": 29050
    },
    {
      "epoch": 0.1388077322107874,
      "grad_norm": 0.22739861905574799,
      "learning_rate": 0.001,
      "loss": 2.6597,
      "num_input_tokens_seen": 7628390400,
      "step": 29100
    },
    {
      "epoch": 0.13904623346888154,
      "grad_norm": 0.18451730906963348,
      "learning_rate": 0.001,
      "loss": 2.6432,
      "num_input_tokens_seen": 7641497600,
      "step": 29150
    },
    {
      "epoch": 0.1392847347269757,
      "grad_norm": 0.1865098923444748,
      "learning_rate": 0.001,
      "loss": 2.6651,
      "num_input_tokens_seen": 7654604800,
      "step": 29200
    },
    {
      "epoch": 0.13952323598506983,
      "grad_norm": 0.18676789104938507,
      "learning_rate": 0.001,
      "loss": 2.6597,
      "num_input_tokens_seen": 7667712000,
      "step": 29250
    },
    {
      "epoch": 0.13976173724316396,
      "grad_norm": 0.17463742196559906,
      "learning_rate": 0.001,
      "loss": 2.6571,
      "num_input_tokens_seen": 7680819200,
      "step": 29300
    },
    {
      "epoch": 0.1400002385012581,
      "grad_norm": 0.21621429920196533,
      "learning_rate": 0.001,
      "loss": 2.6342,
      "num_input_tokens_seen": 7693926400,
      "step": 29350
    },
    {
      "epoch": 0.14023873975935222,
      "grad_norm": 0.17493990063667297,
      "learning_rate": 0.001,
      "loss": 2.6536,
      "num_input_tokens_seen": 7707033600,
      "step": 29400
    },
    {
      "epoch": 0.14047724101744638,
      "grad_norm": 0.17649762332439423,
      "learning_rate": 0.001,
      "loss": 2.6526,
      "num_input_tokens_seen": 7720140800,
      "step": 29450
    },
    {
      "epoch": 0.1407157422755405,
      "grad_norm": 0.18224874138832092,
      "learning_rate": 0.001,
      "loss": 2.6635,
      "num_input_tokens_seen": 7733248000,
      "step": 29500
    },
    {
      "epoch": 0.1407157422755405,
      "eval_loss": 2.5433554649353027,
      "eval_runtime": 51.2973,
      "eval_samples_per_second": 97.471,
      "eval_steps_per_second": 24.368,
      "num_input_tokens_seen": 7733248000,
      "step": 29500
    },
    {
      "epoch": 0.14095424353363464,
      "grad_norm": 0.21109874546527863,
      "learning_rate": 0.001,
      "loss": 2.6788,
      "num_input_tokens_seen": 7746355200,
      "step": 29550
    },
    {
      "epoch": 0.14119274479172877,
      "grad_norm": 0.17663723230361938,
      "learning_rate": 0.001,
      "loss": 2.6578,
      "num_input_tokens_seen": 7759462400,
      "step": 29600
    },
    {
      "epoch": 0.1414312460498229,
      "grad_norm": 0.18385198712348938,
      "learning_rate": 0.001,
      "loss": 2.676,
      "num_input_tokens_seen": 7772569600,
      "step": 29650
    },
    {
      "epoch": 0.14166974730791704,
      "grad_norm": 0.1829567402601242,
      "learning_rate": 0.001,
      "loss": 2.6586,
      "num_input_tokens_seen": 7785676800,
      "step": 29700
    },
    {
      "epoch": 0.1419082485660112,
      "grad_norm": 0.1907297968864441,
      "learning_rate": 0.001,
      "loss": 2.6508,
      "num_input_tokens_seen": 7798784000,
      "step": 29750
    },
    {
      "epoch": 0.14214674982410533,
      "grad_norm": 0.2106500118970871,
      "learning_rate": 0.001,
      "loss": 2.6578,
      "num_input_tokens_seen": 7811891200,
      "step": 29800
    },
    {
      "epoch": 0.14238525108219946,
      "grad_norm": 0.18974357843399048,
      "learning_rate": 0.001,
      "loss": 2.6506,
      "num_input_tokens_seen": 7824998400,
      "step": 29850
    },
    {
      "epoch": 0.1426237523402936,
      "grad_norm": 0.18876343965530396,
      "learning_rate": 0.001,
      "loss": 2.6663,
      "num_input_tokens_seen": 7838105600,
      "step": 29900
    },
    {
      "epoch": 0.14286225359838772,
      "grad_norm": 0.17305608093738556,
      "learning_rate": 0.001,
      "loss": 2.657,
      "num_input_tokens_seen": 7851212800,
      "step": 29950
    },
    {
      "epoch": 0.14310075485648185,
      "grad_norm": 0.18900860846042633,
      "learning_rate": 0.001,
      "loss": 2.6502,
      "num_input_tokens_seen": 7864320000,
      "step": 30000
    },
    {
      "epoch": 0.14310075485648185,
      "eval_loss": 2.540076971054077,
      "eval_runtime": 50.1464,
      "eval_samples_per_second": 99.708,
      "eval_steps_per_second": 24.927,
      "num_input_tokens_seen": 7864320000,
      "step": 30000
    },
    {
      "epoch": 0.143339256114576,
      "grad_norm": 0.16919030249118805,
      "learning_rate": 0.001,
      "loss": 2.6729,
      "num_input_tokens_seen": 7877427200,
      "step": 30050
    },
    {
      "epoch": 0.14357775737267015,
      "grad_norm": 0.17828898131847382,
      "learning_rate": 0.001,
      "loss": 2.647,
      "num_input_tokens_seen": 7890534400,
      "step": 30100
    },
    {
      "epoch": 0.14381625863076428,
      "grad_norm": 0.1790715903043747,
      "learning_rate": 0.001,
      "loss": 2.6639,
      "num_input_tokens_seen": 7903641600,
      "step": 30150
    },
    {
      "epoch": 0.1440547598888584,
      "grad_norm": 0.18818187713623047,
      "learning_rate": 0.001,
      "loss": 2.6485,
      "num_input_tokens_seen": 7916748800,
      "step": 30200
    },
    {
      "epoch": 0.14429326114695254,
      "grad_norm": 0.2171814739704132,
      "learning_rate": 0.001,
      "loss": 2.6577,
      "num_input_tokens_seen": 7929856000,
      "step": 30250
    },
    {
      "epoch": 0.1445317624050467,
      "grad_norm": 0.1844399869441986,
      "learning_rate": 0.001,
      "loss": 2.6473,
      "num_input_tokens_seen": 7942963200,
      "step": 30300
    },
    {
      "epoch": 0.14477026366314083,
      "grad_norm": 0.19607801735401154,
      "learning_rate": 0.001,
      "loss": 2.6576,
      "num_input_tokens_seen": 7956070400,
      "step": 30350
    },
    {
      "epoch": 0.14500876492123496,
      "grad_norm": 0.1967996209859848,
      "learning_rate": 0.001,
      "loss": 2.64,
      "num_input_tokens_seen": 7969177600,
      "step": 30400
    },
    {
      "epoch": 0.1452472661793291,
      "grad_norm": 0.2087596207857132,
      "learning_rate": 0.001,
      "loss": 2.6485,
      "num_input_tokens_seen": 7982284800,
      "step": 30450
    },
    {
      "epoch": 0.14548576743742322,
      "grad_norm": 0.1938595473766327,
      "learning_rate": 0.001,
      "loss": 2.654,
      "num_input_tokens_seen": 7995392000,
      "step": 30500
    },
    {
      "epoch": 0.14548576743742322,
      "eval_loss": 2.537402391433716,
      "eval_runtime": 50.7304,
      "eval_samples_per_second": 98.56,
      "eval_steps_per_second": 24.64,
      "num_input_tokens_seen": 7995392000,
      "step": 30500
    },
    {
      "epoch": 0.14572426869551736,
      "grad_norm": 0.18282300233840942,
      "learning_rate": 0.001,
      "loss": 2.6592,
      "num_input_tokens_seen": 8008499200,
      "step": 30550
    },
    {
      "epoch": 0.14596276995361152,
      "grad_norm": 0.1829262375831604,
      "learning_rate": 0.001,
      "loss": 2.6618,
      "num_input_tokens_seen": 8021606400,
      "step": 30600
    },
    {
      "epoch": 0.14620127121170565,
      "grad_norm": 0.19001947343349457,
      "learning_rate": 0.001,
      "loss": 2.649,
      "num_input_tokens_seen": 8034713600,
      "step": 30650
    },
    {
      "epoch": 0.14643977246979978,
      "grad_norm": 0.19943153858184814,
      "learning_rate": 0.001,
      "loss": 2.6578,
      "num_input_tokens_seen": 8047820800,
      "step": 30700
    },
    {
      "epoch": 0.1466782737278939,
      "grad_norm": 0.18482360243797302,
      "learning_rate": 0.001,
      "loss": 2.6616,
      "num_input_tokens_seen": 8060928000,
      "step": 30750
    },
    {
      "epoch": 0.14691677498598804,
      "grad_norm": 0.20858009159564972,
      "learning_rate": 0.001,
      "loss": 2.6684,
      "num_input_tokens_seen": 8074035200,
      "step": 30800
    },
    {
      "epoch": 0.1471552762440822,
      "grad_norm": 0.2759605646133423,
      "learning_rate": 0.001,
      "loss": 2.713,
      "num_input_tokens_seen": 8087142400,
      "step": 30850
    },
    {
      "epoch": 0.14739377750217633,
      "grad_norm": 0.22366145253181458,
      "learning_rate": 0.001,
      "loss": 2.7065,
      "num_input_tokens_seen": 8100249600,
      "step": 30900
    },
    {
      "epoch": 0.14763227876027046,
      "grad_norm": 0.22143268585205078,
      "learning_rate": 0.001,
      "loss": 2.672,
      "num_input_tokens_seen": 8113356800,
      "step": 30950
    },
    {
      "epoch": 0.1478707800183646,
      "grad_norm": 0.25140002369880676,
      "learning_rate": 0.001,
      "loss": 2.6658,
      "num_input_tokens_seen": 8126464000,
      "step": 31000
    },
    {
      "epoch": 0.1478707800183646,
      "eval_loss": 2.5451457500457764,
      "eval_runtime": 50.0622,
      "eval_samples_per_second": 99.876,
      "eval_steps_per_second": 24.969,
      "num_input_tokens_seen": 8126464000,
      "step": 31000
    },
    {
      "epoch": 0.14810928127645873,
      "grad_norm": 0.20207786560058594,
      "learning_rate": 0.001,
      "loss": 2.6493,
      "num_input_tokens_seen": 8139571200,
      "step": 31050
    },
    {
      "epoch": 0.14834778253455286,
      "grad_norm": 0.20135898888111115,
      "learning_rate": 0.001,
      "loss": 2.6555,
      "num_input_tokens_seen": 8152678400,
      "step": 31100
    },
    {
      "epoch": 0.14858628379264702,
      "grad_norm": 0.19284267723560333,
      "learning_rate": 0.001,
      "loss": 2.6637,
      "num_input_tokens_seen": 8165785600,
      "step": 31150
    },
    {
      "epoch": 0.14882478505074115,
      "grad_norm": 0.17214693129062653,
      "learning_rate": 0.001,
      "loss": 2.6663,
      "num_input_tokens_seen": 8178892800,
      "step": 31200
    },
    {
      "epoch": 0.14906328630883528,
      "grad_norm": 0.19444549083709717,
      "learning_rate": 0.001,
      "loss": 2.6541,
      "num_input_tokens_seen": 8192000000,
      "step": 31250
    },
    {
      "epoch": 0.1493017875669294,
      "grad_norm": 0.19992901384830475,
      "learning_rate": 0.001,
      "loss": 2.6419,
      "num_input_tokens_seen": 8205107200,
      "step": 31300
    },
    {
      "epoch": 0.14954028882502354,
      "grad_norm": 0.16732315719127655,
      "learning_rate": 0.001,
      "loss": 2.6559,
      "num_input_tokens_seen": 8218214400,
      "step": 31350
    },
    {
      "epoch": 0.1497787900831177,
      "grad_norm": 0.4210798442363739,
      "learning_rate": 0.001,
      "loss": 2.6478,
      "num_input_tokens_seen": 8231321600,
      "step": 31400
    },
    {
      "epoch": 0.15001729134121183,
      "grad_norm": 0.2139436900615692,
      "learning_rate": 0.001,
      "loss": 2.6753,
      "num_input_tokens_seen": 8244428800,
      "step": 31450
    },
    {
      "epoch": 0.15025579259930597,
      "grad_norm": 0.19131046533584595,
      "learning_rate": 0.001,
      "loss": 2.6675,
      "num_input_tokens_seen": 8257536000,
      "step": 31500
    },
    {
      "epoch": 0.15025579259930597,
      "eval_loss": 2.5402350425720215,
      "eval_runtime": 50.477,
      "eval_samples_per_second": 99.055,
      "eval_steps_per_second": 24.764,
      "num_input_tokens_seen": 8257536000,
      "step": 31500
    },
    {
      "epoch": 0.1504942938574001,
      "grad_norm": 0.20711492002010345,
      "learning_rate": 0.001,
      "loss": 2.6654,
      "num_input_tokens_seen": 8270643200,
      "step": 31550
    },
    {
      "epoch": 0.15073279511549423,
      "grad_norm": 0.1888076812028885,
      "learning_rate": 0.001,
      "loss": 2.6603,
      "num_input_tokens_seen": 8283750400,
      "step": 31600
    },
    {
      "epoch": 0.15097129637358836,
      "grad_norm": 0.18534335494041443,
      "learning_rate": 0.001,
      "loss": 2.6539,
      "num_input_tokens_seen": 8296857600,
      "step": 31650
    },
    {
      "epoch": 0.15120979763168252,
      "grad_norm": 0.2024192214012146,
      "learning_rate": 0.001,
      "loss": 2.6514,
      "num_input_tokens_seen": 8309964800,
      "step": 31700
    },
    {
      "epoch": 0.15144829888977665,
      "grad_norm": 0.18967773020267487,
      "learning_rate": 0.001,
      "loss": 2.6457,
      "num_input_tokens_seen": 8323072000,
      "step": 31750
    },
    {
      "epoch": 0.15168680014787078,
      "grad_norm": 0.18823806941509247,
      "learning_rate": 0.001,
      "loss": 2.6579,
      "num_input_tokens_seen": 8336179200,
      "step": 31800
    },
    {
      "epoch": 0.1519253014059649,
      "grad_norm": 0.20198485255241394,
      "learning_rate": 0.001,
      "loss": 2.6623,
      "num_input_tokens_seen": 8349286400,
      "step": 31850
    },
    {
      "epoch": 0.15216380266405904,
      "grad_norm": 0.19362477958202362,
      "learning_rate": 0.001,
      "loss": 2.6473,
      "num_input_tokens_seen": 8362393600,
      "step": 31900
    },
    {
      "epoch": 0.15240230392215318,
      "grad_norm": 0.18454812467098236,
      "learning_rate": 0.001,
      "loss": 2.6411,
      "num_input_tokens_seen": 8375500800,
      "step": 31950
    },
    {
      "epoch": 0.15264080518024734,
      "grad_norm": 0.1968630850315094,
      "learning_rate": 0.001,
      "loss": 2.6405,
      "num_input_tokens_seen": 8388608000,
      "step": 32000
    },
    {
      "epoch": 0.15264080518024734,
      "eval_loss": 2.5325138568878174,
      "eval_runtime": 51.0134,
      "eval_samples_per_second": 98.013,
      "eval_steps_per_second": 24.503,
      "num_input_tokens_seen": 8388608000,
      "step": 32000
    },
    {
      "epoch": 0.15287930643834147,
      "grad_norm": 0.180119588971138,
      "learning_rate": 0.001,
      "loss": 2.6558,
      "num_input_tokens_seen": 8401715200,
      "step": 32050
    },
    {
      "epoch": 0.1531178076964356,
      "grad_norm": 0.1952589452266693,
      "learning_rate": 0.001,
      "loss": 2.6465,
      "num_input_tokens_seen": 8414822400,
      "step": 32100
    },
    {
      "epoch": 0.15335630895452973,
      "grad_norm": 0.1845589131116867,
      "learning_rate": 0.001,
      "loss": 2.6297,
      "num_input_tokens_seen": 8427929600,
      "step": 32150
    },
    {
      "epoch": 0.15359481021262386,
      "grad_norm": 0.20116594433784485,
      "learning_rate": 0.001,
      "loss": 2.6422,
      "num_input_tokens_seen": 8441036800,
      "step": 32200
    },
    {
      "epoch": 0.15383331147071802,
      "grad_norm": 0.1932612508535385,
      "learning_rate": 0.001,
      "loss": 2.6494,
      "num_input_tokens_seen": 8454144000,
      "step": 32250
    },
    {
      "epoch": 0.15407181272881215,
      "grad_norm": 0.17934490740299225,
      "learning_rate": 0.001,
      "loss": 2.6474,
      "num_input_tokens_seen": 8467251200,
      "step": 32300
    },
    {
      "epoch": 0.15431031398690628,
      "grad_norm": 0.19273313879966736,
      "learning_rate": 0.001,
      "loss": 2.6447,
      "num_input_tokens_seen": 8480358400,
      "step": 32350
    },
    {
      "epoch": 0.15454881524500041,
      "grad_norm": 0.1921055018901825,
      "learning_rate": 0.001,
      "loss": 2.665,
      "num_input_tokens_seen": 8493465600,
      "step": 32400
    },
    {
      "epoch": 0.15478731650309455,
      "grad_norm": 0.37117844820022583,
      "learning_rate": 0.001,
      "loss": 2.6351,
      "num_input_tokens_seen": 8506572800,
      "step": 32450
    },
    {
      "epoch": 0.15502581776118868,
      "grad_norm": 0.1884016990661621,
      "learning_rate": 0.001,
      "loss": 2.6436,
      "num_input_tokens_seen": 8519680000,
      "step": 32500
    },
    {
      "epoch": 0.15502581776118868,
      "eval_loss": 2.5313448905944824,
      "eval_runtime": 50.7051,
      "eval_samples_per_second": 98.609,
      "eval_steps_per_second": 24.652,
      "num_input_tokens_seen": 8519680000,
      "step": 32500
    },
    {
      "epoch": 0.15526431901928284,
      "grad_norm": 0.22205407917499542,
      "learning_rate": 0.001,
      "loss": 2.6464,
      "num_input_tokens_seen": 8532787200,
      "step": 32550
    },
    {
      "epoch": 0.15550282027737697,
      "grad_norm": 0.18515361845493317,
      "learning_rate": 0.001,
      "loss": 2.642,
      "num_input_tokens_seen": 8545894400,
      "step": 32600
    },
    {
      "epoch": 0.1557413215354711,
      "grad_norm": 0.18903231620788574,
      "learning_rate": 0.001,
      "loss": 2.6446,
      "num_input_tokens_seen": 8559001600,
      "step": 32650
    },
    {
      "epoch": 0.15597982279356523,
      "grad_norm": 0.1857556253671646,
      "learning_rate": 0.001,
      "loss": 2.6561,
      "num_input_tokens_seen": 8572108800,
      "step": 32700
    },
    {
      "epoch": 0.15621832405165936,
      "grad_norm": 0.45706707239151,
      "learning_rate": 0.001,
      "loss": 2.6487,
      "num_input_tokens_seen": 8585216000,
      "step": 32750
    },
    {
      "epoch": 0.15645682530975352,
      "grad_norm": 0.20191136002540588,
      "learning_rate": 0.001,
      "loss": 2.6593,
      "num_input_tokens_seen": 8598323200,
      "step": 32800
    },
    {
      "epoch": 0.15669532656784765,
      "grad_norm": 0.21191105246543884,
      "learning_rate": 0.001,
      "loss": 2.659,
      "num_input_tokens_seen": 8611430400,
      "step": 32850
    },
    {
      "epoch": 0.15693382782594179,
      "grad_norm": 0.20596672594547272,
      "learning_rate": 0.001,
      "loss": 2.6354,
      "num_input_tokens_seen": 8624537600,
      "step": 32900
    },
    {
      "epoch": 0.15717232908403592,
      "grad_norm": 0.2952199876308441,
      "learning_rate": 0.001,
      "loss": 2.6501,
      "num_input_tokens_seen": 8637644800,
      "step": 32950
    },
    {
      "epoch": 0.15741083034213005,
      "grad_norm": 0.2217044234275818,
      "learning_rate": 0.001,
      "loss": 2.6495,
      "num_input_tokens_seen": 8650752000,
      "step": 33000
    },
    {
      "epoch": 0.15741083034213005,
      "eval_loss": 2.5319430828094482,
      "eval_runtime": 50.8413,
      "eval_samples_per_second": 98.345,
      "eval_steps_per_second": 24.586,
      "num_input_tokens_seen": 8650752000,
      "step": 33000
    },
    {
      "epoch": 0.15764933160022418,
      "grad_norm": 0.2384626269340515,
      "learning_rate": 0.001,
      "loss": 2.6503,
      "num_input_tokens_seen": 8663859200,
      "step": 33050
    },
    {
      "epoch": 0.15788783285831834,
      "grad_norm": 0.18387843668460846,
      "learning_rate": 0.001,
      "loss": 2.6469,
      "num_input_tokens_seen": 8676966400,
      "step": 33100
    },
    {
      "epoch": 0.15812633411641247,
      "grad_norm": 0.23530641198158264,
      "learning_rate": 0.001,
      "loss": 2.6484,
      "num_input_tokens_seen": 8690073600,
      "step": 33150
    },
    {
      "epoch": 0.1583648353745066,
      "grad_norm": 0.2027565985918045,
      "learning_rate": 0.001,
      "loss": 2.6564,
      "num_input_tokens_seen": 8703180800,
      "step": 33200
    },
    {
      "epoch": 0.15860333663260073,
      "grad_norm": 0.21472220122814178,
      "learning_rate": 0.001,
      "loss": 2.6543,
      "num_input_tokens_seen": 8716288000,
      "step": 33250
    },
    {
      "epoch": 0.15884183789069486,
      "grad_norm": 0.19012615084648132,
      "learning_rate": 0.001,
      "loss": 2.6378,
      "num_input_tokens_seen": 8729395200,
      "step": 33300
    },
    {
      "epoch": 0.159080339148789,
      "grad_norm": 0.18018738925457,
      "learning_rate": 0.001,
      "loss": 2.6461,
      "num_input_tokens_seen": 8742502400,
      "step": 33350
    },
    {
      "epoch": 0.15931884040688316,
      "grad_norm": 0.20139184594154358,
      "learning_rate": 0.001,
      "loss": 2.6419,
      "num_input_tokens_seen": 8755609600,
      "step": 33400
    },
    {
      "epoch": 0.1595573416649773,
      "grad_norm": 0.20734767615795135,
      "learning_rate": 0.001,
      "loss": 2.6299,
      "num_input_tokens_seen": 8768716800,
      "step": 33450
    },
    {
      "epoch": 0.15979584292307142,
      "grad_norm": 0.18958640098571777,
      "learning_rate": 0.001,
      "loss": 2.6525,
      "num_input_tokens_seen": 8781824000,
      "step": 33500
    },
    {
      "epoch": 0.15979584292307142,
      "eval_loss": 2.5301430225372314,
      "eval_runtime": 64.6928,
      "eval_samples_per_second": 77.288,
      "eval_steps_per_second": 19.322,
      "num_input_tokens_seen": 8781824000,
      "step": 33500
    },
    {
      "epoch": 0.16003434418116555,
      "grad_norm": 0.20421727001667023,
      "learning_rate": 0.001,
      "loss": 2.6445,
      "num_input_tokens_seen": 8794931200,
      "step": 33550
    },
    {
      "epoch": 0.16027284543925968,
      "grad_norm": 0.18347379565238953,
      "learning_rate": 0.001,
      "loss": 2.6525,
      "num_input_tokens_seen": 8808038400,
      "step": 33600
    },
    {
      "epoch": 0.16051134669735384,
      "grad_norm": 0.19450639188289642,
      "learning_rate": 0.001,
      "loss": 2.6356,
      "num_input_tokens_seen": 8821145600,
      "step": 33650
    },
    {
      "epoch": 0.16074984795544797,
      "grad_norm": 0.17953775823116302,
      "learning_rate": 0.001,
      "loss": 2.6424,
      "num_input_tokens_seen": 8834252800,
      "step": 33700
    },
    {
      "epoch": 0.1609883492135421,
      "grad_norm": 0.1990649551153183,
      "learning_rate": 0.001,
      "loss": 2.6608,
      "num_input_tokens_seen": 8847360000,
      "step": 33750
    },
    {
      "epoch": 0.16122685047163623,
      "grad_norm": 0.19343194365501404,
      "learning_rate": 0.001,
      "loss": 2.6604,
      "num_input_tokens_seen": 8860467200,
      "step": 33800
    },
    {
      "epoch": 0.16146535172973037,
      "grad_norm": 0.19385921955108643,
      "learning_rate": 0.001,
      "loss": 2.6354,
      "num_input_tokens_seen": 8873574400,
      "step": 33850
    },
    {
      "epoch": 0.1617038529878245,
      "grad_norm": 0.1828273981809616,
      "learning_rate": 0.001,
      "loss": 2.6578,
      "num_input_tokens_seen": 8886681600,
      "step": 33900
    },
    {
      "epoch": 0.16194235424591866,
      "grad_norm": 0.216063991189003,
      "learning_rate": 0.001,
      "loss": 2.6575,
      "num_input_tokens_seen": 8899788800,
      "step": 33950
    },
    {
      "epoch": 0.1621808555040128,
      "grad_norm": 0.20358648896217346,
      "learning_rate": 0.001,
      "loss": 2.6499,
      "num_input_tokens_seen": 8912896000,
      "step": 34000
    },
    {
      "epoch": 0.1621808555040128,
      "eval_loss": 2.5330910682678223,
      "eval_runtime": 50.7961,
      "eval_samples_per_second": 98.433,
      "eval_steps_per_second": 24.608,
      "num_input_tokens_seen": 8912896000,
      "step": 34000
    },
    {
      "epoch": 0.16241935676210692,
      "grad_norm": 0.1935052126646042,
      "learning_rate": 0.001,
      "loss": 2.6583,
      "num_input_tokens_seen": 8926003200,
      "step": 34050
    },
    {
      "epoch": 0.16265785802020105,
      "grad_norm": 0.7825157642364502,
      "learning_rate": 0.001,
      "loss": 2.6481,
      "num_input_tokens_seen": 8939110400,
      "step": 34100
    },
    {
      "epoch": 0.16289635927829518,
      "grad_norm": 0.23290683329105377,
      "learning_rate": 0.001,
      "loss": 2.6925,
      "num_input_tokens_seen": 8952217600,
      "step": 34150
    },
    {
      "epoch": 0.16313486053638934,
      "grad_norm": 0.23564130067825317,
      "learning_rate": 0.001,
      "loss": 2.6495,
      "num_input_tokens_seen": 8965324800,
      "step": 34200
    },
    {
      "epoch": 0.16337336179448347,
      "grad_norm": 0.19592130184173584,
      "learning_rate": 0.001,
      "loss": 2.6536,
      "num_input_tokens_seen": 8978432000,
      "step": 34250
    },
    {
      "epoch": 0.1636118630525776,
      "grad_norm": 0.23535041511058807,
      "learning_rate": 0.001,
      "loss": 2.6608,
      "num_input_tokens_seen": 8991539200,
      "step": 34300
    },
    {
      "epoch": 0.16385036431067174,
      "grad_norm": 0.1991938352584839,
      "learning_rate": 0.001,
      "loss": 2.6458,
      "num_input_tokens_seen": 9004641856,
      "step": 34350
    },
    {
      "epoch": 0.16408886556876587,
      "grad_norm": 0.19363388419151306,
      "learning_rate": 0.001,
      "loss": 2.6531,
      "num_input_tokens_seen": 9017749056,
      "step": 34400
    },
    {
      "epoch": 0.16432736682686,
      "grad_norm": 0.18500390648841858,
      "learning_rate": 0.001,
      "loss": 2.6391,
      "num_input_tokens_seen": 9030856256,
      "step": 34450
    },
    {
      "epoch": 0.16456586808495416,
      "grad_norm": 0.2774065434932709,
      "learning_rate": 0.001,
      "loss": 2.6619,
      "num_input_tokens_seen": 9043963456,
      "step": 34500
    },
    {
      "epoch": 0.16456586808495416,
      "eval_loss": 2.5325100421905518,
      "eval_runtime": 51.5954,
      "eval_samples_per_second": 96.908,
      "eval_steps_per_second": 24.227,
      "num_input_tokens_seen": 9043963456,
      "step": 34500
    },
    {
      "epoch": 0.1648043693430483,
      "grad_norm": 0.1957511603832245,
      "learning_rate": 0.001,
      "loss": 2.6456,
      "num_input_tokens_seen": 9057070656,
      "step": 34550
    },
    {
      "epoch": 0.16504287060114242,
      "grad_norm": 0.20958378911018372,
      "learning_rate": 0.001,
      "loss": 2.6452,
      "num_input_tokens_seen": 9070177856,
      "step": 34600
    },
    {
      "epoch": 0.16528137185923655,
      "grad_norm": 0.206208735704422,
      "learning_rate": 0.001,
      "loss": 2.6548,
      "num_input_tokens_seen": 9083285056,
      "step": 34650
    },
    {
      "epoch": 0.16551987311733068,
      "grad_norm": 0.22349481284618378,
      "learning_rate": 0.001,
      "loss": 2.6653,
      "num_input_tokens_seen": 9096392256,
      "step": 34700
    },
    {
      "epoch": 0.16575837437542484,
      "grad_norm": 0.22599968314170837,
      "learning_rate": 0.001,
      "loss": 2.6329,
      "num_input_tokens_seen": 9109499456,
      "step": 34750
    },
    {
      "epoch": 0.16599687563351898,
      "grad_norm": 0.19219790399074554,
      "learning_rate": 0.001,
      "loss": 2.6404,
      "num_input_tokens_seen": 9122606656,
      "step": 34800
    },
    {
      "epoch": 0.1662353768916131,
      "grad_norm": 0.2006351351737976,
      "learning_rate": 0.001,
      "loss": 2.6522,
      "num_input_tokens_seen": 9135713856,
      "step": 34850
    },
    {
      "epoch": 0.16647387814970724,
      "grad_norm": 0.18393316864967346,
      "learning_rate": 0.001,
      "loss": 2.6464,
      "num_input_tokens_seen": 9148821056,
      "step": 34900
    },
    {
      "epoch": 0.16671237940780137,
      "grad_norm": 0.19820146262645721,
      "learning_rate": 0.001,
      "loss": 2.6402,
      "num_input_tokens_seen": 9161928256,
      "step": 34950
    },
    {
      "epoch": 0.1669508806658955,
      "grad_norm": 0.1995670199394226,
      "learning_rate": 0.001,
      "loss": 2.652,
      "num_input_tokens_seen": 9175035456,
      "step": 35000
    },
    {
      "epoch": 0.1669508806658955,
      "eval_loss": 2.5248045921325684,
      "eval_runtime": 50.8205,
      "eval_samples_per_second": 98.386,
      "eval_steps_per_second": 24.596,
      "num_input_tokens_seen": 9175035456,
      "step": 35000
    },
    {
      "epoch": 0.16718938192398966,
      "grad_norm": 0.2099646031856537,
      "learning_rate": 0.001,
      "loss": 2.6307,
      "num_input_tokens_seen": 9188142656,
      "step": 35050
    },
    {
      "epoch": 0.1674278831820838,
      "grad_norm": 0.18913927674293518,
      "learning_rate": 0.001,
      "loss": 2.6368,
      "num_input_tokens_seen": 9201249856,
      "step": 35100
    },
    {
      "epoch": 0.16766638444017792,
      "grad_norm": 0.19193056225776672,
      "learning_rate": 0.001,
      "loss": 2.6325,
      "num_input_tokens_seen": 9214357056,
      "step": 35150
    },
    {
      "epoch": 0.16790488569827206,
      "grad_norm": 0.19911837577819824,
      "learning_rate": 0.001,
      "loss": 2.6543,
      "num_input_tokens_seen": 9227464256,
      "step": 35200
    },
    {
      "epoch": 0.1681433869563662,
      "grad_norm": 0.1985558718442917,
      "learning_rate": 0.001,
      "loss": 2.6518,
      "num_input_tokens_seen": 9240571456,
      "step": 35250
    },
    {
      "epoch": 0.16838188821446032,
      "grad_norm": 0.2079145759344101,
      "learning_rate": 0.001,
      "loss": 2.646,
      "num_input_tokens_seen": 9253678656,
      "step": 35300
    },
    {
      "epoch": 0.16862038947255448,
      "grad_norm": 0.18524424731731415,
      "learning_rate": 0.001,
      "loss": 2.6378,
      "num_input_tokens_seen": 9266785856,
      "step": 35350
    },
    {
      "epoch": 0.1688588907306486,
      "grad_norm": 0.19140370190143585,
      "learning_rate": 0.001,
      "loss": 2.6488,
      "num_input_tokens_seen": 9279893056,
      "step": 35400
    },
    {
      "epoch": 0.16909739198874274,
      "grad_norm": 0.18006138503551483,
      "learning_rate": 0.001,
      "loss": 2.6632,
      "num_input_tokens_seen": 9293000256,
      "step": 35450
    },
    {
      "epoch": 0.16933589324683687,
      "grad_norm": 0.18754282593727112,
      "learning_rate": 0.001,
      "loss": 2.6436,
      "num_input_tokens_seen": 9306107456,
      "step": 35500
    },
    {
      "epoch": 0.16933589324683687,
      "eval_loss": 2.5230932235717773,
      "eval_runtime": 50.9895,
      "eval_samples_per_second": 98.059,
      "eval_steps_per_second": 24.515,
      "num_input_tokens_seen": 9306107456,
      "step": 35500
    },
    {
      "epoch": 0.169574394504931,
      "grad_norm": 0.18708109855651855,
      "learning_rate": 0.001,
      "loss": 2.6509,
      "num_input_tokens_seen": 9319214656,
      "step": 35550
    },
    {
      "epoch": 0.16981289576302516,
      "grad_norm": 0.2019611895084381,
      "learning_rate": 0.001,
      "loss": 2.6333,
      "num_input_tokens_seen": 9332321856,
      "step": 35600
    },
    {
      "epoch": 0.1700513970211193,
      "grad_norm": 0.22504755854606628,
      "learning_rate": 0.001,
      "loss": 2.6359,
      "num_input_tokens_seen": 9345429056,
      "step": 35650
    },
    {
      "epoch": 0.17028989827921343,
      "grad_norm": 0.1972053200006485,
      "learning_rate": 0.001,
      "loss": 2.6362,
      "num_input_tokens_seen": 9358536256,
      "step": 35700
    },
    {
      "epoch": 0.17052839953730756,
      "grad_norm": 0.21156789362430573,
      "learning_rate": 0.001,
      "loss": 2.637,
      "num_input_tokens_seen": 9371643456,
      "step": 35750
    },
    {
      "epoch": 0.1707669007954017,
      "grad_norm": 0.2680750787258148,
      "learning_rate": 0.001,
      "loss": 2.6332,
      "num_input_tokens_seen": 9384750656,
      "step": 35800
    },
    {
      "epoch": 0.17100540205349582,
      "grad_norm": 0.24413707852363586,
      "learning_rate": 0.001,
      "loss": 2.6366,
      "num_input_tokens_seen": 9397857856,
      "step": 35850
    },
    {
      "epoch": 0.17124390331158998,
      "grad_norm": 0.19973772764205933,
      "learning_rate": 0.001,
      "loss": 2.6381,
      "num_input_tokens_seen": 9410965056,
      "step": 35900
    },
    {
      "epoch": 0.1714824045696841,
      "grad_norm": 0.20807349681854248,
      "learning_rate": 0.001,
      "loss": 2.6416,
      "num_input_tokens_seen": 9424072256,
      "step": 35950
    },
    {
      "epoch": 0.17172090582777824,
      "grad_norm": 0.20126542448997498,
      "learning_rate": 0.001,
      "loss": 2.6377,
      "num_input_tokens_seen": 9437179456,
      "step": 36000
    },
    {
      "epoch": 0.17172090582777824,
      "eval_loss": 2.52500581741333,
      "eval_runtime": 51.4353,
      "eval_samples_per_second": 97.21,
      "eval_steps_per_second": 24.302,
      "num_input_tokens_seen": 9437179456,
      "step": 36000
    },
    {
      "epoch": 0.17195940708587237,
      "grad_norm": 0.19696597754955292,
      "learning_rate": 0.001,
      "loss": 2.6521,
      "num_input_tokens_seen": 9450286656,
      "step": 36050
    },
    {
      "epoch": 0.1721979083439665,
      "grad_norm": 0.18839424848556519,
      "learning_rate": 0.001,
      "loss": 2.6484,
      "num_input_tokens_seen": 9463393856,
      "step": 36100
    },
    {
      "epoch": 0.17243640960206066,
      "grad_norm": 0.33748558163642883,
      "learning_rate": 0.001,
      "loss": 2.6496,
      "num_input_tokens_seen": 9476501056,
      "step": 36150
    },
    {
      "epoch": 0.1726749108601548,
      "grad_norm": 0.19529207050800323,
      "learning_rate": 0.001,
      "loss": 2.6484,
      "num_input_tokens_seen": 9489608256,
      "step": 36200
    },
    {
      "epoch": 0.17291341211824893,
      "grad_norm": 0.21542242169380188,
      "learning_rate": 0.001,
      "loss": 2.6572,
      "num_input_tokens_seen": 9502715456,
      "step": 36250
    },
    {
      "epoch": 0.17315191337634306,
      "grad_norm": 0.37017494440078735,
      "learning_rate": 0.001,
      "loss": 2.6517,
      "num_input_tokens_seen": 9515822656,
      "step": 36300
    },
    {
      "epoch": 0.1733904146344372,
      "grad_norm": 0.27284151315689087,
      "learning_rate": 0.001,
      "loss": 2.66,
      "num_input_tokens_seen": 9528929856,
      "step": 36350
    },
    {
      "epoch": 0.17362891589253132,
      "grad_norm": 0.4666242003440857,
      "learning_rate": 0.001,
      "loss": 2.6514,
      "num_input_tokens_seen": 9542037056,
      "step": 36400
    },
    {
      "epoch": 0.17386741715062548,
      "grad_norm": 0.2031467854976654,
      "learning_rate": 0.001,
      "loss": 2.6577,
      "num_input_tokens_seen": 9555144256,
      "step": 36450
    },
    {
      "epoch": 0.1741059184087196,
      "grad_norm": 0.2086576223373413,
      "learning_rate": 0.001,
      "loss": 2.6372,
      "num_input_tokens_seen": 9568251456,
      "step": 36500
    },
    {
      "epoch": 0.1741059184087196,
      "eval_loss": 2.5252223014831543,
      "eval_runtime": 51.1282,
      "eval_samples_per_second": 97.793,
      "eval_steps_per_second": 24.448,
      "num_input_tokens_seen": 9568251456,
      "step": 36500
    },
    {
      "epoch": 0.17434441966681374,
      "grad_norm": 0.19739161431789398,
      "learning_rate": 0.001,
      "loss": 2.6184,
      "num_input_tokens_seen": 9581358656,
      "step": 36550
    },
    {
      "epoch": 0.17458292092490788,
      "grad_norm": 0.22384846210479736,
      "learning_rate": 0.001,
      "loss": 2.6504,
      "num_input_tokens_seen": 9594465856,
      "step": 36600
    },
    {
      "epoch": 0.174821422183002,
      "grad_norm": 0.2055511772632599,
      "learning_rate": 0.001,
      "loss": 2.6333,
      "num_input_tokens_seen": 9607573056,
      "step": 36650
    },
    {
      "epoch": 0.17505992344109614,
      "grad_norm": 0.18193551898002625,
      "learning_rate": 0.001,
      "loss": 2.6518,
      "num_input_tokens_seen": 9620680256,
      "step": 36700
    },
    {
      "epoch": 0.1752984246991903,
      "grad_norm": 0.1968860775232315,
      "learning_rate": 0.001,
      "loss": 2.6211,
      "num_input_tokens_seen": 9633787456,
      "step": 36750
    },
    {
      "epoch": 0.17553692595728443,
      "grad_norm": 0.20429988205432892,
      "learning_rate": 0.001,
      "loss": 2.6269,
      "num_input_tokens_seen": 9646894656,
      "step": 36800
    },
    {
      "epoch": 0.17577542721537856,
      "grad_norm": 0.18364110589027405,
      "learning_rate": 0.001,
      "loss": 2.6337,
      "num_input_tokens_seen": 9660001856,
      "step": 36850
    },
    {
      "epoch": 0.1760139284734727,
      "grad_norm": 0.2051621973514557,
      "learning_rate": 0.001,
      "loss": 2.6297,
      "num_input_tokens_seen": 9673109056,
      "step": 36900
    },
    {
      "epoch": 0.17625242973156682,
      "grad_norm": 0.25841349363327026,
      "learning_rate": 0.001,
      "loss": 2.6678,
      "num_input_tokens_seen": 9686216256,
      "step": 36950
    },
    {
      "epoch": 0.17649093098966098,
      "grad_norm": 0.198688805103302,
      "learning_rate": 0.001,
      "loss": 2.6521,
      "num_input_tokens_seen": 9699323456,
      "step": 37000
    },
    {
      "epoch": 0.17649093098966098,
      "eval_loss": 2.5248863697052,
      "eval_runtime": 51.363,
      "eval_samples_per_second": 97.346,
      "eval_steps_per_second": 24.337,
      "num_input_tokens_seen": 9699323456,
      "step": 37000
    },
    {
      "epoch": 0.1767294322477551,
      "grad_norm": 0.2030065804719925,
      "learning_rate": 0.001,
      "loss": 2.6481,
      "num_input_tokens_seen": 9712430656,
      "step": 37050
    },
    {
      "epoch": 0.17696793350584925,
      "grad_norm": 0.20191729068756104,
      "learning_rate": 0.001,
      "loss": 2.6332,
      "num_input_tokens_seen": 9725537856,
      "step": 37100
    },
    {
      "epoch": 0.17720643476394338,
      "grad_norm": 0.19462484121322632,
      "learning_rate": 0.001,
      "loss": 2.6444,
      "num_input_tokens_seen": 9738645056,
      "step": 37150
    },
    {
      "epoch": 0.1774449360220375,
      "grad_norm": 0.27893325686454773,
      "learning_rate": 0.001,
      "loss": 2.6309,
      "num_input_tokens_seen": 9751752256,
      "step": 37200
    },
    {
      "epoch": 0.17768343728013164,
      "grad_norm": 0.20646531879901886,
      "learning_rate": 0.001,
      "loss": 2.646,
      "num_input_tokens_seen": 9764859456,
      "step": 37250
    },
    {
      "epoch": 0.1779219385382258,
      "grad_norm": 0.20815566182136536,
      "learning_rate": 0.001,
      "loss": 2.6374,
      "num_input_tokens_seen": 9777966656,
      "step": 37300
    },
    {
      "epoch": 0.17816043979631993,
      "grad_norm": 0.2194615602493286,
      "learning_rate": 0.001,
      "loss": 2.6313,
      "num_input_tokens_seen": 9791073856,
      "step": 37350
    },
    {
      "epoch": 0.17839894105441406,
      "grad_norm": 0.23223313689231873,
      "learning_rate": 0.001,
      "loss": 2.6435,
      "num_input_tokens_seen": 9804181056,
      "step": 37400
    },
    {
      "epoch": 0.1786374423125082,
      "grad_norm": 0.1731143593788147,
      "learning_rate": 0.001,
      "loss": 2.6397,
      "num_input_tokens_seen": 9817288256,
      "step": 37450
    },
    {
      "epoch": 0.17887594357060232,
      "grad_norm": 0.1929951161146164,
      "learning_rate": 0.001,
      "loss": 2.6406,
      "num_input_tokens_seen": 9830395456,
      "step": 37500
    },
    {
      "epoch": 0.17887594357060232,
      "eval_loss": 2.518928050994873,
      "eval_runtime": 51.8733,
      "eval_samples_per_second": 96.389,
      "eval_steps_per_second": 24.097,
      "num_input_tokens_seen": 9830395456,
      "step": 37500
    },
    {
      "epoch": 0.17911444482869648,
      "grad_norm": 0.19979524612426758,
      "learning_rate": 0.001,
      "loss": 2.6363,
      "num_input_tokens_seen": 9843502656,
      "step": 37550
    },
    {
      "epoch": 0.17935294608679062,
      "grad_norm": 0.17963503301143646,
      "learning_rate": 0.001,
      "loss": 2.6423,
      "num_input_tokens_seen": 9856609856,
      "step": 37600
    },
    {
      "epoch": 0.17959144734488475,
      "grad_norm": 0.18216437101364136,
      "learning_rate": 0.001,
      "loss": 2.6351,
      "num_input_tokens_seen": 9869717056,
      "step": 37650
    },
    {
      "epoch": 0.17982994860297888,
      "grad_norm": 0.16782627999782562,
      "learning_rate": 0.001,
      "loss": 2.623,
      "num_input_tokens_seen": 9882824256,
      "step": 37700
    },
    {
      "epoch": 0.180068449861073,
      "grad_norm": 0.21884289383888245,
      "learning_rate": 0.001,
      "loss": 2.6418,
      "num_input_tokens_seen": 9895931456,
      "step": 37750
    },
    {
      "epoch": 0.18030695111916714,
      "grad_norm": 0.18940453231334686,
      "learning_rate": 0.001,
      "loss": 2.6371,
      "num_input_tokens_seen": 9909038656,
      "step": 37800
    },
    {
      "epoch": 0.1805454523772613,
      "grad_norm": 0.2075282484292984,
      "learning_rate": 0.001,
      "loss": 2.6347,
      "num_input_tokens_seen": 9922145856,
      "step": 37850
    },
    {
      "epoch": 0.18078395363535543,
      "grad_norm": 0.18504877388477325,
      "learning_rate": 0.001,
      "loss": 2.6391,
      "num_input_tokens_seen": 9935253056,
      "step": 37900
    },
    {
      "epoch": 0.18102245489344956,
      "grad_norm": 0.17926527559757233,
      "learning_rate": 0.001,
      "loss": 2.6358,
      "num_input_tokens_seen": 9948360256,
      "step": 37950
    },
    {
      "epoch": 0.1812609561515437,
      "grad_norm": 0.20022514462471008,
      "learning_rate": 0.001,
      "loss": 2.6369,
      "num_input_tokens_seen": 9961467456,
      "step": 38000
    },
    {
      "epoch": 0.1812609561515437,
      "eval_loss": 2.5171313285827637,
      "eval_runtime": 51.617,
      "eval_samples_per_second": 96.867,
      "eval_steps_per_second": 24.217,
      "num_input_tokens_seen": 9961467456,
      "step": 38000
    },
    {
      "epoch": 0.18149945740963783,
      "grad_norm": 0.19376301765441895,
      "learning_rate": 0.001,
      "loss": 2.6274,
      "num_input_tokens_seen": 9974574656,
      "step": 38050
    },
    {
      "epoch": 0.18173795866773199,
      "grad_norm": 0.2077150195837021,
      "learning_rate": 0.001,
      "loss": 2.6303,
      "num_input_tokens_seen": 9987681856,
      "step": 38100
    },
    {
      "epoch": 0.18197645992582612,
      "grad_norm": 0.19407787919044495,
      "learning_rate": 0.001,
      "loss": 2.6246,
      "num_input_tokens_seen": 10000789056,
      "step": 38150
    },
    {
      "epoch": 0.18221496118392025,
      "grad_norm": 0.20558005571365356,
      "learning_rate": 0.001,
      "loss": 2.6291,
      "num_input_tokens_seen": 10013896256,
      "step": 38200
    },
    {
      "epoch": 0.18245346244201438,
      "grad_norm": 0.22928735613822937,
      "learning_rate": 0.001,
      "loss": 2.6336,
      "num_input_tokens_seen": 10027003456,
      "step": 38250
    },
    {
      "epoch": 0.1826919637001085,
      "grad_norm": 0.23481298983097076,
      "learning_rate": 0.001,
      "loss": 2.6412,
      "num_input_tokens_seen": 10040110656,
      "step": 38300
    },
    {
      "epoch": 0.18293046495820264,
      "grad_norm": 0.19808940589427948,
      "learning_rate": 0.001,
      "loss": 2.6395,
      "num_input_tokens_seen": 10053217856,
      "step": 38350
    },
    {
      "epoch": 0.1831689662162968,
      "grad_norm": 0.20152992010116577,
      "learning_rate": 0.001,
      "loss": 2.6224,
      "num_input_tokens_seen": 10066325056,
      "step": 38400
    },
    {
      "epoch": 0.18340746747439093,
      "grad_norm": 0.18065959215164185,
      "learning_rate": 0.001,
      "loss": 2.626,
      "num_input_tokens_seen": 10079432256,
      "step": 38450
    },
    {
      "epoch": 0.18364596873248507,
      "grad_norm": 0.20382963120937347,
      "learning_rate": 0.001,
      "loss": 2.6382,
      "num_input_tokens_seen": 10092539456,
      "step": 38500
    },
    {
      "epoch": 0.18364596873248507,
      "eval_loss": 2.5152854919433594,
      "eval_runtime": 51.2566,
      "eval_samples_per_second": 97.548,
      "eval_steps_per_second": 24.387,
      "num_input_tokens_seen": 10092539456,
      "step": 38500
    },
    {
      "epoch": 0.1838844699905792,
      "grad_norm": 0.17728358507156372,
      "learning_rate": 0.001,
      "loss": 2.6293,
      "num_input_tokens_seen": 10105646656,
      "step": 38550
    },
    {
      "epoch": 0.18412297124867333,
      "grad_norm": 0.20164869725704193,
      "learning_rate": 0.001,
      "loss": 2.6372,
      "num_input_tokens_seen": 10118753856,
      "step": 38600
    },
    {
      "epoch": 0.18436147250676746,
      "grad_norm": 0.20125731825828552,
      "learning_rate": 0.001,
      "loss": 2.6326,
      "num_input_tokens_seen": 10131861056,
      "step": 38650
    },
    {
      "epoch": 0.18459997376486162,
      "grad_norm": 0.21193954348564148,
      "learning_rate": 0.001,
      "loss": 2.6249,
      "num_input_tokens_seen": 10144968256,
      "step": 38700
    },
    {
      "epoch": 0.18483847502295575,
      "grad_norm": 0.1925983726978302,
      "learning_rate": 0.001,
      "loss": 2.6424,
      "num_input_tokens_seen": 10158075456,
      "step": 38750
    },
    {
      "epoch": 0.18507697628104988,
      "grad_norm": 0.19814860820770264,
      "learning_rate": 0.001,
      "loss": 2.6431,
      "num_input_tokens_seen": 10171182656,
      "step": 38800
    },
    {
      "epoch": 0.185315477539144,
      "grad_norm": 0.1909031718969345,
      "learning_rate": 0.001,
      "loss": 2.6068,
      "num_input_tokens_seen": 10184289856,
      "step": 38850
    },
    {
      "epoch": 0.18555397879723814,
      "grad_norm": 0.20779775083065033,
      "learning_rate": 0.001,
      "loss": 2.625,
      "num_input_tokens_seen": 10197397056,
      "step": 38900
    },
    {
      "epoch": 0.1857924800553323,
      "grad_norm": 0.1768522411584854,
      "learning_rate": 0.001,
      "loss": 2.6112,
      "num_input_tokens_seen": 10210504256,
      "step": 38950
    },
    {
      "epoch": 0.18603098131342644,
      "grad_norm": 0.20275786519050598,
      "learning_rate": 0.001,
      "loss": 2.6284,
      "num_input_tokens_seen": 10223611456,
      "step": 39000
    },
    {
      "epoch": 0.18603098131342644,
      "eval_loss": 2.5149083137512207,
      "eval_runtime": 51.6703,
      "eval_samples_per_second": 96.767,
      "eval_steps_per_second": 24.192,
      "num_input_tokens_seen": 10223611456,
      "step": 39000
    },
    {
      "epoch": 0.18626948257152057,
      "grad_norm": 0.19634057581424713,
      "learning_rate": 0.001,
      "loss": 2.6342,
      "num_input_tokens_seen": 10236718656,
      "step": 39050
    },
    {
      "epoch": 0.1865079838296147,
      "grad_norm": 0.19488537311553955,
      "learning_rate": 0.001,
      "loss": 2.6305,
      "num_input_tokens_seen": 10249825856,
      "step": 39100
    },
    {
      "epoch": 0.18674648508770883,
      "grad_norm": 0.2082369476556778,
      "learning_rate": 0.001,
      "loss": 2.6067,
      "num_input_tokens_seen": 10262933056,
      "step": 39150
    },
    {
      "epoch": 0.18698498634580296,
      "grad_norm": 0.21019776165485382,
      "learning_rate": 0.001,
      "loss": 2.628,
      "num_input_tokens_seen": 10276040256,
      "step": 39200
    },
    {
      "epoch": 0.18722348760389712,
      "grad_norm": 0.19929739832878113,
      "learning_rate": 0.001,
      "loss": 2.6256,
      "num_input_tokens_seen": 10289147456,
      "step": 39250
    },
    {
      "epoch": 0.18746198886199125,
      "grad_norm": 0.204230397939682,
      "learning_rate": 0.001,
      "loss": 2.6113,
      "num_input_tokens_seen": 10302254656,
      "step": 39300
    },
    {
      "epoch": 0.18770049012008538,
      "grad_norm": 0.2217213660478592,
      "learning_rate": 0.001,
      "loss": 2.6253,
      "num_input_tokens_seen": 10315361856,
      "step": 39350
    },
    {
      "epoch": 0.18793899137817952,
      "grad_norm": 0.19329366087913513,
      "learning_rate": 0.001,
      "loss": 2.6317,
      "num_input_tokens_seen": 10328469056,
      "step": 39400
    },
    {
      "epoch": 0.18817749263627365,
      "grad_norm": 0.18244336545467377,
      "learning_rate": 0.001,
      "loss": 2.6476,
      "num_input_tokens_seen": 10341576256,
      "step": 39450
    },
    {
      "epoch": 0.1884159938943678,
      "grad_norm": 0.1864692121744156,
      "learning_rate": 0.001,
      "loss": 2.642,
      "num_input_tokens_seen": 10354683456,
      "step": 39500
    },
    {
      "epoch": 0.1884159938943678,
      "eval_loss": 2.514141321182251,
      "eval_runtime": 51.1111,
      "eval_samples_per_second": 97.826,
      "eval_steps_per_second": 24.457,
      "num_input_tokens_seen": 10354683456,
      "step": 39500
    },
    {
      "epoch": 0.18865449515246194,
      "grad_norm": 0.25003623962402344,
      "learning_rate": 0.001,
      "loss": 2.6299,
      "num_input_tokens_seen": 10367790656,
      "step": 39550
    },
    {
      "epoch": 0.18889299641055607,
      "grad_norm": 0.19642098248004913,
      "learning_rate": 0.001,
      "loss": 2.6412,
      "num_input_tokens_seen": 10380897856,
      "step": 39600
    },
    {
      "epoch": 0.1891314976686502,
      "grad_norm": 0.21947956085205078,
      "learning_rate": 0.001,
      "loss": 2.6211,
      "num_input_tokens_seen": 10394005056,
      "step": 39650
    },
    {
      "epoch": 0.18936999892674433,
      "grad_norm": 0.19838476181030273,
      "learning_rate": 0.001,
      "loss": 2.6451,
      "num_input_tokens_seen": 10407112256,
      "step": 39700
    },
    {
      "epoch": 0.18960850018483846,
      "grad_norm": 0.21131113171577454,
      "learning_rate": 0.001,
      "loss": 2.6375,
      "num_input_tokens_seen": 10420219456,
      "step": 39750
    },
    {
      "epoch": 0.18984700144293262,
      "grad_norm": 0.17576864361763,
      "learning_rate": 0.001,
      "loss": 2.6325,
      "num_input_tokens_seen": 10433326656,
      "step": 39800
    },
    {
      "epoch": 0.19008550270102675,
      "grad_norm": 0.2113037258386612,
      "learning_rate": 0.001,
      "loss": 2.6254,
      "num_input_tokens_seen": 10446433856,
      "step": 39850
    },
    {
      "epoch": 0.19032400395912089,
      "grad_norm": 0.1972583681344986,
      "learning_rate": 0.001,
      "loss": 2.6277,
      "num_input_tokens_seen": 10459541056,
      "step": 39900
    },
    {
      "epoch": 0.19056250521721502,
      "grad_norm": 0.43353378772735596,
      "learning_rate": 0.001,
      "loss": 2.6295,
      "num_input_tokens_seen": 10472648256,
      "step": 39950
    },
    {
      "epoch": 0.19080100647530915,
      "grad_norm": 0.22195081412792206,
      "learning_rate": 0.001,
      "loss": 2.6422,
      "num_input_tokens_seen": 10485755456,
      "step": 40000
    },
    {
      "epoch": 0.19080100647530915,
      "eval_loss": 2.5144667625427246,
      "eval_runtime": 51.0006,
      "eval_samples_per_second": 98.038,
      "eval_steps_per_second": 24.51,
      "num_input_tokens_seen": 10485755456,
      "step": 40000
    },
    {
      "epoch": 0.19103950773340328,
      "grad_norm": 0.18717694282531738,
      "learning_rate": 0.001,
      "loss": 2.6512,
      "num_input_tokens_seen": 10498862656,
      "step": 40050
    },
    {
      "epoch": 0.19127800899149744,
      "grad_norm": 0.2009858638048172,
      "learning_rate": 0.001,
      "loss": 2.6289,
      "num_input_tokens_seen": 10511969856,
      "step": 40100
    },
    {
      "epoch": 0.19151651024959157,
      "grad_norm": 0.2515949010848999,
      "learning_rate": 0.001,
      "loss": 2.6342,
      "num_input_tokens_seen": 10525077056,
      "step": 40150
    },
    {
      "epoch": 0.1917550115076857,
      "grad_norm": 0.19864948093891144,
      "learning_rate": 0.001,
      "loss": 2.6191,
      "num_input_tokens_seen": 10538184256,
      "step": 40200
    },
    {
      "epoch": 0.19199351276577983,
      "grad_norm": 0.17704185843467712,
      "learning_rate": 0.001,
      "loss": 2.6176,
      "num_input_tokens_seen": 10551291456,
      "step": 40250
    },
    {
      "epoch": 0.19223201402387396,
      "grad_norm": 0.2097242772579193,
      "learning_rate": 0.001,
      "loss": 2.6509,
      "num_input_tokens_seen": 10564398656,
      "step": 40300
    },
    {
      "epoch": 0.19247051528196812,
      "grad_norm": 0.18630579113960266,
      "learning_rate": 0.001,
      "loss": 2.6273,
      "num_input_tokens_seen": 10577505856,
      "step": 40350
    },
    {
      "epoch": 0.19270901654006226,
      "grad_norm": 0.24162743985652924,
      "learning_rate": 0.001,
      "loss": 2.6405,
      "num_input_tokens_seen": 10590613056,
      "step": 40400
    },
    {
      "epoch": 0.1929475177981564,
      "grad_norm": 0.19576874375343323,
      "learning_rate": 0.001,
      "loss": 2.6403,
      "num_input_tokens_seen": 10603720256,
      "step": 40450
    },
    {
      "epoch": 0.19318601905625052,
      "grad_norm": 0.18408045172691345,
      "learning_rate": 0.001,
      "loss": 2.6149,
      "num_input_tokens_seen": 10616827456,
      "step": 40500
    },
    {
      "epoch": 0.19318601905625052,
      "eval_loss": 2.511899709701538,
      "eval_runtime": 51.5326,
      "eval_samples_per_second": 97.026,
      "eval_steps_per_second": 24.257,
      "num_input_tokens_seen": 10616827456,
      "step": 40500
    },
    {
      "epoch": 0.19342452031434465,
      "grad_norm": 0.20845313370227814,
      "learning_rate": 0.001,
      "loss": 2.6242,
      "num_input_tokens_seen": 10629934656,
      "step": 40550
    },
    {
      "epoch": 0.19366302157243878,
      "grad_norm": 0.20603816211223602,
      "learning_rate": 0.001,
      "loss": 2.6305,
      "num_input_tokens_seen": 10643041856,
      "step": 40600
    },
    {
      "epoch": 0.19390152283053294,
      "grad_norm": 0.2180013507604599,
      "learning_rate": 0.001,
      "loss": 2.6271,
      "num_input_tokens_seen": 10656149056,
      "step": 40650
    },
    {
      "epoch": 0.19414002408862707,
      "grad_norm": 0.22217005491256714,
      "learning_rate": 0.001,
      "loss": 2.6407,
      "num_input_tokens_seen": 10669256256,
      "step": 40700
    },
    {
      "epoch": 0.1943785253467212,
      "grad_norm": 0.21379347145557404,
      "learning_rate": 0.001,
      "loss": 2.6209,
      "num_input_tokens_seen": 10682363456,
      "step": 40750
    },
    {
      "epoch": 0.19461702660481534,
      "grad_norm": 0.2011626958847046,
      "learning_rate": 0.001,
      "loss": 2.6471,
      "num_input_tokens_seen": 10695470656,
      "step": 40800
    },
    {
      "epoch": 0.19485552786290947,
      "grad_norm": 0.1946493685245514,
      "learning_rate": 0.001,
      "loss": 2.6267,
      "num_input_tokens_seen": 10708577856,
      "step": 40850
    },
    {
      "epoch": 0.19509402912100363,
      "grad_norm": 0.19157454371452332,
      "learning_rate": 0.001,
      "loss": 2.6362,
      "num_input_tokens_seen": 10721685056,
      "step": 40900
    },
    {
      "epoch": 0.19533253037909776,
      "grad_norm": 0.1978122442960739,
      "learning_rate": 0.001,
      "loss": 2.6448,
      "num_input_tokens_seen": 10734792256,
      "step": 40950
    },
    {
      "epoch": 0.1955710316371919,
      "grad_norm": 0.19996555149555206,
      "learning_rate": 0.001,
      "loss": 2.626,
      "num_input_tokens_seen": 10747899456,
      "step": 41000
    },
    {
      "epoch": 0.1955710316371919,
      "eval_loss": 2.5084941387176514,
      "eval_runtime": 51.6987,
      "eval_samples_per_second": 96.714,
      "eval_steps_per_second": 24.179,
      "num_input_tokens_seen": 10747899456,
      "step": 41000
    },
    {
      "epoch": 0.19580953289528602,
      "grad_norm": 0.20298945903778076,
      "learning_rate": 0.001,
      "loss": 2.6233,
      "num_input_tokens_seen": 10761006656,
      "step": 41050
    },
    {
      "epoch": 0.19604803415338015,
      "grad_norm": 0.2280716896057129,
      "learning_rate": 0.001,
      "loss": 2.6427,
      "num_input_tokens_seen": 10774113856,
      "step": 41100
    },
    {
      "epoch": 0.19628653541147428,
      "grad_norm": 0.19223643839359283,
      "learning_rate": 0.001,
      "loss": 2.6263,
      "num_input_tokens_seen": 10787221056,
      "step": 41150
    },
    {
      "epoch": 0.19652503666956844,
      "grad_norm": 0.19221842288970947,
      "learning_rate": 0.001,
      "loss": 2.6401,
      "num_input_tokens_seen": 10800328256,
      "step": 41200
    },
    {
      "epoch": 0.19676353792766257,
      "grad_norm": 0.19479979574680328,
      "learning_rate": 0.001,
      "loss": 2.6269,
      "num_input_tokens_seen": 10813435456,
      "step": 41250
    },
    {
      "epoch": 0.1970020391857567,
      "grad_norm": 0.24501195549964905,
      "learning_rate": 0.001,
      "loss": 2.618,
      "num_input_tokens_seen": 10826542656,
      "step": 41300
    },
    {
      "epoch": 0.19724054044385084,
      "grad_norm": 0.1994044929742813,
      "learning_rate": 0.001,
      "loss": 2.64,
      "num_input_tokens_seen": 10839649856,
      "step": 41350
    },
    {
      "epoch": 0.19747904170194497,
      "grad_norm": 0.20831650495529175,
      "learning_rate": 0.001,
      "loss": 2.6513,
      "num_input_tokens_seen": 10852757056,
      "step": 41400
    },
    {
      "epoch": 0.19771754296003913,
      "grad_norm": 0.21919438242912292,
      "learning_rate": 0.001,
      "loss": 2.6379,
      "num_input_tokens_seen": 10865864256,
      "step": 41450
    },
    {
      "epoch": 0.19795604421813326,
      "grad_norm": 0.23088768124580383,
      "learning_rate": 0.001,
      "loss": 2.6449,
      "num_input_tokens_seen": 10878971456,
      "step": 41500
    },
    {
      "epoch": 0.19795604421813326,
      "eval_loss": 2.5156567096710205,
      "eval_runtime": 51.6776,
      "eval_samples_per_second": 96.754,
      "eval_steps_per_second": 24.188,
      "num_input_tokens_seen": 10878971456,
      "step": 41500
    },
    {
      "epoch": 0.1981945454762274,
      "grad_norm": 0.1982518881559372,
      "learning_rate": 0.001,
      "loss": 2.6304,
      "num_input_tokens_seen": 10892078656,
      "step": 41550
    },
    {
      "epoch": 0.19843304673432152,
      "grad_norm": 0.2099853903055191,
      "learning_rate": 0.001,
      "loss": 2.6305,
      "num_input_tokens_seen": 10905185856,
      "step": 41600
    },
    {
      "epoch": 0.19867154799241565,
      "grad_norm": 0.19403131306171417,
      "learning_rate": 0.001,
      "loss": 2.6419,
      "num_input_tokens_seen": 10918293056,
      "step": 41650
    },
    {
      "epoch": 0.19891004925050979,
      "grad_norm": 0.20865993201732635,
      "learning_rate": 0.001,
      "loss": 2.6116,
      "num_input_tokens_seen": 10931400256,
      "step": 41700
    },
    {
      "epoch": 0.19914855050860394,
      "grad_norm": 0.19042626023292542,
      "learning_rate": 0.001,
      "loss": 2.6271,
      "num_input_tokens_seen": 10944507456,
      "step": 41750
    },
    {
      "epoch": 0.19938705176669808,
      "grad_norm": 0.20514579117298126,
      "learning_rate": 0.001,
      "loss": 2.6348,
      "num_input_tokens_seen": 10957614656,
      "step": 41800
    },
    {
      "epoch": 0.1996255530247922,
      "grad_norm": 0.21224668622016907,
      "learning_rate": 0.001,
      "loss": 2.6314,
      "num_input_tokens_seen": 10970721856,
      "step": 41850
    },
    {
      "epoch": 0.19986405428288634,
      "grad_norm": 0.18857082724571228,
      "learning_rate": 0.001,
      "loss": 2.6217,
      "num_input_tokens_seen": 10983829056,
      "step": 41900
    },
    {
      "epoch": 0.20010255554098047,
      "grad_norm": 0.18431074917316437,
      "learning_rate": 0.001,
      "loss": 2.6267,
      "num_input_tokens_seen": 10996936256,
      "step": 41950
    },
    {
      "epoch": 0.2003410567990746,
      "grad_norm": 0.20570099353790283,
      "learning_rate": 0.001,
      "loss": 2.6016,
      "num_input_tokens_seen": 11010043456,
      "step": 42000
    },
    {
      "epoch": 0.2003410567990746,
      "eval_loss": 2.506241798400879,
      "eval_runtime": 51.5548,
      "eval_samples_per_second": 96.984,
      "eval_steps_per_second": 24.246,
      "num_input_tokens_seen": 11010043456,
      "step": 42000
    },
    {
      "epoch": 0.20057955805716876,
      "grad_norm": 0.17952106893062592,
      "learning_rate": 0.001,
      "loss": 2.6165,
      "num_input_tokens_seen": 11023150656,
      "step": 42050
    },
    {
      "epoch": 0.2008180593152629,
      "grad_norm": 0.20292694866657257,
      "learning_rate": 0.001,
      "loss": 2.6357,
      "num_input_tokens_seen": 11036257856,
      "step": 42100
    },
    {
      "epoch": 0.20105656057335702,
      "grad_norm": 0.19588933885097504,
      "learning_rate": 0.001,
      "loss": 2.6102,
      "num_input_tokens_seen": 11049365056,
      "step": 42150
    },
    {
      "epoch": 0.20129506183145116,
      "grad_norm": 0.1982785314321518,
      "learning_rate": 0.001,
      "loss": 2.6019,
      "num_input_tokens_seen": 11062472256,
      "step": 42200
    },
    {
      "epoch": 0.2015335630895453,
      "grad_norm": 0.18049876391887665,
      "learning_rate": 0.001,
      "loss": 2.6081,
      "num_input_tokens_seen": 11075579456,
      "step": 42250
    },
    {
      "epoch": 0.20177206434763945,
      "grad_norm": 0.2069908082485199,
      "learning_rate": 0.001,
      "loss": 2.6173,
      "num_input_tokens_seen": 11088686656,
      "step": 42300
    },
    {
      "epoch": 0.20201056560573358,
      "grad_norm": 0.2415982335805893,
      "learning_rate": 0.001,
      "loss": 2.6173,
      "num_input_tokens_seen": 11101793856,
      "step": 42350
    },
    {
      "epoch": 0.2022490668638277,
      "grad_norm": 0.20267252624034882,
      "learning_rate": 0.001,
      "loss": 2.6299,
      "num_input_tokens_seen": 11114901056,
      "step": 42400
    },
    {
      "epoch": 0.20248756812192184,
      "grad_norm": 0.20683065056800842,
      "learning_rate": 0.001,
      "loss": 2.6282,
      "num_input_tokens_seen": 11128008256,
      "step": 42450
    },
    {
      "epoch": 0.20272606938001597,
      "grad_norm": 0.22137881815433502,
      "learning_rate": 0.001,
      "loss": 2.6271,
      "num_input_tokens_seen": 11141115456,
      "step": 42500
    },
    {
      "epoch": 0.20272606938001597,
      "eval_loss": 2.5125572681427,
      "eval_runtime": 51.794,
      "eval_samples_per_second": 96.536,
      "eval_steps_per_second": 24.134,
      "num_input_tokens_seen": 11141115456,
      "step": 42500
    },
    {
      "epoch": 0.2029645706381101,
      "grad_norm": 0.20610037446022034,
      "learning_rate": 0.001,
      "loss": 2.6255,
      "num_input_tokens_seen": 11154222656,
      "step": 42550
    },
    {
      "epoch": 0.20320307189620426,
      "grad_norm": 0.21218810975551605,
      "learning_rate": 0.001,
      "loss": 2.6149,
      "num_input_tokens_seen": 11167329856,
      "step": 42600
    },
    {
      "epoch": 0.2034415731542984,
      "grad_norm": 0.19685466587543488,
      "learning_rate": 0.001,
      "loss": 2.6208,
      "num_input_tokens_seen": 11180437056,
      "step": 42650
    },
    {
      "epoch": 0.20368007441239253,
      "grad_norm": 0.20507460832595825,
      "learning_rate": 0.001,
      "loss": 2.6227,
      "num_input_tokens_seen": 11193544256,
      "step": 42700
    },
    {
      "epoch": 0.20391857567048666,
      "grad_norm": 0.20014505088329315,
      "learning_rate": 0.001,
      "loss": 2.6238,
      "num_input_tokens_seen": 11206651456,
      "step": 42750
    },
    {
      "epoch": 0.2041570769285808,
      "grad_norm": 0.1907282918691635,
      "learning_rate": 0.001,
      "loss": 2.6157,
      "num_input_tokens_seen": 11219758656,
      "step": 42800
    },
    {
      "epoch": 0.20439557818667495,
      "grad_norm": 0.18553833663463593,
      "learning_rate": 0.001,
      "loss": 2.6123,
      "num_input_tokens_seen": 11232865856,
      "step": 42850
    },
    {
      "epoch": 0.20463407944476908,
      "grad_norm": 0.20382866263389587,
      "learning_rate": 0.001,
      "loss": 2.6163,
      "num_input_tokens_seen": 11245973056,
      "step": 42900
    },
    {
      "epoch": 0.2048725807028632,
      "grad_norm": 0.18923860788345337,
      "learning_rate": 0.001,
      "loss": 2.5981,
      "num_input_tokens_seen": 11259080256,
      "step": 42950
    },
    {
      "epoch": 0.20511108196095734,
      "grad_norm": 0.19230851531028748,
      "learning_rate": 0.001,
      "loss": 2.618,
      "num_input_tokens_seen": 11272187456,
      "step": 43000
    },
    {
      "epoch": 0.20511108196095734,
      "eval_loss": 2.5047237873077393,
      "eval_runtime": 51.2959,
      "eval_samples_per_second": 97.474,
      "eval_steps_per_second": 24.368,
      "num_input_tokens_seen": 11272187456,
      "step": 43000
    },
    {
      "epoch": 0.20534958321905147,
      "grad_norm": 0.22746357321739197,
      "learning_rate": 0.001,
      "loss": 2.6281,
      "num_input_tokens_seen": 11285294656,
      "step": 43050
    },
    {
      "epoch": 0.2055880844771456,
      "grad_norm": 0.21107150614261627,
      "learning_rate": 0.001,
      "loss": 2.6154,
      "num_input_tokens_seen": 11298401856,
      "step": 43100
    },
    {
      "epoch": 0.20582658573523976,
      "grad_norm": 0.18025045096874237,
      "learning_rate": 0.001,
      "loss": 2.6141,
      "num_input_tokens_seen": 11311509056,
      "step": 43150
    },
    {
      "epoch": 0.2060650869933339,
      "grad_norm": 0.2009642869234085,
      "learning_rate": 0.001,
      "loss": 2.6133,
      "num_input_tokens_seen": 11324616256,
      "step": 43200
    },
    {
      "epoch": 0.20630358825142803,
      "grad_norm": 0.1872788518667221,
      "learning_rate": 0.001,
      "loss": 2.6197,
      "num_input_tokens_seen": 11337723456,
      "step": 43250
    },
    {
      "epoch": 0.20654208950952216,
      "grad_norm": 0.216310054063797,
      "learning_rate": 0.001,
      "loss": 2.6353,
      "num_input_tokens_seen": 11350830656,
      "step": 43300
    },
    {
      "epoch": 0.2067805907676163,
      "grad_norm": 0.2705513536930084,
      "learning_rate": 0.001,
      "loss": 2.6333,
      "num_input_tokens_seen": 11363937856,
      "step": 43350
    },
    {
      "epoch": 0.20701909202571045,
      "grad_norm": 0.3040550649166107,
      "learning_rate": 0.001,
      "loss": 2.6094,
      "num_input_tokens_seen": 11377045056,
      "step": 43400
    },
    {
      "epoch": 0.20725759328380458,
      "grad_norm": 0.2075599879026413,
      "learning_rate": 0.001,
      "loss": 2.6225,
      "num_input_tokens_seen": 11390152256,
      "step": 43450
    },
    {
      "epoch": 0.2074960945418987,
      "grad_norm": 0.22293590009212494,
      "learning_rate": 0.001,
      "loss": 2.6271,
      "num_input_tokens_seen": 11403259456,
      "step": 43500
    },
    {
      "epoch": 0.2074960945418987,
      "eval_loss": 2.5097975730895996,
      "eval_runtime": 51.7037,
      "eval_samples_per_second": 96.705,
      "eval_steps_per_second": 24.176,
      "num_input_tokens_seen": 11403259456,
      "step": 43500
    },
    {
      "epoch": 0.20773459579999284,
      "grad_norm": 0.21221335232257843,
      "learning_rate": 0.001,
      "loss": 2.618,
      "num_input_tokens_seen": 11416366656,
      "step": 43550
    },
    {
      "epoch": 0.20797309705808698,
      "grad_norm": 0.19894948601722717,
      "learning_rate": 0.001,
      "loss": 2.6305,
      "num_input_tokens_seen": 11429473856,
      "step": 43600
    },
    {
      "epoch": 0.2082115983161811,
      "grad_norm": 0.29371336102485657,
      "learning_rate": 0.001,
      "loss": 2.6211,
      "num_input_tokens_seen": 11442581056,
      "step": 43650
    },
    {
      "epoch": 0.20845009957427527,
      "grad_norm": 0.19441936910152435,
      "learning_rate": 0.001,
      "loss": 2.6355,
      "num_input_tokens_seen": 11455688256,
      "step": 43700
    },
    {
      "epoch": 0.2086886008323694,
      "grad_norm": 0.19868114590644836,
      "learning_rate": 0.001,
      "loss": 2.6206,
      "num_input_tokens_seen": 11468795456,
      "step": 43750
    },
    {
      "epoch": 0.20892710209046353,
      "grad_norm": 0.19971340894699097,
      "learning_rate": 0.001,
      "loss": 2.6124,
      "num_input_tokens_seen": 11481902656,
      "step": 43800
    },
    {
      "epoch": 0.20916560334855766,
      "grad_norm": 0.22261051833629608,
      "learning_rate": 0.001,
      "loss": 2.623,
      "num_input_tokens_seen": 11495009856,
      "step": 43850
    },
    {
      "epoch": 0.2094041046066518,
      "grad_norm": 0.20982281863689423,
      "learning_rate": 0.001,
      "loss": 2.6182,
      "num_input_tokens_seen": 11508117056,
      "step": 43900
    },
    {
      "epoch": 0.20964260586474592,
      "grad_norm": 0.2216535359621048,
      "learning_rate": 0.001,
      "loss": 2.6086,
      "num_input_tokens_seen": 11521224256,
      "step": 43950
    },
    {
      "epoch": 0.20988110712284008,
      "grad_norm": 0.19298988580703735,
      "learning_rate": 0.001,
      "loss": 2.6364,
      "num_input_tokens_seen": 11534331456,
      "step": 44000
    },
    {
      "epoch": 0.20988110712284008,
      "eval_loss": 2.5009121894836426,
      "eval_runtime": 51.4356,
      "eval_samples_per_second": 97.209,
      "eval_steps_per_second": 24.302,
      "num_input_tokens_seen": 11534331456,
      "step": 44000
    },
    {
      "epoch": 0.21011960838093421,
      "grad_norm": 0.19737008213996887,
      "learning_rate": 0.001,
      "loss": 2.6272,
      "num_input_tokens_seen": 11547438656,
      "step": 44050
    },
    {
      "epoch": 0.21035810963902835,
      "grad_norm": 0.1984977424144745,
      "learning_rate": 0.001,
      "loss": 2.6417,
      "num_input_tokens_seen": 11560545856,
      "step": 44100
    },
    {
      "epoch": 0.21059661089712248,
      "grad_norm": 0.19575904309749603,
      "learning_rate": 0.001,
      "loss": 2.6277,
      "num_input_tokens_seen": 11573653056,
      "step": 44150
    },
    {
      "epoch": 0.2108351121552166,
      "grad_norm": 0.19875651597976685,
      "learning_rate": 0.001,
      "loss": 2.6362,
      "num_input_tokens_seen": 11586760256,
      "step": 44200
    },
    {
      "epoch": 0.21107361341331077,
      "grad_norm": 0.20936185121536255,
      "learning_rate": 0.001,
      "loss": 2.6217,
      "num_input_tokens_seen": 11599867456,
      "step": 44250
    },
    {
      "epoch": 0.2113121146714049,
      "grad_norm": 0.19474463164806366,
      "learning_rate": 0.001,
      "loss": 2.6235,
      "num_input_tokens_seen": 11612974656,
      "step": 44300
    },
    {
      "epoch": 0.21155061592949903,
      "grad_norm": 0.20833207666873932,
      "learning_rate": 0.001,
      "loss": 2.6,
      "num_input_tokens_seen": 11626081856,
      "step": 44350
    },
    {
      "epoch": 0.21178911718759316,
      "grad_norm": 0.19269512593746185,
      "learning_rate": 0.001,
      "loss": 2.6211,
      "num_input_tokens_seen": 11639189056,
      "step": 44400
    },
    {
      "epoch": 0.2120276184456873,
      "grad_norm": 0.21018226444721222,
      "learning_rate": 0.001,
      "loss": 2.6294,
      "num_input_tokens_seen": 11652296256,
      "step": 44450
    },
    {
      "epoch": 0.21226611970378143,
      "grad_norm": 0.19836543500423431,
      "learning_rate": 0.001,
      "loss": 2.6051,
      "num_input_tokens_seen": 11665403456,
      "step": 44500
    },
    {
      "epoch": 0.21226611970378143,
      "eval_loss": 2.499817132949829,
      "eval_runtime": 50.9003,
      "eval_samples_per_second": 98.231,
      "eval_steps_per_second": 24.558,
      "num_input_tokens_seen": 11665403456,
      "step": 44500
    },
    {
      "epoch": 0.21250462096187558,
      "grad_norm": 0.18411967158317566,
      "learning_rate": 0.001,
      "loss": 2.6228,
      "num_input_tokens_seen": 11678510656,
      "step": 44550
    },
    {
      "epoch": 0.21274312221996972,
      "grad_norm": 0.19387467205524445,
      "learning_rate": 0.001,
      "loss": 2.5902,
      "num_input_tokens_seen": 11691617856,
      "step": 44600
    },
    {
      "epoch": 0.21298162347806385,
      "grad_norm": 0.22076952457427979,
      "learning_rate": 0.001,
      "loss": 2.613,
      "num_input_tokens_seen": 11704725056,
      "step": 44650
    },
    {
      "epoch": 0.21322012473615798,
      "grad_norm": 0.33861082792282104,
      "learning_rate": 0.001,
      "loss": 2.6142,
      "num_input_tokens_seen": 11717832256,
      "step": 44700
    },
    {
      "epoch": 0.2134586259942521,
      "grad_norm": 0.20097902417182922,
      "learning_rate": 0.001,
      "loss": 2.6549,
      "num_input_tokens_seen": 11730939456,
      "step": 44750
    },
    {
      "epoch": 0.21369712725234627,
      "grad_norm": 0.24534635245800018,
      "learning_rate": 0.001,
      "loss": 2.6293,
      "num_input_tokens_seen": 11744046656,
      "step": 44800
    },
    {
      "epoch": 0.2139356285104404,
      "grad_norm": 0.2439020723104477,
      "learning_rate": 0.001,
      "loss": 2.635,
      "num_input_tokens_seen": 11757153856,
      "step": 44850
    },
    {
      "epoch": 0.21417412976853453,
      "grad_norm": 0.24259154498577118,
      "learning_rate": 0.001,
      "loss": 2.6232,
      "num_input_tokens_seen": 11770261056,
      "step": 44900
    },
    {
      "epoch": 0.21441263102662866,
      "grad_norm": 0.23554636538028717,
      "learning_rate": 0.001,
      "loss": 2.6061,
      "num_input_tokens_seen": 11783368256,
      "step": 44950
    },
    {
      "epoch": 0.2146511322847228,
      "grad_norm": 0.20377275347709656,
      "learning_rate": 0.001,
      "loss": 2.6156,
      "num_input_tokens_seen": 11796475456,
      "step": 45000
    },
    {
      "epoch": 0.2146511322847228,
      "eval_loss": 2.503781318664551,
      "eval_runtime": 51.1656,
      "eval_samples_per_second": 97.722,
      "eval_steps_per_second": 24.43,
      "num_input_tokens_seen": 11796475456,
      "step": 45000
    },
    {
      "epoch": 0.21488963354281693,
      "grad_norm": 0.226406991481781,
      "learning_rate": 0.001,
      "loss": 2.626,
      "num_input_tokens_seen": 11809582656,
      "step": 45050
    },
    {
      "epoch": 0.21512813480091109,
      "grad_norm": 0.20505741238594055,
      "learning_rate": 0.001,
      "loss": 2.6095,
      "num_input_tokens_seen": 11822689856,
      "step": 45100
    },
    {
      "epoch": 0.21536663605900522,
      "grad_norm": 0.2917146682739258,
      "learning_rate": 0.001,
      "loss": 2.6439,
      "num_input_tokens_seen": 11835797056,
      "step": 45150
    },
    {
      "epoch": 0.21560513731709935,
      "grad_norm": 0.24030283093452454,
      "learning_rate": 0.001,
      "loss": 2.6386,
      "num_input_tokens_seen": 11848904256,
      "step": 45200
    },
    {
      "epoch": 0.21584363857519348,
      "grad_norm": 0.1799454241991043,
      "learning_rate": 0.001,
      "loss": 2.6344,
      "num_input_tokens_seen": 11862011456,
      "step": 45250
    },
    {
      "epoch": 0.2160821398332876,
      "grad_norm": 0.2093718945980072,
      "learning_rate": 0.001,
      "loss": 2.6152,
      "num_input_tokens_seen": 11875118656,
      "step": 45300
    },
    {
      "epoch": 0.21632064109138174,
      "grad_norm": 0.19477079808712006,
      "learning_rate": 0.001,
      "loss": 2.622,
      "num_input_tokens_seen": 11888225856,
      "step": 45350
    },
    {
      "epoch": 0.2165591423494759,
      "grad_norm": 0.2764741778373718,
      "learning_rate": 0.001,
      "loss": 2.5951,
      "num_input_tokens_seen": 11901333056,
      "step": 45400
    },
    {
      "epoch": 0.21679764360757003,
      "grad_norm": 0.2127208709716797,
      "learning_rate": 0.001,
      "loss": 2.6231,
      "num_input_tokens_seen": 11914440256,
      "step": 45450
    },
    {
      "epoch": 0.21703614486566417,
      "grad_norm": 0.21089383959770203,
      "learning_rate": 0.001,
      "loss": 2.6099,
      "num_input_tokens_seen": 11927547456,
      "step": 45500
    },
    {
      "epoch": 0.21703614486566417,
      "eval_loss": 2.502464771270752,
      "eval_runtime": 50.946,
      "eval_samples_per_second": 98.143,
      "eval_steps_per_second": 24.536,
      "num_input_tokens_seen": 11927547456,
      "step": 45500
    },
    {
      "epoch": 0.2172746461237583,
      "grad_norm": 0.19550016522407532,
      "learning_rate": 0.001,
      "loss": 2.6365,
      "num_input_tokens_seen": 11940654656,
      "step": 45550
    },
    {
      "epoch": 0.21751314738185243,
      "grad_norm": 0.18284358084201813,
      "learning_rate": 0.001,
      "loss": 2.6358,
      "num_input_tokens_seen": 11953761856,
      "step": 45600
    },
    {
      "epoch": 0.2177516486399466,
      "grad_norm": 0.21821847558021545,
      "learning_rate": 0.001,
      "loss": 2.607,
      "num_input_tokens_seen": 11966869056,
      "step": 45650
    },
    {
      "epoch": 0.21799014989804072,
      "grad_norm": 0.2195073515176773,
      "learning_rate": 0.001,
      "loss": 2.6195,
      "num_input_tokens_seen": 11979976256,
      "step": 45700
    },
    {
      "epoch": 0.21822865115613485,
      "grad_norm": 0.19679750502109528,
      "learning_rate": 0.001,
      "loss": 2.6259,
      "num_input_tokens_seen": 11993083456,
      "step": 45750
    },
    {
      "epoch": 0.21846715241422898,
      "grad_norm": 0.1985604166984558,
      "learning_rate": 0.001,
      "loss": 2.6224,
      "num_input_tokens_seen": 12006190656,
      "step": 45800
    },
    {
      "epoch": 0.2187056536723231,
      "grad_norm": 0.18398787081241608,
      "learning_rate": 0.001,
      "loss": 2.6215,
      "num_input_tokens_seen": 12019297856,
      "step": 45850
    },
    {
      "epoch": 0.21894415493041725,
      "grad_norm": 0.2306145578622818,
      "learning_rate": 0.001,
      "loss": 2.6346,
      "num_input_tokens_seen": 12032405056,
      "step": 45900
    },
    {
      "epoch": 0.2191826561885114,
      "grad_norm": 0.21335257589817047,
      "learning_rate": 0.001,
      "loss": 2.6232,
      "num_input_tokens_seen": 12045512256,
      "step": 45950
    },
    {
      "epoch": 0.21942115744660554,
      "grad_norm": 0.22988814115524292,
      "learning_rate": 0.001,
      "loss": 2.6132,
      "num_input_tokens_seen": 12058619456,
      "step": 46000
    },
    {
      "epoch": 0.21942115744660554,
      "eval_loss": 2.499041795730591,
      "eval_runtime": 50.6868,
      "eval_samples_per_second": 98.645,
      "eval_steps_per_second": 24.661,
      "num_input_tokens_seen": 12058619456,
      "step": 46000
    },
    {
      "epoch": 0.21965965870469967,
      "grad_norm": 0.19492709636688232,
      "learning_rate": 0.001,
      "loss": 2.6196,
      "num_input_tokens_seen": 12071726656,
      "step": 46050
    },
    {
      "epoch": 0.2198981599627938,
      "grad_norm": 0.19643568992614746,
      "learning_rate": 0.001,
      "loss": 2.6108,
      "num_input_tokens_seen": 12084833856,
      "step": 46100
    },
    {
      "epoch": 0.22013666122088793,
      "grad_norm": 0.18720099329948425,
      "learning_rate": 0.001,
      "loss": 2.6181,
      "num_input_tokens_seen": 12097941056,
      "step": 46150
    },
    {
      "epoch": 0.2203751624789821,
      "grad_norm": 0.1929876208305359,
      "learning_rate": 0.001,
      "loss": 2.6152,
      "num_input_tokens_seen": 12111048256,
      "step": 46200
    },
    {
      "epoch": 0.22061366373707622,
      "grad_norm": 0.19732603430747986,
      "learning_rate": 0.001,
      "loss": 2.6267,
      "num_input_tokens_seen": 12124155456,
      "step": 46250
    },
    {
      "epoch": 0.22085216499517035,
      "grad_norm": 0.1964132934808731,
      "learning_rate": 0.001,
      "loss": 2.605,
      "num_input_tokens_seen": 12137262656,
      "step": 46300
    },
    {
      "epoch": 0.22109066625326448,
      "grad_norm": 0.1927288919687271,
      "learning_rate": 0.001,
      "loss": 2.6178,
      "num_input_tokens_seen": 12150369856,
      "step": 46350
    },
    {
      "epoch": 0.22132916751135862,
      "grad_norm": 0.17873398959636688,
      "learning_rate": 0.001,
      "loss": 2.6033,
      "num_input_tokens_seen": 12163477056,
      "step": 46400
    },
    {
      "epoch": 0.22156766876945275,
      "grad_norm": 0.24716190993785858,
      "learning_rate": 0.001,
      "loss": 2.6141,
      "num_input_tokens_seen": 12176584256,
      "step": 46450
    },
    {
      "epoch": 0.2218061700275469,
      "grad_norm": 0.2021339386701584,
      "learning_rate": 0.001,
      "loss": 2.6259,
      "num_input_tokens_seen": 12189691456,
      "step": 46500
    },
    {
      "epoch": 0.2218061700275469,
      "eval_loss": 2.4975087642669678,
      "eval_runtime": 50.8921,
      "eval_samples_per_second": 98.247,
      "eval_steps_per_second": 24.562,
      "num_input_tokens_seen": 12189691456,
      "step": 46500
    },
    {
      "epoch": 0.22204467128564104,
      "grad_norm": 0.20796166360378265,
      "learning_rate": 0.001,
      "loss": 2.6211,
      "num_input_tokens_seen": 12202798656,
      "step": 46550
    },
    {
      "epoch": 0.22228317254373517,
      "grad_norm": 0.20472556352615356,
      "learning_rate": 0.001,
      "loss": 2.6123,
      "num_input_tokens_seen": 12215905856,
      "step": 46600
    },
    {
      "epoch": 0.2225216738018293,
      "grad_norm": 0.20017485320568085,
      "learning_rate": 0.001,
      "loss": 2.6037,
      "num_input_tokens_seen": 12229013056,
      "step": 46650
    },
    {
      "epoch": 0.22276017505992343,
      "grad_norm": 0.2037762850522995,
      "learning_rate": 0.001,
      "loss": 2.6155,
      "num_input_tokens_seen": 12242120256,
      "step": 46700
    },
    {
      "epoch": 0.2229986763180176,
      "grad_norm": 0.19346804916858673,
      "learning_rate": 0.001,
      "loss": 2.601,
      "num_input_tokens_seen": 12255227456,
      "step": 46750
    },
    {
      "epoch": 0.22323717757611172,
      "grad_norm": 0.18640096485614777,
      "learning_rate": 0.001,
      "loss": 2.6168,
      "num_input_tokens_seen": 12268334656,
      "step": 46800
    },
    {
      "epoch": 0.22347567883420585,
      "grad_norm": 0.20295055210590363,
      "learning_rate": 0.001,
      "loss": 2.6221,
      "num_input_tokens_seen": 12281441856,
      "step": 46850
    },
    {
      "epoch": 0.22371418009229999,
      "grad_norm": 0.20705671608448029,
      "learning_rate": 0.001,
      "loss": 2.6202,
      "num_input_tokens_seen": 12294549056,
      "step": 46900
    },
    {
      "epoch": 0.22395268135039412,
      "grad_norm": 0.18724282085895538,
      "learning_rate": 0.001,
      "loss": 2.6061,
      "num_input_tokens_seen": 12307656256,
      "step": 46950
    },
    {
      "epoch": 0.22419118260848825,
      "grad_norm": 0.18210910260677338,
      "learning_rate": 0.001,
      "loss": 2.6045,
      "num_input_tokens_seen": 12320763456,
      "step": 47000
    },
    {
      "epoch": 0.22419118260848825,
      "eval_loss": 2.497344493865967,
      "eval_runtime": 51.17,
      "eval_samples_per_second": 97.713,
      "eval_steps_per_second": 24.428,
      "num_input_tokens_seen": 12320763456,
      "step": 47000
    },
    {
      "epoch": 0.2244296838665824,
      "grad_norm": 0.18894509971141815,
      "learning_rate": 0.001,
      "loss": 2.6069,
      "num_input_tokens_seen": 12333870656,
      "step": 47050
    },
    {
      "epoch": 0.22466818512467654,
      "grad_norm": 0.23441652953624725,
      "learning_rate": 0.001,
      "loss": 2.6092,
      "num_input_tokens_seen": 12346977856,
      "step": 47100
    },
    {
      "epoch": 0.22490668638277067,
      "grad_norm": 0.20195326209068298,
      "learning_rate": 0.001,
      "loss": 2.6135,
      "num_input_tokens_seen": 12360085056,
      "step": 47150
    },
    {
      "epoch": 0.2251451876408648,
      "grad_norm": 0.22025838494300842,
      "learning_rate": 0.001,
      "loss": 2.6034,
      "num_input_tokens_seen": 12373192256,
      "step": 47200
    },
    {
      "epoch": 0.22538368889895893,
      "grad_norm": 0.19111979007720947,
      "learning_rate": 0.001,
      "loss": 2.6151,
      "num_input_tokens_seen": 12386299456,
      "step": 47250
    },
    {
      "epoch": 0.22562219015705307,
      "grad_norm": 0.2010103464126587,
      "learning_rate": 0.001,
      "loss": 2.6031,
      "num_input_tokens_seen": 12399406656,
      "step": 47300
    },
    {
      "epoch": 0.22586069141514722,
      "grad_norm": 0.21569807827472687,
      "learning_rate": 0.001,
      "loss": 2.6012,
      "num_input_tokens_seen": 12412513856,
      "step": 47350
    },
    {
      "epoch": 0.22609919267324136,
      "grad_norm": 0.18600653111934662,
      "learning_rate": 0.001,
      "loss": 2.6087,
      "num_input_tokens_seen": 12425621056,
      "step": 47400
    },
    {
      "epoch": 0.2263376939313355,
      "grad_norm": 0.19476164877414703,
      "learning_rate": 0.001,
      "loss": 2.6179,
      "num_input_tokens_seen": 12438728256,
      "step": 47450
    },
    {
      "epoch": 0.22657619518942962,
      "grad_norm": 0.19705821573734283,
      "learning_rate": 0.001,
      "loss": 2.5983,
      "num_input_tokens_seen": 12451835456,
      "step": 47500
    },
    {
      "epoch": 0.22657619518942962,
      "eval_loss": 2.495936393737793,
      "eval_runtime": 51.8116,
      "eval_samples_per_second": 96.504,
      "eval_steps_per_second": 24.126,
      "num_input_tokens_seen": 12451835456,
      "step": 47500
    },
    {
      "epoch": 0.22681469644752375,
      "grad_norm": 0.23161695897579193,
      "learning_rate": 0.001,
      "loss": 2.5974,
      "num_input_tokens_seen": 12464942656,
      "step": 47550
    },
    {
      "epoch": 0.2270531977056179,
      "grad_norm": 0.2022540420293808,
      "learning_rate": 0.001,
      "loss": 2.6251,
      "num_input_tokens_seen": 12478049856,
      "step": 47600
    },
    {
      "epoch": 0.22729169896371204,
      "grad_norm": 1.0341856479644775,
      "learning_rate": 0.001,
      "loss": 2.5831,
      "num_input_tokens_seen": 12491157056,
      "step": 47650
    },
    {
      "epoch": 0.22753020022180617,
      "grad_norm": 0.3812394440174103,
      "learning_rate": 0.001,
      "loss": 2.6407,
      "num_input_tokens_seen": 12504264256,
      "step": 47700
    },
    {
      "epoch": 0.2277687014799003,
      "grad_norm": 0.27030590176582336,
      "learning_rate": 0.001,
      "loss": 2.6327,
      "num_input_tokens_seen": 12517371456,
      "step": 47750
    },
    {
      "epoch": 0.22800720273799444,
      "grad_norm": 1.3918724060058594,
      "learning_rate": 0.001,
      "loss": 2.6344,
      "num_input_tokens_seen": 12530478656,
      "step": 47800
    },
    {
      "epoch": 0.22824570399608857,
      "grad_norm": 0.22610582411289215,
      "learning_rate": 0.001,
      "loss": 2.6444,
      "num_input_tokens_seen": 12543585856,
      "step": 47850
    },
    {
      "epoch": 0.22848420525418273,
      "grad_norm": 0.21421480178833008,
      "learning_rate": 0.001,
      "loss": 2.6169,
      "num_input_tokens_seen": 12556693056,
      "step": 47900
    },
    {
      "epoch": 0.22872270651227686,
      "grad_norm": 0.20389467477798462,
      "learning_rate": 0.001,
      "loss": 2.6158,
      "num_input_tokens_seen": 12569800256,
      "step": 47950
    },
    {
      "epoch": 0.228961207770371,
      "grad_norm": 0.2265746295452118,
      "learning_rate": 0.001,
      "loss": 2.6101,
      "num_input_tokens_seen": 12582907456,
      "step": 48000
    },
    {
      "epoch": 0.228961207770371,
      "eval_loss": 2.4971351623535156,
      "eval_runtime": 54.0453,
      "eval_samples_per_second": 92.515,
      "eval_steps_per_second": 23.129,
      "num_input_tokens_seen": 12582907456,
      "step": 48000
    },
    {
      "epoch": 0.22919970902846512,
      "grad_norm": 0.20247948169708252,
      "learning_rate": 0.001,
      "loss": 2.6122,
      "num_input_tokens_seen": 12596014656,
      "step": 48050
    },
    {
      "epoch": 0.22943821028655925,
      "grad_norm": 0.20237554609775543,
      "learning_rate": 0.001,
      "loss": 2.6235,
      "num_input_tokens_seen": 12609121856,
      "step": 48100
    },
    {
      "epoch": 0.2296767115446534,
      "grad_norm": 0.19862660765647888,
      "learning_rate": 0.001,
      "loss": 2.6264,
      "num_input_tokens_seen": 12622229056,
      "step": 48150
    },
    {
      "epoch": 0.22991521280274754,
      "grad_norm": 0.20839153230190277,
      "learning_rate": 0.001,
      "loss": 2.5915,
      "num_input_tokens_seen": 12635336256,
      "step": 48200
    },
    {
      "epoch": 0.23015371406084167,
      "grad_norm": 0.19385166466236115,
      "learning_rate": 0.001,
      "loss": 2.5979,
      "num_input_tokens_seen": 12648443456,
      "step": 48250
    },
    {
      "epoch": 0.2303922153189358,
      "grad_norm": 0.197597935795784,
      "learning_rate": 0.001,
      "loss": 2.6093,
      "num_input_tokens_seen": 12661550656,
      "step": 48300
    },
    {
      "epoch": 0.23063071657702994,
      "grad_norm": 0.20289985835552216,
      "learning_rate": 0.001,
      "loss": 2.6039,
      "num_input_tokens_seen": 12674657856,
      "step": 48350
    },
    {
      "epoch": 0.23086921783512407,
      "grad_norm": 0.1986515372991562,
      "learning_rate": 0.001,
      "loss": 2.6048,
      "num_input_tokens_seen": 12687765056,
      "step": 48400
    },
    {
      "epoch": 0.23110771909321823,
      "grad_norm": 0.19720982015132904,
      "learning_rate": 0.001,
      "loss": 2.6171,
      "num_input_tokens_seen": 12700872256,
      "step": 48450
    },
    {
      "epoch": 0.23134622035131236,
      "grad_norm": 0.24635523557662964,
      "learning_rate": 0.001,
      "loss": 2.6242,
      "num_input_tokens_seen": 12713979456,
      "step": 48500
    },
    {
      "epoch": 0.23134622035131236,
      "eval_loss": 2.495468854904175,
      "eval_runtime": 53.4259,
      "eval_samples_per_second": 93.588,
      "eval_steps_per_second": 23.397,
      "num_input_tokens_seen": 12713979456,
      "step": 48500
    },
    {
      "epoch": 0.2315847216094065,
      "grad_norm": 0.5883195996284485,
      "learning_rate": 0.001,
      "loss": 2.6399,
      "num_input_tokens_seen": 12727086656,
      "step": 48550
    },
    {
      "epoch": 0.23182322286750062,
      "grad_norm": 0.20890024304389954,
      "learning_rate": 0.001,
      "loss": 2.6325,
      "num_input_tokens_seen": 12740193856,
      "step": 48600
    },
    {
      "epoch": 0.23206172412559475,
      "grad_norm": 0.21251678466796875,
      "learning_rate": 0.001,
      "loss": 2.6233,
      "num_input_tokens_seen": 12753301056,
      "step": 48650
    },
    {
      "epoch": 0.23230022538368889,
      "grad_norm": 0.20996986329555511,
      "learning_rate": 0.001,
      "loss": 2.6174,
      "num_input_tokens_seen": 12766408256,
      "step": 48700
    },
    {
      "epoch": 0.23253872664178304,
      "grad_norm": 0.23039382696151733,
      "learning_rate": 0.001,
      "loss": 2.6305,
      "num_input_tokens_seen": 12779515456,
      "step": 48750
    },
    {
      "epoch": 0.23277722789987718,
      "grad_norm": 0.23922136425971985,
      "learning_rate": 0.001,
      "loss": 2.6108,
      "num_input_tokens_seen": 12792622656,
      "step": 48800
    },
    {
      "epoch": 0.2330157291579713,
      "grad_norm": 0.22746366262435913,
      "learning_rate": 0.001,
      "loss": 2.6219,
      "num_input_tokens_seen": 12805729856,
      "step": 48850
    },
    {
      "epoch": 0.23325423041606544,
      "grad_norm": 0.22131897509098053,
      "learning_rate": 0.001,
      "loss": 2.6205,
      "num_input_tokens_seen": 12818837056,
      "step": 48900
    },
    {
      "epoch": 0.23349273167415957,
      "grad_norm": 0.25431814789772034,
      "learning_rate": 0.001,
      "loss": 2.6252,
      "num_input_tokens_seen": 12831944256,
      "step": 48950
    },
    {
      "epoch": 0.23373123293225373,
      "grad_norm": 0.2622738778591156,
      "learning_rate": 0.001,
      "loss": 2.6288,
      "num_input_tokens_seen": 12845051456,
      "step": 49000
    },
    {
      "epoch": 0.23373123293225373,
      "eval_loss": 2.498055934906006,
      "eval_runtime": 53.8861,
      "eval_samples_per_second": 92.788,
      "eval_steps_per_second": 23.197,
      "num_input_tokens_seen": 12845051456,
      "step": 49000
    },
    {
      "epoch": 0.23396973419034786,
      "grad_norm": 0.209337517619133,
      "learning_rate": 0.001,
      "loss": 2.6348,
      "num_input_tokens_seen": 12858158656,
      "step": 49050
    },
    {
      "epoch": 0.234208235448442,
      "grad_norm": 0.1974038928747177,
      "learning_rate": 0.001,
      "loss": 2.6158,
      "num_input_tokens_seen": 12871265856,
      "step": 49100
    },
    {
      "epoch": 0.23444673670653612,
      "grad_norm": 0.28099164366722107,
      "learning_rate": 0.001,
      "loss": 2.6101,
      "num_input_tokens_seen": 12884373056,
      "step": 49150
    },
    {
      "epoch": 0.23468523796463026,
      "grad_norm": 0.2172873318195343,
      "learning_rate": 0.001,
      "loss": 2.596,
      "num_input_tokens_seen": 12897480256,
      "step": 49200
    },
    {
      "epoch": 0.2349237392227244,
      "grad_norm": 0.2120896875858307,
      "learning_rate": 0.001,
      "loss": 2.5994,
      "num_input_tokens_seen": 12910587456,
      "step": 49250
    },
    {
      "epoch": 0.23516224048081855,
      "grad_norm": 0.20109935104846954,
      "learning_rate": 0.001,
      "loss": 2.6101,
      "num_input_tokens_seen": 12923694656,
      "step": 49300
    },
    {
      "epoch": 0.23540074173891268,
      "grad_norm": 0.20735585689544678,
      "learning_rate": 0.001,
      "loss": 2.6142,
      "num_input_tokens_seen": 12936801856,
      "step": 49350
    },
    {
      "epoch": 0.2356392429970068,
      "grad_norm": 0.21295137703418732,
      "learning_rate": 0.001,
      "loss": 2.6226,
      "num_input_tokens_seen": 12949909056,
      "step": 49400
    },
    {
      "epoch": 0.23587774425510094,
      "grad_norm": 0.20560845732688904,
      "learning_rate": 0.001,
      "loss": 2.6027,
      "num_input_tokens_seen": 12963016256,
      "step": 49450
    },
    {
      "epoch": 0.23611624551319507,
      "grad_norm": 0.33747321367263794,
      "learning_rate": 0.001,
      "loss": 2.6231,
      "num_input_tokens_seen": 12976123456,
      "step": 49500
    },
    {
      "epoch": 0.23611624551319507,
      "eval_loss": 2.5008058547973633,
      "eval_runtime": 54.2104,
      "eval_samples_per_second": 92.233,
      "eval_steps_per_second": 23.058,
      "num_input_tokens_seen": 12976123456,
      "step": 49500
    },
    {
      "epoch": 0.23635474677128923,
      "grad_norm": 0.24593485891819,
      "learning_rate": 0.001,
      "loss": 2.6336,
      "num_input_tokens_seen": 12989230656,
      "step": 49550
    },
    {
      "epoch": 0.23659324802938336,
      "grad_norm": 0.25253933668136597,
      "learning_rate": 0.001,
      "loss": 2.643,
      "num_input_tokens_seen": 13002337856,
      "step": 49600
    },
    {
      "epoch": 0.2368317492874775,
      "grad_norm": 0.24231670796871185,
      "learning_rate": 0.001,
      "loss": 2.6074,
      "num_input_tokens_seen": 13015445056,
      "step": 49650
    },
    {
      "epoch": 0.23707025054557163,
      "grad_norm": 0.2178962677717209,
      "learning_rate": 0.001,
      "loss": 2.6184,
      "num_input_tokens_seen": 13028552256,
      "step": 49700
    },
    {
      "epoch": 0.23730875180366576,
      "grad_norm": 0.2651260793209076,
      "learning_rate": 0.001,
      "loss": 2.6335,
      "num_input_tokens_seen": 13041659456,
      "step": 49750
    },
    {
      "epoch": 0.2375472530617599,
      "grad_norm": 0.1909639537334442,
      "learning_rate": 0.001,
      "loss": 2.61,
      "num_input_tokens_seen": 13054766656,
      "step": 49800
    },
    {
      "epoch": 0.23778575431985405,
      "grad_norm": 0.21107855439186096,
      "learning_rate": 0.001,
      "loss": 2.6333,
      "num_input_tokens_seen": 13067873856,
      "step": 49850
    },
    {
      "epoch": 0.23802425557794818,
      "grad_norm": 0.19366736710071564,
      "learning_rate": 0.001,
      "loss": 2.6068,
      "num_input_tokens_seen": 13080981056,
      "step": 49900
    },
    {
      "epoch": 0.2382627568360423,
      "grad_norm": 0.2851523458957672,
      "learning_rate": 0.001,
      "loss": 2.6183,
      "num_input_tokens_seen": 13094088256,
      "step": 49950
    },
    {
      "epoch": 0.23850125809413644,
      "grad_norm": 0.23617912828922272,
      "learning_rate": 0.001,
      "loss": 2.617,
      "num_input_tokens_seen": 13107195456,
      "step": 50000
    },
    {
      "epoch": 0.23850125809413644,
      "eval_loss": 2.497406005859375,
      "eval_runtime": 53.6538,
      "eval_samples_per_second": 93.19,
      "eval_steps_per_second": 23.298,
      "num_input_tokens_seen": 13107195456,
      "step": 50000
    },
    {
      "epoch": 0.23873975935223057,
      "grad_norm": 0.5069316029548645,
      "learning_rate": 0.001,
      "loss": 2.6591,
      "num_input_tokens_seen": 13120302656,
      "step": 50050
    },
    {
      "epoch": 0.23897826061032473,
      "grad_norm": 0.21306034922599792,
      "learning_rate": 0.001,
      "loss": 2.6455,
      "num_input_tokens_seen": 13133409856,
      "step": 50100
    },
    {
      "epoch": 0.23921676186841886,
      "grad_norm": 0.2045888900756836,
      "learning_rate": 0.001,
      "loss": 2.6227,
      "num_input_tokens_seen": 13146517056,
      "step": 50150
    },
    {
      "epoch": 0.239455263126513,
      "grad_norm": 0.2335623949766159,
      "learning_rate": 0.001,
      "loss": 2.6097,
      "num_input_tokens_seen": 13159624256,
      "step": 50200
    },
    {
      "epoch": 0.23969376438460713,
      "grad_norm": 0.19884036481380463,
      "learning_rate": 0.001,
      "loss": 2.6189,
      "num_input_tokens_seen": 13172731456,
      "step": 50250
    },
    {
      "epoch": 0.23993226564270126,
      "grad_norm": 0.21080589294433594,
      "learning_rate": 0.001,
      "loss": 2.6057,
      "num_input_tokens_seen": 13185838656,
      "step": 50300
    },
    {
      "epoch": 0.2401707669007954,
      "grad_norm": 0.21613669395446777,
      "learning_rate": 0.001,
      "loss": 2.6045,
      "num_input_tokens_seen": 13198945856,
      "step": 50350
    },
    {
      "epoch": 0.24040926815888955,
      "grad_norm": 0.2029023915529251,
      "learning_rate": 0.001,
      "loss": 2.6127,
      "num_input_tokens_seen": 13212053056,
      "step": 50400
    },
    {
      "epoch": 0.24064776941698368,
      "grad_norm": 0.2275777906179428,
      "learning_rate": 0.001,
      "loss": 2.6149,
      "num_input_tokens_seen": 13225160256,
      "step": 50450
    },
    {
      "epoch": 0.2408862706750778,
      "grad_norm": 0.3332397937774658,
      "learning_rate": 0.001,
      "loss": 2.6013,
      "num_input_tokens_seen": 13238267456,
      "step": 50500
    },
    {
      "epoch": 0.2408862706750778,
      "eval_loss": 2.5022270679473877,
      "eval_runtime": 53.5942,
      "eval_samples_per_second": 93.294,
      "eval_steps_per_second": 23.323,
      "num_input_tokens_seen": 13238267456,
      "step": 50500
    },
    {
      "epoch": 0.24112477193317194,
      "grad_norm": 0.2197851538658142,
      "learning_rate": 0.001,
      "loss": 2.6326,
      "num_input_tokens_seen": 13251374656,
      "step": 50550
    },
    {
      "epoch": 0.24136327319126608,
      "grad_norm": 0.2201780080795288,
      "learning_rate": 0.001,
      "loss": 2.6265,
      "num_input_tokens_seen": 13264481856,
      "step": 50600
    },
    {
      "epoch": 0.2416017744493602,
      "grad_norm": 0.2196362316608429,
      "learning_rate": 0.001,
      "loss": 2.6272,
      "num_input_tokens_seen": 13277589056,
      "step": 50650
    },
    {
      "epoch": 0.24184027570745437,
      "grad_norm": 0.2234160453081131,
      "learning_rate": 0.001,
      "loss": 2.6178,
      "num_input_tokens_seen": 13290696256,
      "step": 50700
    },
    {
      "epoch": 0.2420787769655485,
      "grad_norm": 0.24019016325473785,
      "learning_rate": 0.001,
      "loss": 2.6142,
      "num_input_tokens_seen": 13303803456,
      "step": 50750
    },
    {
      "epoch": 0.24231727822364263,
      "grad_norm": 0.21481236815452576,
      "learning_rate": 0.001,
      "loss": 2.6149,
      "num_input_tokens_seen": 13316910656,
      "step": 50800
    },
    {
      "epoch": 0.24255577948173676,
      "grad_norm": 0.20477178692817688,
      "learning_rate": 0.001,
      "loss": 2.5977,
      "num_input_tokens_seen": 13330017856,
      "step": 50850
    },
    {
      "epoch": 0.2427942807398309,
      "grad_norm": 0.20742499828338623,
      "learning_rate": 0.001,
      "loss": 2.6153,
      "num_input_tokens_seen": 13343125056,
      "step": 50900
    },
    {
      "epoch": 0.24303278199792505,
      "grad_norm": 0.21933062374591827,
      "learning_rate": 0.001,
      "loss": 2.5966,
      "num_input_tokens_seen": 13356232256,
      "step": 50950
    },
    {
      "epoch": 0.24327128325601918,
      "grad_norm": 0.3282420337200165,
      "learning_rate": 0.001,
      "loss": 2.6063,
      "num_input_tokens_seen": 13369339456,
      "step": 51000
    },
    {
      "epoch": 0.24327128325601918,
      "eval_loss": 2.4981296062469482,
      "eval_runtime": 53.5536,
      "eval_samples_per_second": 93.364,
      "eval_steps_per_second": 23.341,
      "num_input_tokens_seen": 13369339456,
      "step": 51000
    },
    {
      "epoch": 0.24350978451411331,
      "grad_norm": 0.20502831041812897,
      "learning_rate": 0.001,
      "loss": 2.6059,
      "num_input_tokens_seen": 13382446656,
      "step": 51050
    },
    {
      "epoch": 0.24374828577220745,
      "grad_norm": 0.20750559866428375,
      "learning_rate": 0.001,
      "loss": 2.6056,
      "num_input_tokens_seen": 13395553856,
      "step": 51100
    },
    {
      "epoch": 0.24398678703030158,
      "grad_norm": 0.19882823526859283,
      "learning_rate": 0.001,
      "loss": 2.5983,
      "num_input_tokens_seen": 13408661056,
      "step": 51150
    },
    {
      "epoch": 0.2442252882883957,
      "grad_norm": 0.20900660753250122,
      "learning_rate": 0.001,
      "loss": 2.6087,
      "num_input_tokens_seen": 13421768256,
      "step": 51200
    },
    {
      "epoch": 0.24446378954648987,
      "grad_norm": 0.21428415179252625,
      "learning_rate": 0.001,
      "loss": 2.5901,
      "num_input_tokens_seen": 13434875456,
      "step": 51250
    },
    {
      "epoch": 0.244702290804584,
      "grad_norm": 0.19987250864505768,
      "learning_rate": 0.001,
      "loss": 2.5982,
      "num_input_tokens_seen": 13447982656,
      "step": 51300
    },
    {
      "epoch": 0.24494079206267813,
      "grad_norm": 0.2045862078666687,
      "learning_rate": 0.001,
      "loss": 2.6058,
      "num_input_tokens_seen": 13461089856,
      "step": 51350
    },
    {
      "epoch": 0.24517929332077226,
      "grad_norm": 0.22261273860931396,
      "learning_rate": 0.001,
      "loss": 2.5972,
      "num_input_tokens_seen": 13474197056,
      "step": 51400
    },
    {
      "epoch": 0.2454177945788664,
      "grad_norm": 0.20395706593990326,
      "learning_rate": 0.001,
      "loss": 2.6064,
      "num_input_tokens_seen": 13487304256,
      "step": 51450
    },
    {
      "epoch": 0.24565629583696055,
      "grad_norm": 0.21490858495235443,
      "learning_rate": 0.001,
      "loss": 2.5922,
      "num_input_tokens_seen": 13500411456,
      "step": 51500
    },
    {
      "epoch": 0.24565629583696055,
      "eval_loss": 2.488300085067749,
      "eval_runtime": 53.7972,
      "eval_samples_per_second": 92.942,
      "eval_steps_per_second": 23.235,
      "num_input_tokens_seen": 13500411456,
      "step": 51500
    },
    {
      "epoch": 0.24589479709505468,
      "grad_norm": 0.2039102464914322,
      "learning_rate": 0.001,
      "loss": 2.5894,
      "num_input_tokens_seen": 13513518656,
      "step": 51550
    },
    {
      "epoch": 0.24613329835314882,
      "grad_norm": 0.21426360309123993,
      "learning_rate": 0.001,
      "loss": 2.6089,
      "num_input_tokens_seen": 13526625856,
      "step": 51600
    },
    {
      "epoch": 0.24637179961124295,
      "grad_norm": 0.194682314991951,
      "learning_rate": 0.001,
      "loss": 2.5932,
      "num_input_tokens_seen": 13539733056,
      "step": 51650
    },
    {
      "epoch": 0.24661030086933708,
      "grad_norm": 0.1901472508907318,
      "learning_rate": 0.001,
      "loss": 2.6031,
      "num_input_tokens_seen": 13552840256,
      "step": 51700
    },
    {
      "epoch": 0.2468488021274312,
      "grad_norm": 0.20517823100090027,
      "learning_rate": 0.001,
      "loss": 2.5978,
      "num_input_tokens_seen": 13565947456,
      "step": 51750
    },
    {
      "epoch": 0.24708730338552537,
      "grad_norm": 0.23713302612304688,
      "learning_rate": 0.001,
      "loss": 2.6061,
      "num_input_tokens_seen": 13579054656,
      "step": 51800
    },
    {
      "epoch": 0.2473258046436195,
      "grad_norm": 0.2431441992521286,
      "learning_rate": 0.001,
      "loss": 2.6062,
      "num_input_tokens_seen": 13592161856,
      "step": 51850
    },
    {
      "epoch": 0.24756430590171363,
      "grad_norm": 0.20358557999134064,
      "learning_rate": 0.001,
      "loss": 2.6161,
      "num_input_tokens_seen": 13605269056,
      "step": 51900
    },
    {
      "epoch": 0.24780280715980776,
      "grad_norm": 0.21245016157627106,
      "learning_rate": 0.001,
      "loss": 2.6166,
      "num_input_tokens_seen": 13618376256,
      "step": 51950
    },
    {
      "epoch": 0.2480413084179019,
      "grad_norm": 0.24295999109745026,
      "learning_rate": 0.001,
      "loss": 2.6139,
      "num_input_tokens_seen": 13631483456,
      "step": 52000
    },
    {
      "epoch": 0.2480413084179019,
      "eval_loss": 2.4932186603546143,
      "eval_runtime": 53.6797,
      "eval_samples_per_second": 93.145,
      "eval_steps_per_second": 23.286,
      "num_input_tokens_seen": 13631483456,
      "step": 52000
    },
    {
      "epoch": 0.24827980967599603,
      "grad_norm": 0.22135989367961884,
      "learning_rate": 0.001,
      "loss": 2.5947,
      "num_input_tokens_seen": 13644590656,
      "step": 52050
    },
    {
      "epoch": 0.2485183109340902,
      "grad_norm": 0.3656958341598511,
      "learning_rate": 0.001,
      "loss": 2.6263,
      "num_input_tokens_seen": 13657697856,
      "step": 52100
    },
    {
      "epoch": 0.24875681219218432,
      "grad_norm": 0.2960817813873291,
      "learning_rate": 0.001,
      "loss": 2.6086,
      "num_input_tokens_seen": 13670805056,
      "step": 52150
    },
    {
      "epoch": 0.24899531345027845,
      "grad_norm": 0.2150612622499466,
      "learning_rate": 0.001,
      "loss": 2.6314,
      "num_input_tokens_seen": 13683912256,
      "step": 52200
    },
    {
      "epoch": 0.24923381470837258,
      "grad_norm": 0.23089592158794403,
      "learning_rate": 0.001,
      "loss": 2.6072,
      "num_input_tokens_seen": 13697019456,
      "step": 52250
    },
    {
      "epoch": 0.2494723159664667,
      "grad_norm": 0.19151148200035095,
      "learning_rate": 0.001,
      "loss": 2.6177,
      "num_input_tokens_seen": 13710126656,
      "step": 52300
    },
    {
      "epoch": 0.24971081722456087,
      "grad_norm": 0.47803962230682373,
      "learning_rate": 0.001,
      "loss": 2.6018,
      "num_input_tokens_seen": 13723233856,
      "step": 52350
    },
    {
      "epoch": 0.249949318482655,
      "grad_norm": 0.2346401810646057,
      "learning_rate": 0.001,
      "loss": 2.6068,
      "num_input_tokens_seen": 13736341056,
      "step": 52400
    },
    {
      "epoch": 0.2501878197407491,
      "grad_norm": 0.21514126658439636,
      "learning_rate": 0.001,
      "loss": 2.6186,
      "num_input_tokens_seen": 13749448256,
      "step": 52450
    },
    {
      "epoch": 0.25042632099884327,
      "grad_norm": 0.20311090350151062,
      "learning_rate": 0.001,
      "loss": 2.595,
      "num_input_tokens_seen": 13762555456,
      "step": 52500
    },
    {
      "epoch": 0.25042632099884327,
      "eval_loss": 2.490104913711548,
      "eval_runtime": 53.8709,
      "eval_samples_per_second": 92.814,
      "eval_steps_per_second": 23.204,
      "num_input_tokens_seen": 13762555456,
      "step": 52500
    },
    {
      "epoch": 0.2506648222569374,
      "grad_norm": 0.2120152711868286,
      "learning_rate": 0.001,
      "loss": 2.6027,
      "num_input_tokens_seen": 13775662656,
      "step": 52550
    },
    {
      "epoch": 0.25090332351503153,
      "grad_norm": 0.3172776401042938,
      "learning_rate": 0.001,
      "loss": 2.6089,
      "num_input_tokens_seen": 13788769856,
      "step": 52600
    },
    {
      "epoch": 0.2511418247731257,
      "grad_norm": 0.24425551295280457,
      "learning_rate": 0.001,
      "loss": 2.611,
      "num_input_tokens_seen": 13801877056,
      "step": 52650
    },
    {
      "epoch": 0.2513803260312198,
      "grad_norm": 0.24523352086544037,
      "learning_rate": 0.001,
      "loss": 2.6066,
      "num_input_tokens_seen": 13814984256,
      "step": 52700
    },
    {
      "epoch": 0.25161882728931395,
      "grad_norm": 0.21642154455184937,
      "learning_rate": 0.001,
      "loss": 2.6069,
      "num_input_tokens_seen": 13828091456,
      "step": 52750
    },
    {
      "epoch": 0.2518573285474081,
      "grad_norm": 0.21867206692695618,
      "learning_rate": 0.001,
      "loss": 2.6163,
      "num_input_tokens_seen": 13841198656,
      "step": 52800
    },
    {
      "epoch": 0.2520958298055022,
      "grad_norm": 0.2124466449022293,
      "learning_rate": 0.001,
      "loss": 2.6045,
      "num_input_tokens_seen": 13854305856,
      "step": 52850
    },
    {
      "epoch": 0.2523343310635964,
      "grad_norm": 0.20598042011260986,
      "learning_rate": 0.001,
      "loss": 2.5881,
      "num_input_tokens_seen": 13867413056,
      "step": 52900
    },
    {
      "epoch": 0.2525728323216905,
      "grad_norm": 0.1949404776096344,
      "learning_rate": 0.001,
      "loss": 2.6051,
      "num_input_tokens_seen": 13880520256,
      "step": 52950
    },
    {
      "epoch": 0.25281133357978464,
      "grad_norm": 0.18877142667770386,
      "learning_rate": 0.001,
      "loss": 2.608,
      "num_input_tokens_seen": 13893627456,
      "step": 53000
    },
    {
      "epoch": 0.25281133357978464,
      "eval_loss": 2.485513210296631,
      "eval_runtime": 53.7202,
      "eval_samples_per_second": 93.075,
      "eval_steps_per_second": 23.269,
      "num_input_tokens_seen": 13893627456,
      "step": 53000
    },
    {
      "epoch": 0.2530498348378788,
      "grad_norm": 0.20486177504062653,
      "learning_rate": 0.001,
      "loss": 2.5977,
      "num_input_tokens_seen": 13906734656,
      "step": 53050
    },
    {
      "epoch": 0.2532883360959729,
      "grad_norm": 0.18098385632038116,
      "learning_rate": 0.001,
      "loss": 2.5931,
      "num_input_tokens_seen": 13919841856,
      "step": 53100
    },
    {
      "epoch": 0.25352683735406706,
      "grad_norm": 0.1933833658695221,
      "learning_rate": 0.001,
      "loss": 2.6058,
      "num_input_tokens_seen": 13932949056,
      "step": 53150
    },
    {
      "epoch": 0.25376533861216116,
      "grad_norm": 0.29640141129493713,
      "learning_rate": 0.001,
      "loss": 2.5864,
      "num_input_tokens_seen": 13946056256,
      "step": 53200
    },
    {
      "epoch": 0.2540038398702553,
      "grad_norm": 0.2559553384780884,
      "learning_rate": 0.001,
      "loss": 2.6137,
      "num_input_tokens_seen": 13959163456,
      "step": 53250
    },
    {
      "epoch": 0.2542423411283494,
      "grad_norm": 0.21698619425296783,
      "learning_rate": 0.001,
      "loss": 2.6184,
      "num_input_tokens_seen": 13972270656,
      "step": 53300
    },
    {
      "epoch": 0.2544808423864436,
      "grad_norm": 0.19658173620700836,
      "learning_rate": 0.001,
      "loss": 2.5938,
      "num_input_tokens_seen": 13985377856,
      "step": 53350
    },
    {
      "epoch": 0.25471934364453774,
      "grad_norm": 0.2056342512369156,
      "learning_rate": 0.001,
      "loss": 2.5952,
      "num_input_tokens_seen": 13998485056,
      "step": 53400
    },
    {
      "epoch": 0.25495784490263185,
      "grad_norm": 0.1932424008846283,
      "learning_rate": 0.001,
      "loss": 2.6101,
      "num_input_tokens_seen": 14011592256,
      "step": 53450
    },
    {
      "epoch": 0.255196346160726,
      "grad_norm": 0.19347251951694489,
      "learning_rate": 0.001,
      "loss": 2.5976,
      "num_input_tokens_seen": 14024699456,
      "step": 53500
    },
    {
      "epoch": 0.255196346160726,
      "eval_loss": 2.4863245487213135,
      "eval_runtime": 53.2426,
      "eval_samples_per_second": 93.91,
      "eval_steps_per_second": 23.477,
      "num_input_tokens_seen": 14024699456,
      "step": 53500
    },
    {
      "epoch": 0.2554348474188201,
      "grad_norm": 0.1986820101737976,
      "learning_rate": 0.001,
      "loss": 2.6066,
      "num_input_tokens_seen": 14037806656,
      "step": 53550
    },
    {
      "epoch": 0.25567334867691427,
      "grad_norm": 0.21295565366744995,
      "learning_rate": 0.001,
      "loss": 2.6107,
      "num_input_tokens_seen": 14050913856,
      "step": 53600
    },
    {
      "epoch": 0.25591184993500843,
      "grad_norm": 0.21585114300251007,
      "learning_rate": 0.001,
      "loss": 2.6077,
      "num_input_tokens_seen": 14064021056,
      "step": 53650
    },
    {
      "epoch": 0.25615035119310253,
      "grad_norm": 0.19424305856227875,
      "learning_rate": 0.001,
      "loss": 2.5931,
      "num_input_tokens_seen": 14077128256,
      "step": 53700
    },
    {
      "epoch": 0.2563888524511967,
      "grad_norm": 0.20265349745750427,
      "learning_rate": 0.001,
      "loss": 2.5901,
      "num_input_tokens_seen": 14090235456,
      "step": 53750
    },
    {
      "epoch": 0.2566273537092908,
      "grad_norm": 1.037636160850525,
      "learning_rate": 0.001,
      "loss": 2.5775,
      "num_input_tokens_seen": 14103342656,
      "step": 53800
    },
    {
      "epoch": 0.25686585496738495,
      "grad_norm": 0.32030293345451355,
      "learning_rate": 0.001,
      "loss": 2.6242,
      "num_input_tokens_seen": 14116449856,
      "step": 53850
    },
    {
      "epoch": 0.2571043562254791,
      "grad_norm": 0.2339978665113449,
      "learning_rate": 0.001,
      "loss": 2.6122,
      "num_input_tokens_seen": 14129557056,
      "step": 53900
    },
    {
      "epoch": 0.2573428574835732,
      "grad_norm": 0.22179783880710602,
      "learning_rate": 0.001,
      "loss": 2.6025,
      "num_input_tokens_seen": 14142664256,
      "step": 53950
    },
    {
      "epoch": 0.2575813587416674,
      "grad_norm": 0.22616736590862274,
      "learning_rate": 0.001,
      "loss": 2.5916,
      "num_input_tokens_seen": 14155771456,
      "step": 54000
    },
    {
      "epoch": 0.2575813587416674,
      "eval_loss": 2.4871394634246826,
      "eval_runtime": 53.8695,
      "eval_samples_per_second": 92.817,
      "eval_steps_per_second": 23.204,
      "num_input_tokens_seen": 14155771456,
      "step": 54000
    },
    {
      "epoch": 0.2578198599997615,
      "grad_norm": 0.2028844654560089,
      "learning_rate": 0.001,
      "loss": 2.6039,
      "num_input_tokens_seen": 14168878656,
      "step": 54050
    },
    {
      "epoch": 0.25805836125785564,
      "grad_norm": 0.19936658442020416,
      "learning_rate": 0.001,
      "loss": 2.5985,
      "num_input_tokens_seen": 14181985856,
      "step": 54100
    },
    {
      "epoch": 0.2582968625159498,
      "grad_norm": 0.2087993025779724,
      "learning_rate": 0.001,
      "loss": 2.62,
      "num_input_tokens_seen": 14195093056,
      "step": 54150
    },
    {
      "epoch": 0.2585353637740439,
      "grad_norm": 0.18972960114479065,
      "learning_rate": 0.001,
      "loss": 2.5936,
      "num_input_tokens_seen": 14208200256,
      "step": 54200
    },
    {
      "epoch": 0.25877386503213806,
      "grad_norm": 0.2162945419549942,
      "learning_rate": 0.001,
      "loss": 2.6125,
      "num_input_tokens_seen": 14221307456,
      "step": 54250
    },
    {
      "epoch": 0.25901236629023217,
      "grad_norm": 0.2538411319255829,
      "learning_rate": 0.001,
      "loss": 2.6197,
      "num_input_tokens_seen": 14234414656,
      "step": 54300
    },
    {
      "epoch": 0.2592508675483263,
      "grad_norm": 0.28060850501060486,
      "learning_rate": 0.001,
      "loss": 2.6194,
      "num_input_tokens_seen": 14247521856,
      "step": 54350
    },
    {
      "epoch": 0.25948936880642043,
      "grad_norm": 0.21557608246803284,
      "learning_rate": 0.001,
      "loss": 2.623,
      "num_input_tokens_seen": 14260629056,
      "step": 54400
    },
    {
      "epoch": 0.2597278700645146,
      "grad_norm": 0.21628426015377045,
      "learning_rate": 0.001,
      "loss": 2.6077,
      "num_input_tokens_seen": 14273736256,
      "step": 54450
    },
    {
      "epoch": 0.25996637132260875,
      "grad_norm": 0.19123327732086182,
      "learning_rate": 0.001,
      "loss": 2.5991,
      "num_input_tokens_seen": 14286843456,
      "step": 54500
    },
    {
      "epoch": 0.25996637132260875,
      "eval_loss": 2.4861645698547363,
      "eval_runtime": 53.6448,
      "eval_samples_per_second": 93.206,
      "eval_steps_per_second": 23.301,
      "num_input_tokens_seen": 14286843456,
      "step": 54500
    },
    {
      "epoch": 0.26020487258070285,
      "grad_norm": 0.20462968945503235,
      "learning_rate": 0.001,
      "loss": 2.5887,
      "num_input_tokens_seen": 14299950656,
      "step": 54550
    },
    {
      "epoch": 0.260443373838797,
      "grad_norm": 0.20952938497066498,
      "learning_rate": 0.001,
      "loss": 2.608,
      "num_input_tokens_seen": 14313057856,
      "step": 54600
    },
    {
      "epoch": 0.2606818750968911,
      "grad_norm": 0.2095402032136917,
      "learning_rate": 0.001,
      "loss": 2.6079,
      "num_input_tokens_seen": 14326165056,
      "step": 54650
    },
    {
      "epoch": 0.2609203763549853,
      "grad_norm": 0.2343517541885376,
      "learning_rate": 0.001,
      "loss": 2.6124,
      "num_input_tokens_seen": 14339272256,
      "step": 54700
    },
    {
      "epoch": 0.26115887761307943,
      "grad_norm": 0.23840700089931488,
      "learning_rate": 0.001,
      "loss": 2.6015,
      "num_input_tokens_seen": 14352379456,
      "step": 54750
    },
    {
      "epoch": 0.26139737887117354,
      "grad_norm": 0.22024671733379364,
      "learning_rate": 0.001,
      "loss": 2.5812,
      "num_input_tokens_seen": 14365486656,
      "step": 54800
    },
    {
      "epoch": 0.2616358801292677,
      "grad_norm": 0.19884246587753296,
      "learning_rate": 0.001,
      "loss": 2.6118,
      "num_input_tokens_seen": 14378593856,
      "step": 54850
    },
    {
      "epoch": 0.2618743813873618,
      "grad_norm": 0.46560585498809814,
      "learning_rate": 0.001,
      "loss": 2.6024,
      "num_input_tokens_seen": 14391701056,
      "step": 54900
    },
    {
      "epoch": 0.26211288264545596,
      "grad_norm": 0.2956256568431854,
      "learning_rate": 0.001,
      "loss": 2.6073,
      "num_input_tokens_seen": 14404808256,
      "step": 54950
    },
    {
      "epoch": 0.2623513839035501,
      "grad_norm": 0.286327064037323,
      "learning_rate": 0.001,
      "loss": 2.5946,
      "num_input_tokens_seen": 14417915456,
      "step": 55000
    },
    {
      "epoch": 0.2623513839035501,
      "eval_loss": 2.4892399311065674,
      "eval_runtime": 53.3184,
      "eval_samples_per_second": 93.776,
      "eval_steps_per_second": 23.444,
      "num_input_tokens_seen": 14417915456,
      "step": 55000
    },
    {
      "epoch": 0.2625898851616442,
      "grad_norm": 0.22046101093292236,
      "learning_rate": 0.001,
      "loss": 2.6077,
      "num_input_tokens_seen": 14431022656,
      "step": 55050
    },
    {
      "epoch": 0.2628283864197384,
      "grad_norm": 0.4682837724685669,
      "learning_rate": 0.001,
      "loss": 2.6065,
      "num_input_tokens_seen": 14444129856,
      "step": 55100
    },
    {
      "epoch": 0.2630668876778325,
      "grad_norm": 0.21442484855651855,
      "learning_rate": 0.001,
      "loss": 2.6079,
      "num_input_tokens_seen": 14457237056,
      "step": 55150
    },
    {
      "epoch": 0.26330538893592664,
      "grad_norm": 0.2513403296470642,
      "learning_rate": 0.001,
      "loss": 2.6037,
      "num_input_tokens_seen": 14470344256,
      "step": 55200
    },
    {
      "epoch": 0.26354389019402075,
      "grad_norm": 0.21526487171649933,
      "learning_rate": 0.001,
      "loss": 2.6049,
      "num_input_tokens_seen": 14483451456,
      "step": 55250
    },
    {
      "epoch": 0.2637823914521149,
      "grad_norm": 0.22567112743854523,
      "learning_rate": 0.001,
      "loss": 2.5953,
      "num_input_tokens_seen": 14496558656,
      "step": 55300
    },
    {
      "epoch": 0.26402089271020907,
      "grad_norm": 0.20226064324378967,
      "learning_rate": 0.001,
      "loss": 2.609,
      "num_input_tokens_seen": 14509665856,
      "step": 55350
    },
    {
      "epoch": 0.26425939396830317,
      "grad_norm": 0.31736019253730774,
      "learning_rate": 0.001,
      "loss": 2.6174,
      "num_input_tokens_seen": 14522773056,
      "step": 55400
    },
    {
      "epoch": 0.26449789522639733,
      "grad_norm": 0.2573414146900177,
      "learning_rate": 0.001,
      "loss": 2.612,
      "num_input_tokens_seen": 14535880256,
      "step": 55450
    },
    {
      "epoch": 0.26473639648449143,
      "grad_norm": 0.278160959482193,
      "learning_rate": 0.001,
      "loss": 2.6713,
      "num_input_tokens_seen": 14548987456,
      "step": 55500
    },
    {
      "epoch": 0.26473639648449143,
      "eval_loss": 2.5104730129241943,
      "eval_runtime": 54.2403,
      "eval_samples_per_second": 92.182,
      "eval_steps_per_second": 23.046,
      "num_input_tokens_seen": 14548987456,
      "step": 55500
    },
    {
      "epoch": 0.2649748977425856,
      "grad_norm": 0.25843819975852966,
      "learning_rate": 0.001,
      "loss": 2.6223,
      "num_input_tokens_seen": 14562094656,
      "step": 55550
    },
    {
      "epoch": 0.26521339900067975,
      "grad_norm": 0.42813193798065186,
      "learning_rate": 0.001,
      "loss": 2.6114,
      "num_input_tokens_seen": 14575201856,
      "step": 55600
    },
    {
      "epoch": 0.26545190025877385,
      "grad_norm": 0.23324181139469147,
      "learning_rate": 0.001,
      "loss": 2.6149,
      "num_input_tokens_seen": 14588309056,
      "step": 55650
    },
    {
      "epoch": 0.265690401516868,
      "grad_norm": 0.2795487940311432,
      "learning_rate": 0.001,
      "loss": 2.6067,
      "num_input_tokens_seen": 14601416256,
      "step": 55700
    },
    {
      "epoch": 0.2659289027749621,
      "grad_norm": 0.6856834888458252,
      "learning_rate": 0.001,
      "loss": 2.6135,
      "num_input_tokens_seen": 14614523456,
      "step": 55750
    },
    {
      "epoch": 0.2661674040330563,
      "grad_norm": 0.348906934261322,
      "learning_rate": 0.001,
      "loss": 2.6384,
      "num_input_tokens_seen": 14627630656,
      "step": 55800
    },
    {
      "epoch": 0.26640590529115044,
      "grad_norm": 0.2510247528553009,
      "learning_rate": 0.001,
      "loss": 2.6224,
      "num_input_tokens_seen": 14640737856,
      "step": 55850
    },
    {
      "epoch": 0.26664440654924454,
      "grad_norm": 0.34429189562797546,
      "learning_rate": 0.001,
      "loss": 2.6139,
      "num_input_tokens_seen": 14653845056,
      "step": 55900
    },
    {
      "epoch": 0.2668829078073387,
      "grad_norm": 0.25697243213653564,
      "learning_rate": 0.001,
      "loss": 2.6143,
      "num_input_tokens_seen": 14666952256,
      "step": 55950
    },
    {
      "epoch": 0.2671214090654328,
      "grad_norm": 0.2812611758708954,
      "learning_rate": 0.001,
      "loss": 2.6172,
      "num_input_tokens_seen": 14680059456,
      "step": 56000
    },
    {
      "epoch": 0.2671214090654328,
      "eval_loss": 2.492490291595459,
      "eval_runtime": 53.3814,
      "eval_samples_per_second": 93.666,
      "eval_steps_per_second": 23.416,
      "num_input_tokens_seen": 14680059456,
      "step": 56000
    },
    {
      "epoch": 0.26735991032352696,
      "grad_norm": 0.22615984082221985,
      "learning_rate": 0.0009999685283773503,
      "loss": 2.5961,
      "num_input_tokens_seen": 14693166656,
      "step": 56050
    },
    {
      "epoch": 0.2675984115816211,
      "grad_norm": 0.2738794982433319,
      "learning_rate": 0.0009998741174712534,
      "loss": 2.612,
      "num_input_tokens_seen": 14706273856,
      "step": 56100
    },
    {
      "epoch": 0.2678369128397152,
      "grad_norm": 0.23470066487789154,
      "learning_rate": 0.0009997167791667668,
      "loss": 2.6071,
      "num_input_tokens_seen": 14719381056,
      "step": 56150
    },
    {
      "epoch": 0.2680754140978094,
      "grad_norm": 0.23558543622493744,
      "learning_rate": 0.0009994965332706573,
      "loss": 2.5956,
      "num_input_tokens_seen": 14732488256,
      "step": 56200
    },
    {
      "epoch": 0.2683139153559035,
      "grad_norm": 0.2274416983127594,
      "learning_rate": 0.0009992134075089082,
      "loss": 2.5873,
      "num_input_tokens_seen": 14745595456,
      "step": 56250
    },
    {
      "epoch": 0.26855241661399765,
      "grad_norm": 0.21609161794185638,
      "learning_rate": 0.000998867437523228,
      "loss": 2.6043,
      "num_input_tokens_seen": 14758702656,
      "step": 56300
    },
    {
      "epoch": 0.26879091787209175,
      "grad_norm": 0.2368565797805786,
      "learning_rate": 0.000998458666866564,
      "loss": 2.5952,
      "num_input_tokens_seen": 14771809856,
      "step": 56350
    },
    {
      "epoch": 0.2690294191301859,
      "grad_norm": 0.22180891036987305,
      "learning_rate": 0.0009979871469976197,
      "loss": 2.5934,
      "num_input_tokens_seen": 14784917056,
      "step": 56400
    },
    {
      "epoch": 0.26926792038828007,
      "grad_norm": 0.3060019910335541,
      "learning_rate": 0.0009974529372743762,
      "loss": 2.6224,
      "num_input_tokens_seen": 14798024256,
      "step": 56450
    },
    {
      "epoch": 0.2695064216463742,
      "grad_norm": 0.2387322634458542,
      "learning_rate": 0.0009968561049466214,
      "loss": 2.5905,
      "num_input_tokens_seen": 14811131456,
      "step": 56500
    },
    {
      "epoch": 0.2695064216463742,
      "eval_loss": 2.4835996627807617,
      "eval_runtime": 53.8478,
      "eval_samples_per_second": 92.854,
      "eval_steps_per_second": 23.214,
      "num_input_tokens_seen": 14811131456,
      "step": 56500
    },
    {
      "epoch": 0.26974492290446833,
      "grad_norm": 0.22091372311115265,
      "learning_rate": 0.0009961967251474822,
      "loss": 2.6139,
      "num_input_tokens_seen": 14824238656,
      "step": 56550
    },
    {
      "epoch": 0.26998342416256244,
      "grad_norm": 0.2304680198431015,
      "learning_rate": 0.0009954748808839674,
      "loss": 2.6167,
      "num_input_tokens_seen": 14837345856,
      "step": 56600
    },
    {
      "epoch": 0.2702219254206566,
      "grad_norm": 0.19777421653270721,
      "learning_rate": 0.0009946906630265184,
      "loss": 2.6082,
      "num_input_tokens_seen": 14850453056,
      "step": 56650
    },
    {
      "epoch": 0.27046042667875075,
      "grad_norm": 0.2113979458808899,
      "learning_rate": 0.0009938441702975688,
      "loss": 2.5981,
      "num_input_tokens_seen": 14863560256,
      "step": 56700
    },
    {
      "epoch": 0.27069892793684486,
      "grad_norm": 0.19911637902259827,
      "learning_rate": 0.0009929355092591179,
      "loss": 2.5904,
      "num_input_tokens_seen": 14876667456,
      "step": 56750
    },
    {
      "epoch": 0.270937429194939,
      "grad_norm": 0.20081694424152374,
      "learning_rate": 0.0009919647942993148,
      "loss": 2.6012,
      "num_input_tokens_seen": 14889774656,
      "step": 56800
    },
    {
      "epoch": 0.2711759304530331,
      "grad_norm": 0.22752800583839417,
      "learning_rate": 0.0009909321476180592,
      "loss": 2.6017,
      "num_input_tokens_seen": 14902881856,
      "step": 56850
    },
    {
      "epoch": 0.2714144317111273,
      "grad_norm": 0.23174402117729187,
      "learning_rate": 0.0009898376992116178,
      "loss": 2.6012,
      "num_input_tokens_seen": 14915989056,
      "step": 56900
    },
    {
      "epoch": 0.27165293296922144,
      "grad_norm": 0.22149533033370972,
      "learning_rate": 0.0009886815868562597,
      "loss": 2.5881,
      "num_input_tokens_seen": 14929096256,
      "step": 56950
    },
    {
      "epoch": 0.27189143422731554,
      "grad_norm": 0.22576771676540375,
      "learning_rate": 0.0009874639560909118,
      "loss": 2.6021,
      "num_input_tokens_seen": 14942203456,
      "step": 57000
    },
    {
      "epoch": 0.27189143422731554,
      "eval_loss": 2.482896566390991,
      "eval_runtime": 53.3773,
      "eval_samples_per_second": 93.673,
      "eval_steps_per_second": 23.418,
      "num_input_tokens_seen": 14942203456,
      "step": 57000
    },
    {
      "epoch": 0.2721299354854097,
      "grad_norm": 0.22044019401073456,
      "learning_rate": 0.0009861849601988384,
      "loss": 2.6119,
      "num_input_tokens_seen": 14955310656,
      "step": 57050
    },
    {
      "epoch": 0.2723684367435038,
      "grad_norm": 0.2155238389968872,
      "learning_rate": 0.0009848447601883434,
      "loss": 2.5869,
      "num_input_tokens_seen": 14968417856,
      "step": 57100
    },
    {
      "epoch": 0.27260693800159796,
      "grad_norm": 0.21131549775600433,
      "learning_rate": 0.0009834435247725033,
      "loss": 2.5988,
      "num_input_tokens_seen": 14981525056,
      "step": 57150
    },
    {
      "epoch": 0.27284543925969207,
      "grad_norm": 0.21247337758541107,
      "learning_rate": 0.0009819814303479266,
      "loss": 2.6198,
      "num_input_tokens_seen": 14994632256,
      "step": 57200
    },
    {
      "epoch": 0.27308394051778623,
      "grad_norm": 0.21916711330413818,
      "learning_rate": 0.00098045866097255,
      "loss": 2.6019,
      "num_input_tokens_seen": 15007739456,
      "step": 57250
    },
    {
      "epoch": 0.2733224417758804,
      "grad_norm": 0.1925441473722458,
      "learning_rate": 0.0009788754083424652,
      "loss": 2.6143,
      "num_input_tokens_seen": 15020846656,
      "step": 57300
    },
    {
      "epoch": 0.2735609430339745,
      "grad_norm": 0.38578665256500244,
      "learning_rate": 0.0009772318717677904,
      "loss": 2.6037,
      "num_input_tokens_seen": 15033953856,
      "step": 57350
    },
    {
      "epoch": 0.27379944429206865,
      "grad_norm": 0.19650611281394958,
      "learning_rate": 0.0009755282581475768,
      "loss": 2.5745,
      "num_input_tokens_seen": 15047061056,
      "step": 57400
    },
    {
      "epoch": 0.27403794555016275,
      "grad_norm": 0.2376088798046112,
      "learning_rate": 0.0009737647819437645,
      "loss": 2.5968,
      "num_input_tokens_seen": 15060168256,
      "step": 57450
    },
    {
      "epoch": 0.2742764468082569,
      "grad_norm": 0.21746863424777985,
      "learning_rate": 0.0009719416651541838,
      "loss": 2.5965,
      "num_input_tokens_seen": 15073275456,
      "step": 57500
    },
    {
      "epoch": 0.2742764468082569,
      "eval_loss": 2.483751058578491,
      "eval_runtime": 53.9622,
      "eval_samples_per_second": 92.657,
      "eval_steps_per_second": 23.164,
      "num_input_tokens_seen": 15073275456,
      "step": 57500
    },
    {
      "epoch": 0.27451494806635107,
      "grad_norm": 0.2898815870285034,
      "learning_rate": 0.0009700591372846095,
      "loss": 2.6105,
      "num_input_tokens_seen": 15086382656,
      "step": 57550
    },
    {
      "epoch": 0.2747534493244452,
      "grad_norm": 0.24887384474277496,
      "learning_rate": 0.0009681174353198686,
      "loss": 2.6103,
      "num_input_tokens_seen": 15099489856,
      "step": 57600
    },
    {
      "epoch": 0.27499195058253934,
      "grad_norm": 0.26613715291023254,
      "learning_rate": 0.0009661168036940071,
      "loss": 2.6296,
      "num_input_tokens_seen": 15112597056,
      "step": 57650
    },
    {
      "epoch": 0.27523045184063344,
      "grad_norm": 0.23983849585056305,
      "learning_rate": 0.0009640574942595195,
      "loss": 2.6008,
      "num_input_tokens_seen": 15125704256,
      "step": 57700
    },
    {
      "epoch": 0.2754689530987276,
      "grad_norm": 0.23169022798538208,
      "learning_rate": 0.0009619397662556434,
      "loss": 2.596,
      "num_input_tokens_seen": 15138811456,
      "step": 57750
    },
    {
      "epoch": 0.27570745435682176,
      "grad_norm": 0.21353812515735626,
      "learning_rate": 0.0009597638862757254,
      "loss": 2.6039,
      "num_input_tokens_seen": 15151918656,
      "step": 57800
    },
    {
      "epoch": 0.27594595561491586,
      "grad_norm": 0.2561227083206177,
      "learning_rate": 0.00095753012823366,
      "loss": 2.6046,
      "num_input_tokens_seen": 15165025856,
      "step": 57850
    },
    {
      "epoch": 0.27618445687301,
      "grad_norm": 0.20380394160747528,
      "learning_rate": 0.000955238773329408,
      "loss": 2.5968,
      "num_input_tokens_seen": 15178133056,
      "step": 57900
    },
    {
      "epoch": 0.2764229581311041,
      "grad_norm": 0.26447024941444397,
      "learning_rate": 0.000952890110013597,
      "loss": 2.5848,
      "num_input_tokens_seen": 15191240256,
      "step": 57950
    },
    {
      "epoch": 0.2766614593891983,
      "grad_norm": 0.23530781269073486,
      "learning_rate": 0.0009504844339512095,
      "loss": 2.582,
      "num_input_tokens_seen": 15204347456,
      "step": 58000
    },
    {
      "epoch": 0.2766614593891983,
      "eval_loss": 2.482050895690918,
      "eval_runtime": 53.5775,
      "eval_samples_per_second": 93.323,
      "eval_steps_per_second": 23.331,
      "num_input_tokens_seen": 15204347456,
      "step": 58000
    },
    {
      "epoch": 0.2768999606472924,
      "grad_norm": 0.2281644344329834,
      "learning_rate": 0.0009480220479843627,
      "loss": 2.6212,
      "num_input_tokens_seen": 15217454656,
      "step": 58050
    },
    {
      "epoch": 0.27713846190538655,
      "grad_norm": 0.2181713730096817,
      "learning_rate": 0.0009455032620941839,
      "loss": 2.5927,
      "num_input_tokens_seen": 15230561856,
      "step": 58100
    },
    {
      "epoch": 0.2773769631634807,
      "grad_norm": 0.21573083102703094,
      "learning_rate": 0.00094292839336179,
      "loss": 2.6112,
      "num_input_tokens_seen": 15243669056,
      "step": 58150
    },
    {
      "epoch": 0.2776154644215748,
      "grad_norm": 0.2686486840248108,
      "learning_rate": 0.000940297765928369,
      "loss": 2.6133,
      "num_input_tokens_seen": 15256776256,
      "step": 58200
    },
    {
      "epoch": 0.27785396567966897,
      "grad_norm": 0.2320137470960617,
      "learning_rate": 0.0009376117109543769,
      "loss": 2.6094,
      "num_input_tokens_seen": 15269883456,
      "step": 58250
    },
    {
      "epoch": 0.27809246693776307,
      "grad_norm": 0.22277672588825226,
      "learning_rate": 0.0009348705665778478,
      "loss": 2.5885,
      "num_input_tokens_seen": 15282990656,
      "step": 58300
    },
    {
      "epoch": 0.27833096819585723,
      "grad_norm": 0.22681231796741486,
      "learning_rate": 0.0009320746778718274,
      "loss": 2.6005,
      "num_input_tokens_seen": 15296097856,
      "step": 58350
    },
    {
      "epoch": 0.2785694694539514,
      "grad_norm": 0.25187453627586365,
      "learning_rate": 0.000929224396800933,
      "loss": 2.5944,
      "num_input_tokens_seen": 15309205056,
      "step": 58400
    },
    {
      "epoch": 0.2788079707120455,
      "grad_norm": 0.24962358176708221,
      "learning_rate": 0.0009263200821770461,
      "loss": 2.5888,
      "num_input_tokens_seen": 15322312256,
      "step": 58450
    },
    {
      "epoch": 0.27904647197013965,
      "grad_norm": 0.18929679691791534,
      "learning_rate": 0.0009233620996141421,
      "loss": 2.5927,
      "num_input_tokens_seen": 15335419456,
      "step": 58500
    },
    {
      "epoch": 0.27904647197013965,
      "eval_loss": 2.4754066467285156,
      "eval_runtime": 53.7558,
      "eval_samples_per_second": 93.013,
      "eval_steps_per_second": 23.253,
      "num_input_tokens_seen": 15335419456,
      "step": 58500
    },
    {
      "epoch": 0.27928497322823376,
      "grad_norm": 0.22240912914276123,
      "learning_rate": 0.0009203508214822651,
      "loss": 2.5944,
      "num_input_tokens_seen": 15348526656,
      "step": 58550
    },
    {
      "epoch": 0.2795234744863279,
      "grad_norm": 0.2096235305070877,
      "learning_rate": 0.0009172866268606513,
      "loss": 2.5964,
      "num_input_tokens_seen": 15361633856,
      "step": 58600
    },
    {
      "epoch": 0.2797619757444221,
      "grad_norm": 0.2913396954536438,
      "learning_rate": 0.0009141699014900082,
      "loss": 2.5975,
      "num_input_tokens_seen": 15374741056,
      "step": 58650
    },
    {
      "epoch": 0.2800004770025162,
      "grad_norm": 0.21000444889068604,
      "learning_rate": 0.0009110010377239551,
      "loss": 2.5987,
      "num_input_tokens_seen": 15387848256,
      "step": 58700
    },
    {
      "epoch": 0.28023897826061034,
      "grad_norm": 0.18561489880084991,
      "learning_rate": 0.0009077804344796301,
      "loss": 2.5955,
      "num_input_tokens_seen": 15400955456,
      "step": 58750
    },
    {
      "epoch": 0.28047747951870444,
      "grad_norm": 0.330816388130188,
      "learning_rate": 0.0009045084971874737,
      "loss": 2.5837,
      "num_input_tokens_seen": 15414062656,
      "step": 58800
    },
    {
      "epoch": 0.2807159807767986,
      "grad_norm": 0.21823953092098236,
      "learning_rate": 0.000901185637740189,
      "loss": 2.5921,
      "num_input_tokens_seen": 15427169856,
      "step": 58850
    },
    {
      "epoch": 0.28095448203489276,
      "grad_norm": 0.28721505403518677,
      "learning_rate": 0.0008978122744408905,
      "loss": 2.5893,
      "num_input_tokens_seen": 15440277056,
      "step": 58900
    },
    {
      "epoch": 0.28119298329298686,
      "grad_norm": 0.2468225359916687,
      "learning_rate": 0.0008943888319504456,
      "loss": 2.5999,
      "num_input_tokens_seen": 15453384256,
      "step": 58950
    },
    {
      "epoch": 0.281431484551081,
      "grad_norm": 0.20486761629581451,
      "learning_rate": 0.000890915741234015,
      "loss": 2.6026,
      "num_input_tokens_seen": 15466491456,
      "step": 59000
    },
    {
      "epoch": 0.281431484551081,
      "eval_loss": 2.4756667613983154,
      "eval_runtime": 53.3408,
      "eval_samples_per_second": 93.737,
      "eval_steps_per_second": 23.434,
      "num_input_tokens_seen": 15466491456,
      "step": 59000
    },
    {
      "epoch": 0.2816699858091751,
      "grad_norm": 0.3338637351989746,
      "learning_rate": 0.0008873934395068005,
      "loss": 2.587,
      "num_input_tokens_seen": 15479598656,
      "step": 59050
    },
    {
      "epoch": 0.2819084870672693,
      "grad_norm": 0.20848780870437622,
      "learning_rate": 0.0008838223701790055,
      "loss": 2.5989,
      "num_input_tokens_seen": 15492705856,
      "step": 59100
    },
    {
      "epoch": 0.2821469883253634,
      "grad_norm": 0.21479378640651703,
      "learning_rate": 0.0008802029828000156,
      "loss": 2.6052,
      "num_input_tokens_seen": 15505813056,
      "step": 59150
    },
    {
      "epoch": 0.28238548958345755,
      "grad_norm": 0.1944151073694229,
      "learning_rate": 0.0008765357330018055,
      "loss": 2.6044,
      "num_input_tokens_seen": 15518920256,
      "step": 59200
    },
    {
      "epoch": 0.2826239908415517,
      "grad_norm": 0.2078033685684204,
      "learning_rate": 0.0008728210824415827,
      "loss": 2.5929,
      "num_input_tokens_seen": 15532027456,
      "step": 59250
    },
    {
      "epoch": 0.2828624920996458,
      "grad_norm": 0.19340284168720245,
      "learning_rate": 0.0008690594987436704,
      "loss": 2.5875,
      "num_input_tokens_seen": 15545134656,
      "step": 59300
    },
    {
      "epoch": 0.28310099335773997,
      "grad_norm": 0.22354012727737427,
      "learning_rate": 0.0008652514554406388,
      "loss": 2.5976,
      "num_input_tokens_seen": 15558241856,
      "step": 59350
    },
    {
      "epoch": 0.2833394946158341,
      "grad_norm": 0.26784005761146545,
      "learning_rate": 0.0008613974319136957,
      "loss": 2.5868,
      "num_input_tokens_seen": 15571349056,
      "step": 59400
    },
    {
      "epoch": 0.28357799587392823,
      "grad_norm": 0.20749828219413757,
      "learning_rate": 0.0008574979133323377,
      "loss": 2.5784,
      "num_input_tokens_seen": 15584456256,
      "step": 59450
    },
    {
      "epoch": 0.2838164971320224,
      "grad_norm": 0.21545729041099548,
      "learning_rate": 0.0008535533905932737,
      "loss": 2.5939,
      "num_input_tokens_seen": 15597563456,
      "step": 59500
    },
    {
      "epoch": 0.2838164971320224,
      "eval_loss": 2.469989538192749,
      "eval_runtime": 54.0784,
      "eval_samples_per_second": 92.458,
      "eval_steps_per_second": 23.115,
      "num_input_tokens_seen": 15597563456,
      "step": 59500
    },
    {
      "epoch": 0.2840549983901165,
      "grad_norm": 0.20836423337459564,
      "learning_rate": 0.0008495643602586287,
      "loss": 2.5858,
      "num_input_tokens_seen": 15610670656,
      "step": 59550
    },
    {
      "epoch": 0.28429349964821066,
      "grad_norm": 0.20427604019641876,
      "learning_rate": 0.0008455313244934324,
      "loss": 2.5781,
      "num_input_tokens_seen": 15623777856,
      "step": 59600
    },
    {
      "epoch": 0.28453200090630476,
      "grad_norm": 0.2341683804988861,
      "learning_rate": 0.0008414547910024035,
      "loss": 2.5713,
      "num_input_tokens_seen": 15636885056,
      "step": 59650
    },
    {
      "epoch": 0.2847705021643989,
      "grad_norm": 0.20808522403240204,
      "learning_rate": 0.0008373352729660373,
      "loss": 2.5751,
      "num_input_tokens_seen": 15649992256,
      "step": 59700
    },
    {
      "epoch": 0.2850090034224931,
      "grad_norm": 0.21032562851905823,
      "learning_rate": 0.000833173288976002,
      "loss": 2.5784,
      "num_input_tokens_seen": 15663099456,
      "step": 59750
    },
    {
      "epoch": 0.2852475046805872,
      "grad_norm": 0.23485584557056427,
      "learning_rate": 0.0008289693629698564,
      "loss": 2.5974,
      "num_input_tokens_seen": 15676206656,
      "step": 59800
    },
    {
      "epoch": 0.28548600593868134,
      "grad_norm": 0.2229880541563034,
      "learning_rate": 0.0008247240241650918,
      "loss": 2.5834,
      "num_input_tokens_seen": 15689313856,
      "step": 59850
    },
    {
      "epoch": 0.28572450719677545,
      "grad_norm": 0.21837118268013,
      "learning_rate": 0.000820437806992512,
      "loss": 2.5734,
      "num_input_tokens_seen": 15702421056,
      "step": 59900
    },
    {
      "epoch": 0.2859630084548696,
      "grad_norm": 0.2157929688692093,
      "learning_rate": 0.0008161112510289549,
      "loss": 2.587,
      "num_input_tokens_seen": 15715528256,
      "step": 59950
    },
    {
      "epoch": 0.2862015097129637,
      "grad_norm": 0.24053893983364105,
      "learning_rate": 0.0008117449009293668,
      "loss": 2.5853,
      "num_input_tokens_seen": 15728635456,
      "step": 60000
    },
    {
      "epoch": 0.2862015097129637,
      "eval_loss": 2.470459461212158,
      "eval_runtime": 53.5859,
      "eval_samples_per_second": 93.308,
      "eval_steps_per_second": 23.327,
      "num_input_tokens_seen": 15728635456,
      "step": 60000
    },
    {
      "epoch": 0.28644001097105787,
      "grad_norm": 0.25951045751571655,
      "learning_rate": 0.0008073393063582386,
      "loss": 2.5946,
      "num_input_tokens_seen": 15741742656,
      "step": 60050
    },
    {
      "epoch": 0.286678512229152,
      "grad_norm": 0.22712726891040802,
      "learning_rate": 0.00080289502192041,
      "loss": 2.5882,
      "num_input_tokens_seen": 15754849856,
      "step": 60100
    },
    {
      "epoch": 0.28691701348724613,
      "grad_norm": 0.2236946076154709,
      "learning_rate": 0.0007984126070912518,
      "loss": 2.5854,
      "num_input_tokens_seen": 15767957056,
      "step": 60150
    },
    {
      "epoch": 0.2871555147453403,
      "grad_norm": 0.3175867795944214,
      "learning_rate": 0.0007938926261462366,
      "loss": 2.5855,
      "num_input_tokens_seen": 15781064256,
      "step": 60200
    },
    {
      "epoch": 0.2873940160034344,
      "grad_norm": 0.22954128682613373,
      "learning_rate": 0.000789335648089903,
      "loss": 2.595,
      "num_input_tokens_seen": 15794171456,
      "step": 60250
    },
    {
      "epoch": 0.28763251726152855,
      "grad_norm": 0.23379147052764893,
      "learning_rate": 0.000784742246584226,
      "loss": 2.5872,
      "num_input_tokens_seen": 15807278656,
      "step": 60300
    },
    {
      "epoch": 0.2878710185196227,
      "grad_norm": 0.22107115387916565,
      "learning_rate": 0.0007801129998764014,
      "loss": 2.5704,
      "num_input_tokens_seen": 15820385856,
      "step": 60350
    },
    {
      "epoch": 0.2881095197777168,
      "grad_norm": 0.21197494864463806,
      "learning_rate": 0.0007754484907260512,
      "loss": 2.5751,
      "num_input_tokens_seen": 15833493056,
      "step": 60400
    },
    {
      "epoch": 0.288348021035811,
      "grad_norm": 0.21372662484645844,
      "learning_rate": 0.0007707493063318629,
      "loss": 2.5901,
      "num_input_tokens_seen": 15846600256,
      "step": 60450
    },
    {
      "epoch": 0.2885865222939051,
      "grad_norm": 0.23300603032112122,
      "learning_rate": 0.0007660160382576683,
      "loss": 2.5888,
      "num_input_tokens_seen": 15859707456,
      "step": 60500
    },
    {
      "epoch": 0.2885865222939051,
      "eval_loss": 2.463745355606079,
      "eval_runtime": 53.032,
      "eval_samples_per_second": 94.283,
      "eval_steps_per_second": 23.571,
      "num_input_tokens_seen": 15859707456,
      "step": 60500
    },
    {
      "epoch": 0.28882502355199924,
      "grad_norm": 0.2108684778213501,
      "learning_rate": 0.0007612492823579744,
      "loss": 2.5965,
      "num_input_tokens_seen": 15872814656,
      "step": 60550
    },
    {
      "epoch": 0.2890635248100934,
      "grad_norm": 0.20625820755958557,
      "learning_rate": 0.0007564496387029531,
      "loss": 2.5615,
      "num_input_tokens_seen": 15885921856,
      "step": 60600
    },
    {
      "epoch": 0.2893020260681875,
      "grad_norm": 0.22595694661140442,
      "learning_rate": 0.0007516177115029001,
      "loss": 2.5871,
      "num_input_tokens_seen": 15899029056,
      "step": 60650
    },
    {
      "epoch": 0.28954052732628166,
      "grad_norm": 0.2095574140548706,
      "learning_rate": 0.0007467541090321735,
      "loss": 2.5867,
      "num_input_tokens_seen": 15912136256,
      "step": 60700
    },
    {
      "epoch": 0.28977902858437576,
      "grad_norm": 0.1979990303516388,
      "learning_rate": 0.00074185944355262,
      "loss": 2.586,
      "num_input_tokens_seen": 15925243456,
      "step": 60750
    },
    {
      "epoch": 0.2900175298424699,
      "grad_norm": 0.3573000431060791,
      "learning_rate": 0.0007369343312364993,
      "loss": 2.5807,
      "num_input_tokens_seen": 15938350656,
      "step": 60800
    },
    {
      "epoch": 0.2902560311005641,
      "grad_norm": 0.2209523618221283,
      "learning_rate": 0.0007319793920889171,
      "loss": 2.5867,
      "num_input_tokens_seen": 15951457856,
      "step": 60850
    },
    {
      "epoch": 0.2904945323586582,
      "grad_norm": 0.1979866325855255,
      "learning_rate": 0.0007269952498697733,
      "loss": 2.5679,
      "num_input_tokens_seen": 15964565056,
      "step": 60900
    },
    {
      "epoch": 0.29073303361675235,
      "grad_norm": 0.2013344019651413,
      "learning_rate": 0.0007219825320152411,
      "loss": 2.5842,
      "num_input_tokens_seen": 15977672256,
      "step": 60950
    },
    {
      "epoch": 0.29097153487484645,
      "grad_norm": 0.20511233806610107,
      "learning_rate": 0.0007169418695587791,
      "loss": 2.5864,
      "num_input_tokens_seen": 15990779456,
      "step": 61000
    },
    {
      "epoch": 0.29097153487484645,
      "eval_loss": 2.4598097801208496,
      "eval_runtime": 53.5493,
      "eval_samples_per_second": 93.372,
      "eval_steps_per_second": 23.343,
      "num_input_tokens_seen": 15990779456,
      "step": 61000
    },
    {
      "epoch": 0.2912100361329406,
      "grad_norm": 0.19767510890960693,
      "learning_rate": 0.0007118738970516943,
      "loss": 2.5963,
      "num_input_tokens_seen": 16003886656,
      "step": 61050
    },
    {
      "epoch": 0.2914485373910347,
      "grad_norm": 0.21463529765605927,
      "learning_rate": 0.0007067792524832604,
      "loss": 2.5825,
      "num_input_tokens_seen": 16016993856,
      "step": 61100
    },
    {
      "epoch": 0.29168703864912887,
      "grad_norm": 0.2011532485485077,
      "learning_rate": 0.0007016585772004026,
      "loss": 2.5783,
      "num_input_tokens_seen": 16030101056,
      "step": 61150
    },
    {
      "epoch": 0.29192553990722303,
      "grad_norm": 0.19351401925086975,
      "learning_rate": 0.0006965125158269618,
      "loss": 2.5619,
      "num_input_tokens_seen": 16043208256,
      "step": 61200
    },
    {
      "epoch": 0.29216404116531713,
      "grad_norm": 0.1988568902015686,
      "learning_rate": 0.000691341716182545,
      "loss": 2.6007,
      "num_input_tokens_seen": 16056315456,
      "step": 61250
    },
    {
      "epoch": 0.2924025424234113,
      "grad_norm": 0.20459413528442383,
      "learning_rate": 0.0006861468292009726,
      "loss": 2.5762,
      "num_input_tokens_seen": 16069422656,
      "step": 61300
    },
    {
      "epoch": 0.2926410436815054,
      "grad_norm": 0.1914205551147461,
      "learning_rate": 0.0006809285088483361,
      "loss": 2.5734,
      "num_input_tokens_seen": 16082529856,
      "step": 61350
    },
    {
      "epoch": 0.29287954493959956,
      "grad_norm": 0.194325253367424,
      "learning_rate": 0.0006756874120406714,
      "loss": 2.5874,
      "num_input_tokens_seen": 16095637056,
      "step": 61400
    },
    {
      "epoch": 0.2931180461976937,
      "grad_norm": 0.20854853093624115,
      "learning_rate": 0.0006704241985612625,
      "loss": 2.5865,
      "num_input_tokens_seen": 16108744256,
      "step": 61450
    },
    {
      "epoch": 0.2933565474557878,
      "grad_norm": 0.190395787358284,
      "learning_rate": 0.0006651395309775837,
      "loss": 2.5716,
      "num_input_tokens_seen": 16121851456,
      "step": 61500
    },
    {
      "epoch": 0.2933565474557878,
      "eval_loss": 2.4551966190338135,
      "eval_runtime": 53.3343,
      "eval_samples_per_second": 93.748,
      "eval_steps_per_second": 23.437,
      "num_input_tokens_seen": 16121851456,
      "step": 61500
    },
    {
      "epoch": 0.293595048713882,
      "grad_norm": 0.20652073621749878,
      "learning_rate": 0.0006598340745578908,
      "loss": 2.5765,
      "num_input_tokens_seen": 16134958656,
      "step": 61550
    },
    {
      "epoch": 0.2938335499719761,
      "grad_norm": 0.20701836049556732,
      "learning_rate": 0.0006545084971874737,
      "loss": 2.5653,
      "num_input_tokens_seen": 16148065856,
      "step": 61600
    },
    {
      "epoch": 0.29407205123007024,
      "grad_norm": 0.1792392134666443,
      "learning_rate": 0.000649163469284578,
      "loss": 2.577,
      "num_input_tokens_seen": 16161173056,
      "step": 61650
    },
    {
      "epoch": 0.2943105524881644,
      "grad_norm": 0.21742790937423706,
      "learning_rate": 0.0006437996637160086,
      "loss": 2.574,
      "num_input_tokens_seen": 16174280256,
      "step": 61700
    },
    {
      "epoch": 0.2945490537462585,
      "grad_norm": 0.20747682452201843,
      "learning_rate": 0.0006384177557124247,
      "loss": 2.564,
      "num_input_tokens_seen": 16187387456,
      "step": 61750
    },
    {
      "epoch": 0.29478755500435266,
      "grad_norm": 0.19990311563014984,
      "learning_rate": 0.0006330184227833376,
      "loss": 2.5866,
      "num_input_tokens_seen": 16200494656,
      "step": 61800
    },
    {
      "epoch": 0.29502605626244677,
      "grad_norm": 0.20410317182540894,
      "learning_rate": 0.0006276023446318213,
      "loss": 2.5559,
      "num_input_tokens_seen": 16213601856,
      "step": 61850
    },
    {
      "epoch": 0.2952645575205409,
      "grad_norm": 0.19365034997463226,
      "learning_rate": 0.000622170203068947,
      "loss": 2.5705,
      "num_input_tokens_seen": 16226709056,
      "step": 61900
    },
    {
      "epoch": 0.29550305877863503,
      "grad_norm": 0.2115161269903183,
      "learning_rate": 0.0006167226819279528,
      "loss": 2.5621,
      "num_input_tokens_seen": 16239816256,
      "step": 61950
    },
    {
      "epoch": 0.2957415600367292,
      "grad_norm": 0.22992485761642456,
      "learning_rate": 0.0006112604669781572,
      "loss": 2.5587,
      "num_input_tokens_seen": 16252923456,
      "step": 62000
    },
    {
      "epoch": 0.2957415600367292,
      "eval_loss": 2.452096462249756,
      "eval_runtime": 53.6354,
      "eval_samples_per_second": 93.222,
      "eval_steps_per_second": 23.306,
      "num_input_tokens_seen": 16252923456,
      "step": 62000
    },
    {
      "epoch": 0.29598006129482335,
      "grad_norm": 0.1945638656616211,
      "learning_rate": 0.0006057842458386314,
      "loss": 2.5582,
      "num_input_tokens_seen": 16266030656,
      "step": 62050
    },
    {
      "epoch": 0.29621856255291745,
      "grad_norm": 0.201882466673851,
      "learning_rate": 0.0006002947078916364,
      "loss": 2.5764,
      "num_input_tokens_seen": 16279137856,
      "step": 62100
    },
    {
      "epoch": 0.2964570638110116,
      "grad_norm": 0.2137998789548874,
      "learning_rate": 0.0005947925441958392,
      "loss": 2.5689,
      "num_input_tokens_seen": 16292245056,
      "step": 62150
    },
    {
      "epoch": 0.2966955650691057,
      "grad_norm": 0.18265672028064728,
      "learning_rate": 0.0005892784473993184,
      "loss": 2.5741,
      "num_input_tokens_seen": 16305352256,
      "step": 62200
    },
    {
      "epoch": 0.2969340663271999,
      "grad_norm": 0.16944251954555511,
      "learning_rate": 0.0005837531116523682,
      "loss": 2.5537,
      "num_input_tokens_seen": 16318459456,
      "step": 62250
    },
    {
      "epoch": 0.29717256758529403,
      "grad_norm": 0.20273485779762268,
      "learning_rate": 0.0005782172325201155,
      "loss": 2.5512,
      "num_input_tokens_seen": 16331566656,
      "step": 62300
    },
    {
      "epoch": 0.29741106884338814,
      "grad_norm": 0.19320476055145264,
      "learning_rate": 0.0005726715068949564,
      "loss": 2.5823,
      "num_input_tokens_seen": 16344673856,
      "step": 62350
    },
    {
      "epoch": 0.2976495701014823,
      "grad_norm": 0.21321871876716614,
      "learning_rate": 0.0005671166329088278,
      "loss": 2.5608,
      "num_input_tokens_seen": 16357781056,
      "step": 62400
    },
    {
      "epoch": 0.2978880713595764,
      "grad_norm": 0.2007117122411728,
      "learning_rate": 0.0005615533098453215,
      "loss": 2.5685,
      "num_input_tokens_seen": 16370888256,
      "step": 62450
    },
    {
      "epoch": 0.29812657261767056,
      "grad_norm": 0.1896267682313919,
      "learning_rate": 0.0005559822380516539,
      "loss": 2.56,
      "num_input_tokens_seen": 16383995456,
      "step": 62500
    },
    {
      "epoch": 0.29812657261767056,
      "eval_loss": 2.448042154312134,
      "eval_runtime": 54.1994,
      "eval_samples_per_second": 92.252,
      "eval_steps_per_second": 23.063,
      "num_input_tokens_seen": 16383995456,
      "step": 62500
    },
    {
      "epoch": 0.2983650738757647,
      "grad_norm": 0.18581034243106842,
      "learning_rate": 0.0005504041188505022,
      "loss": 2.5691,
      "num_input_tokens_seen": 16397102656,
      "step": 62550
    },
    {
      "epoch": 0.2986035751338588,
      "grad_norm": 0.19272533059120178,
      "learning_rate": 0.0005448196544517168,
      "loss": 2.5635,
      "num_input_tokens_seen": 16410209856,
      "step": 62600
    },
    {
      "epoch": 0.298842076391953,
      "grad_norm": 0.19940300285816193,
      "learning_rate": 0.0005392295478639225,
      "loss": 2.5755,
      "num_input_tokens_seen": 16423317056,
      "step": 62650
    },
    {
      "epoch": 0.2990805776500471,
      "grad_norm": 0.18894875049591064,
      "learning_rate": 0.0005336345028060199,
      "loss": 2.5718,
      "num_input_tokens_seen": 16436424256,
      "step": 62700
    },
    {
      "epoch": 0.29931907890814125,
      "grad_norm": 0.19226962327957153,
      "learning_rate": 0.0005280352236185959,
      "loss": 2.563,
      "num_input_tokens_seen": 16449531456,
      "step": 62750
    },
    {
      "epoch": 0.2995575801662354,
      "grad_norm": 0.20716702938079834,
      "learning_rate": 0.0005224324151752575,
      "loss": 2.5532,
      "num_input_tokens_seen": 16462638656,
      "step": 62800
    },
    {
      "epoch": 0.2997960814243295,
      "grad_norm": 0.20232325792312622,
      "learning_rate": 0.000516826782793897,
      "loss": 2.5691,
      "num_input_tokens_seen": 16475745856,
      "step": 62850
    },
    {
      "epoch": 0.30003458268242367,
      "grad_norm": 0.19828926026821136,
      "learning_rate": 0.0005112190321479025,
      "loss": 2.5602,
      "num_input_tokens_seen": 16488853056,
      "step": 62900
    },
    {
      "epoch": 0.30027308394051777,
      "grad_norm": 0.22366905212402344,
      "learning_rate": 0.000505609869177323,
      "loss": 2.5556,
      "num_input_tokens_seen": 16501960256,
      "step": 62950
    },
    {
      "epoch": 0.30051158519861193,
      "grad_norm": 0.1883884221315384,
      "learning_rate": 0.0005,
      "loss": 2.5567,
      "num_input_tokens_seen": 16515067456,
      "step": 63000
    },
    {
      "epoch": 0.30051158519861193,
      "eval_loss": 2.4441678524017334,
      "eval_runtime": 54.2448,
      "eval_samples_per_second": 92.175,
      "eval_steps_per_second": 23.044,
      "num_input_tokens_seen": 16515067456,
      "step": 63000
    },
    {
      "epoch": 0.30075008645670603,
      "grad_norm": 0.20152603089809418,
      "learning_rate": 0.0004943901308226771,
      "loss": 2.5562,
      "num_input_tokens_seen": 16528174656,
      "step": 63050
    },
    {
      "epoch": 0.3009885877148002,
      "grad_norm": 0.18534454703330994,
      "learning_rate": 0.0004887809678520976,
      "loss": 2.5559,
      "num_input_tokens_seen": 16541281856,
      "step": 63100
    },
    {
      "epoch": 0.30122708897289435,
      "grad_norm": 0.18770301342010498,
      "learning_rate": 0.0004831732172061032,
      "loss": 2.5538,
      "num_input_tokens_seen": 16554389056,
      "step": 63150
    },
    {
      "epoch": 0.30146559023098846,
      "grad_norm": 0.19565705955028534,
      "learning_rate": 0.0004775675848247427,
      "loss": 2.5593,
      "num_input_tokens_seen": 16567496256,
      "step": 63200
    },
    {
      "epoch": 0.3017040914890826,
      "grad_norm": 0.1954822540283203,
      "learning_rate": 0.00047196477638140405,
      "loss": 2.5694,
      "num_input_tokens_seen": 16580603456,
      "step": 63250
    },
    {
      "epoch": 0.3019425927471767,
      "grad_norm": 0.18120840191841125,
      "learning_rate": 0.0004663654971939802,
      "loss": 2.5622,
      "num_input_tokens_seen": 16593710656,
      "step": 63300
    },
    {
      "epoch": 0.3021810940052709,
      "grad_norm": 0.18100927770137787,
      "learning_rate": 0.0004607704521360776,
      "loss": 2.5437,
      "num_input_tokens_seen": 16606817856,
      "step": 63350
    },
    {
      "epoch": 0.30241959526336504,
      "grad_norm": 0.20565176010131836,
      "learning_rate": 0.0004551803455482833,
      "loss": 2.5463,
      "num_input_tokens_seen": 16619925056,
      "step": 63400
    },
    {
      "epoch": 0.30265809652145914,
      "grad_norm": 0.18989761173725128,
      "learning_rate": 0.0004495958811494978,
      "loss": 2.5609,
      "num_input_tokens_seen": 16633032256,
      "step": 63450
    },
    {
      "epoch": 0.3028965977795533,
      "grad_norm": 0.1870686262845993,
      "learning_rate": 0.0004440177619483461,
      "loss": 2.5554,
      "num_input_tokens_seen": 16646139456,
      "step": 63500
    },
    {
      "epoch": 0.3028965977795533,
      "eval_loss": 2.4395649433135986,
      "eval_runtime": 53.4665,
      "eval_samples_per_second": 93.516,
      "eval_steps_per_second": 23.379,
      "num_input_tokens_seen": 16646139456,
      "step": 63500
    },
    {
      "epoch": 0.3031350990376474,
      "grad_norm": 0.1891048699617386,
      "learning_rate": 0.00043844669015467863,
      "loss": 2.5627,
      "num_input_tokens_seen": 16659246656,
      "step": 63550
    },
    {
      "epoch": 0.30337360029574156,
      "grad_norm": 0.18591411411762238,
      "learning_rate": 0.0004328833670911724,
      "loss": 2.5545,
      "num_input_tokens_seen": 16672353856,
      "step": 63600
    },
    {
      "epoch": 0.3036121015538357,
      "grad_norm": 0.18640951812267303,
      "learning_rate": 0.0004273284931050438,
      "loss": 2.5672,
      "num_input_tokens_seen": 16685461056,
      "step": 63650
    },
    {
      "epoch": 0.3038506028119298,
      "grad_norm": 0.1919756680727005,
      "learning_rate": 0.0004217827674798845,
      "loss": 2.5492,
      "num_input_tokens_seen": 16698568256,
      "step": 63700
    },
    {
      "epoch": 0.304089104070024,
      "grad_norm": 0.18388938903808594,
      "learning_rate": 0.00041624688834763184,
      "loss": 2.5487,
      "num_input_tokens_seen": 16711675456,
      "step": 63750
    },
    {
      "epoch": 0.3043276053281181,
      "grad_norm": 0.1851562261581421,
      "learning_rate": 0.0004107215526006817,
      "loss": 2.5539,
      "num_input_tokens_seen": 16724782656,
      "step": 63800
    },
    {
      "epoch": 0.30456610658621225,
      "grad_norm": 0.17315496504306793,
      "learning_rate": 0.0004052074558041608,
      "loss": 2.5544,
      "num_input_tokens_seen": 16737889856,
      "step": 63850
    },
    {
      "epoch": 0.30480460784430635,
      "grad_norm": 0.17985352873802185,
      "learning_rate": 0.00039970529210836363,
      "loss": 2.5511,
      "num_input_tokens_seen": 16750997056,
      "step": 63900
    },
    {
      "epoch": 0.3050431091024005,
      "grad_norm": 0.20455212891101837,
      "learning_rate": 0.0003942157541613686,
      "loss": 2.5593,
      "num_input_tokens_seen": 16764104256,
      "step": 63950
    },
    {
      "epoch": 0.30528161036049467,
      "grad_norm": 0.1965632140636444,
      "learning_rate": 0.00038873953302184284,
      "loss": 2.5599,
      "num_input_tokens_seen": 16777211456,
      "step": 64000
    },
    {
      "epoch": 0.30528161036049467,
      "eval_loss": 2.437380790710449,
      "eval_runtime": 53.2524,
      "eval_samples_per_second": 93.893,
      "eval_steps_per_second": 23.473,
      "num_input_tokens_seen": 16777211456,
      "step": 64000
    },
    {
      "epoch": 0.3055201116185888,
      "grad_norm": 0.1703004688024521,
      "learning_rate": 0.00038327731807204744,
      "loss": 2.5506,
      "num_input_tokens_seen": 16790318656,
      "step": 64050
    },
    {
      "epoch": 0.30575861287668293,
      "grad_norm": 0.19769616425037384,
      "learning_rate": 0.00037782979693105293,
      "loss": 2.542,
      "num_input_tokens_seen": 16803425856,
      "step": 64100
    },
    {
      "epoch": 0.30599711413477704,
      "grad_norm": 0.20674961805343628,
      "learning_rate": 0.00037239765536817873,
      "loss": 2.539,
      "num_input_tokens_seen": 16816533056,
      "step": 64150
    },
    {
      "epoch": 0.3062356153928712,
      "grad_norm": 0.19121839106082916,
      "learning_rate": 0.0003669815772166625,
      "loss": 2.5573,
      "num_input_tokens_seen": 16829640256,
      "step": 64200
    },
    {
      "epoch": 0.30647411665096536,
      "grad_norm": 0.1734025925397873,
      "learning_rate": 0.00036158224428757535,
      "loss": 2.5416,
      "num_input_tokens_seen": 16842747456,
      "step": 64250
    },
    {
      "epoch": 0.30671261790905946,
      "grad_norm": 0.1857634037733078,
      "learning_rate": 0.0003562003362839914,
      "loss": 2.5652,
      "num_input_tokens_seen": 16855854656,
      "step": 64300
    },
    {
      "epoch": 0.3069511191671536,
      "grad_norm": 0.17733143270015717,
      "learning_rate": 0.000350836530715422,
      "loss": 2.5299,
      "num_input_tokens_seen": 16868961856,
      "step": 64350
    },
    {
      "epoch": 0.3071896204252477,
      "grad_norm": 0.18323005735874176,
      "learning_rate": 0.00034549150281252633,
      "loss": 2.5691,
      "num_input_tokens_seen": 16882069056,
      "step": 64400
    },
    {
      "epoch": 0.3074281216833419,
      "grad_norm": 0.18570365011692047,
      "learning_rate": 0.00034016592544210936,
      "loss": 2.5436,
      "num_input_tokens_seen": 16895176256,
      "step": 64450
    },
    {
      "epoch": 0.30766662294143604,
      "grad_norm": 0.18571798503398895,
      "learning_rate": 0.00033486046902241664,
      "loss": 2.5382,
      "num_input_tokens_seen": 16908283456,
      "step": 64500
    },
    {
      "epoch": 0.30766662294143604,
      "eval_loss": 2.4323015213012695,
      "eval_runtime": 53.7237,
      "eval_samples_per_second": 93.069,
      "eval_steps_per_second": 23.267,
      "num_input_tokens_seen": 16908283456,
      "step": 64500
    },
    {
      "epoch": 0.30790512419953014,
      "grad_norm": 0.1829528957605362,
      "learning_rate": 0.0003295758014387375,
      "loss": 2.5453,
      "num_input_tokens_seen": 16921390656,
      "step": 64550
    },
    {
      "epoch": 0.3081436254576243,
      "grad_norm": 0.1703086644411087,
      "learning_rate": 0.0003243125879593286,
      "loss": 2.5441,
      "num_input_tokens_seen": 16934497856,
      "step": 64600
    },
    {
      "epoch": 0.3083821267157184,
      "grad_norm": 0.17826180160045624,
      "learning_rate": 0.000319071491151664,
      "loss": 2.545,
      "num_input_tokens_seen": 16947605056,
      "step": 64650
    },
    {
      "epoch": 0.30862062797381257,
      "grad_norm": 0.17889030277729034,
      "learning_rate": 0.00031385317079902743,
      "loss": 2.5405,
      "num_input_tokens_seen": 16960712256,
      "step": 64700
    },
    {
      "epoch": 0.30885912923190667,
      "grad_norm": 0.1711336225271225,
      "learning_rate": 0.0003086582838174551,
      "loss": 2.5222,
      "num_input_tokens_seen": 16973819456,
      "step": 64750
    },
    {
      "epoch": 0.30909763049000083,
      "grad_norm": 0.17962214350700378,
      "learning_rate": 0.0003034874841730382,
      "loss": 2.5376,
      "num_input_tokens_seen": 16986926656,
      "step": 64800
    },
    {
      "epoch": 0.309336131748095,
      "grad_norm": 0.1699627935886383,
      "learning_rate": 0.0002983414227995975,
      "loss": 2.5616,
      "num_input_tokens_seen": 17000033856,
      "step": 64850
    },
    {
      "epoch": 0.3095746330061891,
      "grad_norm": 0.18442535400390625,
      "learning_rate": 0.00029322074751673977,
      "loss": 2.5377,
      "num_input_tokens_seen": 17013141056,
      "step": 64900
    },
    {
      "epoch": 0.30981313426428325,
      "grad_norm": 0.17972196638584137,
      "learning_rate": 0.0002881261029483057,
      "loss": 2.5474,
      "num_input_tokens_seen": 17026248256,
      "step": 64950
    },
    {
      "epoch": 0.31005163552237736,
      "grad_norm": 0.1810217946767807,
      "learning_rate": 0.00028305813044122096,
      "loss": 2.5286,
      "num_input_tokens_seen": 17039355456,
      "step": 65000
    },
    {
      "epoch": 0.31005163552237736,
      "eval_loss": 2.4292306900024414,
      "eval_runtime": 53.3956,
      "eval_samples_per_second": 93.641,
      "eval_steps_per_second": 23.41,
      "num_input_tokens_seen": 17039355456,
      "step": 65000
    },
    {
      "epoch": 0.3102901367804715,
      "grad_norm": 0.17116400599479675,
      "learning_rate": 0.000278017467984759,
      "loss": 2.5504,
      "num_input_tokens_seen": 17052462656,
      "step": 65050
    },
    {
      "epoch": 0.3105286380385657,
      "grad_norm": 0.17055106163024902,
      "learning_rate": 0.00027300475013022663,
      "loss": 2.543,
      "num_input_tokens_seen": 17065569856,
      "step": 65100
    },
    {
      "epoch": 0.3107671392966598,
      "grad_norm": 0.17849299311637878,
      "learning_rate": 0.000268020607911083,
      "loss": 2.5476,
      "num_input_tokens_seen": 17078677056,
      "step": 65150
    },
    {
      "epoch": 0.31100564055475394,
      "grad_norm": 0.17608341574668884,
      "learning_rate": 0.0002630656687635007,
      "loss": 2.5452,
      "num_input_tokens_seen": 17091784256,
      "step": 65200
    },
    {
      "epoch": 0.31124414181284804,
      "grad_norm": 0.19086676836013794,
      "learning_rate": 0.0002581405564473801,
      "loss": 2.5562,
      "num_input_tokens_seen": 17104891456,
      "step": 65250
    },
    {
      "epoch": 0.3114826430709422,
      "grad_norm": 0.1721603125333786,
      "learning_rate": 0.00025324589096782657,
      "loss": 2.5402,
      "num_input_tokens_seen": 17117998656,
      "step": 65300
    },
    {
      "epoch": 0.31172114432903636,
      "grad_norm": 0.16727598011493683,
      "learning_rate": 0.00024838228849709997,
      "loss": 2.5253,
      "num_input_tokens_seen": 17131105856,
      "step": 65350
    },
    {
      "epoch": 0.31195964558713046,
      "grad_norm": 0.1664544939994812,
      "learning_rate": 0.000243550361297047,
      "loss": 2.5519,
      "num_input_tokens_seen": 17144213056,
      "step": 65400
    },
    {
      "epoch": 0.3121981468452246,
      "grad_norm": 0.17195752263069153,
      "learning_rate": 0.00023875071764202561,
      "loss": 2.5297,
      "num_input_tokens_seen": 17157320256,
      "step": 65450
    },
    {
      "epoch": 0.3124366481033187,
      "grad_norm": 0.19001176953315735,
      "learning_rate": 0.00023398396174233177,
      "loss": 2.5439,
      "num_input_tokens_seen": 17170427456,
      "step": 65500
    },
    {
      "epoch": 0.3124366481033187,
      "eval_loss": 2.426327705383301,
      "eval_runtime": 53.7603,
      "eval_samples_per_second": 93.005,
      "eval_steps_per_second": 23.251,
      "num_input_tokens_seen": 17170427456,
      "step": 65500
    },
    {
      "epoch": 0.3126751493614129,
      "grad_norm": 0.17215538024902344,
      "learning_rate": 0.00022925069366813716,
      "loss": 2.5442,
      "num_input_tokens_seen": 17183534656,
      "step": 65550
    },
    {
      "epoch": 0.31291365061950704,
      "grad_norm": 0.16736114025115967,
      "learning_rate": 0.0002245515092739488,
      "loss": 2.5472,
      "num_input_tokens_seen": 17196641856,
      "step": 65600
    },
    {
      "epoch": 0.31315215187760115,
      "grad_norm": 0.1739792823791504,
      "learning_rate": 0.00021988700012359863,
      "loss": 2.5401,
      "num_input_tokens_seen": 17209749056,
      "step": 65650
    },
    {
      "epoch": 0.3133906531356953,
      "grad_norm": 0.17363224923610687,
      "learning_rate": 0.00021525775341577403,
      "loss": 2.5539,
      "num_input_tokens_seen": 17222856256,
      "step": 65700
    },
    {
      "epoch": 0.3136291543937894,
      "grad_norm": 0.16787610948085785,
      "learning_rate": 0.00021066435191009715,
      "loss": 2.5338,
      "num_input_tokens_seen": 17235963456,
      "step": 65750
    },
    {
      "epoch": 0.31386765565188357,
      "grad_norm": 0.17158125340938568,
      "learning_rate": 0.00020610737385376348,
      "loss": 2.5531,
      "num_input_tokens_seen": 17249070656,
      "step": 65800
    },
    {
      "epoch": 0.3141061569099777,
      "grad_norm": 0.1693524569272995,
      "learning_rate": 0.00020158739290874821,
      "loss": 2.5286,
      "num_input_tokens_seen": 17262177856,
      "step": 65850
    },
    {
      "epoch": 0.31434465816807183,
      "grad_norm": 0.1730414181947708,
      "learning_rate": 0.0001971049780795901,
      "loss": 2.5228,
      "num_input_tokens_seen": 17275285056,
      "step": 65900
    },
    {
      "epoch": 0.314583159426166,
      "grad_norm": 0.16220349073410034,
      "learning_rate": 0.00019266069364176142,
      "loss": 2.5445,
      "num_input_tokens_seen": 17288392256,
      "step": 65950
    },
    {
      "epoch": 0.3148216606842601,
      "grad_norm": 0.1605050265789032,
      "learning_rate": 0.00018825509907063325,
      "loss": 2.5491,
      "num_input_tokens_seen": 17301499456,
      "step": 66000
    },
    {
      "epoch": 0.3148216606842601,
      "eval_loss": 2.4224469661712646,
      "eval_runtime": 53.2989,
      "eval_samples_per_second": 93.811,
      "eval_steps_per_second": 23.453,
      "num_input_tokens_seen": 17301499456,
      "step": 66000
    },
    {
      "epoch": 0.31506016194235426,
      "grad_norm": 0.16586218774318695,
      "learning_rate": 0.00018388874897104518,
      "loss": 2.5468,
      "num_input_tokens_seen": 17314606656,
      "step": 66050
    },
    {
      "epoch": 0.31529866320044836,
      "grad_norm": 0.1646813303232193,
      "learning_rate": 0.00017956219300748795,
      "loss": 2.5352,
      "num_input_tokens_seen": 17327713856,
      "step": 66100
    },
    {
      "epoch": 0.3155371644585425,
      "grad_norm": 0.18712937831878662,
      "learning_rate": 0.00017527597583490823,
      "loss": 2.5412,
      "num_input_tokens_seen": 17340821056,
      "step": 66150
    },
    {
      "epoch": 0.3157756657166367,
      "grad_norm": 0.1631355583667755,
      "learning_rate": 0.00017103063703014372,
      "loss": 2.5272,
      "num_input_tokens_seen": 17353928256,
      "step": 66200
    },
    {
      "epoch": 0.3160141669747308,
      "grad_norm": 0.15910203754901886,
      "learning_rate": 0.00016682671102399805,
      "loss": 2.5333,
      "num_input_tokens_seen": 17367035456,
      "step": 66250
    },
    {
      "epoch": 0.31625266823282494,
      "grad_norm": 0.5742849707603455,
      "learning_rate": 0.00016266472703396284,
      "loss": 2.5463,
      "num_input_tokens_seen": 17380142656,
      "step": 66300
    },
    {
      "epoch": 0.31649116949091904,
      "grad_norm": 0.17517830431461334,
      "learning_rate": 0.00015854520899759655,
      "loss": 2.5511,
      "num_input_tokens_seen": 17393249856,
      "step": 66350
    },
    {
      "epoch": 0.3167296707490132,
      "grad_norm": 0.6962131857872009,
      "learning_rate": 0.00015446867550656767,
      "loss": 2.5452,
      "num_input_tokens_seen": 17406357056,
      "step": 66400
    },
    {
      "epoch": 0.31696817200710736,
      "grad_norm": 0.16677837073802948,
      "learning_rate": 0.00015043563974137132,
      "loss": 2.5392,
      "num_input_tokens_seen": 17419464256,
      "step": 66450
    },
    {
      "epoch": 0.31720667326520147,
      "grad_norm": 0.16235870122909546,
      "learning_rate": 0.00014644660940672628,
      "loss": 2.5125,
      "num_input_tokens_seen": 17432571456,
      "step": 66500
    },
    {
      "epoch": 0.31720667326520147,
      "eval_loss": 2.419802188873291,
      "eval_runtime": 52.8641,
      "eval_samples_per_second": 94.582,
      "eval_steps_per_second": 23.646,
      "num_input_tokens_seen": 17432571456,
      "step": 66500
    },
    {
      "epoch": 0.3174451745232956,
      "grad_norm": 0.17308832705020905,
      "learning_rate": 0.00014250208666766236,
      "loss": 2.5349,
      "num_input_tokens_seen": 17445678656,
      "step": 66550
    },
    {
      "epoch": 0.31768367578138973,
      "grad_norm": 0.16299477219581604,
      "learning_rate": 0.00013860256808630427,
      "loss": 2.5277,
      "num_input_tokens_seen": 17458785856,
      "step": 66600
    },
    {
      "epoch": 0.3179221770394839,
      "grad_norm": 0.18277022242546082,
      "learning_rate": 0.00013474854455936125,
      "loss": 2.5203,
      "num_input_tokens_seen": 17471893056,
      "step": 66650
    },
    {
      "epoch": 0.318160678297578,
      "grad_norm": 0.16096614301204681,
      "learning_rate": 0.00013094050125632973,
      "loss": 2.535,
      "num_input_tokens_seen": 17485000256,
      "step": 66700
    },
    {
      "epoch": 0.31839917955567215,
      "grad_norm": 0.1723272204399109,
      "learning_rate": 0.0001271789175584172,
      "loss": 2.549,
      "num_input_tokens_seen": 17498107456,
      "step": 66750
    },
    {
      "epoch": 0.3186376808137663,
      "grad_norm": 0.15782694518566132,
      "learning_rate": 0.00012346426699819457,
      "loss": 2.5317,
      "num_input_tokens_seen": 17511214656,
      "step": 66800
    },
    {
      "epoch": 0.3188761820718604,
      "grad_norm": 0.1627569943666458,
      "learning_rate": 0.00011979701719998454,
      "loss": 2.5382,
      "num_input_tokens_seen": 17524321856,
      "step": 66850
    },
    {
      "epoch": 0.3191146833299546,
      "grad_norm": 0.16340333223342896,
      "learning_rate": 0.00011617762982099444,
      "loss": 2.5477,
      "num_input_tokens_seen": 17537429056,
      "step": 66900
    },
    {
      "epoch": 0.3193531845880487,
      "grad_norm": 0.15788671374320984,
      "learning_rate": 0.00011260656049319957,
      "loss": 2.537,
      "num_input_tokens_seen": 17550536256,
      "step": 66950
    },
    {
      "epoch": 0.31959168584614284,
      "grad_norm": 0.16191193461418152,
      "learning_rate": 0.0001090842587659851,
      "loss": 2.5394,
      "num_input_tokens_seen": 17563643456,
      "step": 67000
    },
    {
      "epoch": 0.31959168584614284,
      "eval_loss": 2.417813301086426,
      "eval_runtime": 53.532,
      "eval_samples_per_second": 93.402,
      "eval_steps_per_second": 23.351,
      "num_input_tokens_seen": 17563643456,
      "step": 67000
    },
    {
      "epoch": 0.319830187104237,
      "grad_norm": 0.1690913438796997,
      "learning_rate": 0.00010561116804955451,
      "loss": 2.5364,
      "num_input_tokens_seen": 17576750656,
      "step": 67050
    },
    {
      "epoch": 0.3200686883623311,
      "grad_norm": 0.16436229646205902,
      "learning_rate": 0.00010218772555910954,
      "loss": 2.5298,
      "num_input_tokens_seen": 17589857856,
      "step": 67100
    },
    {
      "epoch": 0.32030718962042526,
      "grad_norm": 0.15499907732009888,
      "learning_rate": 9.881436225981105e-05,
      "loss": 2.5484,
      "num_input_tokens_seen": 17602965056,
      "step": 67150
    },
    {
      "epoch": 0.32054569087851936,
      "grad_norm": 0.16237874329090118,
      "learning_rate": 9.549150281252633e-05,
      "loss": 2.5271,
      "num_input_tokens_seen": 17616072256,
      "step": 67200
    },
    {
      "epoch": 0.3207841921366135,
      "grad_norm": 0.16813968122005463,
      "learning_rate": 9.221956552036992e-05,
      "loss": 2.5295,
      "num_input_tokens_seen": 17629179456,
      "step": 67250
    },
    {
      "epoch": 0.3210226933947077,
      "grad_norm": 0.15672080218791962,
      "learning_rate": 8.899896227604509e-05,
      "loss": 2.528,
      "num_input_tokens_seen": 17642286656,
      "step": 67300
    },
    {
      "epoch": 0.3212611946528018,
      "grad_norm": 0.16523708403110504,
      "learning_rate": 8.58300985099918e-05,
      "loss": 2.5288,
      "num_input_tokens_seen": 17655393856,
      "step": 67350
    },
    {
      "epoch": 0.32149969591089594,
      "grad_norm": 0.16759687662124634,
      "learning_rate": 8.271337313934868e-05,
      "loss": 2.5431,
      "num_input_tokens_seen": 17668501056,
      "step": 67400
    },
    {
      "epoch": 0.32173819716899005,
      "grad_norm": 0.15507538616657257,
      "learning_rate": 7.964917851773496e-05,
      "loss": 2.5342,
      "num_input_tokens_seen": 17681608256,
      "step": 67450
    },
    {
      "epoch": 0.3219766984270842,
      "grad_norm": 0.1556961089372635,
      "learning_rate": 7.663790038585794e-05,
      "loss": 2.5189,
      "num_input_tokens_seen": 17694715456,
      "step": 67500
    },
    {
      "epoch": 0.3219766984270842,
      "eval_loss": 2.415555000305176,
      "eval_runtime": 53.2935,
      "eval_samples_per_second": 93.82,
      "eval_steps_per_second": 23.455,
      "num_input_tokens_seen": 17694715456,
      "step": 67500
    },
    {
      "epoch": 0.32221519968517837,
      "grad_norm": 0.16804397106170654,
      "learning_rate": 7.367991782295391e-05,
      "loss": 2.5218,
      "num_input_tokens_seen": 17707822656,
      "step": 67550
    },
    {
      "epoch": 0.32245370094327247,
      "grad_norm": 0.15728074312210083,
      "learning_rate": 7.077560319906695e-05,
      "loss": 2.5261,
      "num_input_tokens_seen": 17720929856,
      "step": 67600
    },
    {
      "epoch": 0.32269220220136663,
      "grad_norm": 0.1641319841146469,
      "learning_rate": 6.792532212817271e-05,
      "loss": 2.5398,
      "num_input_tokens_seen": 17734037056,
      "step": 67650
    },
    {
      "epoch": 0.32293070345946073,
      "grad_norm": 0.1575596034526825,
      "learning_rate": 6.512943342215233e-05,
      "loss": 2.5211,
      "num_input_tokens_seen": 17747144256,
      "step": 67700
    },
    {
      "epoch": 0.3231692047175549,
      "grad_norm": 0.16352206468582153,
      "learning_rate": 6.238828904562316e-05,
      "loss": 2.5143,
      "num_input_tokens_seen": 17760251456,
      "step": 67750
    },
    {
      "epoch": 0.323407705975649,
      "grad_norm": 0.16303551197052002,
      "learning_rate": 5.9702234071631e-05,
      "loss": 2.5262,
      "num_input_tokens_seen": 17773358656,
      "step": 67800
    },
    {
      "epoch": 0.32364620723374316,
      "grad_norm": 0.15572308003902435,
      "learning_rate": 5.7071606638210094e-05,
      "loss": 2.5278,
      "num_input_tokens_seen": 17786465856,
      "step": 67850
    },
    {
      "epoch": 0.3238847084918373,
      "grad_norm": 0.15960544347763062,
      "learning_rate": 5.449673790581611e-05,
      "loss": 2.522,
      "num_input_tokens_seen": 17799573056,
      "step": 67900
    },
    {
      "epoch": 0.3241232097499314,
      "grad_norm": 0.15617695450782776,
      "learning_rate": 5.197795201563743e-05,
      "loss": 2.5151,
      "num_input_tokens_seen": 17812680256,
      "step": 67950
    },
    {
      "epoch": 0.3243617110080256,
      "grad_norm": 0.1527390033006668,
      "learning_rate": 4.9515566048790485e-05,
      "loss": 2.5213,
      "num_input_tokens_seen": 17825787456,
      "step": 68000
    },
    {
      "epoch": 0.3243617110080256,
      "eval_loss": 2.4139962196350098,
      "eval_runtime": 53.933,
      "eval_samples_per_second": 92.708,
      "eval_steps_per_second": 23.177,
      "num_input_tokens_seen": 17825787456,
      "step": 68000
    },
    {
      "epoch": 0.3246002122661197,
      "grad_norm": 0.15067367255687714,
      "learning_rate": 4.7109889986402973e-05,
      "loss": 2.5181,
      "num_input_tokens_seen": 17838894656,
      "step": 68050
    },
    {
      "epoch": 0.32483871352421384,
      "grad_norm": 0.1534261703491211,
      "learning_rate": 4.476122667059207e-05,
      "loss": 2.533,
      "num_input_tokens_seen": 17852001856,
      "step": 68100
    },
    {
      "epoch": 0.325077214782308,
      "grad_norm": 0.1585472822189331,
      "learning_rate": 4.2469871766340095e-05,
      "loss": 2.509,
      "num_input_tokens_seen": 17865109056,
      "step": 68150
    },
    {
      "epoch": 0.3253157160404021,
      "grad_norm": 0.15480853617191315,
      "learning_rate": 4.0236113724274713e-05,
      "loss": 2.524,
      "num_input_tokens_seen": 17878216256,
      "step": 68200
    },
    {
      "epoch": 0.32555421729849626,
      "grad_norm": 0.24341611564159393,
      "learning_rate": 3.806023374435663e-05,
      "loss": 2.5293,
      "num_input_tokens_seen": 17891323456,
      "step": 68250
    },
    {
      "epoch": 0.32579271855659037,
      "grad_norm": 0.15290473401546478,
      "learning_rate": 3.594250574048058e-05,
      "loss": 2.5149,
      "num_input_tokens_seen": 17904430656,
      "step": 68300
    },
    {
      "epoch": 0.3260312198146845,
      "grad_norm": 0.1606835126876831,
      "learning_rate": 3.3883196305992905e-05,
      "loss": 2.5327,
      "num_input_tokens_seen": 17917537856,
      "step": 68350
    },
    {
      "epoch": 0.3262697210727787,
      "grad_norm": 0.1537574976682663,
      "learning_rate": 3.18825646801314e-05,
      "loss": 2.5416,
      "num_input_tokens_seen": 17930645056,
      "step": 68400
    },
    {
      "epoch": 0.3265082223308728,
      "grad_norm": 0.16943201422691345,
      "learning_rate": 2.994086271539048e-05,
      "loss": 2.5233,
      "num_input_tokens_seen": 17943752256,
      "step": 68450
    },
    {
      "epoch": 0.32674672358896695,
      "grad_norm": 0.15832561254501343,
      "learning_rate": 2.8058334845816213e-05,
      "loss": 2.5439,
      "num_input_tokens_seen": 17956859456,
      "step": 68500
    },
    {
      "epoch": 0.32674672358896695,
      "eval_loss": 2.4128847122192383,
      "eval_runtime": 53.1054,
      "eval_samples_per_second": 94.152,
      "eval_steps_per_second": 23.538,
      "num_input_tokens_seen": 17956859456,
      "step": 68500
    },
    {
      "epoch": 0.32698522484706105,
      "grad_norm": 0.15245509147644043,
      "learning_rate": 2.6235218056235634e-05,
      "loss": 2.5209,
      "num_input_tokens_seen": 17969966656,
      "step": 68550
    },
    {
      "epoch": 0.3272237261051552,
      "grad_norm": 0.15148235857486725,
      "learning_rate": 2.4471741852423235e-05,
      "loss": 2.5284,
      "num_input_tokens_seen": 17983073856,
      "step": 68600
    },
    {
      "epoch": 0.3274622273632493,
      "grad_norm": 0.15678688883781433,
      "learning_rate": 2.276812823220964e-05,
      "loss": 2.537,
      "num_input_tokens_seen": 17996181056,
      "step": 68650
    },
    {
      "epoch": 0.3277007286213435,
      "grad_norm": 0.15105360746383667,
      "learning_rate": 2.1124591657534777e-05,
      "loss": 2.5321,
      "num_input_tokens_seen": 18009288256,
      "step": 68700
    },
    {
      "epoch": 0.32793922987943763,
      "grad_norm": 0.15369552373886108,
      "learning_rate": 1.9541339027450256e-05,
      "loss": 2.5291,
      "num_input_tokens_seen": 18022395456,
      "step": 68750
    },
    {
      "epoch": 0.32817773113753174,
      "grad_norm": 0.1551530808210373,
      "learning_rate": 1.801856965207338e-05,
      "loss": 2.5201,
      "num_input_tokens_seen": 18035502656,
      "step": 68800
    },
    {
      "epoch": 0.3284162323956259,
      "grad_norm": 0.14859162271022797,
      "learning_rate": 1.6556475227496815e-05,
      "loss": 2.5436,
      "num_input_tokens_seen": 18048609856,
      "step": 68850
    },
    {
      "epoch": 0.32865473365372,
      "grad_norm": 0.14972691237926483,
      "learning_rate": 1.5155239811656562e-05,
      "loss": 2.5221,
      "num_input_tokens_seen": 18061717056,
      "step": 68900
    },
    {
      "epoch": 0.32889323491181416,
      "grad_norm": 0.156805619597435,
      "learning_rate": 1.3815039801161721e-05,
      "loss": 2.5248,
      "num_input_tokens_seen": 18074824256,
      "step": 68950
    },
    {
      "epoch": 0.3291317361699083,
      "grad_norm": 0.148334801197052,
      "learning_rate": 1.2536043909088191e-05,
      "loss": 2.5361,
      "num_input_tokens_seen": 18087931456,
      "step": 69000
    },
    {
      "epoch": 0.3291317361699083,
      "eval_loss": 2.4120428562164307,
      "eval_runtime": 52.9258,
      "eval_samples_per_second": 94.472,
      "eval_steps_per_second": 23.618,
      "num_input_tokens_seen": 18087931456,
      "step": 69000
    },
    {
      "epoch": 0.3293702374280024,
      "grad_norm": 0.14565595984458923,
      "learning_rate": 1.1318413143740436e-05,
      "loss": 2.5358,
      "num_input_tokens_seen": 18101038656,
      "step": 69050
    },
    {
      "epoch": 0.3296087386860966,
      "grad_norm": 0.15810008347034454,
      "learning_rate": 1.0162300788382261e-05,
      "loss": 2.5288,
      "num_input_tokens_seen": 18114145856,
      "step": 69100
    },
    {
      "epoch": 0.3298472399441907,
      "grad_norm": 0.14960281550884247,
      "learning_rate": 9.0678523819408e-06,
      "loss": 2.5267,
      "num_input_tokens_seen": 18127253056,
      "step": 69150
    },
    {
      "epoch": 0.33008574120228484,
      "grad_norm": 0.14473624527454376,
      "learning_rate": 8.035205700685167e-06,
      "loss": 2.5133,
      "num_input_tokens_seen": 18140360256,
      "step": 69200
    },
    {
      "epoch": 0.330324242460379,
      "grad_norm": 0.1450708657503128,
      "learning_rate": 7.064490740882057e-06,
      "loss": 2.5302,
      "num_input_tokens_seen": 18153467456,
      "step": 69250
    },
    {
      "epoch": 0.3305627437184731,
      "grad_norm": 0.14883211255073547,
      "learning_rate": 6.15582970243117e-06,
      "loss": 2.5307,
      "num_input_tokens_seen": 18166574656,
      "step": 69300
    },
    {
      "epoch": 0.33080124497656727,
      "grad_norm": 0.15696081519126892,
      "learning_rate": 5.309336973481682e-06,
      "loss": 2.5341,
      "num_input_tokens_seen": 18179681856,
      "step": 69350
    },
    {
      "epoch": 0.33103974623466137,
      "grad_norm": 0.1564367264509201,
      "learning_rate": 4.52511911603265e-06,
      "loss": 2.5299,
      "num_input_tokens_seen": 18192789056,
      "step": 69400
    },
    {
      "epoch": 0.33127824749275553,
      "grad_norm": 0.15558916330337524,
      "learning_rate": 3.803274852517968e-06,
      "loss": 2.5197,
      "num_input_tokens_seen": 18205896256,
      "step": 69450
    },
    {
      "epoch": 0.3315167487508497,
      "grad_norm": 0.1532556265592575,
      "learning_rate": 3.143895053378698e-06,
      "loss": 2.5176,
      "num_input_tokens_seen": 18219003456,
      "step": 69500
    },
    {
      "epoch": 0.3315167487508497,
      "eval_loss": 2.412046194076538,
      "eval_runtime": 53.2476,
      "eval_samples_per_second": 93.901,
      "eval_steps_per_second": 23.475,
      "num_input_tokens_seen": 18219003456,
      "step": 69500
    },
    {
      "epoch": 0.3317552500089438,
      "grad_norm": 0.1502823829650879,
      "learning_rate": 2.547062725623828e-06,
      "loss": 2.5207,
      "num_input_tokens_seen": 18232110656,
      "step": 69550
    },
    {
      "epoch": 0.33199375126703795,
      "grad_norm": 0.1560440957546234,
      "learning_rate": 2.012853002380466e-06,
      "loss": 2.5078,
      "num_input_tokens_seen": 18245217856,
      "step": 69600
    },
    {
      "epoch": 0.33223225252513205,
      "grad_norm": 0.15284490585327148,
      "learning_rate": 1.541333133436018e-06,
      "loss": 2.5404,
      "num_input_tokens_seen": 18258325056,
      "step": 69650
    },
    {
      "epoch": 0.3324707537832262,
      "grad_norm": 0.14594900608062744,
      "learning_rate": 1.132562476771959e-06,
      "loss": 2.5267,
      "num_input_tokens_seen": 18271432256,
      "step": 69700
    },
    {
      "epoch": 0.3327092550413203,
      "grad_norm": 0.15198394656181335,
      "learning_rate": 7.865924910916978e-07,
      "loss": 2.5232,
      "num_input_tokens_seen": 18284539456,
      "step": 69750
    },
    {
      "epoch": 0.3329477562994145,
      "grad_norm": 0.15011271834373474,
      "learning_rate": 5.034667293427053e-07,
      "loss": 2.5308,
      "num_input_tokens_seen": 18297646656,
      "step": 69800
    },
    {
      "epoch": 0.33318625755750864,
      "grad_norm": 0.147654727101326,
      "learning_rate": 2.8322083323334415e-07,
      "loss": 2.5281,
      "num_input_tokens_seen": 18310753856,
      "step": 69850
    },
    {
      "epoch": 0.33342475881560274,
      "grad_norm": 0.15056386590003967,
      "learning_rate": 1.2588252874673466e-07,
      "loss": 2.5112,
      "num_input_tokens_seen": 18323861056,
      "step": 69900
    },
    {
      "epoch": 0.3336632600736969,
      "grad_norm": 0.14858213067054749,
      "learning_rate": 3.147162264971471e-08,
      "loss": 2.5226,
      "num_input_tokens_seen": 18336968256,
      "step": 69950
    },
    {
      "epoch": 0.333901761331791,
      "grad_norm": 0.1534891128540039,
      "learning_rate": 0.0,
      "loss": 2.5303,
      "num_input_tokens_seen": 18350075456,
      "step": 70000
    },
    {
      "epoch": 0.333901761331791,
      "eval_loss": 2.411842107772827,
      "eval_runtime": 53.9812,
      "eval_samples_per_second": 92.625,
      "eval_steps_per_second": 23.156,
      "num_input_tokens_seen": 18350075456,
      "step": 70000
    },
    {
      "epoch": 0.333901761331791,
      "num_input_tokens_seen": 18350075456,
      "step": 70000,
      "total_flos": 4.908824281216451e+18,
      "train_loss": 2.719220863015311,
      "train_runtime": 98058.4226,
      "train_samples_per_second": 182.748,
      "train_steps_per_second": 0.714,
      "train_tokens_per_second": 187134.155
    }
  ],
  "logging_steps": 50,
  "max_steps": 70000,
  "num_input_tokens_seen": 18350075456,
  "num_train_epochs": 1,
  "save_steps": 1000,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 4.908824281216451e+18,
  "train_batch_size": 64,
  "trial_name": null,
  "trial_params": null
}