{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.999781770568124,
  "eval_steps": 500,
  "global_step": 1718,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0058194515166945515,
      "grad_norm": 292.5841369628906,
      "learning_rate": 1.1654988945205933e-07,
      "loss": 3.4335,
      "step": 10
    },
    {
      "epoch": 0.011638903033389103,
      "grad_norm": 310.4792785644531,
      "learning_rate": 1.5163490216845022e-07,
      "loss": 3.3043,
      "step": 20
    },
    {
      "epoch": 0.017458354550083655,
      "grad_norm": 255.72767639160156,
      "learning_rate": 1.721583189448638e-07,
      "loss": 2.6653,
      "step": 30
    },
    {
      "epoch": 0.023277806066778206,
      "grad_norm": 148.07073974609375,
      "learning_rate": 1.867199148848411e-07,
      "loss": 1.4797,
      "step": 40
    },
    {
      "epoch": 0.029097257583472758,
      "grad_norm": 68.8450927734375,
      "learning_rate": 1.9801476618772772e-07,
      "loss": 0.8688,
      "step": 50
    },
    {
      "epoch": 0.03491670910016731,
      "grad_norm": 17.056119918823242,
      "learning_rate": 2e-07,
      "loss": 0.4755,
      "step": 60
    },
    {
      "epoch": 0.04073616061686186,
      "grad_norm": 18.346956253051758,
      "learning_rate": 2e-07,
      "loss": 0.4493,
      "step": 70
    },
    {
      "epoch": 0.04655561213355641,
      "grad_norm": 12.33590316772461,
      "learning_rate": 2e-07,
      "loss": 0.4181,
      "step": 80
    },
    {
      "epoch": 0.052375063650250964,
      "grad_norm": 10.863751411437988,
      "learning_rate": 2e-07,
      "loss": 0.423,
      "step": 90
    },
    {
      "epoch": 0.058194515166945515,
      "grad_norm": 12.51539421081543,
      "learning_rate": 2e-07,
      "loss": 0.4138,
      "step": 100
    },
    {
      "epoch": 0.06401396668364007,
      "grad_norm": 10.982370376586914,
      "learning_rate": 2e-07,
      "loss": 0.3545,
      "step": 110
    },
    {
      "epoch": 0.06983341820033462,
      "grad_norm": 14.997520446777344,
      "learning_rate": 2e-07,
      "loss": 0.4036,
      "step": 120
    },
    {
      "epoch": 0.07565286971702917,
      "grad_norm": 15.653407096862793,
      "learning_rate": 2e-07,
      "loss": 0.3872,
      "step": 130
    },
    {
      "epoch": 0.08147232123372372,
      "grad_norm": 14.640938758850098,
      "learning_rate": 2e-07,
      "loss": 0.3816,
      "step": 140
    },
    {
      "epoch": 0.08729177275041827,
      "grad_norm": 12.07015609741211,
      "learning_rate": 2e-07,
      "loss": 0.3119,
      "step": 150
    },
    {
      "epoch": 0.09311122426711282,
      "grad_norm": 23.116605758666992,
      "learning_rate": 2e-07,
      "loss": 0.3326,
      "step": 160
    },
    {
      "epoch": 0.09893067578380738,
      "grad_norm": 14.743234634399414,
      "learning_rate": 2e-07,
      "loss": 0.3304,
      "step": 170
    },
    {
      "epoch": 0.10475012730050193,
      "grad_norm": 13.361212730407715,
      "learning_rate": 2e-07,
      "loss": 0.3284,
      "step": 180
    },
    {
      "epoch": 0.11056957881719648,
      "grad_norm": 14.600347518920898,
      "learning_rate": 2e-07,
      "loss": 0.2876,
      "step": 190
    },
    {
      "epoch": 0.11638903033389103,
      "grad_norm": 16.508502960205078,
      "learning_rate": 2e-07,
      "loss": 0.3143,
      "step": 200
    },
    {
      "epoch": 0.12220848185058558,
      "grad_norm": 11.057723999023438,
      "learning_rate": 2e-07,
      "loss": 0.2918,
      "step": 210
    },
    {
      "epoch": 0.12802793336728013,
      "grad_norm": 14.558637619018555,
      "learning_rate": 2e-07,
      "loss": 0.3074,
      "step": 220
    },
    {
      "epoch": 0.13384738488397468,
      "grad_norm": 11.879530906677246,
      "learning_rate": 2e-07,
      "loss": 0.28,
      "step": 230
    },
    {
      "epoch": 0.13966683640066924,
      "grad_norm": 11.994890213012695,
      "learning_rate": 2e-07,
      "loss": 0.2601,
      "step": 240
    },
    {
      "epoch": 0.1454862879173638,
      "grad_norm": 15.544328689575195,
      "learning_rate": 2e-07,
      "loss": 0.281,
      "step": 250
    },
    {
      "epoch": 0.15130573943405834,
      "grad_norm": 11.14696979522705,
      "learning_rate": 2e-07,
      "loss": 0.2891,
      "step": 260
    },
    {
      "epoch": 0.1571251909507529,
      "grad_norm": 8.271623611450195,
      "learning_rate": 2e-07,
      "loss": 0.2932,
      "step": 270
    },
    {
      "epoch": 0.16294464246744744,
      "grad_norm": 16.06687355041504,
      "learning_rate": 2e-07,
      "loss": 0.2363,
      "step": 280
    },
    {
      "epoch": 0.168764093984142,
      "grad_norm": 8.106555938720703,
      "learning_rate": 2e-07,
      "loss": 0.2313,
      "step": 290
    },
    {
      "epoch": 0.17458354550083655,
      "grad_norm": 13.634657859802246,
      "learning_rate": 2e-07,
      "loss": 0.2727,
      "step": 300
    },
    {
      "epoch": 0.1804029970175311,
      "grad_norm": 14.710253715515137,
      "learning_rate": 2e-07,
      "loss": 0.2649,
      "step": 310
    },
    {
      "epoch": 0.18622244853422565,
      "grad_norm": 9.026782035827637,
      "learning_rate": 2e-07,
      "loss": 0.2547,
      "step": 320
    },
    {
      "epoch": 0.1920419000509202,
      "grad_norm": 10.011273384094238,
      "learning_rate": 2e-07,
      "loss": 0.2771,
      "step": 330
    },
    {
      "epoch": 0.19786135156761475,
      "grad_norm": 13.526799201965332,
      "learning_rate": 2e-07,
      "loss": 0.2589,
      "step": 340
    },
    {
      "epoch": 0.2036808030843093,
      "grad_norm": 16.426071166992188,
      "learning_rate": 2e-07,
      "loss": 0.2436,
      "step": 350
    },
    {
      "epoch": 0.20950025460100385,
      "grad_norm": 14.218461036682129,
      "learning_rate": 2e-07,
      "loss": 0.2593,
      "step": 360
    },
    {
      "epoch": 0.2153197061176984,
      "grad_norm": 6.507007122039795,
      "learning_rate": 2e-07,
      "loss": 0.2245,
      "step": 370
    },
    {
      "epoch": 0.22113915763439296,
      "grad_norm": 19.18690299987793,
      "learning_rate": 2e-07,
      "loss": 0.2447,
      "step": 380
    },
    {
      "epoch": 0.2269586091510875,
      "grad_norm": 7.621412754058838,
      "learning_rate": 2e-07,
      "loss": 0.2131,
      "step": 390
    },
    {
      "epoch": 0.23277806066778206,
      "grad_norm": 9.732011795043945,
      "learning_rate": 2e-07,
      "loss": 0.2495,
      "step": 400
    },
    {
      "epoch": 0.2385975121844766,
      "grad_norm": 15.301701545715332,
      "learning_rate": 2e-07,
      "loss": 0.2427,
      "step": 410
    },
    {
      "epoch": 0.24441696370117116,
      "grad_norm": 8.665528297424316,
      "learning_rate": 2e-07,
      "loss": 0.2281,
      "step": 420
    },
    {
      "epoch": 0.2502364152178657,
      "grad_norm": 9.586000442504883,
      "learning_rate": 2e-07,
      "loss": 0.232,
      "step": 430
    },
    {
      "epoch": 0.25605586673456027,
      "grad_norm": 13.73252010345459,
      "learning_rate": 2e-07,
      "loss": 0.2326,
      "step": 440
    },
    {
      "epoch": 0.2618753182512548,
      "grad_norm": 14.053579330444336,
      "learning_rate": 2e-07,
      "loss": 0.2483,
      "step": 450
    },
    {
      "epoch": 0.26769476976794937,
      "grad_norm": 9.641685485839844,
      "learning_rate": 2e-07,
      "loss": 0.2461,
      "step": 460
    },
    {
      "epoch": 0.2735142212846439,
      "grad_norm": 13.011364936828613,
      "learning_rate": 2e-07,
      "loss": 0.1929,
      "step": 470
    },
    {
      "epoch": 0.2793336728013385,
      "grad_norm": 13.232110023498535,
      "learning_rate": 2e-07,
      "loss": 0.204,
      "step": 480
    },
    {
      "epoch": 0.285153124318033,
      "grad_norm": 10.551194190979004,
      "learning_rate": 2e-07,
      "loss": 0.2341,
      "step": 490
    },
    {
      "epoch": 0.2909725758347276,
      "grad_norm": 11.238757133483887,
      "learning_rate": 2e-07,
      "loss": 0.2342,
      "step": 500
    },
    {
      "epoch": 0.2967920273514221,
      "grad_norm": 14.688443183898926,
      "learning_rate": 2e-07,
      "loss": 0.2177,
      "step": 510
    },
    {
      "epoch": 0.3026114788681167,
      "grad_norm": 14.724873542785645,
      "learning_rate": 2e-07,
      "loss": 0.1969,
      "step": 520
    },
    {
      "epoch": 0.30843093038481123,
      "grad_norm": 11.847085952758789,
      "learning_rate": 2e-07,
      "loss": 0.1847,
      "step": 530
    },
    {
      "epoch": 0.3142503819015058,
      "grad_norm": 11.497530937194824,
      "learning_rate": 2e-07,
      "loss": 0.2017,
      "step": 540
    },
    {
      "epoch": 0.32006983341820033,
      "grad_norm": 11.654367446899414,
      "learning_rate": 2e-07,
      "loss": 0.2206,
      "step": 550
    },
    {
      "epoch": 0.3258892849348949,
      "grad_norm": 12.561141967773438,
      "learning_rate": 2e-07,
      "loss": 0.2275,
      "step": 560
    },
    {
      "epoch": 0.33170873645158944,
      "grad_norm": 10.0696382522583,
      "learning_rate": 2e-07,
      "loss": 0.2008,
      "step": 570
    },
    {
      "epoch": 0.337528187968284,
      "grad_norm": 11.895383834838867,
      "learning_rate": 2e-07,
      "loss": 0.2192,
      "step": 580
    },
    {
      "epoch": 0.34334763948497854,
      "grad_norm": 15.39511489868164,
      "learning_rate": 2e-07,
      "loss": 0.2113,
      "step": 590
    },
    {
      "epoch": 0.3491670910016731,
      "grad_norm": 11.026963233947754,
      "learning_rate": 2e-07,
      "loss": 0.2042,
      "step": 600
    },
    {
      "epoch": 0.35498654251836764,
      "grad_norm": 10.234797477722168,
      "learning_rate": 2e-07,
      "loss": 0.2026,
      "step": 610
    },
    {
      "epoch": 0.3608059940350622,
      "grad_norm": 11.014677047729492,
      "learning_rate": 2e-07,
      "loss": 0.2051,
      "step": 620
    },
    {
      "epoch": 0.36662544555175675,
      "grad_norm": 9.119762420654297,
      "learning_rate": 2e-07,
      "loss": 0.2137,
      "step": 630
    },
    {
      "epoch": 0.3724448970684513,
      "grad_norm": 6.889257907867432,
      "learning_rate": 2e-07,
      "loss": 0.1647,
      "step": 640
    },
    {
      "epoch": 0.37826434858514585,
      "grad_norm": 7.318251132965088,
      "learning_rate": 2e-07,
      "loss": 0.1973,
      "step": 650
    },
    {
      "epoch": 0.3840838001018404,
      "grad_norm": 13.953539848327637,
      "learning_rate": 2e-07,
      "loss": 0.1962,
      "step": 660
    },
    {
      "epoch": 0.38990325161853495,
      "grad_norm": 11.493965148925781,
      "learning_rate": 2e-07,
      "loss": 0.2017,
      "step": 670
    },
    {
      "epoch": 0.3957227031352295,
      "grad_norm": 9.594313621520996,
      "learning_rate": 2e-07,
      "loss": 0.2475,
      "step": 680
    },
    {
      "epoch": 0.40154215465192405,
      "grad_norm": 8.401884078979492,
      "learning_rate": 2e-07,
      "loss": 0.1946,
      "step": 690
    },
    {
      "epoch": 0.4073616061686186,
      "grad_norm": 9.508219718933105,
      "learning_rate": 2e-07,
      "loss": 0.2113,
      "step": 700
    },
    {
      "epoch": 0.41318105768531316,
      "grad_norm": 11.010660171508789,
      "learning_rate": 2e-07,
      "loss": 0.2058,
      "step": 710
    },
    {
      "epoch": 0.4190005092020077,
      "grad_norm": 15.212239265441895,
      "learning_rate": 2e-07,
      "loss": 0.2155,
      "step": 720
    },
    {
      "epoch": 0.42481996071870226,
      "grad_norm": 8.596692085266113,
      "learning_rate": 2e-07,
      "loss": 0.2143,
      "step": 730
    },
    {
      "epoch": 0.4306394122353968,
      "grad_norm": 18.07278823852539,
      "learning_rate": 2e-07,
      "loss": 0.1929,
      "step": 740
    },
    {
      "epoch": 0.43645886375209136,
      "grad_norm": 11.786556243896484,
      "learning_rate": 2e-07,
      "loss": 0.2149,
      "step": 750
    },
    {
      "epoch": 0.4422783152687859,
      "grad_norm": 5.36111307144165,
      "learning_rate": 2e-07,
      "loss": 0.201,
      "step": 760
    },
    {
      "epoch": 0.44809776678548047,
      "grad_norm": 17.974634170532227,
      "learning_rate": 2e-07,
      "loss": 0.2216,
      "step": 770
    },
    {
      "epoch": 0.453917218302175,
      "grad_norm": 7.572098731994629,
      "learning_rate": 2e-07,
      "loss": 0.2137,
      "step": 780
    },
    {
      "epoch": 0.45973666981886957,
      "grad_norm": 10.07806396484375,
      "learning_rate": 2e-07,
      "loss": 0.2011,
      "step": 790
    },
    {
      "epoch": 0.4655561213355641,
      "grad_norm": 11.195019721984863,
      "learning_rate": 2e-07,
      "loss": 0.1976,
      "step": 800
    },
    {
      "epoch": 0.4713755728522587,
      "grad_norm": 13.922369956970215,
      "learning_rate": 2e-07,
      "loss": 0.1755,
      "step": 810
    },
    {
      "epoch": 0.4771950243689532,
      "grad_norm": 14.419588088989258,
      "learning_rate": 2e-07,
      "loss": 0.2261,
      "step": 820
    },
    {
      "epoch": 0.4830144758856478,
      "grad_norm": 7.6839070320129395,
      "learning_rate": 2e-07,
      "loss": 0.1957,
      "step": 830
    },
    {
      "epoch": 0.4888339274023423,
      "grad_norm": 18.723840713500977,
      "learning_rate": 2e-07,
      "loss": 0.1964,
      "step": 840
    },
    {
      "epoch": 0.4946533789190369,
      "grad_norm": 11.51264476776123,
      "learning_rate": 2e-07,
      "loss": 0.2429,
      "step": 850
    },
    {
      "epoch": 0.5004728304357314,
      "grad_norm": 14.401782989501953,
      "learning_rate": 2e-07,
      "loss": 0.2077,
      "step": 860
    },
    {
      "epoch": 0.506292281952426,
      "grad_norm": 7.909298896789551,
      "learning_rate": 2e-07,
      "loss": 0.1981,
      "step": 870
    },
    {
      "epoch": 0.5121117334691205,
      "grad_norm": 9.616816520690918,
      "learning_rate": 2e-07,
      "loss": 0.2059,
      "step": 880
    },
    {
      "epoch": 0.5179311849858151,
      "grad_norm": 14.229058265686035,
      "learning_rate": 2e-07,
      "loss": 0.1838,
      "step": 890
    },
    {
      "epoch": 0.5237506365025096,
      "grad_norm": 8.7423734664917,
      "learning_rate": 2e-07,
      "loss": 0.1883,
      "step": 900
    },
    {
      "epoch": 0.5295700880192042,
      "grad_norm": 7.891780853271484,
      "learning_rate": 2e-07,
      "loss": 0.2177,
      "step": 910
    },
    {
      "epoch": 0.5353895395358987,
      "grad_norm": 15.503663063049316,
      "learning_rate": 2e-07,
      "loss": 0.2028,
      "step": 920
    },
    {
      "epoch": 0.5412089910525933,
      "grad_norm": 10.924641609191895,
      "learning_rate": 2e-07,
      "loss": 0.1923,
      "step": 930
    },
    {
      "epoch": 0.5470284425692878,
      "grad_norm": 14.79828929901123,
      "learning_rate": 2e-07,
      "loss": 0.2322,
      "step": 940
    },
    {
      "epoch": 0.5528478940859824,
      "grad_norm": 11.492549896240234,
      "learning_rate": 2e-07,
      "loss": 0.2306,
      "step": 950
    },
    {
      "epoch": 0.558667345602677,
      "grad_norm": 5.280726909637451,
      "learning_rate": 2e-07,
      "loss": 0.1846,
      "step": 960
    },
    {
      "epoch": 0.5644867971193716,
      "grad_norm": 7.49058198928833,
      "learning_rate": 2e-07,
      "loss": 0.186,
      "step": 970
    },
    {
      "epoch": 0.570306248636066,
      "grad_norm": 17.624052047729492,
      "learning_rate": 2e-07,
      "loss": 0.2145,
      "step": 980
    },
    {
      "epoch": 0.5761257001527607,
      "grad_norm": 11.165759086608887,
      "learning_rate": 2e-07,
      "loss": 0.201,
      "step": 990
    },
    {
      "epoch": 0.5819451516694552,
      "grad_norm": 7.842067718505859,
      "learning_rate": 2e-07,
      "loss": 0.1968,
      "step": 1000
    },
    {
      "epoch": 0.5877646031861498,
      "grad_norm": 9.594118118286133,
      "learning_rate": 2e-07,
      "loss": 0.2136,
      "step": 1010
    },
    {
      "epoch": 0.5935840547028443,
      "grad_norm": 14.04518985748291,
      "learning_rate": 2e-07,
      "loss": 0.2075,
      "step": 1020
    },
    {
      "epoch": 0.5994035062195389,
      "grad_norm": 15.331314086914062,
      "learning_rate": 2e-07,
      "loss": 0.2023,
      "step": 1030
    },
    {
      "epoch": 0.6052229577362334,
      "grad_norm": 8.51887321472168,
      "learning_rate": 2e-07,
      "loss": 0.1713,
      "step": 1040
    },
    {
      "epoch": 0.611042409252928,
      "grad_norm": 11.08820629119873,
      "learning_rate": 2e-07,
      "loss": 0.1868,
      "step": 1050
    },
    {
      "epoch": 0.6168618607696225,
      "grad_norm": 12.212711334228516,
      "learning_rate": 2e-07,
      "loss": 0.1876,
      "step": 1060
    },
    {
      "epoch": 0.6226813122863171,
      "grad_norm": 11.730500221252441,
      "learning_rate": 2e-07,
      "loss": 0.1934,
      "step": 1070
    },
    {
      "epoch": 0.6285007638030116,
      "grad_norm": 9.89484977722168,
      "learning_rate": 2e-07,
      "loss": 0.2097,
      "step": 1080
    },
    {
      "epoch": 0.6343202153197062,
      "grad_norm": 7.291867256164551,
      "learning_rate": 2e-07,
      "loss": 0.1582,
      "step": 1090
    },
    {
      "epoch": 0.6401396668364007,
      "grad_norm": 7.9038920402526855,
      "learning_rate": 2e-07,
      "loss": 0.21,
      "step": 1100
    },
    {
      "epoch": 0.6459591183530953,
      "grad_norm": 18.028404235839844,
      "learning_rate": 2e-07,
      "loss": 0.2293,
      "step": 1110
    },
    {
      "epoch": 0.6517785698697898,
      "grad_norm": 12.41182804107666,
      "learning_rate": 2e-07,
      "loss": 0.2048,
      "step": 1120
    },
    {
      "epoch": 0.6575980213864844,
      "grad_norm": 11.216751098632812,
      "learning_rate": 2e-07,
      "loss": 0.1903,
      "step": 1130
    },
    {
      "epoch": 0.6634174729031789,
      "grad_norm": 13.232751846313477,
      "learning_rate": 2e-07,
      "loss": 0.19,
      "step": 1140
    },
    {
      "epoch": 0.6692369244198735,
      "grad_norm": 9.882608413696289,
      "learning_rate": 2e-07,
      "loss": 0.1936,
      "step": 1150
    },
    {
      "epoch": 0.675056375936568,
      "grad_norm": 9.839518547058105,
      "learning_rate": 2e-07,
      "loss": 0.2019,
      "step": 1160
    },
    {
      "epoch": 0.6808758274532626,
      "grad_norm": 12.619885444641113,
      "learning_rate": 2e-07,
      "loss": 0.2124,
      "step": 1170
    },
    {
      "epoch": 0.6866952789699571,
      "grad_norm": 12.874058723449707,
      "learning_rate": 2e-07,
      "loss": 0.1875,
      "step": 1180
    },
    {
      "epoch": 0.6925147304866517,
      "grad_norm": 13.787298202514648,
      "learning_rate": 2e-07,
      "loss": 0.2071,
      "step": 1190
    },
    {
      "epoch": 0.6983341820033462,
      "grad_norm": 11.749211311340332,
      "learning_rate": 2e-07,
      "loss": 0.1957,
      "step": 1200
    },
    {
      "epoch": 0.7041536335200408,
      "grad_norm": 12.892156600952148,
      "learning_rate": 2e-07,
      "loss": 0.1748,
      "step": 1210
    },
    {
      "epoch": 0.7099730850367353,
      "grad_norm": 14.410128593444824,
      "learning_rate": 2e-07,
      "loss": 0.1934,
      "step": 1220
    },
    {
      "epoch": 0.7157925365534299,
      "grad_norm": 11.821023941040039,
      "learning_rate": 2e-07,
      "loss": 0.2113,
      "step": 1230
    },
    {
      "epoch": 0.7216119880701244,
      "grad_norm": 7.469109058380127,
      "learning_rate": 2e-07,
      "loss": 0.177,
      "step": 1240
    },
    {
      "epoch": 0.727431439586819,
      "grad_norm": 11.144964218139648,
      "learning_rate": 2e-07,
      "loss": 0.2026,
      "step": 1250
    },
    {
      "epoch": 0.7332508911035135,
      "grad_norm": 8.659164428710938,
      "learning_rate": 2e-07,
      "loss": 0.1866,
      "step": 1260
    },
    {
      "epoch": 0.7390703426202081,
      "grad_norm": 12.093481063842773,
      "learning_rate": 2e-07,
      "loss": 0.1819,
      "step": 1270
    },
    {
      "epoch": 0.7448897941369026,
      "grad_norm": 9.76320743560791,
      "learning_rate": 2e-07,
      "loss": 0.1826,
      "step": 1280
    },
    {
      "epoch": 0.7507092456535972,
      "grad_norm": 9.821404457092285,
      "learning_rate": 2e-07,
      "loss": 0.1916,
      "step": 1290
    },
    {
      "epoch": 0.7565286971702917,
      "grad_norm": 13.206873893737793,
      "learning_rate": 2e-07,
      "loss": 0.2037,
      "step": 1300
    },
    {
      "epoch": 0.7623481486869863,
      "grad_norm": 11.560912132263184,
      "learning_rate": 2e-07,
      "loss": 0.179,
      "step": 1310
    },
    {
      "epoch": 0.7681676002036808,
      "grad_norm": 14.256608009338379,
      "learning_rate": 2e-07,
      "loss": 0.1879,
      "step": 1320
    },
    {
      "epoch": 0.7739870517203754,
      "grad_norm": 17.668615341186523,
      "learning_rate": 2e-07,
      "loss": 0.1772,
      "step": 1330
    },
    {
      "epoch": 0.7798065032370699,
      "grad_norm": 11.932788848876953,
      "learning_rate": 2e-07,
      "loss": 0.1657,
      "step": 1340
    },
    {
      "epoch": 0.7856259547537645,
      "grad_norm": 8.989192008972168,
      "learning_rate": 2e-07,
      "loss": 0.18,
      "step": 1350
    },
    {
      "epoch": 0.791445406270459,
      "grad_norm": 8.768953323364258,
      "learning_rate": 2e-07,
      "loss": 0.2002,
      "step": 1360
    },
    {
      "epoch": 0.7972648577871536,
      "grad_norm": 16.538890838623047,
      "learning_rate": 2e-07,
      "loss": 0.1693,
      "step": 1370
    },
    {
      "epoch": 0.8030843093038481,
      "grad_norm": 7.928899765014648,
      "learning_rate": 2e-07,
      "loss": 0.1926,
      "step": 1380
    },
    {
      "epoch": 0.8089037608205427,
      "grad_norm": 11.980950355529785,
      "learning_rate": 2e-07,
      "loss": 0.2042,
      "step": 1390
    },
    {
      "epoch": 0.8147232123372372,
      "grad_norm": 14.4302978515625,
      "learning_rate": 2e-07,
      "loss": 0.1797,
      "step": 1400
    },
    {
      "epoch": 0.8205426638539318,
      "grad_norm": 11.229952812194824,
      "learning_rate": 2e-07,
      "loss": 0.17,
      "step": 1410
    },
    {
      "epoch": 0.8263621153706263,
      "grad_norm": 11.317793846130371,
      "learning_rate": 2e-07,
      "loss": 0.1728,
      "step": 1420
    },
    {
      "epoch": 0.8321815668873209,
      "grad_norm": 10.537130355834961,
      "learning_rate": 2e-07,
      "loss": 0.1787,
      "step": 1430
    },
    {
      "epoch": 0.8380010184040154,
      "grad_norm": 11.120368003845215,
      "learning_rate": 2e-07,
      "loss": 0.1621,
      "step": 1440
    },
    {
      "epoch": 0.84382046992071,
      "grad_norm": 13.397139549255371,
      "learning_rate": 2e-07,
      "loss": 0.1639,
      "step": 1450
    },
    {
      "epoch": 0.8496399214374045,
      "grad_norm": 12.438237190246582,
      "learning_rate": 2e-07,
      "loss": 0.1769,
      "step": 1460
    },
    {
      "epoch": 0.8554593729540991,
      "grad_norm": 11.550435066223145,
      "learning_rate": 2e-07,
      "loss": 0.2065,
      "step": 1470
    },
    {
      "epoch": 0.8612788244707936,
      "grad_norm": 6.573584079742432,
      "learning_rate": 2e-07,
      "loss": 0.2021,
      "step": 1480
    },
    {
      "epoch": 0.8670982759874882,
      "grad_norm": 6.305631637573242,
      "learning_rate": 2e-07,
      "loss": 0.1811,
      "step": 1490
    },
    {
      "epoch": 0.8729177275041827,
      "grad_norm": 9.760597229003906,
      "learning_rate": 2e-07,
      "loss": 0.1937,
      "step": 1500
    },
    {
      "epoch": 0.8787371790208773,
      "grad_norm": 13.0894193649292,
      "learning_rate": 2e-07,
      "loss": 0.176,
      "step": 1510
    },
    {
      "epoch": 0.8845566305375718,
      "grad_norm": 7.848855495452881,
      "learning_rate": 2e-07,
      "loss": 0.1773,
      "step": 1520
    },
    {
      "epoch": 0.8903760820542664,
      "grad_norm": 14.45218563079834,
      "learning_rate": 2e-07,
      "loss": 0.2096,
      "step": 1530
    },
    {
      "epoch": 0.8961955335709609,
      "grad_norm": 7.301393032073975,
      "learning_rate": 2e-07,
      "loss": 0.1656,
      "step": 1540
    },
    {
      "epoch": 0.9020149850876555,
      "grad_norm": 10.425517082214355,
      "learning_rate": 2e-07,
      "loss": 0.1802,
      "step": 1550
    },
    {
      "epoch": 0.90783443660435,
      "grad_norm": 12.547024726867676,
      "learning_rate": 2e-07,
      "loss": 0.1922,
      "step": 1560
    },
    {
      "epoch": 0.9136538881210446,
      "grad_norm": 12.041275978088379,
      "learning_rate": 2e-07,
      "loss": 0.1827,
      "step": 1570
    },
    {
      "epoch": 0.9194733396377391,
      "grad_norm": 10.960613250732422,
      "learning_rate": 2e-07,
      "loss": 0.2234,
      "step": 1580
    },
    {
      "epoch": 0.9252927911544337,
      "grad_norm": 11.155454635620117,
      "learning_rate": 2e-07,
      "loss": 0.1615,
      "step": 1590
    },
    {
      "epoch": 0.9311122426711282,
      "grad_norm": 17.65553092956543,
      "learning_rate": 2e-07,
      "loss": 0.1892,
      "step": 1600
    },
    {
      "epoch": 0.9369316941878228,
      "grad_norm": 18.907163619995117,
      "learning_rate": 2e-07,
      "loss": 0.1915,
      "step": 1610
    },
    {
      "epoch": 0.9427511457045173,
      "grad_norm": 14.12991714477539,
      "learning_rate": 2e-07,
      "loss": 0.2156,
      "step": 1620
    },
    {
      "epoch": 0.948570597221212,
      "grad_norm": 9.105369567871094,
      "learning_rate": 2e-07,
      "loss": 0.1808,
      "step": 1630
    },
    {
      "epoch": 0.9543900487379064,
      "grad_norm": 10.135030746459961,
      "learning_rate": 2e-07,
      "loss": 0.1842,
      "step": 1640
    },
    {
      "epoch": 0.9602095002546011,
      "grad_norm": 33.01081466674805,
      "learning_rate": 2e-07,
      "loss": 0.1757,
      "step": 1650
    },
    {
      "epoch": 0.9660289517712956,
      "grad_norm": 7.512867450714111,
      "learning_rate": 2e-07,
      "loss": 0.1591,
      "step": 1660
    },
    {
      "epoch": 0.9718484032879902,
      "grad_norm": 7.911075592041016,
      "learning_rate": 2e-07,
      "loss": 0.1885,
      "step": 1670
    },
    {
      "epoch": 0.9776678548046847,
      "grad_norm": 4.568904399871826,
      "learning_rate": 2e-07,
      "loss": 0.1929,
      "step": 1680
    },
    {
      "epoch": 0.9834873063213793,
      "grad_norm": 14.508501052856445,
      "learning_rate": 2e-07,
      "loss": 0.2354,
      "step": 1690
    },
    {
      "epoch": 0.9893067578380738,
      "grad_norm": 9.957372665405273,
      "learning_rate": 2e-07,
      "loss": 0.1523,
      "step": 1700
    },
    {
      "epoch": 0.9951262093547684,
      "grad_norm": 8.227477073669434,
      "learning_rate": 2e-07,
      "loss": 0.1816,
      "step": 1710
    },
    {
      "epoch": 0.999781770568124,
      "step": 1718,
      "total_flos": 6.783175773021798e+16,
      "train_loss": 0.28378574687193936,
      "train_runtime": 68908.423,
      "train_samples_per_second": 0.798,
      "train_steps_per_second": 0.025
    }
  ],
  "logging_steps": 10,
  "max_steps": 1718,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 100,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 6.783175773021798e+16,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}