{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.8201261132418904,
  "eval_steps": 500,
  "global_step": 3500,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.00520054605733602,
      "grad_norm": 16.05304718017578,
      "learning_rate": 1.5570934256055363e-06,
      "loss": 1.3826,
      "step": 10
    },
    {
      "epoch": 0.01040109211467204,
      "grad_norm": 13.638071060180664,
      "learning_rate": 3.2871972318339097e-06,
      "loss": 1.2516,
      "step": 20
    },
    {
      "epoch": 0.015601638172008062,
      "grad_norm": 17.292724609375,
      "learning_rate": 5.017301038062284e-06,
      "loss": 1.1593,
      "step": 30
    },
    {
      "epoch": 0.02080218422934408,
      "grad_norm": 2.1085638999938965,
      "learning_rate": 6.747404844290659e-06,
      "loss": 0.5496,
      "step": 40
    },
    {
      "epoch": 0.0260027302866801,
      "grad_norm": 1.403855562210083,
      "learning_rate": 8.477508650519032e-06,
      "loss": 0.369,
      "step": 50
    },
    {
      "epoch": 0.031203276344016123,
      "grad_norm": 2.6436541080474854,
      "learning_rate": 1.0207612456747406e-05,
      "loss": 0.2841,
      "step": 60
    },
    {
      "epoch": 0.03640382240135214,
      "grad_norm": 1.9844225645065308,
      "learning_rate": 1.193771626297578e-05,
      "loss": 0.4041,
      "step": 70
    },
    {
      "epoch": 0.04160436845868816,
      "grad_norm": 2.442768096923828,
      "learning_rate": 1.3667820069204155e-05,
      "loss": 0.2672,
      "step": 80
    },
    {
      "epoch": 0.046804914516024185,
      "grad_norm": 2.2531392574310303,
      "learning_rate": 1.5397923875432525e-05,
      "loss": 0.3032,
      "step": 90
    },
    {
      "epoch": 0.0520054605733602,
      "grad_norm": 1.9605236053466797,
      "learning_rate": 1.7128027681660898e-05,
      "loss": 0.2662,
      "step": 100
    },
    {
      "epoch": 0.05720600663069622,
      "grad_norm": 2.8307950496673584,
      "learning_rate": 1.8858131487889273e-05,
      "loss": 0.2989,
      "step": 110
    },
    {
      "epoch": 0.062406552688032246,
      "grad_norm": 2.2501089572906494,
      "learning_rate": 2.058823529411765e-05,
      "loss": 0.2533,
      "step": 120
    },
    {
      "epoch": 0.06760709874536826,
      "grad_norm": 3.275035858154297,
      "learning_rate": 2.231833910034602e-05,
      "loss": 0.2911,
      "step": 130
    },
    {
      "epoch": 0.07280764480270428,
      "grad_norm": 3.080817699432373,
      "learning_rate": 2.4048442906574396e-05,
      "loss": 0.3063,
      "step": 140
    },
    {
      "epoch": 0.07800819086004031,
      "grad_norm": 5.425448894500732,
      "learning_rate": 2.5778546712802772e-05,
      "loss": 0.3093,
      "step": 150
    },
    {
      "epoch": 0.08320873691737632,
      "grad_norm": 1.7119687795639038,
      "learning_rate": 2.7508650519031144e-05,
      "loss": 0.2612,
      "step": 160
    },
    {
      "epoch": 0.08840928297471234,
      "grad_norm": 4.50128173828125,
      "learning_rate": 2.9238754325259516e-05,
      "loss": 0.2895,
      "step": 170
    },
    {
      "epoch": 0.09360982903204837,
      "grad_norm": 1.802933692932129,
      "learning_rate": 3.096885813148789e-05,
      "loss": 0.2085,
      "step": 180
    },
    {
      "epoch": 0.09881037508938438,
      "grad_norm": 2.629002571105957,
      "learning_rate": 3.269896193771627e-05,
      "loss": 0.2971,
      "step": 190
    },
    {
      "epoch": 0.1040109211467204,
      "grad_norm": 1.411960244178772,
      "learning_rate": 3.4429065743944636e-05,
      "loss": 0.2985,
      "step": 200
    },
    {
      "epoch": 0.10921146720405643,
      "grad_norm": 1.9607653617858887,
      "learning_rate": 3.615916955017301e-05,
      "loss": 0.2282,
      "step": 210
    },
    {
      "epoch": 0.11441201326139244,
      "grad_norm": 3.4696173667907715,
      "learning_rate": 3.788927335640138e-05,
      "loss": 0.259,
      "step": 220
    },
    {
      "epoch": 0.11961255931872847,
      "grad_norm": 3.1414554119110107,
      "learning_rate": 3.961937716262976e-05,
      "loss": 0.2353,
      "step": 230
    },
    {
      "epoch": 0.12481310537606449,
      "grad_norm": 1.7068389654159546,
      "learning_rate": 4.134948096885813e-05,
      "loss": 0.2279,
      "step": 240
    },
    {
      "epoch": 0.13001365143340052,
      "grad_norm": 2.7408318519592285,
      "learning_rate": 4.307958477508651e-05,
      "loss": 0.2809,
      "step": 250
    },
    {
      "epoch": 0.13521419749073652,
      "grad_norm": 3.036931276321411,
      "learning_rate": 4.480968858131488e-05,
      "loss": 0.253,
      "step": 260
    },
    {
      "epoch": 0.14041474354807254,
      "grad_norm": 2.8552465438842773,
      "learning_rate": 4.653979238754326e-05,
      "loss": 0.2454,
      "step": 270
    },
    {
      "epoch": 0.14561528960540857,
      "grad_norm": 3.6416499614715576,
      "learning_rate": 4.826989619377163e-05,
      "loss": 0.244,
      "step": 280
    },
    {
      "epoch": 0.1508158356627446,
      "grad_norm": 3.5004782676696777,
      "learning_rate": 5e-05,
      "loss": 0.2909,
      "step": 290
    },
    {
      "epoch": 0.15601638172008062,
      "grad_norm": 1.2734322547912598,
      "learning_rate": 4.999958918390321e-05,
      "loss": 0.33,
      "step": 300
    },
    {
      "epoch": 0.16121692777741664,
      "grad_norm": 5.017611026763916,
      "learning_rate": 4.999835674911443e-05,
      "loss": 0.2723,
      "step": 310
    },
    {
      "epoch": 0.16641747383475264,
      "grad_norm": 2.2255094051361084,
      "learning_rate": 4.999630273613799e-05,
      "loss": 0.2993,
      "step": 320
    },
    {
      "epoch": 0.17161801989208866,
      "grad_norm": 1.4226183891296387,
      "learning_rate": 4.9993427212479606e-05,
      "loss": 0.2749,
      "step": 330
    },
    {
      "epoch": 0.1768185659494247,
      "grad_norm": 1.295336127281189,
      "learning_rate": 4.998973027264419e-05,
      "loss": 0.2618,
      "step": 340
    },
    {
      "epoch": 0.1820191120067607,
      "grad_norm": 1.9380894899368286,
      "learning_rate": 4.998521203813274e-05,
      "loss": 0.2595,
      "step": 350
    },
    {
      "epoch": 0.18721965806409674,
      "grad_norm": 2.218477964401245,
      "learning_rate": 4.997987265743834e-05,
      "loss": 0.2305,
      "step": 360
    },
    {
      "epoch": 0.19242020412143276,
      "grad_norm": 2.5676722526550293,
      "learning_rate": 4.9973712306041256e-05,
      "loss": 0.2259,
      "step": 370
    },
    {
      "epoch": 0.19762075017876876,
      "grad_norm": 1.3287098407745361,
      "learning_rate": 4.996673118640323e-05,
      "loss": 0.2082,
      "step": 380
    },
    {
      "epoch": 0.2028212962361048,
      "grad_norm": 1.6181299686431885,
      "learning_rate": 4.995892952796074e-05,
      "loss": 0.2422,
      "step": 390
    },
    {
      "epoch": 0.2080218422934408,
      "grad_norm": 2.0212459564208984,
      "learning_rate": 4.995030758711756e-05,
      "loss": 0.296,
      "step": 400
    },
    {
      "epoch": 0.21322238835077684,
      "grad_norm": 1.0081758499145508,
      "learning_rate": 4.994086564723626e-05,
      "loss": 0.2289,
      "step": 410
    },
    {
      "epoch": 0.21842293440811286,
      "grad_norm": 1.7539795637130737,
      "learning_rate": 4.993060401862888e-05,
      "loss": 0.2118,
      "step": 420
    },
    {
      "epoch": 0.22362348046544886,
      "grad_norm": 1.8362935781478882,
      "learning_rate": 4.991952303854682e-05,
      "loss": 0.2198,
      "step": 430
    },
    {
      "epoch": 0.22882402652278488,
      "grad_norm": 3.820204734802246,
      "learning_rate": 4.9907623071169686e-05,
      "loss": 0.2744,
      "step": 440
    },
    {
      "epoch": 0.2340245725801209,
      "grad_norm": 2.739043951034546,
      "learning_rate": 4.9894904507593316e-05,
      "loss": 0.1887,
      "step": 450
    },
    {
      "epoch": 0.23922511863745693,
      "grad_norm": 1.1746188402175903,
      "learning_rate": 4.988136776581696e-05,
      "loss": 0.2105,
      "step": 460
    },
    {
      "epoch": 0.24442566469479296,
      "grad_norm": 4.921947956085205,
      "learning_rate": 4.9867013290729535e-05,
      "loss": 0.2306,
      "step": 470
    },
    {
      "epoch": 0.24962621075212899,
      "grad_norm": 4.337555408477783,
      "learning_rate": 4.9851841554095e-05,
      "loss": 0.2564,
      "step": 480
    },
    {
      "epoch": 0.254826756809465,
      "grad_norm": 3.977388620376587,
      "learning_rate": 4.9835853054536846e-05,
      "loss": 0.2106,
      "step": 490
    },
    {
      "epoch": 0.26002730286680104,
      "grad_norm": 1.2592873573303223,
      "learning_rate": 4.981904831752171e-05,
      "loss": 0.3106,
      "step": 500
    },
    {
      "epoch": 0.26002730286680104,
      "eval_loss": 0.2771838307380676,
      "eval_runtime": 136.7574,
      "eval_samples_per_second": 14.054,
      "eval_steps_per_second": 14.054,
      "step": 500
    },
    {
      "epoch": 0.26522784892413703,
      "grad_norm": 1.807676911354065,
      "learning_rate": 4.98014278953421e-05,
      "loss": 0.2341,
      "step": 510
    },
    {
      "epoch": 0.27042839498147303,
      "grad_norm": 2.764136791229248,
      "learning_rate": 4.978299236709826e-05,
      "loss": 0.339,
      "step": 520
    },
    {
      "epoch": 0.2756289410388091,
      "grad_norm": 1.2402966022491455,
      "learning_rate": 4.9763742338679145e-05,
      "loss": 0.2754,
      "step": 530
    },
    {
      "epoch": 0.2808294870961451,
      "grad_norm": 1.5016759634017944,
      "learning_rate": 4.974367844274248e-05,
      "loss": 0.2544,
      "step": 540
    },
    {
      "epoch": 0.28603003315348113,
      "grad_norm": 2.2027359008789062,
      "learning_rate": 4.972280133869396e-05,
      "loss": 0.232,
      "step": 550
    },
    {
      "epoch": 0.29123057921081713,
      "grad_norm": 0.8741855621337891,
      "learning_rate": 4.9701111712665625e-05,
      "loss": 0.2665,
      "step": 560
    },
    {
      "epoch": 0.29643112526815313,
      "grad_norm": 2.105534315109253,
      "learning_rate": 4.9678610277493275e-05,
      "loss": 0.2719,
      "step": 570
    },
    {
      "epoch": 0.3016316713254892,
      "grad_norm": 2.820169687271118,
      "learning_rate": 4.965529777269306e-05,
      "loss": 0.2875,
      "step": 580
    },
    {
      "epoch": 0.3068322173828252,
      "grad_norm": 1.968910813331604,
      "learning_rate": 4.963117496443715e-05,
      "loss": 0.2547,
      "step": 590
    },
    {
      "epoch": 0.31203276344016123,
      "grad_norm": 1.4258973598480225,
      "learning_rate": 4.960624264552858e-05,
      "loss": 0.3096,
      "step": 600
    },
    {
      "epoch": 0.31723330949749723,
      "grad_norm": 0.6942580342292786,
      "learning_rate": 4.958050163537519e-05,
      "loss": 0.2271,
      "step": 610
    },
    {
      "epoch": 0.3224338555548333,
      "grad_norm": 2.4023945331573486,
      "learning_rate": 4.955395277996268e-05,
      "loss": 0.2973,
      "step": 620
    },
    {
      "epoch": 0.3276344016121693,
      "grad_norm": 0.890560507774353,
      "learning_rate": 4.9526596951826824e-05,
      "loss": 0.2368,
      "step": 630
    },
    {
      "epoch": 0.3328349476695053,
      "grad_norm": 1.4097232818603516,
      "learning_rate": 4.949843505002477e-05,
      "loss": 0.1829,
      "step": 640
    },
    {
      "epoch": 0.33803549372684133,
      "grad_norm": 1.28754723072052,
      "learning_rate": 4.946946800010556e-05,
      "loss": 0.3505,
      "step": 650
    },
    {
      "epoch": 0.3432360397841773,
      "grad_norm": 0.8762970566749573,
      "learning_rate": 4.9439696754079595e-05,
      "loss": 0.2356,
      "step": 660
    },
    {
      "epoch": 0.3484365858415134,
      "grad_norm": 2.1406095027923584,
      "learning_rate": 4.940912229038745e-05,
      "loss": 0.2232,
      "step": 670
    },
    {
      "epoch": 0.3536371318988494,
      "grad_norm": 1.4764164686203003,
      "learning_rate": 4.937774561386768e-05,
      "loss": 0.2281,
      "step": 680
    },
    {
      "epoch": 0.3588376779561854,
      "grad_norm": 1.5396536588668823,
      "learning_rate": 4.934556775572377e-05,
      "loss": 0.2875,
      "step": 690
    },
    {
      "epoch": 0.3640382240135214,
      "grad_norm": 1.0842628479003906,
      "learning_rate": 4.9312589773490304e-05,
      "loss": 0.2562,
      "step": 700
    },
    {
      "epoch": 0.3692387700708574,
      "grad_norm": 1.8963087797164917,
      "learning_rate": 4.927881275099815e-05,
      "loss": 0.2413,
      "step": 710
    },
    {
      "epoch": 0.3744393161281935,
      "grad_norm": 1.5899958610534668,
      "learning_rate": 4.9244237798338866e-05,
      "loss": 0.2979,
      "step": 720
    },
    {
      "epoch": 0.3796398621855295,
      "grad_norm": 0.8220577836036682,
      "learning_rate": 4.920886605182823e-05,
      "loss": 0.2868,
      "step": 730
    },
    {
      "epoch": 0.38484040824286553,
      "grad_norm": 1.0545523166656494,
      "learning_rate": 4.917269867396886e-05,
      "loss": 0.194,
      "step": 740
    },
    {
      "epoch": 0.3900409543002015,
      "grad_norm": 1.3721591234207153,
      "learning_rate": 4.913573685341205e-05,
      "loss": 0.2109,
      "step": 750
    },
    {
      "epoch": 0.3952415003575375,
      "grad_norm": 0.9382643699645996,
      "learning_rate": 4.909798180491865e-05,
      "loss": 0.2194,
      "step": 760
    },
    {
      "epoch": 0.4004420464148736,
      "grad_norm": 0.6716025471687317,
      "learning_rate": 4.9059434769319205e-05,
      "loss": 0.2021,
      "step": 770
    },
    {
      "epoch": 0.4056425924722096,
      "grad_norm": 2.405698537826538,
      "learning_rate": 4.902009701347313e-05,
      "loss": 0.2933,
      "step": 780
    },
    {
      "epoch": 0.4108431385295456,
      "grad_norm": 1.7277915477752686,
      "learning_rate": 4.8979969830227086e-05,
      "loss": 0.2376,
      "step": 790
    },
    {
      "epoch": 0.4160436845868816,
      "grad_norm": 1.790748119354248,
      "learning_rate": 4.8939054538372496e-05,
      "loss": 0.2227,
      "step": 800
    },
    {
      "epoch": 0.4212442306442176,
      "grad_norm": 1.2813634872436523,
      "learning_rate": 4.889735248260221e-05,
      "loss": 0.2544,
      "step": 810
    },
    {
      "epoch": 0.4264447767015537,
      "grad_norm": 0.9295778870582581,
      "learning_rate": 4.8854865033466275e-05,
      "loss": 0.1625,
      "step": 820
    },
    {
      "epoch": 0.43164532275888967,
      "grad_norm": 1.9681141376495361,
      "learning_rate": 4.881159358732694e-05,
      "loss": 0.2262,
      "step": 830
    },
    {
      "epoch": 0.4368458688162257,
      "grad_norm": 1.1844898462295532,
      "learning_rate": 4.8767539566312734e-05,
      "loss": 0.2683,
      "step": 840
    },
    {
      "epoch": 0.4420464148735617,
      "grad_norm": 1.1099355220794678,
      "learning_rate": 4.8722704418271745e-05,
      "loss": 0.2281,
      "step": 850
    },
    {
      "epoch": 0.4472469609308977,
      "grad_norm": 1.4917421340942383,
      "learning_rate": 4.867708961672399e-05,
      "loss": 0.3092,
      "step": 860
    },
    {
      "epoch": 0.45244750698823377,
      "grad_norm": 1.1806445121765137,
      "learning_rate": 4.863069666081307e-05,
      "loss": 0.2272,
      "step": 870
    },
    {
      "epoch": 0.45764805304556977,
      "grad_norm": 1.3496099710464478,
      "learning_rate": 4.8583527075256804e-05,
      "loss": 0.2299,
      "step": 880
    },
    {
      "epoch": 0.4628485991029058,
      "grad_norm": 2.9580721855163574,
      "learning_rate": 4.853558241029723e-05,
      "loss": 0.2648,
      "step": 890
    },
    {
      "epoch": 0.4680491451602418,
      "grad_norm": 0.47517985105514526,
      "learning_rate": 4.848686424164953e-05,
      "loss": 0.2166,
      "step": 900
    },
    {
      "epoch": 0.4732496912175779,
      "grad_norm": 1.1966201066970825,
      "learning_rate": 4.8437374170450344e-05,
      "loss": 0.2499,
      "step": 910
    },
    {
      "epoch": 0.47845023727491387,
      "grad_norm": 1.4806653261184692,
      "learning_rate": 4.8387113823205096e-05,
      "loss": 0.2532,
      "step": 920
    },
    {
      "epoch": 0.48365078333224987,
      "grad_norm": 1.9070792198181152,
      "learning_rate": 4.833608485173457e-05,
      "loss": 0.2721,
      "step": 930
    },
    {
      "epoch": 0.4888513293895859,
      "grad_norm": 1.1496449708938599,
      "learning_rate": 4.8284288933120594e-05,
      "loss": 0.2181,
      "step": 940
    },
    {
      "epoch": 0.4940518754469219,
      "grad_norm": 1.1686209440231323,
      "learning_rate": 4.823172776965094e-05,
      "loss": 0.2084,
      "step": 950
    },
    {
      "epoch": 0.49925242150425797,
      "grad_norm": 1.7963812351226807,
      "learning_rate": 4.8178403088763355e-05,
      "loss": 0.2436,
      "step": 960
    },
    {
      "epoch": 0.504452967561594,
      "grad_norm": 1.3361034393310547,
      "learning_rate": 4.812431664298883e-05,
      "loss": 0.1777,
      "step": 970
    },
    {
      "epoch": 0.50965351361893,
      "grad_norm": 0.7462561726570129,
      "learning_rate": 4.8069470209893974e-05,
      "loss": 0.2749,
      "step": 980
    },
    {
      "epoch": 0.514854059676266,
      "grad_norm": 1.4435970783233643,
      "learning_rate": 4.801386559202259e-05,
      "loss": 0.2099,
      "step": 990
    },
    {
      "epoch": 0.5200546057336021,
      "grad_norm": 1.6081739664077759,
      "learning_rate": 4.795750461683644e-05,
      "loss": 0.2594,
      "step": 1000
    },
    {
      "epoch": 0.5200546057336021,
      "eval_loss": 0.24056576192378998,
      "eval_runtime": 134.5423,
      "eval_samples_per_second": 14.285,
      "eval_steps_per_second": 14.285,
      "step": 1000
    },
    {
      "epoch": 0.5252551517909381,
      "grad_norm": 0.9048750996589661,
      "learning_rate": 4.790038913665519e-05,
      "loss": 0.2459,
      "step": 1010
    },
    {
      "epoch": 0.5304556978482741,
      "grad_norm": 1.2910796403884888,
      "learning_rate": 4.7842521028595526e-05,
      "loss": 0.2357,
      "step": 1020
    },
    {
      "epoch": 0.5356562439056101,
      "grad_norm": 1.6829766035079956,
      "learning_rate": 4.778390219450949e-05,
      "loss": 0.2348,
      "step": 1030
    },
    {
      "epoch": 0.5408567899629461,
      "grad_norm": 2.526048421859741,
      "learning_rate": 4.772453456092191e-05,
      "loss": 0.2503,
      "step": 1040
    },
    {
      "epoch": 0.5460573360202822,
      "grad_norm": 0.8338559865951538,
      "learning_rate": 4.766442007896715e-05,
      "loss": 0.1851,
      "step": 1050
    },
    {
      "epoch": 0.5512578820776182,
      "grad_norm": 2.0072736740112305,
      "learning_rate": 4.760356072432498e-05,
      "loss": 0.3063,
      "step": 1060
    },
    {
      "epoch": 0.5564584281349542,
      "grad_norm": 2.7068746089935303,
      "learning_rate": 4.754195849715557e-05,
      "loss": 0.2264,
      "step": 1070
    },
    {
      "epoch": 0.5616589741922902,
      "grad_norm": 1.7025487422943115,
      "learning_rate": 4.747961542203386e-05,
      "loss": 0.1975,
      "step": 1080
    },
    {
      "epoch": 0.5668595202496262,
      "grad_norm": 1.6216896772384644,
      "learning_rate": 4.741653354788295e-05,
      "loss": 0.232,
      "step": 1090
    },
    {
      "epoch": 0.5720600663069623,
      "grad_norm": 1.5931206941604614,
      "learning_rate": 4.735271494790678e-05,
      "loss": 0.2607,
      "step": 1100
    },
    {
      "epoch": 0.5772606123642983,
      "grad_norm": 1.2996855974197388,
      "learning_rate": 4.7288161719522016e-05,
      "loss": 0.2148,
      "step": 1110
    },
    {
      "epoch": 0.5824611584216343,
      "grad_norm": 1.3389666080474854,
      "learning_rate": 4.722287598428907e-05,
      "loss": 0.2831,
      "step": 1120
    },
    {
      "epoch": 0.5876617044789703,
      "grad_norm": 2.0776829719543457,
      "learning_rate": 4.7156859887842416e-05,
      "loss": 0.3034,
      "step": 1130
    },
    {
      "epoch": 0.5928622505363063,
      "grad_norm": 0.8629754781723022,
      "learning_rate": 4.709011559982006e-05,
      "loss": 0.2287,
      "step": 1140
    },
    {
      "epoch": 0.5980627965936424,
      "grad_norm": 1.2654669284820557,
      "learning_rate": 4.7022645313792235e-05,
      "loss": 0.2223,
      "step": 1150
    },
    {
      "epoch": 0.6032633426509784,
      "grad_norm": 1.1408824920654297,
      "learning_rate": 4.695445124718931e-05,
      "loss": 0.1832,
      "step": 1160
    },
    {
      "epoch": 0.6084638887083144,
      "grad_norm": 1.0831233263015747,
      "learning_rate": 4.6885535641228904e-05,
      "loss": 0.2787,
      "step": 1170
    },
    {
      "epoch": 0.6136644347656504,
      "grad_norm": 1.243690848350525,
      "learning_rate": 4.6815900760842236e-05,
      "loss": 0.2505,
      "step": 1180
    },
    {
      "epoch": 0.6188649808229865,
      "grad_norm": 2.173030138015747,
      "learning_rate": 4.674554889459968e-05,
      "loss": 0.2526,
      "step": 1190
    },
    {
      "epoch": 0.6240655268803225,
      "grad_norm": 1.0949965715408325,
      "learning_rate": 4.667448235463557e-05,
      "loss": 0.233,
      "step": 1200
    },
    {
      "epoch": 0.6292660729376585,
      "grad_norm": 2.3284902572631836,
      "learning_rate": 4.660270347657219e-05,
      "loss": 0.2447,
      "step": 1210
    },
    {
      "epoch": 0.6344666189949945,
      "grad_norm": 1.0869665145874023,
      "learning_rate": 4.6530214619443037e-05,
      "loss": 0.2217,
      "step": 1220
    },
    {
      "epoch": 0.6396671650523305,
      "grad_norm": 1.639493465423584,
      "learning_rate": 4.645701816561523e-05,
      "loss": 0.2322,
      "step": 1230
    },
    {
      "epoch": 0.6448677111096666,
      "grad_norm": 1.2198299169540405,
      "learning_rate": 4.63831165207113e-05,
      "loss": 0.1883,
      "step": 1240
    },
    {
      "epoch": 0.6500682571670026,
      "grad_norm": 1.4124974012374878,
      "learning_rate": 4.630851211353007e-05,
      "loss": 0.2559,
      "step": 1250
    },
    {
      "epoch": 0.6552688032243386,
      "grad_norm": 1.7080676555633545,
      "learning_rate": 4.623320739596685e-05,
      "loss": 0.2219,
      "step": 1260
    },
    {
      "epoch": 0.6604693492816746,
      "grad_norm": 2.443284511566162,
      "learning_rate": 4.615720484293286e-05,
      "loss": 0.2324,
      "step": 1270
    },
    {
      "epoch": 0.6656698953390106,
      "grad_norm": 0.6745538115501404,
      "learning_rate": 4.608050695227385e-05,
      "loss": 0.2877,
      "step": 1280
    },
    {
      "epoch": 0.6708704413963467,
      "grad_norm": 1.1423040628433228,
      "learning_rate": 4.60031162446881e-05,
      "loss": 0.2469,
      "step": 1290
    },
    {
      "epoch": 0.6760709874536827,
      "grad_norm": 1.5825380086898804,
      "learning_rate": 4.5925035263643444e-05,
      "loss": 0.2699,
      "step": 1300
    },
    {
      "epoch": 0.6812715335110187,
      "grad_norm": 1.138910174369812,
      "learning_rate": 4.5846266575293816e-05,
      "loss": 0.2457,
      "step": 1310
    },
    {
      "epoch": 0.6864720795683547,
      "grad_norm": 1.3718457221984863,
      "learning_rate": 4.576681276839483e-05,
      "loss": 0.2485,
      "step": 1320
    },
    {
      "epoch": 0.6916726256256907,
      "grad_norm": 1.4293012619018555,
      "learning_rate": 4.56866764542187e-05,
      "loss": 0.2458,
      "step": 1330
    },
    {
      "epoch": 0.6968731716830268,
      "grad_norm": 1.009885311126709,
      "learning_rate": 4.560586026646845e-05,
      "loss": 0.2077,
      "step": 1340
    },
    {
      "epoch": 0.7020737177403628,
      "grad_norm": 0.6243613362312317,
      "learning_rate": 4.552436686119134e-05,
      "loss": 0.2204,
      "step": 1350
    },
    {
      "epoch": 0.7072742637976988,
      "grad_norm": 1.6868172883987427,
      "learning_rate": 4.54421989166916e-05,
      "loss": 0.2372,
      "step": 1360
    },
    {
      "epoch": 0.7124748098550348,
      "grad_norm": 1.7123680114746094,
      "learning_rate": 4.5359359133442356e-05,
      "loss": 0.2613,
      "step": 1370
    },
    {
      "epoch": 0.7176753559123707,
      "grad_norm": 0.856176495552063,
      "learning_rate": 4.5275850233996925e-05,
      "loss": 0.2438,
      "step": 1380
    },
    {
      "epoch": 0.7228759019697069,
      "grad_norm": 1.1216453313827515,
      "learning_rate": 4.5191674962899314e-05,
      "loss": 0.2029,
      "step": 1390
    },
    {
      "epoch": 0.7280764480270429,
      "grad_norm": 1.8667545318603516,
      "learning_rate": 4.510683608659403e-05,
      "loss": 0.1938,
      "step": 1400
    },
    {
      "epoch": 0.7332769940843789,
      "grad_norm": 1.677372932434082,
      "learning_rate": 4.502133639333516e-05,
      "loss": 0.2053,
      "step": 1410
    },
    {
      "epoch": 0.7384775401417148,
      "grad_norm": 1.217119574546814,
      "learning_rate": 4.4935178693094714e-05,
      "loss": 0.1992,
      "step": 1420
    },
    {
      "epoch": 0.7436780861990508,
      "grad_norm": 2.1485345363616943,
      "learning_rate": 4.484836581747032e-05,
      "loss": 0.2454,
      "step": 1430
    },
    {
      "epoch": 0.748878632256387,
      "grad_norm": 1.3972569704055786,
      "learning_rate": 4.4760900619592085e-05,
      "loss": 0.1673,
      "step": 1440
    },
    {
      "epoch": 0.754079178313723,
      "grad_norm": 1.4621198177337646,
      "learning_rate": 4.467278597402894e-05,
      "loss": 0.2137,
      "step": 1450
    },
    {
      "epoch": 0.759279724371059,
      "grad_norm": 1.6665892601013184,
      "learning_rate": 4.4584024776694035e-05,
      "loss": 0.1556,
      "step": 1460
    },
    {
      "epoch": 0.764480270428395,
      "grad_norm": 1.4974132776260376,
      "learning_rate": 4.449461994474968e-05,
      "loss": 0.278,
      "step": 1470
    },
    {
      "epoch": 0.7696808164857311,
      "grad_norm": 0.9022512435913086,
      "learning_rate": 4.440457441651139e-05,
      "loss": 0.1929,
      "step": 1480
    },
    {
      "epoch": 0.774881362543067,
      "grad_norm": 1.8019062280654907,
      "learning_rate": 4.4313891151351375e-05,
      "loss": 0.2594,
      "step": 1490
    },
    {
      "epoch": 0.780081908600403,
      "grad_norm": 1.0030608177185059,
      "learning_rate": 4.422257312960123e-05,
      "loss": 0.1938,
      "step": 1500
    },
    {
      "epoch": 0.780081908600403,
      "eval_loss": 0.2387997955083847,
      "eval_runtime": 136.4254,
      "eval_samples_per_second": 14.088,
      "eval_steps_per_second": 14.088,
      "step": 1500
    },
    {
      "epoch": 0.785282454657739,
      "grad_norm": 1.8986437320709229,
      "learning_rate": 4.413062335245402e-05,
      "loss": 0.2154,
      "step": 1510
    },
    {
      "epoch": 0.790483000715075,
      "grad_norm": 1.5987744331359863,
      "learning_rate": 4.4038044841865614e-05,
      "loss": 0.2624,
      "step": 1520
    },
    {
      "epoch": 0.7956835467724112,
      "grad_norm": 1.032251000404358,
      "learning_rate": 4.394484064045542e-05,
      "loss": 0.2311,
      "step": 1530
    },
    {
      "epoch": 0.8008840928297472,
      "grad_norm": 1.9166332483291626,
      "learning_rate": 4.385101381140633e-05,
      "loss": 0.2384,
      "step": 1540
    },
    {
      "epoch": 0.8060846388870831,
      "grad_norm": 0.6986478567123413,
      "learning_rate": 4.375656743836407e-05,
      "loss": 0.1841,
      "step": 1550
    },
    {
      "epoch": 0.8112851849444191,
      "grad_norm": 0.631565511226654,
      "learning_rate": 4.366150462533588e-05,
      "loss": 0.2398,
      "step": 1560
    },
    {
      "epoch": 0.8164857310017551,
      "grad_norm": 1.0940667390823364,
      "learning_rate": 4.356582849658845e-05,
      "loss": 0.1876,
      "step": 1570
    },
    {
      "epoch": 0.8216862770590913,
      "grad_norm": 0.7327963709831238,
      "learning_rate": 4.34695421965453e-05,
      "loss": 0.2551,
      "step": 1580
    },
    {
      "epoch": 0.8268868231164272,
      "grad_norm": 1.5531721115112305,
      "learning_rate": 4.3372648889683364e-05,
      "loss": 0.1719,
      "step": 1590
    },
    {
      "epoch": 0.8320873691737632,
      "grad_norm": 0.8876403570175171,
      "learning_rate": 4.3275151760429075e-05,
      "loss": 0.2152,
      "step": 1600
    },
    {
      "epoch": 0.8372879152310992,
      "grad_norm": 2.079756259918213,
      "learning_rate": 4.317705401305362e-05,
      "loss": 0.2369,
      "step": 1610
    },
    {
      "epoch": 0.8424884612884352,
      "grad_norm": 1.2363635301589966,
      "learning_rate": 4.3078358871567706e-05,
      "loss": 0.2718,
      "step": 1620
    },
    {
      "epoch": 0.8476890073457714,
      "grad_norm": 1.3667513132095337,
      "learning_rate": 4.2979069579615564e-05,
      "loss": 0.2221,
      "step": 1630
    },
    {
      "epoch": 0.8528895534031073,
      "grad_norm": 1.1651591062545776,
      "learning_rate": 4.2879189400368314e-05,
      "loss": 0.2858,
      "step": 1640
    },
    {
      "epoch": 0.8580900994604433,
      "grad_norm": 0.9213271141052246,
      "learning_rate": 4.277872161641682e-05,
      "loss": 0.2187,
      "step": 1650
    },
    {
      "epoch": 0.8632906455177793,
      "grad_norm": 0.8052433133125305,
      "learning_rate": 4.267766952966369e-05,
      "loss": 0.2695,
      "step": 1660
    },
    {
      "epoch": 0.8684911915751153,
      "grad_norm": 1.9036948680877686,
      "learning_rate": 4.257603646121484e-05,
      "loss": 0.2253,
      "step": 1670
    },
    {
      "epoch": 0.8736917376324514,
      "grad_norm": 0.8116464018821716,
      "learning_rate": 4.247382575127031e-05,
      "loss": 0.2417,
      "step": 1680
    },
    {
      "epoch": 0.8788922836897874,
      "grad_norm": 1.7750636339187622,
      "learning_rate": 4.237104075901449e-05,
      "loss": 0.2438,
      "step": 1690
    },
    {
      "epoch": 0.8840928297471234,
      "grad_norm": 0.9960026144981384,
      "learning_rate": 4.226768486250572e-05,
      "loss": 0.2928,
      "step": 1700
    },
    {
      "epoch": 0.8892933758044594,
      "grad_norm": 1.5663594007492065,
      "learning_rate": 4.216376145856529e-05,
      "loss": 0.249,
      "step": 1710
    },
    {
      "epoch": 0.8944939218617954,
      "grad_norm": 2.8207902908325195,
      "learning_rate": 4.205927396266577e-05,
      "loss": 0.233,
      "step": 1720
    },
    {
      "epoch": 0.8996944679191315,
      "grad_norm": 0.683710515499115,
      "learning_rate": 4.195422580881878e-05,
      "loss": 0.1886,
      "step": 1730
    },
    {
      "epoch": 0.9048950139764675,
      "grad_norm": 1.2048577070236206,
      "learning_rate": 4.1848620449462115e-05,
      "loss": 0.205,
      "step": 1740
    },
    {
      "epoch": 0.9100955600338035,
      "grad_norm": 1.833343505859375,
      "learning_rate": 4.17424613553463e-05,
      "loss": 0.2846,
      "step": 1750
    },
    {
      "epoch": 0.9152961060911395,
      "grad_norm": 1.2163664102554321,
      "learning_rate": 4.163575201542052e-05,
      "loss": 0.2269,
      "step": 1760
    },
    {
      "epoch": 0.9204966521484755,
      "grad_norm": 0.7797666788101196,
      "learning_rate": 4.152849593671793e-05,
      "loss": 0.1856,
      "step": 1770
    },
    {
      "epoch": 0.9256971982058116,
      "grad_norm": 1.4620978832244873,
      "learning_rate": 4.142069664424041e-05,
      "loss": 0.2599,
      "step": 1780
    },
    {
      "epoch": 0.9308977442631476,
      "grad_norm": 0.480034202337265,
      "learning_rate": 4.1312357680842735e-05,
      "loss": 0.2485,
      "step": 1790
    },
    {
      "epoch": 0.9360982903204836,
      "grad_norm": 1.0644006729125977,
      "learning_rate": 4.120348260711611e-05,
      "loss": 0.2576,
      "step": 1800
    },
    {
      "epoch": 0.9412988363778196,
      "grad_norm": 1.8595833778381348,
      "learning_rate": 4.109407500127116e-05,
      "loss": 0.2438,
      "step": 1810
    },
    {
      "epoch": 0.9464993824351557,
      "grad_norm": 0.9909834861755371,
      "learning_rate": 4.098413845902033e-05,
      "loss": 0.241,
      "step": 1820
    },
    {
      "epoch": 0.9516999284924917,
      "grad_norm": 1.157691478729248,
      "learning_rate": 4.0873676593459725e-05,
      "loss": 0.2383,
      "step": 1830
    },
    {
      "epoch": 0.9569004745498277,
      "grad_norm": 1.2096604108810425,
      "learning_rate": 4.076269303495033e-05,
      "loss": 0.2554,
      "step": 1840
    },
    {
      "epoch": 0.9621010206071637,
      "grad_norm": 0.8286678194999695,
      "learning_rate": 4.065119143099874e-05,
      "loss": 0.1894,
      "step": 1850
    },
    {
      "epoch": 0.9673015666644997,
      "grad_norm": 0.9873716235160828,
      "learning_rate": 4.053917544613723e-05,
      "loss": 0.2311,
      "step": 1860
    },
    {
      "epoch": 0.9725021127218358,
      "grad_norm": 0.9408676028251648,
      "learning_rate": 4.042664876180341e-05,
      "loss": 0.2386,
      "step": 1870
    },
    {
      "epoch": 0.9777026587791718,
      "grad_norm": 0.6958754062652588,
      "learning_rate": 4.031361507621911e-05,
      "loss": 0.2468,
      "step": 1880
    },
    {
      "epoch": 0.9829032048365078,
      "grad_norm": 0.8920957446098328,
      "learning_rate": 4.0200078104268944e-05,
      "loss": 0.2584,
      "step": 1890
    },
    {
      "epoch": 0.9881037508938438,
      "grad_norm": 1.3254570960998535,
      "learning_rate": 4.0086041577378166e-05,
      "loss": 0.2755,
      "step": 1900
    },
    {
      "epoch": 0.9933042969511798,
      "grad_norm": 1.2101293802261353,
      "learning_rate": 3.9971509243390025e-05,
      "loss": 0.2417,
      "step": 1910
    },
    {
      "epoch": 0.9985048430085159,
      "grad_norm": 0.42130109667778015,
      "learning_rate": 3.985648486644267e-05,
      "loss": 0.1982,
      "step": 1920
    },
    {
      "epoch": 1.0036403822401352,
      "grad_norm": 2.4333481788635254,
      "learning_rate": 3.974097222684532e-05,
      "loss": 0.2277,
      "step": 1930
    },
    {
      "epoch": 1.0088409282974713,
      "grad_norm": 1.6568609476089478,
      "learning_rate": 3.962497512095412e-05,
      "loss": 0.1901,
      "step": 1940
    },
    {
      "epoch": 1.0140414743548072,
      "grad_norm": 1.0351656675338745,
      "learning_rate": 3.9508497361047334e-05,
      "loss": 0.2923,
      "step": 1950
    },
    {
      "epoch": 1.0192420204121433,
      "grad_norm": 0.8283625245094299,
      "learning_rate": 3.939154277520006e-05,
      "loss": 0.2245,
      "step": 1960
    },
    {
      "epoch": 1.0244425664694794,
      "grad_norm": 0.6887472867965698,
      "learning_rate": 3.92741152071584e-05,
      "loss": 0.1447,
      "step": 1970
    },
    {
      "epoch": 1.0296431125268153,
      "grad_norm": 2.1077232360839844,
      "learning_rate": 3.915621851621318e-05,
      "loss": 0.2368,
      "step": 1980
    },
    {
      "epoch": 1.0348436585841514,
      "grad_norm": 0.7262524366378784,
      "learning_rate": 3.903785657707307e-05,
      "loss": 0.2153,
      "step": 1990
    },
    {
      "epoch": 1.0400442046414873,
      "grad_norm": 0.6093840003013611,
      "learning_rate": 3.8919033279737274e-05,
      "loss": 0.1695,
      "step": 2000
    },
    {
      "epoch": 1.0400442046414873,
      "eval_loss": 0.24628731608390808,
      "eval_runtime": 134.8334,
      "eval_samples_per_second": 14.255,
      "eval_steps_per_second": 14.255,
      "step": 2000
    },
    {
      "epoch": 1.0452447506988234,
      "grad_norm": 1.6017835140228271,
      "learning_rate": 3.879975252936761e-05,
      "loss": 0.202,
      "step": 2010
    },
    {
      "epoch": 1.0504452967561595,
      "grad_norm": 1.7225841283798218,
      "learning_rate": 3.8680018246160295e-05,
      "loss": 0.1952,
      "step": 2020
    },
    {
      "epoch": 1.0556458428134954,
      "grad_norm": 2.1085808277130127,
      "learning_rate": 3.855983436521699e-05,
      "loss": 0.2721,
      "step": 2030
    },
    {
      "epoch": 1.0608463888708315,
      "grad_norm": 0.8755818605422974,
      "learning_rate": 3.843920483641551e-05,
      "loss": 0.2199,
      "step": 2040
    },
    {
      "epoch": 1.0660469349281674,
      "grad_norm": 0.6190668344497681,
      "learning_rate": 3.831813362428005e-05,
      "loss": 0.1944,
      "step": 2050
    },
    {
      "epoch": 1.0712474809855035,
      "grad_norm": 0.6328080296516418,
      "learning_rate": 3.819662470785082e-05,
      "loss": 0.2687,
      "step": 2060
    },
    {
      "epoch": 1.0764480270428396,
      "grad_norm": 1.3243086338043213,
      "learning_rate": 3.8074682080553335e-05,
      "loss": 0.1866,
      "step": 2070
    },
    {
      "epoch": 1.0816485731001755,
      "grad_norm": 1.4289870262145996,
      "learning_rate": 3.795230975006712e-05,
      "loss": 0.1979,
      "step": 2080
    },
    {
      "epoch": 1.0868491191575116,
      "grad_norm": 1.1440227031707764,
      "learning_rate": 3.782951173819403e-05,
      "loss": 0.2097,
      "step": 2090
    },
    {
      "epoch": 1.0920496652148475,
      "grad_norm": 0.7256899476051331,
      "learning_rate": 3.7706292080726055e-05,
      "loss": 0.2522,
      "step": 2100
    },
    {
      "epoch": 1.0972502112721836,
      "grad_norm": 1.0164716243743896,
      "learning_rate": 3.75826548273127e-05,
      "loss": 0.2312,
      "step": 2110
    },
    {
      "epoch": 1.1024507573295197,
      "grad_norm": 1.053582787513733,
      "learning_rate": 3.7458604041327874e-05,
      "loss": 0.1406,
      "step": 2120
    },
    {
      "epoch": 1.1076513033868556,
      "grad_norm": 1.578212022781372,
      "learning_rate": 3.733414379973635e-05,
      "loss": 0.1913,
      "step": 2130
    },
    {
      "epoch": 1.1128518494441917,
      "grad_norm": 1.1891608238220215,
      "learning_rate": 3.720927819295979e-05,
      "loss": 0.2298,
      "step": 2140
    },
    {
      "epoch": 1.1180523955015276,
      "grad_norm": 0.4603135585784912,
      "learning_rate": 3.708401132474228e-05,
      "loss": 0.2261,
      "step": 2150
    },
    {
      "epoch": 1.1232529415588637,
      "grad_norm": 2.1462292671203613,
      "learning_rate": 3.695834731201548e-05,
      "loss": 0.2354,
      "step": 2160
    },
    {
      "epoch": 1.1284534876161998,
      "grad_norm": 1.139315128326416,
      "learning_rate": 3.683229028476334e-05,
      "loss": 0.1615,
      "step": 2170
    },
    {
      "epoch": 1.1336540336735357,
      "grad_norm": 1.1548924446105957,
      "learning_rate": 3.6705844385886334e-05,
      "loss": 0.1705,
      "step": 2180
    },
    {
      "epoch": 1.1388545797308718,
      "grad_norm": 1.0922483205795288,
      "learning_rate": 3.6579013771065305e-05,
      "loss": 0.1906,
      "step": 2190
    },
    {
      "epoch": 1.1440551257882077,
      "grad_norm": 0.8926368951797485,
      "learning_rate": 3.645180260862492e-05,
      "loss": 0.1744,
      "step": 2200
    },
    {
      "epoch": 1.1492556718455438,
      "grad_norm": 1.1546534299850464,
      "learning_rate": 3.632421507939661e-05,
      "loss": 0.2112,
      "step": 2210
    },
    {
      "epoch": 1.1544562179028799,
      "grad_norm": 1.9052295684814453,
      "learning_rate": 3.6196255376581254e-05,
      "loss": 0.2351,
      "step": 2220
    },
    {
      "epoch": 1.1596567639602158,
      "grad_norm": 0.9189292788505554,
      "learning_rate": 3.6067927705611304e-05,
      "loss": 0.2165,
      "step": 2230
    },
    {
      "epoch": 1.1648573100175519,
      "grad_norm": 0.5956322550773621,
      "learning_rate": 3.593923628401259e-05,
      "loss": 0.2127,
      "step": 2240
    },
    {
      "epoch": 1.1700578560748878,
      "grad_norm": 2.0540506839752197,
      "learning_rate": 3.581018534126571e-05,
      "loss": 0.2175,
      "step": 2250
    },
    {
      "epoch": 1.1752584021322239,
      "grad_norm": 0.8053009510040283,
      "learning_rate": 3.568077911866703e-05,
      "loss": 0.2046,
      "step": 2260
    },
    {
      "epoch": 1.18045894818956,
      "grad_norm": 1.437412142753601,
      "learning_rate": 3.5551021869189286e-05,
      "loss": 0.2297,
      "step": 2270
    },
    {
      "epoch": 1.1856594942468959,
      "grad_norm": 0.7657543420791626,
      "learning_rate": 3.542091785734184e-05,
      "loss": 0.1784,
      "step": 2280
    },
    {
      "epoch": 1.190860040304232,
      "grad_norm": 1.170629620552063,
      "learning_rate": 3.529047135903045e-05,
      "loss": 0.1824,
      "step": 2290
    },
    {
      "epoch": 1.1960605863615679,
      "grad_norm": 1.3208539485931396,
      "learning_rate": 3.5159686661416834e-05,
      "loss": 0.1682,
      "step": 2300
    },
    {
      "epoch": 1.201261132418904,
      "grad_norm": 0.5824002027511597,
      "learning_rate": 3.502856806277773e-05,
      "loss": 0.1631,
      "step": 2310
    },
    {
      "epoch": 1.20646167847624,
      "grad_norm": 2.711642265319824,
      "learning_rate": 3.489711987236357e-05,
      "loss": 0.1973,
      "step": 2320
    },
    {
      "epoch": 1.211662224533576,
      "grad_norm": 0.9232580661773682,
      "learning_rate": 3.476534641025698e-05,
      "loss": 0.246,
      "step": 2330
    },
    {
      "epoch": 1.216862770590912,
      "grad_norm": 1.4809739589691162,
      "learning_rate": 3.463325200723071e-05,
      "loss": 0.2476,
      "step": 2340
    },
    {
      "epoch": 1.222063316648248,
      "grad_norm": 1.0022258758544922,
      "learning_rate": 3.4500841004605324e-05,
      "loss": 0.1629,
      "step": 2350
    },
    {
      "epoch": 1.227263862705584,
      "grad_norm": 0.6187863945960999,
      "learning_rate": 3.436811775410651e-05,
      "loss": 0.2049,
      "step": 2360
    },
    {
      "epoch": 1.2324644087629202,
      "grad_norm": 1.0579588413238525,
      "learning_rate": 3.42350866177221e-05,
      "loss": 0.1923,
      "step": 2370
    },
    {
      "epoch": 1.237664954820256,
      "grad_norm": 0.8715612888336182,
      "learning_rate": 3.410175196755866e-05,
      "loss": 0.1777,
      "step": 2380
    },
    {
      "epoch": 1.2428655008775922,
      "grad_norm": 1.0652248859405518,
      "learning_rate": 3.396811818569785e-05,
      "loss": 0.258,
      "step": 2390
    },
    {
      "epoch": 1.248066046934928,
      "grad_norm": 1.5773491859436035,
      "learning_rate": 3.383418966405234e-05,
      "loss": 0.2021,
      "step": 2400
    },
    {
      "epoch": 1.2532665929922642,
      "grad_norm": 1.5874974727630615,
      "learning_rate": 3.369997080422155e-05,
      "loss": 0.2206,
      "step": 2410
    },
    {
      "epoch": 1.2584671390496003,
      "grad_norm": 1.1131178140640259,
      "learning_rate": 3.356546601734692e-05,
      "loss": 0.2099,
      "step": 2420
    },
    {
      "epoch": 1.2636676851069362,
      "grad_norm": 1.019285798072815,
      "learning_rate": 3.3430679723966976e-05,
      "loss": 0.2599,
      "step": 2430
    },
    {
      "epoch": 1.2688682311642723,
      "grad_norm": 1.3517482280731201,
      "learning_rate": 3.3295616353872026e-05,
      "loss": 0.1706,
      "step": 2440
    },
    {
      "epoch": 1.2740687772216082,
      "grad_norm": 1.2477843761444092,
      "learning_rate": 3.3160280345958614e-05,
      "loss": 0.2172,
      "step": 2450
    },
    {
      "epoch": 1.2792693232789443,
      "grad_norm": 0.7591115236282349,
      "learning_rate": 3.3024676148083555e-05,
      "loss": 0.2201,
      "step": 2460
    },
    {
      "epoch": 1.2844698693362804,
      "grad_norm": 1.461832046508789,
      "learning_rate": 3.288880821691785e-05,
      "loss": 0.1695,
      "step": 2470
    },
    {
      "epoch": 1.2896704153936163,
      "grad_norm": 1.8396881818771362,
      "learning_rate": 3.2752681017800144e-05,
      "loss": 0.175,
      "step": 2480
    },
    {
      "epoch": 1.2948709614509524,
      "grad_norm": 1.3018438816070557,
      "learning_rate": 3.261629902459e-05,
      "loss": 0.2071,
      "step": 2490
    },
    {
      "epoch": 1.3000715075082883,
      "grad_norm": 1.120477557182312,
      "learning_rate": 3.2479666719520886e-05,
      "loss": 0.1841,
      "step": 2500
    },
    {
      "epoch": 1.3000715075082883,
      "eval_loss": 0.23911671340465546,
      "eval_runtime": 135.2893,
      "eval_samples_per_second": 14.207,
      "eval_steps_per_second": 14.207,
      "step": 2500
    },
    {
      "epoch": 1.3052720535656244,
      "grad_norm": 2.349160671234131,
      "learning_rate": 3.23427885930528e-05,
      "loss": 0.1993,
      "step": 2510
    },
    {
      "epoch": 1.3104725996229605,
      "grad_norm": 0.9985238313674927,
      "learning_rate": 3.220566914372477e-05,
      "loss": 0.1448,
      "step": 2520
    },
    {
      "epoch": 1.3156731456802964,
      "grad_norm": 1.038683295249939,
      "learning_rate": 3.2068312878006955e-05,
      "loss": 0.1793,
      "step": 2530
    },
    {
      "epoch": 1.3208736917376325,
      "grad_norm": 1.3996448516845703,
      "learning_rate": 3.193072431015254e-05,
      "loss": 0.1495,
      "step": 2540
    },
    {
      "epoch": 1.3260742377949684,
      "grad_norm": 1.8597303628921509,
      "learning_rate": 3.17929079620494e-05,
      "loss": 0.1746,
      "step": 2550
    },
    {
      "epoch": 1.3312747838523045,
      "grad_norm": 0.5454281568527222,
      "learning_rate": 3.1654868363071484e-05,
      "loss": 0.1633,
      "step": 2560
    },
    {
      "epoch": 1.3364753299096406,
      "grad_norm": 2.386983871459961,
      "learning_rate": 3.151661004992992e-05,
      "loss": 0.2391,
      "step": 2570
    },
    {
      "epoch": 1.3416758759669765,
      "grad_norm": 1.90854811668396,
      "learning_rate": 3.137813756652395e-05,
      "loss": 0.1816,
      "step": 2580
    },
    {
      "epoch": 1.3468764220243126,
      "grad_norm": 0.8159545063972473,
      "learning_rate": 3.12394554637916e-05,
      "loss": 0.235,
      "step": 2590
    },
    {
      "epoch": 1.3520769680816485,
      "grad_norm": 1.6975359916687012,
      "learning_rate": 3.110056829956006e-05,
      "loss": 0.1799,
      "step": 2600
    },
    {
      "epoch": 1.3572775141389846,
      "grad_norm": 1.2948479652404785,
      "learning_rate": 3.096148063839596e-05,
      "loss": 0.1747,
      "step": 2610
    },
    {
      "epoch": 1.3624780601963207,
      "grad_norm": 1.0926662683486938,
      "learning_rate": 3.08221970514553e-05,
      "loss": 0.1946,
      "step": 2620
    },
    {
      "epoch": 1.3676786062536566,
      "grad_norm": 2.317523956298828,
      "learning_rate": 3.068272211633326e-05,
      "loss": 0.2677,
      "step": 2630
    },
    {
      "epoch": 1.3728791523109927,
      "grad_norm": 1.379921555519104,
      "learning_rate": 3.0543060416913696e-05,
      "loss": 0.2897,
      "step": 2640
    },
    {
      "epoch": 1.3780796983683286,
      "grad_norm": 1.2815351486206055,
      "learning_rate": 3.0403216543218547e-05,
      "loss": 0.205,
      "step": 2650
    },
    {
      "epoch": 1.3832802444256647,
      "grad_norm": 1.7982994318008423,
      "learning_rate": 3.026319509125697e-05,
      "loss": 0.1774,
      "step": 2660
    },
    {
      "epoch": 1.3884807904830008,
      "grad_norm": 2.2039549350738525,
      "learning_rate": 3.0123000662874272e-05,
      "loss": 0.1811,
      "step": 2670
    },
    {
      "epoch": 1.3936813365403367,
      "grad_norm": 1.7380796670913696,
      "learning_rate": 2.9982637865600683e-05,
      "loss": 0.2688,
      "step": 2680
    },
    {
      "epoch": 1.3988818825976728,
      "grad_norm": 0.9833778738975525,
      "learning_rate": 2.9842111312499914e-05,
      "loss": 0.1609,
      "step": 2690
    },
    {
      "epoch": 1.4040824286550087,
      "grad_norm": 2.575516939163208,
      "learning_rate": 2.9701425622017583e-05,
      "loss": 0.1734,
      "step": 2700
    },
    {
      "epoch": 1.4092829747123448,
      "grad_norm": 3.007417678833008,
      "learning_rate": 2.9560585417829368e-05,
      "loss": 0.2598,
      "step": 2710
    },
    {
      "epoch": 1.4144835207696809,
      "grad_norm": 1.1851876974105835,
      "learning_rate": 2.9419595328689138e-05,
      "loss": 0.1271,
      "step": 2720
    },
    {
      "epoch": 1.4196840668270168,
      "grad_norm": 2.1141178607940674,
      "learning_rate": 2.9278459988276703e-05,
      "loss": 0.1752,
      "step": 2730
    },
    {
      "epoch": 1.4248846128843529,
      "grad_norm": 1.5198488235473633,
      "learning_rate": 2.913718403504567e-05,
      "loss": 0.2225,
      "step": 2740
    },
    {
      "epoch": 1.4300851589416887,
      "grad_norm": 0.9600934386253357,
      "learning_rate": 2.899577211207087e-05,
      "loss": 0.2169,
      "step": 2750
    },
    {
      "epoch": 1.4352857049990249,
      "grad_norm": 1.3893183469772339,
      "learning_rate": 2.8854228866895855e-05,
      "loss": 0.2257,
      "step": 2760
    },
    {
      "epoch": 1.440486251056361,
      "grad_norm": 1.2468478679656982,
      "learning_rate": 2.8712558951380097e-05,
      "loss": 0.221,
      "step": 2770
    },
    {
      "epoch": 1.445686797113697,
      "grad_norm": 0.7069809436798096,
      "learning_rate": 2.857076702154614e-05,
      "loss": 0.1912,
      "step": 2780
    },
    {
      "epoch": 1.450887343171033,
      "grad_norm": 1.5114367008209229,
      "learning_rate": 2.8428857737426556e-05,
      "loss": 0.2006,
      "step": 2790
    },
    {
      "epoch": 1.4560878892283688,
      "grad_norm": 0.9951623678207397,
      "learning_rate": 2.8286835762910803e-05,
      "loss": 0.1765,
      "step": 2800
    },
    {
      "epoch": 1.461288435285705,
      "grad_norm": 0.7911898493766785,
      "learning_rate": 2.8144705765591938e-05,
      "loss": 0.1737,
      "step": 2810
    },
    {
      "epoch": 1.466488981343041,
      "grad_norm": 0.7575000524520874,
      "learning_rate": 2.800247241661321e-05,
      "loss": 0.2185,
      "step": 2820
    },
    {
      "epoch": 1.4716895274003772,
      "grad_norm": 1.342424988746643,
      "learning_rate": 2.7860140390514583e-05,
      "loss": 0.2083,
      "step": 2830
    },
    {
      "epoch": 1.476890073457713,
      "grad_norm": 2.5245749950408936,
      "learning_rate": 2.771771436507903e-05,
      "loss": 0.1811,
      "step": 2840
    },
    {
      "epoch": 1.482090619515049,
      "grad_norm": 2.4802660942077637,
      "learning_rate": 2.757519902117886e-05,
      "loss": 0.1575,
      "step": 2850
    },
    {
      "epoch": 1.487291165572385,
      "grad_norm": 1.177516222000122,
      "learning_rate": 2.743259904262187e-05,
      "loss": 0.2133,
      "step": 2860
    },
    {
      "epoch": 1.4924917116297212,
      "grad_norm": 1.1934640407562256,
      "learning_rate": 2.7289919115997374e-05,
      "loss": 0.23,
      "step": 2870
    },
    {
      "epoch": 1.4976922576870573,
      "grad_norm": 1.5221962928771973,
      "learning_rate": 2.714716393052223e-05,
      "loss": 0.2154,
      "step": 2880
    },
    {
      "epoch": 1.5028928037443932,
      "grad_norm": 2.0732405185699463,
      "learning_rate": 2.7004338177886672e-05,
      "loss": 0.1759,
      "step": 2890
    },
    {
      "epoch": 1.508093349801729,
      "grad_norm": 0.8759207129478455,
      "learning_rate": 2.686144655210016e-05,
      "loss": 0.2008,
      "step": 2900
    },
    {
      "epoch": 1.5132938958590652,
      "grad_norm": 0.9305397868156433,
      "learning_rate": 2.6718493749337105e-05,
      "loss": 0.1785,
      "step": 2910
    },
    {
      "epoch": 1.5184944419164013,
      "grad_norm": 0.9819073677062988,
      "learning_rate": 2.6575484467782486e-05,
      "loss": 0.2719,
      "step": 2920
    },
    {
      "epoch": 1.5236949879737374,
      "grad_norm": 2.144178628921509,
      "learning_rate": 2.6432423407477496e-05,
      "loss": 0.1598,
      "step": 2930
    },
    {
      "epoch": 1.5288955340310733,
      "grad_norm": 2.3962485790252686,
      "learning_rate": 2.6289315270165062e-05,
      "loss": 0.2127,
      "step": 2940
    },
    {
      "epoch": 1.5340960800884091,
      "grad_norm": 1.1640074253082275,
      "learning_rate": 2.6146164759135266e-05,
      "loss": 0.1784,
      "step": 2950
    },
    {
      "epoch": 1.5392966261457453,
      "grad_norm": 1.0884958505630493,
      "learning_rate": 2.6002976579070872e-05,
      "loss": 0.1717,
      "step": 2960
    },
    {
      "epoch": 1.5444971722030814,
      "grad_norm": 1.471543312072754,
      "learning_rate": 2.5859755435892597e-05,
      "loss": 0.1892,
      "step": 2970
    },
    {
      "epoch": 1.5496977182604175,
      "grad_norm": 1.1566507816314697,
      "learning_rate": 2.5716506036604542e-05,
      "loss": 0.2027,
      "step": 2980
    },
    {
      "epoch": 1.5548982643177534,
      "grad_norm": 1.8999615907669067,
      "learning_rate": 2.557323308913942e-05,
      "loss": 0.2162,
      "step": 2990
    },
    {
      "epoch": 1.5600988103750892,
      "grad_norm": 1.2542750835418701,
      "learning_rate": 2.542994130220388e-05,
      "loss": 0.1548,
      "step": 3000
    },
    {
      "epoch": 1.5600988103750892,
      "eval_loss": 0.24241599440574646,
      "eval_runtime": 135.9654,
      "eval_samples_per_second": 14.136,
      "eval_steps_per_second": 14.136,
      "step": 3000
    },
    {
      "epoch": 1.5652993564324253,
      "grad_norm": 2.8087780475616455,
      "learning_rate": 2.5286635385123725e-05,
      "loss": 0.24,
      "step": 3010
    },
    {
      "epoch": 1.5704999024897615,
      "grad_norm": 1.2270337343215942,
      "learning_rate": 2.5143320047689173e-05,
      "loss": 0.1968,
      "step": 3020
    },
    {
      "epoch": 1.5757004485470976,
      "grad_norm": 1.490675926208496,
      "learning_rate": 2.5e-05,
      "loss": 0.167,
      "step": 3030
    },
    {
      "epoch": 1.5809009946044335,
      "grad_norm": 0.7937414646148682,
      "learning_rate": 2.485667995231084e-05,
      "loss": 0.1436,
      "step": 3040
    },
    {
      "epoch": 1.5861015406617693,
      "grad_norm": 1.8276423215866089,
      "learning_rate": 2.4713364614876274e-05,
      "loss": 0.2169,
      "step": 3050
    },
    {
      "epoch": 1.5913020867191054,
      "grad_norm": 2.1891725063323975,
      "learning_rate": 2.4570058697796125e-05,
      "loss": 0.2003,
      "step": 3060
    },
    {
      "epoch": 1.5965026327764416,
      "grad_norm": 1.920414686203003,
      "learning_rate": 2.4426766910860585e-05,
      "loss": 0.224,
      "step": 3070
    },
    {
      "epoch": 1.6017031788337777,
      "grad_norm": 1.974658727645874,
      "learning_rate": 2.428349396339547e-05,
      "loss": 0.1934,
      "step": 3080
    },
    {
      "epoch": 1.6069037248911135,
      "grad_norm": 2.3854596614837646,
      "learning_rate": 2.4140244564107402e-05,
      "loss": 0.2128,
      "step": 3090
    },
    {
      "epoch": 1.6121042709484494,
      "grad_norm": 1.476598858833313,
      "learning_rate": 2.3997023420929137e-05,
      "loss": 0.1819,
      "step": 3100
    },
    {
      "epoch": 1.6173048170057855,
      "grad_norm": 1.3164430856704712,
      "learning_rate": 2.3853835240864743e-05,
      "loss": 0.222,
      "step": 3110
    },
    {
      "epoch": 1.6225053630631217,
      "grad_norm": 1.467546820640564,
      "learning_rate": 2.3710684729834954e-05,
      "loss": 0.173,
      "step": 3120
    },
    {
      "epoch": 1.6277059091204578,
      "grad_norm": 0.9425441026687622,
      "learning_rate": 2.3567576592522507e-05,
      "loss": 0.2174,
      "step": 3130
    },
    {
      "epoch": 1.6329064551777936,
      "grad_norm": 1.062456488609314,
      "learning_rate": 2.342451553221752e-05,
      "loss": 0.1934,
      "step": 3140
    },
    {
      "epoch": 1.6381070012351295,
      "grad_norm": 1.7149615287780762,
      "learning_rate": 2.32815062506629e-05,
      "loss": 0.2479,
      "step": 3150
    },
    {
      "epoch": 1.6433075472924656,
      "grad_norm": 0.6858556866645813,
      "learning_rate": 2.3138553447899835e-05,
      "loss": 0.1825,
      "step": 3160
    },
    {
      "epoch": 1.6485080933498018,
      "grad_norm": 0.9924718737602234,
      "learning_rate": 2.299566182211333e-05,
      "loss": 0.155,
      "step": 3170
    },
    {
      "epoch": 1.6537086394071379,
      "grad_norm": 2.138089656829834,
      "learning_rate": 2.2852836069477773e-05,
      "loss": 0.2105,
      "step": 3180
    },
    {
      "epoch": 1.6589091854644737,
      "grad_norm": 1.5541861057281494,
      "learning_rate": 2.2710080884002632e-05,
      "loss": 0.2087,
      "step": 3190
    },
    {
      "epoch": 1.6641097315218096,
      "grad_norm": 1.846656084060669,
      "learning_rate": 2.2567400957378132e-05,
      "loss": 0.1669,
      "step": 3200
    },
    {
      "epoch": 1.6693102775791457,
      "grad_norm": 2.2019214630126953,
      "learning_rate": 2.2424800978821146e-05,
      "loss": 0.1955,
      "step": 3210
    },
    {
      "epoch": 1.6745108236364818,
      "grad_norm": 0.8931058645248413,
      "learning_rate": 2.228228563492098e-05,
      "loss": 0.1679,
      "step": 3220
    },
    {
      "epoch": 1.679711369693818,
      "grad_norm": 1.5306602716445923,
      "learning_rate": 2.2139859609485426e-05,
      "loss": 0.1887,
      "step": 3230
    },
    {
      "epoch": 1.6849119157511538,
      "grad_norm": 0.7173328399658203,
      "learning_rate": 2.199752758338679e-05,
      "loss": 0.1744,
      "step": 3240
    },
    {
      "epoch": 1.6901124618084897,
      "grad_norm": 2.8038320541381836,
      "learning_rate": 2.1855294234408068e-05,
      "loss": 0.2108,
      "step": 3250
    },
    {
      "epoch": 1.6953130078658258,
      "grad_norm": 1.2980599403381348,
      "learning_rate": 2.1713164237089203e-05,
      "loss": 0.1721,
      "step": 3260
    },
    {
      "epoch": 1.700513553923162,
      "grad_norm": 1.4280049800872803,
      "learning_rate": 2.1571142262573457e-05,
      "loss": 0.1959,
      "step": 3270
    },
    {
      "epoch": 1.705714099980498,
      "grad_norm": 2.656005382537842,
      "learning_rate": 2.1429232978453862e-05,
      "loss": 0.2284,
      "step": 3280
    },
    {
      "epoch": 1.710914646037834,
      "grad_norm": 0.8656441569328308,
      "learning_rate": 2.128744104861991e-05,
      "loss": 0.2159,
      "step": 3290
    },
    {
      "epoch": 1.7161151920951698,
      "grad_norm": 1.6419271230697632,
      "learning_rate": 2.1145771133104157e-05,
      "loss": 0.1671,
      "step": 3300
    },
    {
      "epoch": 1.721315738152506,
      "grad_norm": 1.286908507347107,
      "learning_rate": 2.1004227887929133e-05,
      "loss": 0.1683,
      "step": 3310
    },
    {
      "epoch": 1.726516284209842,
      "grad_norm": 3.205409288406372,
      "learning_rate": 2.086281596495434e-05,
      "loss": 0.1585,
      "step": 3320
    },
    {
      "epoch": 1.7317168302671782,
      "grad_norm": 0.6113395094871521,
      "learning_rate": 2.07215400117233e-05,
      "loss": 0.1593,
      "step": 3330
    },
    {
      "epoch": 1.736917376324514,
      "grad_norm": 1.3752492666244507,
      "learning_rate": 2.0580404671310878e-05,
      "loss": 0.2058,
      "step": 3340
    },
    {
      "epoch": 1.7421179223818501,
      "grad_norm": 0.68391352891922,
      "learning_rate": 2.0439414582170628e-05,
      "loss": 0.1796,
      "step": 3350
    },
    {
      "epoch": 1.747318468439186,
      "grad_norm": 1.9185495376586914,
      "learning_rate": 2.0298574377982427e-05,
      "loss": 0.2212,
      "step": 3360
    },
    {
      "epoch": 1.7525190144965221,
      "grad_norm": 1.3910088539123535,
      "learning_rate": 2.015788868750009e-05,
      "loss": 0.1488,
      "step": 3370
    },
    {
      "epoch": 1.7577195605538583,
      "grad_norm": 0.8257030248641968,
      "learning_rate": 2.001736213439933e-05,
      "loss": 0.1957,
      "step": 3380
    },
    {
      "epoch": 1.7629201066111941,
      "grad_norm": 0.8184394240379333,
      "learning_rate": 1.987699933712573e-05,
      "loss": 0.2042,
      "step": 3390
    },
    {
      "epoch": 1.7681206526685302,
      "grad_norm": 0.9625434875488281,
      "learning_rate": 1.9736804908743033e-05,
      "loss": 0.1953,
      "step": 3400
    },
    {
      "epoch": 1.7733211987258661,
      "grad_norm": 2.588742256164551,
      "learning_rate": 1.959678345678146e-05,
      "loss": 0.2007,
      "step": 3410
    },
    {
      "epoch": 1.7785217447832022,
      "grad_norm": 1.6495355367660522,
      "learning_rate": 1.9456939583086303e-05,
      "loss": 0.1823,
      "step": 3420
    },
    {
      "epoch": 1.7837222908405383,
      "grad_norm": 1.325899600982666,
      "learning_rate": 1.9317277883666745e-05,
      "loss": 0.2144,
      "step": 3430
    },
    {
      "epoch": 1.7889228368978742,
      "grad_norm": 1.2811932563781738,
      "learning_rate": 1.91778029485447e-05,
      "loss": 0.2244,
      "step": 3440
    },
    {
      "epoch": 1.7941233829552103,
      "grad_norm": 1.6615418195724487,
      "learning_rate": 1.9038519361604046e-05,
      "loss": 0.1965,
      "step": 3450
    },
    {
      "epoch": 1.7993239290125462,
      "grad_norm": 1.7860767841339111,
      "learning_rate": 1.8899431700439946e-05,
      "loss": 0.206,
      "step": 3460
    },
    {
      "epoch": 1.8045244750698823,
      "grad_norm": 1.323864221572876,
      "learning_rate": 1.876054453620841e-05,
      "loss": 0.1507,
      "step": 3470
    },
    {
      "epoch": 1.8097250211272184,
      "grad_norm": 1.264664649963379,
      "learning_rate": 1.8621862433476054e-05,
      "loss": 0.1847,
      "step": 3480
    },
    {
      "epoch": 1.8149255671845543,
      "grad_norm": 2.377115249633789,
      "learning_rate": 1.8483389950070097e-05,
      "loss": 0.2117,
      "step": 3490
    },
    {
      "epoch": 1.8201261132418904,
      "grad_norm": 1.387811541557312,
      "learning_rate": 1.8345131636928518e-05,
      "loss": 0.2048,
      "step": 3500
    },
    {
      "epoch": 1.8201261132418904,
      "eval_loss": 0.2365516871213913,
      "eval_runtime": 134.9588,
      "eval_samples_per_second": 14.241,
      "eval_steps_per_second": 14.241,
      "step": 3500
    }
  ],
  "logging_steps": 10,
  "max_steps": 5769,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 3,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 1.2327670832608051e+17,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}