{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 3.0,
  "eval_steps": 500,
  "global_step": 4689,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0064,
      "grad_norm": 2.760316424583359,
      "learning_rate": 3.1914893617021275e-07,
      "loss": 1.6571,
      "num_tokens": 1208276.0,
      "step": 10
    },
    {
      "epoch": 0.0128,
      "grad_norm": 1.9639395470560352,
      "learning_rate": 6.73758865248227e-07,
      "loss": 1.6372,
      "num_tokens": 2410446.0,
      "step": 20
    },
    {
      "epoch": 0.0192,
      "grad_norm": 1.6857950160814903,
      "learning_rate": 1.0283687943262412e-06,
      "loss": 1.6138,
      "num_tokens": 3622536.0,
      "step": 30
    },
    {
      "epoch": 0.0256,
      "grad_norm": 1.9355649405079267,
      "learning_rate": 1.3829787234042555e-06,
      "loss": 1.554,
      "num_tokens": 4837847.0,
      "step": 40
    },
    {
      "epoch": 0.032,
      "grad_norm": 1.0134479979543427,
      "learning_rate": 1.7375886524822697e-06,
      "loss": 1.5138,
      "num_tokens": 6044886.0,
      "step": 50
    },
    {
      "epoch": 0.0384,
      "grad_norm": 0.7097712225560386,
      "learning_rate": 2.092198581560284e-06,
      "loss": 1.4577,
      "num_tokens": 7255346.0,
      "step": 60
    },
    {
      "epoch": 0.0448,
      "grad_norm": 0.7563602572113316,
      "learning_rate": 2.446808510638298e-06,
      "loss": 1.4239,
      "num_tokens": 8465627.0,
      "step": 70
    },
    {
      "epoch": 0.0512,
      "grad_norm": 0.6411265148411116,
      "learning_rate": 2.8014184397163125e-06,
      "loss": 1.3857,
      "num_tokens": 9667266.0,
      "step": 80
    },
    {
      "epoch": 0.0576,
      "grad_norm": 0.7071256376230877,
      "learning_rate": 3.1560283687943267e-06,
      "loss": 1.3736,
      "num_tokens": 10869831.0,
      "step": 90
    },
    {
      "epoch": 0.064,
      "grad_norm": 0.7623180191305359,
      "learning_rate": 3.510638297872341e-06,
      "loss": 1.3722,
      "num_tokens": 12083093.0,
      "step": 100
    },
    {
      "epoch": 0.0704,
      "grad_norm": 0.651385333897087,
      "learning_rate": 3.865248226950355e-06,
      "loss": 1.3468,
      "num_tokens": 13290331.0,
      "step": 110
    },
    {
      "epoch": 0.0768,
      "grad_norm": 0.8706225351642094,
      "learning_rate": 4.219858156028369e-06,
      "loss": 1.3387,
      "num_tokens": 14488386.0,
      "step": 120
    },
    {
      "epoch": 0.0832,
      "grad_norm": 0.84726755662717,
      "learning_rate": 4.574468085106383e-06,
      "loss": 1.3364,
      "num_tokens": 15690608.0,
      "step": 130
    },
    {
      "epoch": 0.0896,
      "grad_norm": 0.8553144960607314,
      "learning_rate": 4.929078014184397e-06,
      "loss": 1.3207,
      "num_tokens": 16894120.0,
      "step": 140
    },
    {
      "epoch": 0.096,
      "grad_norm": 0.6845288880044453,
      "learning_rate": 4.999961827753897e-06,
      "loss": 1.3072,
      "num_tokens": 18098866.0,
      "step": 150
    },
    {
      "epoch": 0.1024,
      "grad_norm": 0.7060413425833653,
      "learning_rate": 4.999806755001946e-06,
      "loss": 1.293,
      "num_tokens": 19317515.0,
      "step": 160
    },
    {
      "epoch": 0.1088,
      "grad_norm": 1.112301905134234,
      "learning_rate": 4.999532403372408e-06,
      "loss": 1.2933,
      "num_tokens": 20523986.0,
      "step": 170
    },
    {
      "epoch": 0.1152,
      "grad_norm": 0.7057273926728088,
      "learning_rate": 4.9991387859560365e-06,
      "loss": 1.3105,
      "num_tokens": 21730204.0,
      "step": 180
    },
    {
      "epoch": 0.1216,
      "grad_norm": 0.7046621457199816,
      "learning_rate": 4.9986259215343814e-06,
      "loss": 1.3036,
      "num_tokens": 22941629.0,
      "step": 190
    },
    {
      "epoch": 0.128,
      "grad_norm": 0.6753839003505228,
      "learning_rate": 4.997993834578891e-06,
      "loss": 1.2837,
      "num_tokens": 24149743.0,
      "step": 200
    },
    {
      "epoch": 0.1344,
      "grad_norm": 0.6833117540920727,
      "learning_rate": 4.997242555249746e-06,
      "loss": 1.2798,
      "num_tokens": 25350421.0,
      "step": 210
    },
    {
      "epoch": 0.1408,
      "grad_norm": 0.7496565711502305,
      "learning_rate": 4.996372119394418e-06,
      "loss": 1.2872,
      "num_tokens": 26553851.0,
      "step": 220
    },
    {
      "epoch": 0.1472,
      "grad_norm": 0.8257784450438341,
      "learning_rate": 4.9953825685459635e-06,
      "loss": 1.2715,
      "num_tokens": 27756494.0,
      "step": 230
    },
    {
      "epoch": 0.1536,
      "grad_norm": 0.8586750458312551,
      "learning_rate": 4.994273949921038e-06,
      "loss": 1.273,
      "num_tokens": 28966311.0,
      "step": 240
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.8942167127143708,
      "learning_rate": 4.993046316417643e-06,
      "loss": 1.2615,
      "num_tokens": 30165165.0,
      "step": 250
    },
    {
      "epoch": 0.1664,
      "grad_norm": 0.7320667303892974,
      "learning_rate": 4.991699726612607e-06,
      "loss": 1.2598,
      "num_tokens": 31372687.0,
      "step": 260
    },
    {
      "epoch": 0.1728,
      "grad_norm": 0.7759159652826615,
      "learning_rate": 4.990234244758785e-06,
      "loss": 1.2378,
      "num_tokens": 32578240.0,
      "step": 270
    },
    {
      "epoch": 0.1792,
      "grad_norm": 0.7081937298786585,
      "learning_rate": 4.988649940781992e-06,
      "loss": 1.2496,
      "num_tokens": 33788704.0,
      "step": 280
    },
    {
      "epoch": 0.1856,
      "grad_norm": 0.8354872354621143,
      "learning_rate": 4.986946890277673e-06,
      "loss": 1.239,
      "num_tokens": 34992041.0,
      "step": 290
    },
    {
      "epoch": 0.192,
      "grad_norm": 0.7419306542972816,
      "learning_rate": 4.9851251745072905e-06,
      "loss": 1.2334,
      "num_tokens": 36202424.0,
      "step": 300
    },
    {
      "epoch": 0.1984,
      "grad_norm": 0.8124424043952861,
      "learning_rate": 4.983184880394447e-06,
      "loss": 1.2423,
      "num_tokens": 37406998.0,
      "step": 310
    },
    {
      "epoch": 0.2048,
      "grad_norm": 0.9137121442594122,
      "learning_rate": 4.981126100520743e-06,
      "loss": 1.2398,
      "num_tokens": 38614024.0,
      "step": 320
    },
    {
      "epoch": 0.2112,
      "grad_norm": 0.8692171799253517,
      "learning_rate": 4.978948933121351e-06,
      "loss": 1.2274,
      "num_tokens": 39818938.0,
      "step": 330
    },
    {
      "epoch": 0.2176,
      "grad_norm": 0.7959433307352174,
      "learning_rate": 4.976653482080335e-06,
      "loss": 1.2432,
      "num_tokens": 41029985.0,
      "step": 340
    },
    {
      "epoch": 0.224,
      "grad_norm": 0.9183385731990914,
      "learning_rate": 4.97423985692569e-06,
      "loss": 1.2183,
      "num_tokens": 42241595.0,
      "step": 350
    },
    {
      "epoch": 0.2304,
      "grad_norm": 0.8800279308744207,
      "learning_rate": 4.97170817282412e-06,
      "loss": 1.2174,
      "num_tokens": 43436994.0,
      "step": 360
    },
    {
      "epoch": 0.2368,
      "grad_norm": 0.8482042891364965,
      "learning_rate": 4.969058550575535e-06,
      "loss": 1.214,
      "num_tokens": 44649051.0,
      "step": 370
    },
    {
      "epoch": 0.2432,
      "grad_norm": 0.8597854654288322,
      "learning_rate": 4.966291116607297e-06,
      "loss": 1.2105,
      "num_tokens": 45857075.0,
      "step": 380
    },
    {
      "epoch": 0.2496,
      "grad_norm": 0.8904371734549302,
      "learning_rate": 4.96340600296818e-06,
      "loss": 1.1976,
      "num_tokens": 47059498.0,
      "step": 390
    },
    {
      "epoch": 0.256,
      "grad_norm": 0.864096324906862,
      "learning_rate": 4.960403347322069e-06,
      "loss": 1.2067,
      "num_tokens": 48273286.0,
      "step": 400
    },
    {
      "epoch": 0.2624,
      "grad_norm": 0.8417001685001565,
      "learning_rate": 4.957283292941401e-06,
      "loss": 1.2012,
      "num_tokens": 49479835.0,
      "step": 410
    },
    {
      "epoch": 0.2688,
      "grad_norm": 0.8738206939182319,
      "learning_rate": 4.954045988700315e-06,
      "loss": 1.2081,
      "num_tokens": 50692484.0,
      "step": 420
    },
    {
      "epoch": 0.2752,
      "grad_norm": 0.9214341760640065,
      "learning_rate": 4.9506915890675566e-06,
      "loss": 1.1982,
      "num_tokens": 51904151.0,
      "step": 430
    },
    {
      "epoch": 0.2816,
      "grad_norm": 0.8270044046785595,
      "learning_rate": 4.94722025409911e-06,
      "loss": 1.2003,
      "num_tokens": 53107439.0,
      "step": 440
    },
    {
      "epoch": 0.288,
      "grad_norm": 0.9325298797380837,
      "learning_rate": 4.943632149430552e-06,
      "loss": 1.1934,
      "num_tokens": 54311802.0,
      "step": 450
    },
    {
      "epoch": 0.2944,
      "grad_norm": 0.8173318542721012,
      "learning_rate": 4.9399274462691555e-06,
      "loss": 1.183,
      "num_tokens": 55516169.0,
      "step": 460
    },
    {
      "epoch": 0.3008,
      "grad_norm": 0.8403372189641363,
      "learning_rate": 4.93610632138572e-06,
      "loss": 1.2011,
      "num_tokens": 56720582.0,
      "step": 470
    },
    {
      "epoch": 0.3072,
      "grad_norm": 0.9133683374494203,
      "learning_rate": 4.9321689571061314e-06,
      "loss": 1.1863,
      "num_tokens": 57923305.0,
      "step": 480
    },
    {
      "epoch": 0.3136,
      "grad_norm": 0.8342006897685076,
      "learning_rate": 4.928115541302672e-06,
      "loss": 1.1789,
      "num_tokens": 59119131.0,
      "step": 490
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.9237208555707096,
      "learning_rate": 4.923946267385043e-06,
      "loss": 1.1823,
      "num_tokens": 60323216.0,
      "step": 500
    },
    {
      "epoch": 0.3264,
      "grad_norm": 1.138961215949811,
      "learning_rate": 4.91966133429115e-06,
      "loss": 1.1849,
      "num_tokens": 61536243.0,
      "step": 510
    },
    {
      "epoch": 0.3328,
      "grad_norm": 0.8179215725319021,
      "learning_rate": 4.915260946477601e-06,
      "loss": 1.1689,
      "num_tokens": 62725558.0,
      "step": 520
    },
    {
      "epoch": 0.3392,
      "grad_norm": 0.8196458509991646,
      "learning_rate": 4.910745313909953e-06,
      "loss": 1.1754,
      "num_tokens": 63929035.0,
      "step": 530
    },
    {
      "epoch": 0.3456,
      "grad_norm": 0.8606903543941481,
      "learning_rate": 4.906114652052694e-06,
      "loss": 1.1608,
      "num_tokens": 65137799.0,
      "step": 540
    },
    {
      "epoch": 0.352,
      "grad_norm": 0.842427893289404,
      "learning_rate": 4.9013691818589635e-06,
      "loss": 1.176,
      "num_tokens": 66343119.0,
      "step": 550
    },
    {
      "epoch": 0.3584,
      "grad_norm": 0.9536458222010928,
      "learning_rate": 4.896509129760008e-06,
      "loss": 1.1766,
      "num_tokens": 67554625.0,
      "step": 560
    },
    {
      "epoch": 0.3648,
      "grad_norm": 0.8456584910416223,
      "learning_rate": 4.891534727654374e-06,
      "loss": 1.1704,
      "num_tokens": 68767553.0,
      "step": 570
    },
    {
      "epoch": 0.3712,
      "grad_norm": 0.825023352714185,
      "learning_rate": 4.886446212896853e-06,
      "loss": 1.1662,
      "num_tokens": 69977707.0,
      "step": 580
    },
    {
      "epoch": 0.3776,
      "grad_norm": 0.8327520829988985,
      "learning_rate": 4.881243828287141e-06,
      "loss": 1.1715,
      "num_tokens": 71189476.0,
      "step": 590
    },
    {
      "epoch": 0.384,
      "grad_norm": 0.840077866672345,
      "learning_rate": 4.875927822058265e-06,
      "loss": 1.1711,
      "num_tokens": 72395847.0,
      "step": 600
    },
    {
      "epoch": 0.3904,
      "grad_norm": 0.8253947193633453,
      "learning_rate": 4.870498447864735e-06,
      "loss": 1.1439,
      "num_tokens": 73594932.0,
      "step": 610
    },
    {
      "epoch": 0.3968,
      "grad_norm": 0.9212419524845424,
      "learning_rate": 4.864955964770442e-06,
      "loss": 1.1643,
      "num_tokens": 74802657.0,
      "step": 620
    },
    {
      "epoch": 0.4032,
      "grad_norm": 0.9296250658068028,
      "learning_rate": 4.859300637236289e-06,
      "loss": 1.1534,
      "num_tokens": 76011529.0,
      "step": 630
    },
    {
      "epoch": 0.4096,
      "grad_norm": 1.057634627530951,
      "learning_rate": 4.853532735107587e-06,
      "loss": 1.1507,
      "num_tokens": 77210334.0,
      "step": 640
    },
    {
      "epoch": 0.416,
      "grad_norm": 0.8097939416205123,
      "learning_rate": 4.847652533601164e-06,
      "loss": 1.1395,
      "num_tokens": 78425328.0,
      "step": 650
    },
    {
      "epoch": 0.4224,
      "grad_norm": 0.8447649876579609,
      "learning_rate": 4.8416603132922425e-06,
      "loss": 1.1378,
      "num_tokens": 79638521.0,
      "step": 660
    },
    {
      "epoch": 0.4288,
      "grad_norm": 0.9421170322416722,
      "learning_rate": 4.83555636010105e-06,
      "loss": 1.1349,
      "num_tokens": 80836868.0,
      "step": 670
    },
    {
      "epoch": 0.4352,
      "grad_norm": 0.9009555407016511,
      "learning_rate": 4.829340965279173e-06,
      "loss": 1.1482,
      "num_tokens": 82050746.0,
      "step": 680
    },
    {
      "epoch": 0.4416,
      "grad_norm": 0.9304718962620818,
      "learning_rate": 4.823014425395662e-06,
      "loss": 1.1535,
      "num_tokens": 83256247.0,
      "step": 690
    },
    {
      "epoch": 0.448,
      "grad_norm": 0.8268029795401431,
      "learning_rate": 4.816577042322883e-06,
      "loss": 1.1625,
      "num_tokens": 84466963.0,
      "step": 700
    },
    {
      "epoch": 0.4544,
      "grad_norm": 0.8118838757785675,
      "learning_rate": 4.810029123222109e-06,
      "loss": 1.1582,
      "num_tokens": 85668747.0,
      "step": 710
    },
    {
      "epoch": 0.4608,
      "grad_norm": 0.8191391458452703,
      "learning_rate": 4.803370980528868e-06,
      "loss": 1.1508,
      "num_tokens": 86869314.0,
      "step": 720
    },
    {
      "epoch": 0.4672,
      "grad_norm": 0.8573356891805307,
      "learning_rate": 4.796602931938031e-06,
      "loss": 1.1367,
      "num_tokens": 88072166.0,
      "step": 730
    },
    {
      "epoch": 0.4736,
      "grad_norm": 0.9130087766709583,
      "learning_rate": 4.789725300388658e-06,
      "loss": 1.1496,
      "num_tokens": 89276560.0,
      "step": 740
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.8756224792489176,
      "learning_rate": 4.782738414048581e-06,
      "loss": 1.1387,
      "num_tokens": 90489167.0,
      "step": 750
    },
    {
      "epoch": 0.4864,
      "grad_norm": 0.8660533049576743,
      "learning_rate": 4.775642606298758e-06,
      "loss": 1.1293,
      "num_tokens": 91699027.0,
      "step": 760
    },
    {
      "epoch": 0.4928,
      "grad_norm": 0.9344747635312723,
      "learning_rate": 4.7684382157173515e-06,
      "loss": 1.1544,
      "num_tokens": 92907904.0,
      "step": 770
    },
    {
      "epoch": 0.4992,
      "grad_norm": 0.8232769483557345,
      "learning_rate": 4.761125586063583e-06,
      "loss": 1.1509,
      "num_tokens": 94108258.0,
      "step": 780
    },
    {
      "epoch": 0.5056,
      "grad_norm": 0.8019044034927749,
      "learning_rate": 4.753705066261326e-06,
      "loss": 1.142,
      "num_tokens": 95319591.0,
      "step": 790
    },
    {
      "epoch": 0.512,
      "grad_norm": 0.8744491818182848,
      "learning_rate": 4.74617701038246e-06,
      "loss": 1.1407,
      "num_tokens": 96527466.0,
      "step": 800
    },
    {
      "epoch": 0.5184,
      "grad_norm": 0.8457377069978257,
      "learning_rate": 4.738541777629971e-06,
      "loss": 1.1454,
      "num_tokens": 97741955.0,
      "step": 810
    },
    {
      "epoch": 0.5248,
      "grad_norm": 0.8367461594303044,
      "learning_rate": 4.730799732320819e-06,
      "loss": 1.1499,
      "num_tokens": 98947846.0,
      "step": 820
    },
    {
      "epoch": 0.5312,
      "grad_norm": 0.8153933334854007,
      "learning_rate": 4.722951243868547e-06,
      "loss": 1.1338,
      "num_tokens": 100149443.0,
      "step": 830
    },
    {
      "epoch": 0.5376,
      "grad_norm": 0.9553883385280855,
      "learning_rate": 4.7149966867656625e-06,
      "loss": 1.1239,
      "num_tokens": 101354489.0,
      "step": 840
    },
    {
      "epoch": 0.544,
      "grad_norm": 0.8020256868069202,
      "learning_rate": 4.706936440565759e-06,
      "loss": 1.1233,
      "num_tokens": 102561908.0,
      "step": 850
    },
    {
      "epoch": 0.5504,
      "grad_norm": 0.8506848444686664,
      "learning_rate": 4.698770889865414e-06,
      "loss": 1.1314,
      "num_tokens": 103765389.0,
      "step": 860
    },
    {
      "epoch": 0.5568,
      "grad_norm": 0.8931807739845334,
      "learning_rate": 4.690500424285833e-06,
      "loss": 1.1367,
      "num_tokens": 104973326.0,
      "step": 870
    },
    {
      "epoch": 0.5632,
      "grad_norm": 0.8498884776316712,
      "learning_rate": 4.682125438454261e-06,
      "loss": 1.1329,
      "num_tokens": 106184942.0,
      "step": 880
    },
    {
      "epoch": 0.5696,
      "grad_norm": 0.8866656591752357,
      "learning_rate": 4.673646331985151e-06,
      "loss": 1.1469,
      "num_tokens": 107391403.0,
      "step": 890
    },
    {
      "epoch": 0.576,
      "grad_norm": 0.8247486140289442,
      "learning_rate": 4.665063509461098e-06,
      "loss": 1.1304,
      "num_tokens": 108599244.0,
      "step": 900
    },
    {
      "epoch": 0.5824,
      "grad_norm": 0.8509584195104843,
      "learning_rate": 4.6563773804135305e-06,
      "loss": 1.1205,
      "num_tokens": 109802767.0,
      "step": 910
    },
    {
      "epoch": 0.5888,
      "grad_norm": 0.9532478448654986,
      "learning_rate": 4.647588359303178e-06,
      "loss": 1.135,
      "num_tokens": 111002144.0,
      "step": 920
    },
    {
      "epoch": 0.5952,
      "grad_norm": 0.795143766492276,
      "learning_rate": 4.638696865500284e-06,
      "loss": 1.133,
      "num_tokens": 112202360.0,
      "step": 930
    },
    {
      "epoch": 0.6016,
      "grad_norm": 0.8884950967785606,
      "learning_rate": 4.629703323264605e-06,
      "loss": 1.1174,
      "num_tokens": 113410661.0,
      "step": 940
    },
    {
      "epoch": 0.608,
      "grad_norm": 0.8094095645216874,
      "learning_rate": 4.62060816172516e-06,
      "loss": 1.1359,
      "num_tokens": 114615154.0,
      "step": 950
    },
    {
      "epoch": 0.6144,
      "grad_norm": 0.8517004319099382,
      "learning_rate": 4.611411814859758e-06,
      "loss": 1.1141,
      "num_tokens": 115826696.0,
      "step": 960
    },
    {
      "epoch": 0.6208,
      "grad_norm": 0.8739388391386897,
      "learning_rate": 4.602114721474293e-06,
      "loss": 1.1204,
      "num_tokens": 117030663.0,
      "step": 970
    },
    {
      "epoch": 0.6272,
      "grad_norm": 1.0126603878935398,
      "learning_rate": 4.592717325181798e-06,
      "loss": 1.1259,
      "num_tokens": 118243461.0,
      "step": 980
    },
    {
      "epoch": 0.6336,
      "grad_norm": 0.7961249459761912,
      "learning_rate": 4.583220074381288e-06,
      "loss": 1.1105,
      "num_tokens": 119444400.0,
      "step": 990
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.8547801323336933,
      "learning_rate": 4.573623422236359e-06,
      "loss": 1.1247,
      "num_tokens": 120646721.0,
      "step": 1000
    },
    {
      "epoch": 0.6464,
      "grad_norm": 0.8827343366608609,
      "learning_rate": 4.563927826653562e-06,
      "loss": 1.1381,
      "num_tokens": 121856814.0,
      "step": 1010
    },
    {
      "epoch": 0.6528,
      "grad_norm": 0.8379604515543791,
      "learning_rate": 4.554133750260561e-06,
      "loss": 1.1038,
      "num_tokens": 123063137.0,
      "step": 1020
    },
    {
      "epoch": 0.6592,
      "grad_norm": 0.9009991930297082,
      "learning_rate": 4.544241660384057e-06,
      "loss": 1.1351,
      "num_tokens": 124281752.0,
      "step": 1030
    },
    {
      "epoch": 0.6656,
      "grad_norm": 0.9398290903202526,
      "learning_rate": 4.534252029027485e-06,
      "loss": 1.132,
      "num_tokens": 125483927.0,
      "step": 1040
    },
    {
      "epoch": 0.672,
      "grad_norm": 0.8135458599046622,
      "learning_rate": 4.5241653328484965e-06,
      "loss": 1.1137,
      "num_tokens": 126688041.0,
      "step": 1050
    },
    {
      "epoch": 0.6784,
      "grad_norm": 0.826631698433715,
      "learning_rate": 4.5139820531362125e-06,
      "loss": 1.1149,
      "num_tokens": 127895497.0,
      "step": 1060
    },
    {
      "epoch": 0.6848,
      "grad_norm": 0.8326760862617015,
      "learning_rate": 4.503702675788263e-06,
      "loss": 1.1082,
      "num_tokens": 129093768.0,
      "step": 1070
    },
    {
      "epoch": 0.6912,
      "grad_norm": 0.8187909661973681,
      "learning_rate": 4.493327691287596e-06,
      "loss": 1.1213,
      "num_tokens": 130296941.0,
      "step": 1080
    },
    {
      "epoch": 0.6976,
      "grad_norm": 0.8758642744013126,
      "learning_rate": 4.482857594679082e-06,
      "loss": 1.1169,
      "num_tokens": 131499785.0,
      "step": 1090
    },
    {
      "epoch": 0.704,
      "grad_norm": 0.9756017880226009,
      "learning_rate": 4.472292885545887e-06,
      "loss": 1.1182,
      "num_tokens": 132704447.0,
      "step": 1100
    },
    {
      "epoch": 0.7104,
      "grad_norm": 0.9918470716003941,
      "learning_rate": 4.4616340679856344e-06,
      "loss": 1.112,
      "num_tokens": 133914148.0,
      "step": 1110
    },
    {
      "epoch": 0.7168,
      "grad_norm": 0.7736509572616426,
      "learning_rate": 4.450881650586354e-06,
      "loss": 1.0948,
      "num_tokens": 135116690.0,
      "step": 1120
    },
    {
      "epoch": 0.7232,
      "grad_norm": 0.8393996918370894,
      "learning_rate": 4.440036146402218e-06,
      "loss": 1.1196,
      "num_tokens": 136325534.0,
      "step": 1130
    },
    {
      "epoch": 0.7296,
      "grad_norm": 0.8283036410858456,
      "learning_rate": 4.429098072929052e-06,
      "loss": 1.1249,
      "num_tokens": 137532058.0,
      "step": 1140
    },
    {
      "epoch": 0.736,
      "grad_norm": 1.0272561438627168,
      "learning_rate": 4.418067952079651e-06,
      "loss": 1.0894,
      "num_tokens": 138742925.0,
      "step": 1150
    },
    {
      "epoch": 0.7424,
      "grad_norm": 0.9457224166686296,
      "learning_rate": 4.40694631015887e-06,
      "loss": 1.1072,
      "num_tokens": 139944361.0,
      "step": 1160
    },
    {
      "epoch": 0.7488,
      "grad_norm": 0.8472242869303449,
      "learning_rate": 4.395733677838515e-06,
      "loss": 1.104,
      "num_tokens": 141145139.0,
      "step": 1170
    },
    {
      "epoch": 0.7552,
      "grad_norm": 0.8369893067934512,
      "learning_rate": 4.384430590132023e-06,
      "loss": 1.1167,
      "num_tokens": 142348857.0,
      "step": 1180
    },
    {
      "epoch": 0.7616,
      "grad_norm": 0.9417838753194914,
      "learning_rate": 4.373037586368925e-06,
      "loss": 1.0952,
      "num_tokens": 143560823.0,
      "step": 1190
    },
    {
      "epoch": 0.768,
      "grad_norm": 0.83199280244184,
      "learning_rate": 4.361555210169126e-06,
      "loss": 1.0969,
      "num_tokens": 144770576.0,
      "step": 1200
    },
    {
      "epoch": 0.7744,
      "grad_norm": 0.8757783495810086,
      "learning_rate": 4.349984009416952e-06,
      "loss": 1.0948,
      "num_tokens": 145978862.0,
      "step": 1210
    },
    {
      "epoch": 0.7808,
      "grad_norm": 0.8374080168936522,
      "learning_rate": 4.3383245362350174e-06,
      "loss": 1.1087,
      "num_tokens": 147191743.0,
      "step": 1220
    },
    {
      "epoch": 0.7872,
      "grad_norm": 0.8702169752217432,
      "learning_rate": 4.326577346957876e-06,
      "loss": 1.1099,
      "num_tokens": 148399289.0,
      "step": 1230
    },
    {
      "epoch": 0.7936,
      "grad_norm": 0.8016984816166285,
      "learning_rate": 4.314743002105473e-06,
      "loss": 1.1052,
      "num_tokens": 149602404.0,
      "step": 1240
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.0811796381892176,
      "learning_rate": 4.302822066356408e-06,
      "loss": 1.0996,
      "num_tokens": 150811734.0,
      "step": 1250
    },
    {
      "epoch": 0.8064,
      "grad_norm": 0.8374755480022819,
      "learning_rate": 4.290815108520982e-06,
      "loss": 1.1185,
      "num_tokens": 152011294.0,
      "step": 1260
    },
    {
      "epoch": 0.8128,
      "grad_norm": 0.7904368039438139,
      "learning_rate": 4.278722701514061e-06,
      "loss": 1.0992,
      "num_tokens": 153217258.0,
      "step": 1270
    },
    {
      "epoch": 0.8192,
      "grad_norm": 0.785661611999425,
      "learning_rate": 4.266545422327741e-06,
      "loss": 1.1208,
      "num_tokens": 154419838.0,
      "step": 1280
    },
    {
      "epoch": 0.8256,
      "grad_norm": 0.8439322755320521,
      "learning_rate": 4.254283852003813e-06,
      "loss": 1.1091,
      "num_tokens": 155626578.0,
      "step": 1290
    },
    {
      "epoch": 0.832,
      "grad_norm": 0.8732275622995317,
      "learning_rate": 4.241938575606038e-06,
      "loss": 1.0826,
      "num_tokens": 156825805.0,
      "step": 1300
    },
    {
      "epoch": 0.8384,
      "grad_norm": 0.8014980196902037,
      "learning_rate": 4.229510182192235e-06,
      "loss": 1.1093,
      "num_tokens": 158037877.0,
      "step": 1310
    },
    {
      "epoch": 0.8448,
      "grad_norm": 0.8106302375207448,
      "learning_rate": 4.216999264786169e-06,
      "loss": 1.1073,
      "num_tokens": 159245106.0,
      "step": 1320
    },
    {
      "epoch": 0.8512,
      "grad_norm": 0.9385310776537238,
      "learning_rate": 4.204406420349259e-06,
      "loss": 1.1056,
      "num_tokens": 160456114.0,
      "step": 1330
    },
    {
      "epoch": 0.8576,
      "grad_norm": 0.9579249297784465,
      "learning_rate": 4.191732249752092e-06,
      "loss": 1.1021,
      "num_tokens": 161659510.0,
      "step": 1340
    },
    {
      "epoch": 0.864,
      "grad_norm": 0.8134490186326385,
      "learning_rate": 4.178977357745749e-06,
      "loss": 1.0821,
      "num_tokens": 162865495.0,
      "step": 1350
    },
    {
      "epoch": 0.8704,
      "grad_norm": 0.7943299269230713,
      "learning_rate": 4.166142352932957e-06,
      "loss": 1.1065,
      "num_tokens": 164069925.0,
      "step": 1360
    },
    {
      "epoch": 0.8768,
      "grad_norm": 0.8171116530483417,
      "learning_rate": 4.153227847739041e-06,
      "loss": 1.0873,
      "num_tokens": 165272777.0,
      "step": 1370
    },
    {
      "epoch": 0.8832,
      "grad_norm": 0.8472827858602203,
      "learning_rate": 4.140234458382708e-06,
      "loss": 1.1207,
      "num_tokens": 166473564.0,
      "step": 1380
    },
    {
      "epoch": 0.8896,
      "grad_norm": 0.8254355045966608,
      "learning_rate": 4.12716280484664e-06,
      "loss": 1.093,
      "num_tokens": 167678209.0,
      "step": 1390
    },
    {
      "epoch": 0.896,
      "grad_norm": 0.8238773032302608,
      "learning_rate": 4.114013510847914e-06,
      "loss": 1.1004,
      "num_tokens": 168879199.0,
      "step": 1400
    },
    {
      "epoch": 0.9024,
      "grad_norm": 0.8035266067408213,
      "learning_rate": 4.100787203808241e-06,
      "loss": 1.09,
      "num_tokens": 170089062.0,
      "step": 1410
    },
    {
      "epoch": 0.9088,
      "grad_norm": 0.796684651593008,
      "learning_rate": 4.0874845148240265e-06,
      "loss": 1.0923,
      "num_tokens": 171298354.0,
      "step": 1420
    },
    {
      "epoch": 0.9152,
      "grad_norm": 0.7944378162845194,
      "learning_rate": 4.074106078636259e-06,
      "loss": 1.0877,
      "num_tokens": 172502932.0,
      "step": 1430
    },
    {
      "epoch": 0.9216,
      "grad_norm": 0.8222630499336689,
      "learning_rate": 4.0606525336002215e-06,
      "loss": 1.1069,
      "num_tokens": 173714359.0,
      "step": 1440
    },
    {
      "epoch": 0.928,
      "grad_norm": 0.8284462145945989,
      "learning_rate": 4.047124521655037e-06,
      "loss": 1.1063,
      "num_tokens": 174915024.0,
      "step": 1450
    },
    {
      "epoch": 0.9344,
      "grad_norm": 1.1184143246349953,
      "learning_rate": 4.033522688293033e-06,
      "loss": 1.0958,
      "num_tokens": 176121314.0,
      "step": 1460
    },
    {
      "epoch": 0.9408,
      "grad_norm": 0.9302956644371011,
      "learning_rate": 4.019847682528943e-06,
      "loss": 1.1057,
      "num_tokens": 177329003.0,
      "step": 1470
    },
    {
      "epoch": 0.9472,
      "grad_norm": 0.8315189293207337,
      "learning_rate": 4.00610015686894e-06,
      "loss": 1.1021,
      "num_tokens": 178533383.0,
      "step": 1480
    },
    {
      "epoch": 0.9536,
      "grad_norm": 0.780029339050911,
      "learning_rate": 3.9922807672795015e-06,
      "loss": 1.1022,
      "num_tokens": 179737544.0,
      "step": 1490
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.8861787669753409,
      "learning_rate": 3.97839017315611e-06,
      "loss": 1.1033,
      "num_tokens": 180941884.0,
      "step": 1500
    },
    {
      "epoch": 0.9664,
      "grad_norm": 0.8613329501244571,
      "learning_rate": 3.964429037291785e-06,
      "loss": 1.0932,
      "num_tokens": 182147995.0,
      "step": 1510
    },
    {
      "epoch": 0.9728,
      "grad_norm": 0.7767446273299125,
      "learning_rate": 3.950398025845469e-06,
      "loss": 1.0764,
      "num_tokens": 183351238.0,
      "step": 1520
    },
    {
      "epoch": 0.9792,
      "grad_norm": 0.7800388177467502,
      "learning_rate": 3.936297808310229e-06,
      "loss": 1.0955,
      "num_tokens": 184559744.0,
      "step": 1530
    },
    {
      "epoch": 0.9856,
      "grad_norm": 0.822587499260109,
      "learning_rate": 3.9221290574813205e-06,
      "loss": 1.101,
      "num_tokens": 185771261.0,
      "step": 1540
    },
    {
      "epoch": 0.992,
      "grad_norm": 0.7842833667912362,
      "learning_rate": 3.907892449424081e-06,
      "loss": 1.0858,
      "num_tokens": 186988878.0,
      "step": 1550
    },
    {
      "epoch": 0.9984,
      "grad_norm": 0.875565650877801,
      "learning_rate": 3.893588663441669e-06,
      "loss": 1.1096,
      "num_tokens": 188198614.0,
      "step": 1560
    },
    {
      "epoch": 1.00448,
      "grad_norm": 0.9833099796256903,
      "learning_rate": 3.8792183820426575e-06,
      "loss": 1.0518,
      "num_tokens": 189338860.0,
      "step": 1570
    },
    {
      "epoch": 1.01088,
      "grad_norm": 0.9539211061323496,
      "learning_rate": 3.864782290908462e-06,
      "loss": 1.0558,
      "num_tokens": 190541615.0,
      "step": 1580
    },
    {
      "epoch": 1.01728,
      "grad_norm": 0.8277557093113368,
      "learning_rate": 3.850281078860627e-06,
      "loss": 1.0672,
      "num_tokens": 191744590.0,
      "step": 1590
    },
    {
      "epoch": 1.02368,
      "grad_norm": 0.8095245034674352,
      "learning_rate": 3.835715437827954e-06,
      "loss": 1.0555,
      "num_tokens": 192946831.0,
      "step": 1600
    },
    {
      "epoch": 1.03008,
      "grad_norm": 0.8670205092911757,
      "learning_rate": 3.821086062813492e-06,
      "loss": 1.0558,
      "num_tokens": 194153241.0,
      "step": 1610
    },
    {
      "epoch": 1.03648,
      "grad_norm": 0.8041612181651476,
      "learning_rate": 3.806393651861372e-06,
      "loss": 1.0713,
      "num_tokens": 195361386.0,
      "step": 1620
    },
    {
      "epoch": 1.04288,
      "grad_norm": 0.8201672913405339,
      "learning_rate": 3.7916389060234964e-06,
      "loss": 1.0612,
      "num_tokens": 196570539.0,
      "step": 1630
    },
    {
      "epoch": 1.04928,
      "grad_norm": 0.822814114472732,
      "learning_rate": 3.776822529326097e-06,
      "loss": 1.0643,
      "num_tokens": 197758018.0,
      "step": 1640
    },
    {
      "epoch": 1.05568,
      "grad_norm": 0.8405563342503541,
      "learning_rate": 3.7619452287361306e-06,
      "loss": 1.0576,
      "num_tokens": 198962473.0,
      "step": 1650
    },
    {
      "epoch": 1.06208,
      "grad_norm": 0.8733811946067399,
      "learning_rate": 3.7470077141275578e-06,
      "loss": 1.0602,
      "num_tokens": 200168404.0,
      "step": 1660
    },
    {
      "epoch": 1.06848,
      "grad_norm": 0.7810891863766373,
      "learning_rate": 3.732010698247463e-06,
      "loss": 1.0429,
      "num_tokens": 201383921.0,
      "step": 1670
    },
    {
      "epoch": 1.07488,
      "grad_norm": 0.8253121322208729,
      "learning_rate": 3.7169548966820466e-06,
      "loss": 1.069,
      "num_tokens": 202590191.0,
      "step": 1680
    },
    {
      "epoch": 1.08128,
      "grad_norm": 0.7968885719952052,
      "learning_rate": 3.7018410278224852e-06,
      "loss": 1.0661,
      "num_tokens": 203790064.0,
      "step": 1690
    },
    {
      "epoch": 1.08768,
      "grad_norm": 0.7513522866065546,
      "learning_rate": 3.686669812830648e-06,
      "loss": 1.0648,
      "num_tokens": 205004834.0,
      "step": 1700
    },
    {
      "epoch": 1.09408,
      "grad_norm": 0.8133897709614188,
      "learning_rate": 3.671441975604689e-06,
      "loss": 1.0574,
      "num_tokens": 206218130.0,
      "step": 1710
    },
    {
      "epoch": 1.10048,
      "grad_norm": 0.855169356505383,
      "learning_rate": 3.6561582427445053e-06,
      "loss": 1.0652,
      "num_tokens": 207421774.0,
      "step": 1720
    },
    {
      "epoch": 1.10688,
      "grad_norm": 0.7861479775879827,
      "learning_rate": 3.6408193435170695e-06,
      "loss": 1.0601,
      "num_tokens": 208639076.0,
      "step": 1730
    },
    {
      "epoch": 1.11328,
      "grad_norm": 0.7759167355223116,
      "learning_rate": 3.625426009821628e-06,
      "loss": 1.0515,
      "num_tokens": 209843506.0,
      "step": 1740
    },
    {
      "epoch": 1.11968,
      "grad_norm": 0.7737945956455258,
      "learning_rate": 3.609978976154784e-06,
      "loss": 1.0449,
      "num_tokens": 211053262.0,
      "step": 1750
    },
    {
      "epoch": 1.12608,
      "grad_norm": 0.8033895393207562,
      "learning_rate": 3.594478979575443e-06,
      "loss": 1.0653,
      "num_tokens": 212256390.0,
      "step": 1760
    },
    {
      "epoch": 1.13248,
      "grad_norm": 0.8687778972426285,
      "learning_rate": 3.578926759669653e-06,
      "loss": 1.046,
      "num_tokens": 213458553.0,
      "step": 1770
    },
    {
      "epoch": 1.13888,
      "grad_norm": 0.8146069292073773,
      "learning_rate": 3.5633230585153093e-06,
      "loss": 1.0587,
      "num_tokens": 214667929.0,
      "step": 1780
    },
    {
      "epoch": 1.14528,
      "grad_norm": 0.8442869654702855,
      "learning_rate": 3.5476686206467465e-06,
      "loss": 1.0476,
      "num_tokens": 215872854.0,
      "step": 1790
    },
    {
      "epoch": 1.15168,
      "grad_norm": 0.8166732673631207,
      "learning_rate": 3.531964193019214e-06,
      "loss": 1.0486,
      "num_tokens": 217084577.0,
      "step": 1800
    },
    {
      "epoch": 1.15808,
      "grad_norm": 0.8407184177973456,
      "learning_rate": 3.5162105249732336e-06,
      "loss": 1.0446,
      "num_tokens": 218284006.0,
      "step": 1810
    },
    {
      "epoch": 1.16448,
      "grad_norm": 0.7814422822824459,
      "learning_rate": 3.5004083681988476e-06,
      "loss": 1.0466,
      "num_tokens": 219487469.0,
      "step": 1820
    },
    {
      "epoch": 1.17088,
      "grad_norm": 0.7953904441180448,
      "learning_rate": 3.484558476699748e-06,
      "loss": 1.0539,
      "num_tokens": 220690881.0,
      "step": 1830
    },
    {
      "epoch": 1.17728,
      "grad_norm": 0.8120616693504964,
      "learning_rate": 3.468661606757301e-06,
      "loss": 1.0564,
      "num_tokens": 221898060.0,
      "step": 1840
    },
    {
      "epoch": 1.18368,
      "grad_norm": 0.7894301070451438,
      "learning_rate": 3.45271851689446e-06,
      "loss": 1.0576,
      "num_tokens": 223099219.0,
      "step": 1850
    },
    {
      "epoch": 1.19008,
      "grad_norm": 0.8628648936847306,
      "learning_rate": 3.436729967839575e-06,
      "loss": 1.0697,
      "num_tokens": 224314472.0,
      "step": 1860
    },
    {
      "epoch": 1.19648,
      "grad_norm": 0.8485241964897267,
      "learning_rate": 3.4206967224900885e-06,
      "loss": 1.0583,
      "num_tokens": 225513940.0,
      "step": 1870
    },
    {
      "epoch": 1.20288,
      "grad_norm": 0.8019635872502272,
      "learning_rate": 3.40461954587614e-06,
      "loss": 1.0484,
      "num_tokens": 226733560.0,
      "step": 1880
    },
    {
      "epoch": 1.20928,
      "grad_norm": 0.8148504625626072,
      "learning_rate": 3.3884992051240613e-06,
      "loss": 1.049,
      "num_tokens": 227946861.0,
      "step": 1890
    },
    {
      "epoch": 1.21568,
      "grad_norm": 0.799348761407277,
      "learning_rate": 3.372336469419767e-06,
      "loss": 1.0636,
      "num_tokens": 229149854.0,
      "step": 1900
    },
    {
      "epoch": 1.22208,
      "grad_norm": 0.8121058069211242,
      "learning_rate": 3.35613210997206e-06,
      "loss": 1.0679,
      "num_tokens": 230358777.0,
      "step": 1910
    },
    {
      "epoch": 1.22848,
      "grad_norm": 0.8225529513521229,
      "learning_rate": 3.339886899975831e-06,
      "loss": 1.0455,
      "num_tokens": 231573319.0,
      "step": 1920
    },
    {
      "epoch": 1.23488,
      "grad_norm": 0.7930056234558618,
      "learning_rate": 3.3236016145751616e-06,
      "loss": 1.0453,
      "num_tokens": 232778798.0,
      "step": 1930
    },
    {
      "epoch": 1.24128,
      "grad_norm": 0.7824523425714454,
      "learning_rate": 3.307277030826342e-06,
      "loss": 1.046,
      "num_tokens": 233985281.0,
      "step": 1940
    },
    {
      "epoch": 1.24768,
      "grad_norm": 1.126385656615945,
      "learning_rate": 3.290913927660793e-06,
      "loss": 1.0418,
      "num_tokens": 235194572.0,
      "step": 1950
    },
    {
      "epoch": 1.25408,
      "grad_norm": 0.8230976427574604,
      "learning_rate": 3.274513085847899e-06,
      "loss": 1.0596,
      "num_tokens": 236400915.0,
      "step": 1960
    },
    {
      "epoch": 1.26048,
      "grad_norm": 0.7715465448814725,
      "learning_rate": 3.2580752879577508e-06,
      "loss": 1.0421,
      "num_tokens": 237602768.0,
      "step": 1970
    },
    {
      "epoch": 1.26688,
      "grad_norm": 0.7604905419126253,
      "learning_rate": 3.2416013183238105e-06,
      "loss": 1.0596,
      "num_tokens": 238810127.0,
      "step": 1980
    },
    {
      "epoch": 1.27328,
      "grad_norm": 0.8091857959210363,
      "learning_rate": 3.22509196300548e-06,
      "loss": 1.0544,
      "num_tokens": 240016518.0,
      "step": 1990
    },
    {
      "epoch": 1.27968,
      "grad_norm": 0.8428609624878182,
      "learning_rate": 3.2085480097506015e-06,
      "loss": 1.0517,
      "num_tokens": 241224903.0,
      "step": 2000
    },
    {
      "epoch": 1.2860800000000001,
      "grad_norm": 0.8167440202916451,
      "learning_rate": 3.191970247957862e-06,
      "loss": 1.0607,
      "num_tokens": 242432829.0,
      "step": 2010
    },
    {
      "epoch": 1.29248,
      "grad_norm": 0.843189559655867,
      "learning_rate": 3.1753594686391343e-06,
      "loss": 1.0519,
      "num_tokens": 243643680.0,
      "step": 2020
    },
    {
      "epoch": 1.29888,
      "grad_norm": 0.8113193681644453,
      "learning_rate": 3.158716464381728e-06,
      "loss": 1.0534,
      "num_tokens": 244850967.0,
      "step": 2030
    },
    {
      "epoch": 1.30528,
      "grad_norm": 0.8238038397216464,
      "learning_rate": 3.1420420293105753e-06,
      "loss": 1.0537,
      "num_tokens": 246055107.0,
      "step": 2040
    },
    {
      "epoch": 1.31168,
      "grad_norm": 0.7585161106894139,
      "learning_rate": 3.1253369590503357e-06,
      "loss": 1.053,
      "num_tokens": 247255291.0,
      "step": 2050
    },
    {
      "epoch": 1.31808,
      "grad_norm": 0.8358837254742888,
      "learning_rate": 3.1086020506874352e-06,
      "loss": 1.0552,
      "num_tokens": 248472347.0,
      "step": 2060
    },
    {
      "epoch": 1.3244799999999999,
      "grad_norm": 0.8248705338889306,
      "learning_rate": 3.091838102732031e-06,
      "loss": 1.0547,
      "num_tokens": 249675791.0,
      "step": 2070
    },
    {
      "epoch": 1.33088,
      "grad_norm": 0.8413169777388428,
      "learning_rate": 3.0750459150799116e-06,
      "loss": 1.0512,
      "num_tokens": 250883742.0,
      "step": 2080
    },
    {
      "epoch": 1.33728,
      "grad_norm": 0.7773274742980588,
      "learning_rate": 3.0582262889743304e-06,
      "loss": 1.0435,
      "num_tokens": 252092991.0,
      "step": 2090
    },
    {
      "epoch": 1.34368,
      "grad_norm": 0.8160134758509259,
      "learning_rate": 3.0413800269677707e-06,
      "loss": 1.0617,
      "num_tokens": 253296187.0,
      "step": 2100
    },
    {
      "epoch": 1.35008,
      "grad_norm": 0.8253629381678,
      "learning_rate": 3.024507932883659e-06,
      "loss": 1.0467,
      "num_tokens": 254497531.0,
      "step": 2110
    },
    {
      "epoch": 1.35648,
      "grad_norm": 0.8449321081656331,
      "learning_rate": 3.0076108117779995e-06,
      "loss": 1.0501,
      "num_tokens": 255698828.0,
      "step": 2120
    },
    {
      "epoch": 1.36288,
      "grad_norm": 0.864074317535777,
      "learning_rate": 2.9906894699009714e-06,
      "loss": 1.051,
      "num_tokens": 256901786.0,
      "step": 2130
    },
    {
      "epoch": 1.36928,
      "grad_norm": 0.8545075997582061,
      "learning_rate": 2.973744714658452e-06,
      "loss": 1.045,
      "num_tokens": 258102803.0,
      "step": 2140
    },
    {
      "epoch": 1.37568,
      "grad_norm": 0.7950948333995521,
      "learning_rate": 2.9567773545734917e-06,
      "loss": 1.0609,
      "num_tokens": 259309237.0,
      "step": 2150
    },
    {
      "epoch": 1.38208,
      "grad_norm": 0.7772992222068908,
      "learning_rate": 2.9397881992477388e-06,
      "loss": 1.0529,
      "num_tokens": 260512534.0,
      "step": 2160
    },
    {
      "epoch": 1.38848,
      "grad_norm": 0.8230701809627932,
      "learning_rate": 2.9227780593228063e-06,
      "loss": 1.0492,
      "num_tokens": 261721309.0,
      "step": 2170
    },
    {
      "epoch": 1.3948800000000001,
      "grad_norm": 0.803410117521878,
      "learning_rate": 2.90574774644159e-06,
      "loss": 1.0341,
      "num_tokens": 262926754.0,
      "step": 2180
    },
    {
      "epoch": 1.40128,
      "grad_norm": 0.9047895349858696,
      "learning_rate": 2.8886980732095467e-06,
      "loss": 1.0304,
      "num_tokens": 264129158.0,
      "step": 2190
    },
    {
      "epoch": 1.40768,
      "grad_norm": 0.8048555076981502,
      "learning_rate": 2.8716298531559133e-06,
      "loss": 1.0494,
      "num_tokens": 265332827.0,
      "step": 2200
    },
    {
      "epoch": 1.41408,
      "grad_norm": 0.8364957546359483,
      "learning_rate": 2.8545439006948948e-06,
      "loss": 1.0423,
      "num_tokens": 266542306.0,
      "step": 2210
    },
    {
      "epoch": 1.42048,
      "grad_norm": 0.7904212151138658,
      "learning_rate": 2.8374410310868044e-06,
      "loss": 1.0423,
      "num_tokens": 267751752.0,
      "step": 2220
    },
    {
      "epoch": 1.42688,
      "grad_norm": 0.8434192039931359,
      "learning_rate": 2.820322060399156e-06,
      "loss": 1.0471,
      "num_tokens": 268955655.0,
      "step": 2230
    },
    {
      "epoch": 1.4332799999999999,
      "grad_norm": 0.7746642379992007,
      "learning_rate": 2.803187805467733e-06,
      "loss": 1.0574,
      "num_tokens": 270165303.0,
      "step": 2240
    },
    {
      "epoch": 1.43968,
      "grad_norm": 0.8462146853078769,
      "learning_rate": 2.7860390838576125e-06,
      "loss": 1.0579,
      "num_tokens": 271371057.0,
      "step": 2250
    },
    {
      "epoch": 1.44608,
      "grad_norm": 0.7814911330812998,
      "learning_rate": 2.7688767138241474e-06,
      "loss": 1.0374,
      "num_tokens": 272570562.0,
      "step": 2260
    },
    {
      "epoch": 1.45248,
      "grad_norm": 0.7648342437809393,
      "learning_rate": 2.7517015142739335e-06,
      "loss": 1.0551,
      "num_tokens": 273773102.0,
      "step": 2270
    },
    {
      "epoch": 1.45888,
      "grad_norm": 0.8135139786141086,
      "learning_rate": 2.734514304725727e-06,
      "loss": 1.0431,
      "num_tokens": 274979458.0,
      "step": 2280
    },
    {
      "epoch": 1.46528,
      "grad_norm": 0.8275244446318913,
      "learning_rate": 2.717315905271344e-06,
      "loss": 1.0436,
      "num_tokens": 276180959.0,
      "step": 2290
    },
    {
      "epoch": 1.47168,
      "grad_norm": 0.8456585906125247,
      "learning_rate": 2.700107136536533e-06,
      "loss": 1.0571,
      "num_tokens": 277381104.0,
      "step": 2300
    },
    {
      "epoch": 1.47808,
      "grad_norm": 0.7676272425904394,
      "learning_rate": 2.682888819641809e-06,
      "loss": 1.0454,
      "num_tokens": 278589355.0,
      "step": 2310
    },
    {
      "epoch": 1.48448,
      "grad_norm": 0.7530507207913718,
      "learning_rate": 2.6656617761632863e-06,
      "loss": 1.0452,
      "num_tokens": 279802576.0,
      "step": 2320
    },
    {
      "epoch": 1.49088,
      "grad_norm": 0.8099596670334043,
      "learning_rate": 2.6484268280934674e-06,
      "loss": 1.0441,
      "num_tokens": 281010541.0,
      "step": 2330
    },
    {
      "epoch": 1.49728,
      "grad_norm": 0.8098629796138991,
      "learning_rate": 2.631184797802022e-06,
      "loss": 1.0379,
      "num_tokens": 282219974.0,
      "step": 2340
    },
    {
      "epoch": 1.5036800000000001,
      "grad_norm": 0.8633758780871927,
      "learning_rate": 2.613936507996554e-06,
      "loss": 1.0553,
      "num_tokens": 283423505.0,
      "step": 2350
    },
    {
      "epoch": 1.5100799999999999,
      "grad_norm": 0.8494557884878244,
      "learning_rate": 2.5966827816833393e-06,
      "loss": 1.034,
      "num_tokens": 284628594.0,
      "step": 2360
    },
    {
      "epoch": 1.51648,
      "grad_norm": 0.8961874351947472,
      "learning_rate": 2.579424442128057e-06,
      "loss": 1.0403,
      "num_tokens": 285839496.0,
      "step": 2370
    },
    {
      "epoch": 1.52288,
      "grad_norm": 0.8982519210357097,
      "learning_rate": 2.562162312816511e-06,
      "loss": 1.0516,
      "num_tokens": 287048432.0,
      "step": 2380
    },
    {
      "epoch": 1.52928,
      "grad_norm": 0.834174589328149,
      "learning_rate": 2.544897217415332e-06,
      "loss": 1.0371,
      "num_tokens": 288256611.0,
      "step": 2390
    },
    {
      "epoch": 1.5356800000000002,
      "grad_norm": 0.7790317392375281,
      "learning_rate": 2.5276299797326777e-06,
      "loss": 1.0347,
      "num_tokens": 289465699.0,
      "step": 2400
    },
    {
      "epoch": 1.54208,
      "grad_norm": 0.8113176021935586,
      "learning_rate": 2.510361423678929e-06,
      "loss": 1.035,
      "num_tokens": 290666618.0,
      "step": 2410
    },
    {
      "epoch": 1.54848,
      "grad_norm": 0.8175298566784388,
      "learning_rate": 2.4930923732273683e-06,
      "loss": 1.0364,
      "num_tokens": 291864705.0,
      "step": 2420
    },
    {
      "epoch": 1.55488,
      "grad_norm": 0.8601137215701125,
      "learning_rate": 2.4758236523748734e-06,
      "loss": 1.041,
      "num_tokens": 293077992.0,
      "step": 2430
    },
    {
      "epoch": 1.56128,
      "grad_norm": 0.766342647676912,
      "learning_rate": 2.4585560851025917e-06,
      "loss": 1.0448,
      "num_tokens": 294292270.0,
      "step": 2440
    },
    {
      "epoch": 1.56768,
      "grad_norm": 0.8144040865702195,
      "learning_rate": 2.4412904953366263e-06,
      "loss": 1.0626,
      "num_tokens": 295501196.0,
      "step": 2450
    },
    {
      "epoch": 1.57408,
      "grad_norm": 0.8426321262317878,
      "learning_rate": 2.424027706908728e-06,
      "loss": 1.0361,
      "num_tokens": 296713375.0,
      "step": 2460
    },
    {
      "epoch": 1.58048,
      "grad_norm": 0.870533748148585,
      "learning_rate": 2.406768543516977e-06,
      "loss": 1.041,
      "num_tokens": 297925333.0,
      "step": 2470
    },
    {
      "epoch": 1.5868799999999998,
      "grad_norm": 0.813316442312155,
      "learning_rate": 2.389513828686485e-06,
      "loss": 1.0337,
      "num_tokens": 299126955.0,
      "step": 2480
    },
    {
      "epoch": 1.59328,
      "grad_norm": 0.8050560504469045,
      "learning_rate": 2.372264385730099e-06,
      "loss": 1.0432,
      "num_tokens": 300336458.0,
      "step": 2490
    },
    {
      "epoch": 1.59968,
      "grad_norm": 0.8007073397832749,
      "learning_rate": 2.355021037709118e-06,
      "loss": 1.0571,
      "num_tokens": 301539282.0,
      "step": 2500
    },
    {
      "epoch": 1.60608,
      "grad_norm": 0.8259619776886131,
      "learning_rate": 2.3377846073940207e-06,
      "loss": 1.0478,
      "num_tokens": 302743922.0,
      "step": 2510
    },
    {
      "epoch": 1.6124800000000001,
      "grad_norm": 0.7857263898091816,
      "learning_rate": 2.3205559172252052e-06,
      "loss": 1.0265,
      "num_tokens": 303945412.0,
      "step": 2520
    },
    {
      "epoch": 1.6188799999999999,
      "grad_norm": 0.7830231024473471,
      "learning_rate": 2.303335789273744e-06,
      "loss": 1.0424,
      "num_tokens": 305146555.0,
      "step": 2530
    },
    {
      "epoch": 1.62528,
      "grad_norm": 0.773313259484951,
      "learning_rate": 2.286125045202164e-06,
      "loss": 1.0435,
      "num_tokens": 306362219.0,
      "step": 2540
    },
    {
      "epoch": 1.63168,
      "grad_norm": 0.8201327055565161,
      "learning_rate": 2.2689245062252398e-06,
      "loss": 1.0509,
      "num_tokens": 307565244.0,
      "step": 2550
    },
    {
      "epoch": 1.63808,
      "grad_norm": 0.827602816998628,
      "learning_rate": 2.2517349930708032e-06,
      "loss": 1.049,
      "num_tokens": 308770918.0,
      "step": 2560
    },
    {
      "epoch": 1.6444800000000002,
      "grad_norm": 0.7919141547822656,
      "learning_rate": 2.234557325940589e-06,
      "loss": 1.0431,
      "num_tokens": 309984868.0,
      "step": 2570
    },
    {
      "epoch": 1.65088,
      "grad_norm": 0.7394357208064606,
      "learning_rate": 2.2173923244710954e-06,
      "loss": 1.0312,
      "num_tokens": 311187334.0,
      "step": 2580
    },
    {
      "epoch": 1.65728,
      "grad_norm": 0.785327584034165,
      "learning_rate": 2.200240807694474e-06,
      "loss": 1.0353,
      "num_tokens": 312396234.0,
      "step": 2590
    },
    {
      "epoch": 1.66368,
      "grad_norm": 0.8232141872243898,
      "learning_rate": 2.1831035939994554e-06,
      "loss": 1.0562,
      "num_tokens": 313601855.0,
      "step": 2600
    },
    {
      "epoch": 1.67008,
      "grad_norm": 0.7833896049344754,
      "learning_rate": 2.165981501092291e-06,
      "loss": 1.0407,
      "num_tokens": 314804262.0,
      "step": 2610
    },
    {
      "epoch": 1.67648,
      "grad_norm": 0.7885429615611813,
      "learning_rate": 2.148875345957741e-06,
      "loss": 1.0295,
      "num_tokens": 316005948.0,
      "step": 2620
    },
    {
      "epoch": 1.68288,
      "grad_norm": 0.7829739281596803,
      "learning_rate": 2.131785944820092e-06,
      "loss": 1.0252,
      "num_tokens": 317208803.0,
      "step": 2630
    },
    {
      "epoch": 1.6892800000000001,
      "grad_norm": 0.7928770034373539,
      "learning_rate": 2.114714113104211e-06,
      "loss": 1.0498,
      "num_tokens": 318416652.0,
      "step": 2640
    },
    {
      "epoch": 1.6956799999999999,
      "grad_norm": 0.790850427449215,
      "learning_rate": 2.097660665396632e-06,
      "loss": 1.0421,
      "num_tokens": 319628095.0,
      "step": 2650
    },
    {
      "epoch": 1.70208,
      "grad_norm": 0.8023551277637352,
      "learning_rate": 2.0806264154066946e-06,
      "loss": 1.0393,
      "num_tokens": 320828695.0,
      "step": 2660
    },
    {
      "epoch": 1.70848,
      "grad_norm": 0.7922577515769408,
      "learning_rate": 2.0636121759277135e-06,
      "loss": 1.0485,
      "num_tokens": 322041475.0,
      "step": 2670
    },
    {
      "epoch": 1.71488,
      "grad_norm": 0.7971244397123712,
      "learning_rate": 2.046618758798197e-06,
      "loss": 1.0275,
      "num_tokens": 323243099.0,
      "step": 2680
    },
    {
      "epoch": 1.7212800000000001,
      "grad_norm": 0.8040701855401029,
      "learning_rate": 2.0296469748631113e-06,
      "loss": 1.0238,
      "num_tokens": 324448570.0,
      "step": 2690
    },
    {
      "epoch": 1.7276799999999999,
      "grad_norm": 0.7586132016898348,
      "learning_rate": 2.0126976339351883e-06,
      "loss": 1.0345,
      "num_tokens": 325656124.0,
      "step": 2700
    },
    {
      "epoch": 1.73408,
      "grad_norm": 0.7741130670086324,
      "learning_rate": 1.995771544756287e-06,
      "loss": 1.0304,
      "num_tokens": 326867457.0,
      "step": 2710
    },
    {
      "epoch": 1.74048,
      "grad_norm": 0.7603630468965715,
      "learning_rate": 1.9788695149588027e-06,
      "loss": 1.0348,
      "num_tokens": 328069419.0,
      "step": 2720
    },
    {
      "epoch": 1.74688,
      "grad_norm": 0.7656701861871694,
      "learning_rate": 1.9619923510271333e-06,
      "loss": 1.0337,
      "num_tokens": 329274913.0,
      "step": 2730
    },
    {
      "epoch": 1.75328,
      "grad_norm": 0.7795354061202655,
      "learning_rate": 1.945140858259195e-06,
      "loss": 1.0467,
      "num_tokens": 330497463.0,
      "step": 2740
    },
    {
      "epoch": 1.75968,
      "grad_norm": 0.8511581572833524,
      "learning_rate": 1.928315840727998e-06,
      "loss": 1.0292,
      "num_tokens": 331705026.0,
      "step": 2750
    },
    {
      "epoch": 1.76608,
      "grad_norm": 0.8185264208105538,
      "learning_rate": 1.9115181012432795e-06,
      "loss": 1.0462,
      "num_tokens": 332910224.0,
      "step": 2760
    },
    {
      "epoch": 1.77248,
      "grad_norm": 0.8581339452377109,
      "learning_rate": 1.8947484413131996e-06,
      "loss": 1.0344,
      "num_tokens": 334124736.0,
      "step": 2770
    },
    {
      "epoch": 1.77888,
      "grad_norm": 0.8469198844835426,
      "learning_rate": 1.8780076611060962e-06,
      "loss": 1.031,
      "num_tokens": 335328630.0,
      "step": 2780
    },
    {
      "epoch": 1.78528,
      "grad_norm": 0.8097233001009885,
      "learning_rate": 1.861296559412303e-06,
      "loss": 1.0268,
      "num_tokens": 336532418.0,
      "step": 2790
    },
    {
      "epoch": 1.79168,
      "grad_norm": 0.8477425454150115,
      "learning_rate": 1.844615933606037e-06,
      "loss": 1.0311,
      "num_tokens": 337730246.0,
      "step": 2800
    },
    {
      "epoch": 1.7980800000000001,
      "grad_norm": 0.7749925952377877,
      "learning_rate": 1.8279665796073498e-06,
      "loss": 1.0415,
      "num_tokens": 338937460.0,
      "step": 2810
    },
    {
      "epoch": 1.8044799999999999,
      "grad_norm": 0.7976261215266267,
      "learning_rate": 1.8113492918441523e-06,
      "loss": 1.047,
      "num_tokens": 340147641.0,
      "step": 2820
    },
    {
      "epoch": 1.81088,
      "grad_norm": 0.7733887224457893,
      "learning_rate": 1.7947648632143075e-06,
      "loss": 1.0309,
      "num_tokens": 341352040.0,
      "step": 2830
    },
    {
      "epoch": 1.81728,
      "grad_norm": 0.7739175808490624,
      "learning_rate": 1.7782140850477967e-06,
      "loss": 1.0518,
      "num_tokens": 342559891.0,
      "step": 2840
    },
    {
      "epoch": 1.82368,
      "grad_norm": 0.797265127895327,
      "learning_rate": 1.7616977470689605e-06,
      "loss": 1.0325,
      "num_tokens": 343774370.0,
      "step": 2850
    },
    {
      "epoch": 1.8300800000000002,
      "grad_norm": 0.8443750617770532,
      "learning_rate": 1.7452166373588185e-06,
      "loss": 1.021,
      "num_tokens": 344970302.0,
      "step": 2860
    },
    {
      "epoch": 1.83648,
      "grad_norm": 0.8003604596330827,
      "learning_rate": 1.7287715423174662e-06,
      "loss": 1.0304,
      "num_tokens": 346180457.0,
      "step": 2870
    },
    {
      "epoch": 1.84288,
      "grad_norm": 0.8376385879621375,
      "learning_rate": 1.7123632466265483e-06,
      "loss": 1.0395,
      "num_tokens": 347385193.0,
      "step": 2880
    },
    {
      "epoch": 1.84928,
      "grad_norm": 0.7906644473344662,
      "learning_rate": 1.69599253321182e-06,
      "loss": 1.0413,
      "num_tokens": 348601710.0,
      "step": 2890
    },
    {
      "epoch": 1.85568,
      "grad_norm": 0.7924809016265382,
      "learning_rate": 1.6796601832057905e-06,
      "loss": 1.0378,
      "num_tokens": 349806167.0,
      "step": 2900
    },
    {
      "epoch": 1.86208,
      "grad_norm": 0.7766495775123572,
      "learning_rate": 1.6633669759104488e-06,
      "loss": 1.0264,
      "num_tokens": 351012043.0,
      "step": 2910
    },
    {
      "epoch": 1.86848,
      "grad_norm": 1.3435506252779292,
      "learning_rate": 1.6471136887600805e-06,
      "loss": 1.0237,
      "num_tokens": 352217587.0,
      "step": 2920
    },
    {
      "epoch": 1.87488,
      "grad_norm": 0.765607343549468,
      "learning_rate": 1.6309010972841728e-06,
      "loss": 1.0382,
      "num_tokens": 353418821.0,
      "step": 2930
    },
    {
      "epoch": 1.8812799999999998,
      "grad_norm": 0.8171820174646456,
      "learning_rate": 1.614729975070407e-06,
      "loss": 1.0366,
      "num_tokens": 354624890.0,
      "step": 2940
    },
    {
      "epoch": 1.88768,
      "grad_norm": 0.8064241532835642,
      "learning_rate": 1.598601093727749e-06,
      "loss": 1.0361,
      "num_tokens": 355824991.0,
      "step": 2950
    },
    {
      "epoch": 1.89408,
      "grad_norm": 0.7884619306846271,
      "learning_rate": 1.5825152228496342e-06,
      "loss": 1.0425,
      "num_tokens": 357030616.0,
      "step": 2960
    },
    {
      "epoch": 1.90048,
      "grad_norm": 0.8265648248850005,
      "learning_rate": 1.5664731299772401e-06,
      "loss": 1.0332,
      "num_tokens": 358234522.0,
      "step": 2970
    },
    {
      "epoch": 1.9068800000000001,
      "grad_norm": 0.8092024559268799,
      "learning_rate": 1.5504755805628677e-06,
      "loss": 1.0399,
      "num_tokens": 359443389.0,
      "step": 2980
    },
    {
      "epoch": 1.9132799999999999,
      "grad_norm": 0.791864238644019,
      "learning_rate": 1.5345233379334156e-06,
      "loss": 1.0289,
      "num_tokens": 360644258.0,
      "step": 2990
    },
    {
      "epoch": 1.91968,
      "grad_norm": 0.8006538523086424,
      "learning_rate": 1.5186171632539587e-06,
      "loss": 1.0392,
      "num_tokens": 361848281.0,
      "step": 3000
    },
    {
      "epoch": 1.92608,
      "grad_norm": 0.7852026214667117,
      "learning_rate": 1.502757815491429e-06,
      "loss": 1.0301,
      "num_tokens": 363051672.0,
      "step": 3010
    },
    {
      "epoch": 1.93248,
      "grad_norm": 0.7473075275246417,
      "learning_rate": 1.4869460513784011e-06,
      "loss": 1.0349,
      "num_tokens": 364249917.0,
      "step": 3020
    },
    {
      "epoch": 1.9388800000000002,
      "grad_norm": 0.7822299185363633,
      "learning_rate": 1.4711826253769828e-06,
      "loss": 1.04,
      "num_tokens": 365456248.0,
      "step": 3030
    },
    {
      "epoch": 1.94528,
      "grad_norm": 0.8034434681463449,
      "learning_rate": 1.4554682896428179e-06,
      "loss": 1.0379,
      "num_tokens": 366654881.0,
      "step": 3040
    },
    {
      "epoch": 1.95168,
      "grad_norm": 0.7768199970864885,
      "learning_rate": 1.439803793989198e-06,
      "loss": 1.0241,
      "num_tokens": 367861348.0,
      "step": 3050
    },
    {
      "epoch": 1.95808,
      "grad_norm": 0.8118112910224361,
      "learning_rate": 1.4241898858512824e-06,
      "loss": 1.0426,
      "num_tokens": 369064003.0,
      "step": 3060
    },
    {
      "epoch": 1.96448,
      "grad_norm": 0.7744113528953481,
      "learning_rate": 1.408627310250434e-06,
      "loss": 1.0414,
      "num_tokens": 370279324.0,
      "step": 3070
    },
    {
      "epoch": 1.97088,
      "grad_norm": 0.7887556630257991,
      "learning_rate": 1.3931168097586717e-06,
      "loss": 1.0336,
      "num_tokens": 371480368.0,
      "step": 3080
    },
    {
      "epoch": 1.97728,
      "grad_norm": 0.7640435636356337,
      "learning_rate": 1.377659124463239e-06,
      "loss": 1.042,
      "num_tokens": 372690129.0,
      "step": 3090
    },
    {
      "epoch": 1.98368,
      "grad_norm": 0.7603826553278634,
      "learning_rate": 1.3622549919312902e-06,
      "loss": 1.0361,
      "num_tokens": 373902924.0,
      "step": 3100
    },
    {
      "epoch": 1.9900799999999998,
      "grad_norm": 0.7599088525071184,
      "learning_rate": 1.346905147174694e-06,
      "loss": 1.0193,
      "num_tokens": 375112585.0,
      "step": 3110
    },
    {
      "epoch": 1.99648,
      "grad_norm": 0.7816099568186937,
      "learning_rate": 1.3316103226149682e-06,
      "loss": 1.0349,
      "num_tokens": 376325844.0,
      "step": 3120
    },
    {
      "epoch": 2.00256,
      "grad_norm": 0.7532423548597259,
      "learning_rate": 1.3163712480483255e-06,
      "loss": 1.0248,
      "num_tokens": 377473897.0,
      "step": 3130
    },
    {
      "epoch": 2.00896,
      "grad_norm": 0.7586660186977321,
      "learning_rate": 1.3011886506108578e-06,
      "loss": 1.0107,
      "num_tokens": 378675832.0,
      "step": 3140
    },
    {
      "epoch": 2.01536,
      "grad_norm": 0.7958518507428463,
      "learning_rate": 1.2860632547438334e-06,
      "loss": 1.0029,
      "num_tokens": 379872472.0,
      "step": 3150
    },
    {
      "epoch": 2.02176,
      "grad_norm": 0.8017956552207596,
      "learning_rate": 1.2709957821591384e-06,
      "loss": 1.0188,
      "num_tokens": 381071848.0,
      "step": 3160
    },
    {
      "epoch": 2.02816,
      "grad_norm": 0.8260326835110341,
      "learning_rate": 1.2559869518048307e-06,
      "loss": 1.0134,
      "num_tokens": 382272368.0,
      "step": 3170
    },
    {
      "epoch": 2.03456,
      "grad_norm": 0.845928507883109,
      "learning_rate": 1.2410374798308442e-06,
      "loss": 1.0107,
      "num_tokens": 383480338.0,
      "step": 3180
    },
    {
      "epoch": 2.04096,
      "grad_norm": 0.8513825857009242,
      "learning_rate": 1.2261480795548123e-06,
      "loss": 1.0099,
      "num_tokens": 384683907.0,
      "step": 3190
    },
    {
      "epoch": 2.04736,
      "grad_norm": 0.7711891823020852,
      "learning_rate": 1.211319461428032e-06,
      "loss": 1.0139,
      "num_tokens": 385889491.0,
      "step": 3200
    },
    {
      "epoch": 2.05376,
      "grad_norm": 0.7769167344105451,
      "learning_rate": 1.1965523330015652e-06,
      "loss": 1.0092,
      "num_tokens": 387095853.0,
      "step": 3210
    },
    {
      "epoch": 2.06016,
      "grad_norm": 0.7922783527359497,
      "learning_rate": 1.1818473988924797e-06,
      "loss": 1.0199,
      "num_tokens": 388306034.0,
      "step": 3220
    },
    {
      "epoch": 2.06656,
      "grad_norm": 0.8009332691587518,
      "learning_rate": 1.167205360750227e-06,
      "loss": 1.0185,
      "num_tokens": 389516647.0,
      "step": 3230
    },
    {
      "epoch": 2.07296,
      "grad_norm": 0.7591186989087252,
      "learning_rate": 1.1526269172231594e-06,
      "loss": 0.995,
      "num_tokens": 390724121.0,
      "step": 3240
    },
    {
      "epoch": 2.07936,
      "grad_norm": 0.8055729406106343,
      "learning_rate": 1.1381127639252005e-06,
      "loss": 1.0109,
      "num_tokens": 391924857.0,
      "step": 3250
    },
    {
      "epoch": 2.08576,
      "grad_norm": 0.7920326568899239,
      "learning_rate": 1.1236635934026474e-06,
      "loss": 0.9928,
      "num_tokens": 393133226.0,
      "step": 3260
    },
    {
      "epoch": 2.09216,
      "grad_norm": 0.8095321364071963,
      "learning_rate": 1.1092800951011283e-06,
      "loss": 1.0066,
      "num_tokens": 394338791.0,
      "step": 3270
    },
    {
      "epoch": 2.09856,
      "grad_norm": 0.7790939177959936,
      "learning_rate": 1.0949629553327106e-06,
      "loss": 1.0144,
      "num_tokens": 395544646.0,
      "step": 3280
    },
    {
      "epoch": 2.10496,
      "grad_norm": 0.9934552993460479,
      "learning_rate": 1.080712857243143e-06,
      "loss": 1.0004,
      "num_tokens": 396744920.0,
      "step": 3290
    },
    {
      "epoch": 2.11136,
      "grad_norm": 0.7949729572040324,
      "learning_rate": 1.0665304807792653e-06,
      "loss": 1.009,
      "num_tokens": 397964288.0,
      "step": 3300
    },
    {
      "epoch": 2.11776,
      "grad_norm": 0.7652291996158113,
      "learning_rate": 1.0524165026565655e-06,
      "loss": 1.007,
      "num_tokens": 399168969.0,
      "step": 3310
    },
    {
      "epoch": 2.12416,
      "grad_norm": 0.7761816653258836,
      "learning_rate": 1.0383715963268884e-06,
      "loss": 0.994,
      "num_tokens": 400373422.0,
      "step": 3320
    },
    {
      "epoch": 2.13056,
      "grad_norm": 0.8018173213180155,
      "learning_rate": 1.0243964319462997e-06,
      "loss": 1.0134,
      "num_tokens": 401577043.0,
      "step": 3330
    },
    {
      "epoch": 2.13696,
      "grad_norm": 0.7607821844421783,
      "learning_rate": 1.0104916763431133e-06,
      "loss": 1.0187,
      "num_tokens": 402777527.0,
      "step": 3340
    },
    {
      "epoch": 2.14336,
      "grad_norm": 0.8327193810047873,
      "learning_rate": 9.966579929860704e-07,
      "loss": 1.0249,
      "num_tokens": 403989663.0,
      "step": 3350
    },
    {
      "epoch": 2.14976,
      "grad_norm": 0.7706122440471653,
      "learning_rate": 9.828960419526818e-07,
      "loss": 1.0085,
      "num_tokens": 405198202.0,
      "step": 3360
    },
    {
      "epoch": 2.15616,
      "grad_norm": 0.7867703490032154,
      "learning_rate": 9.69206479897736e-07,
      "loss": 1.0197,
      "num_tokens": 406403598.0,
      "step": 3370
    },
    {
      "epoch": 2.16256,
      "grad_norm": 0.8249023880860281,
      "learning_rate": 9.555899600219634e-07,
      "loss": 1.0274,
      "num_tokens": 407600213.0,
      "step": 3380
    },
    {
      "epoch": 2.16896,
      "grad_norm": 0.7855210183667297,
      "learning_rate": 9.420471320408669e-07,
      "loss": 1.0127,
      "num_tokens": 408811259.0,
      "step": 3390
    },
    {
      "epoch": 2.17536,
      "grad_norm": 0.8119007655119803,
      "learning_rate": 9.28578642153726e-07,
      "loss": 1.0021,
      "num_tokens": 410014132.0,
      "step": 3400
    },
    {
      "epoch": 2.18176,
      "grad_norm": 0.9205406972397864,
      "learning_rate": 9.151851330127593e-07,
      "loss": 1.0126,
      "num_tokens": 411220727.0,
      "step": 3410
    },
    {
      "epoch": 2.18816,
      "grad_norm": 0.8056010049273263,
      "learning_rate": 9.018672436924605e-07,
      "loss": 0.9892,
      "num_tokens": 412425755.0,
      "step": 3420
    },
    {
      "epoch": 2.19456,
      "grad_norm": 0.7632161903493846,
      "learning_rate": 8.886256096591048e-07,
      "loss": 1.019,
      "num_tokens": 413631347.0,
      "step": 3430
    },
    {
      "epoch": 2.20096,
      "grad_norm": 0.7669268826101938,
      "learning_rate": 8.754608627404307e-07,
      "loss": 1.0048,
      "num_tokens": 414833259.0,
      "step": 3440
    },
    {
      "epoch": 2.20736,
      "grad_norm": 0.8361832533605145,
      "learning_rate": 8.623736310954869e-07,
      "loss": 1.0221,
      "num_tokens": 416040472.0,
      "step": 3450
    },
    {
      "epoch": 2.21376,
      "grad_norm": 0.7814096537064951,
      "learning_rate": 8.493645391846642e-07,
      "loss": 1.0037,
      "num_tokens": 417245756.0,
      "step": 3460
    },
    {
      "epoch": 2.22016,
      "grad_norm": 0.7933425120808404,
      "learning_rate": 8.364342077398971e-07,
      "loss": 0.9987,
      "num_tokens": 418455436.0,
      "step": 3470
    },
    {
      "epoch": 2.22656,
      "grad_norm": 0.7659925077465827,
      "learning_rate": 8.235832537350441e-07,
      "loss": 0.993,
      "num_tokens": 419667134.0,
      "step": 3480
    },
    {
      "epoch": 2.23296,
      "grad_norm": 0.8187051274632632,
      "learning_rate": 8.108122903564502e-07,
      "loss": 1.0028,
      "num_tokens": 420870725.0,
      "step": 3490
    },
    {
      "epoch": 2.23936,
      "grad_norm": 0.7595169446678035,
      "learning_rate": 7.98121926973692e-07,
      "loss": 1.0124,
      "num_tokens": 422076634.0,
      "step": 3500
    },
    {
      "epoch": 2.24576,
      "grad_norm": 0.8064753048978947,
      "learning_rate": 7.855127691104944e-07,
      "loss": 1.024,
      "num_tokens": 423284867.0,
      "step": 3510
    },
    {
      "epoch": 2.25216,
      "grad_norm": 0.809858814713402,
      "learning_rate": 7.729854184158411e-07,
      "loss": 1.0174,
      "num_tokens": 424493379.0,
      "step": 3520
    },
    {
      "epoch": 2.25856,
      "grad_norm": 0.7957945935555317,
      "learning_rate": 7.605404726352708e-07,
      "loss": 1.0149,
      "num_tokens": 425697729.0,
      "step": 3530
    },
    {
      "epoch": 2.26496,
      "grad_norm": 0.8194656210162423,
      "learning_rate": 7.481785255823482e-07,
      "loss": 0.9972,
      "num_tokens": 426893908.0,
      "step": 3540
    },
    {
      "epoch": 2.27136,
      "grad_norm": 0.7967423955163617,
      "learning_rate": 7.359001671103361e-07,
      "loss": 1.0106,
      "num_tokens": 428092842.0,
      "step": 3550
    },
    {
      "epoch": 2.27776,
      "grad_norm": 0.7881164663338793,
      "learning_rate": 7.237059830840482e-07,
      "loss": 1.0066,
      "num_tokens": 429286773.0,
      "step": 3560
    },
    {
      "epoch": 2.28416,
      "grad_norm": 0.7903923247778172,
      "learning_rate": 7.11596555351893e-07,
      "loss": 1.0111,
      "num_tokens": 430493341.0,
      "step": 3570
    },
    {
      "epoch": 2.29056,
      "grad_norm": 0.770776011448775,
      "learning_rate": 6.995724617181124e-07,
      "loss": 0.9923,
      "num_tokens": 431693370.0,
      "step": 3580
    },
    {
      "epoch": 2.29696,
      "grad_norm": 0.7817336774071154,
      "learning_rate": 6.876342759152121e-07,
      "loss": 1.0162,
      "num_tokens": 432901215.0,
      "step": 3590
    },
    {
      "epoch": 2.30336,
      "grad_norm": 0.7799297164560258,
      "learning_rate": 6.757825675765862e-07,
      "loss": 1.0089,
      "num_tokens": 434107776.0,
      "step": 3600
    },
    {
      "epoch": 2.30976,
      "grad_norm": 0.8399066019292479,
      "learning_rate": 6.640179022093324e-07,
      "loss": 1.0104,
      "num_tokens": 435311152.0,
      "step": 3610
    },
    {
      "epoch": 2.31616,
      "grad_norm": 0.8297592147597433,
      "learning_rate": 6.52340841167276e-07,
      "loss": 1.0114,
      "num_tokens": 436513739.0,
      "step": 3620
    },
    {
      "epoch": 2.32256,
      "grad_norm": 0.7719279126860086,
      "learning_rate": 6.407519416241779e-07,
      "loss": 1.0065,
      "num_tokens": 437726898.0,
      "step": 3630
    },
    {
      "epoch": 2.32896,
      "grad_norm": 0.8045844362641281,
      "learning_rate": 6.292517565471548e-07,
      "loss": 1.0097,
      "num_tokens": 438931660.0,
      "step": 3640
    },
    {
      "epoch": 2.33536,
      "grad_norm": 0.7982553698914577,
      "learning_rate": 6.178408346702882e-07,
      "loss": 1.0082,
      "num_tokens": 440137185.0,
      "step": 3650
    },
    {
      "epoch": 2.34176,
      "grad_norm": 0.7908405728187465,
      "learning_rate": 6.065197204684484e-07,
      "loss": 1.0148,
      "num_tokens": 441339870.0,
      "step": 3660
    },
    {
      "epoch": 2.34816,
      "grad_norm": 0.7738211794516375,
      "learning_rate": 5.95288954131307e-07,
      "loss": 1.015,
      "num_tokens": 442548750.0,
      "step": 3670
    },
    {
      "epoch": 2.35456,
      "grad_norm": 0.7925014240523639,
      "learning_rate": 5.841490715375689e-07,
      "loss": 1.0146,
      "num_tokens": 443760356.0,
      "step": 3680
    },
    {
      "epoch": 2.36096,
      "grad_norm": 0.7744344940621614,
      "learning_rate": 5.731006042293983e-07,
      "loss": 1.0195,
      "num_tokens": 444963192.0,
      "step": 3690
    },
    {
      "epoch": 2.36736,
      "grad_norm": 0.809967543772837,
      "learning_rate": 5.621440793870564e-07,
      "loss": 1.0138,
      "num_tokens": 446161734.0,
      "step": 3700
    },
    {
      "epoch": 2.37376,
      "grad_norm": 0.7634003235889771,
      "learning_rate": 5.512800198037477e-07,
      "loss": 1.0092,
      "num_tokens": 447367385.0,
      "step": 3710
    },
    {
      "epoch": 2.38016,
      "grad_norm": 0.7694302990943018,
      "learning_rate": 5.405089438606759e-07,
      "loss": 1.0183,
      "num_tokens": 448574222.0,
      "step": 3720
    },
    {
      "epoch": 2.3865600000000002,
      "grad_norm": 0.7964969360810369,
      "learning_rate": 5.298313655023083e-07,
      "loss": 1.0146,
      "num_tokens": 449787465.0,
      "step": 3730
    },
    {
      "epoch": 2.39296,
      "grad_norm": 0.7826022145337301,
      "learning_rate": 5.192477942118501e-07,
      "loss": 1.0059,
      "num_tokens": 450993609.0,
      "step": 3740
    },
    {
      "epoch": 2.39936,
      "grad_norm": 0.7939322826576104,
      "learning_rate": 5.087587349869396e-07,
      "loss": 1.016,
      "num_tokens": 452203974.0,
      "step": 3750
    },
    {
      "epoch": 2.40576,
      "grad_norm": 0.7880956603422961,
      "learning_rate": 4.983646883155479e-07,
      "loss": 0.9871,
      "num_tokens": 453406872.0,
      "step": 3760
    },
    {
      "epoch": 2.41216,
      "grad_norm": 0.7870741062813569,
      "learning_rate": 4.880661501520977e-07,
      "loss": 1.0146,
      "num_tokens": 454612112.0,
      "step": 3770
    },
    {
      "epoch": 2.41856,
      "grad_norm": 0.7757670556350029,
      "learning_rate": 4.778636118938052e-07,
      "loss": 1.0043,
      "num_tokens": 455821550.0,
      "step": 3780
    },
    {
      "epoch": 2.42496,
      "grad_norm": 0.764980277323769,
      "learning_rate": 4.677575603572235e-07,
      "loss": 1.0037,
      "num_tokens": 457034119.0,
      "step": 3790
    },
    {
      "epoch": 2.43136,
      "grad_norm": 0.7689487131773513,
      "learning_rate": 4.5774847775501977e-07,
      "loss": 1.0215,
      "num_tokens": 458243443.0,
      "step": 3800
    },
    {
      "epoch": 2.43776,
      "grad_norm": 0.7835819207262276,
      "learning_rate": 4.4783684167296645e-07,
      "loss": 1.0107,
      "num_tokens": 459449656.0,
      "step": 3810
    },
    {
      "epoch": 2.44416,
      "grad_norm": 0.7439227301838608,
      "learning_rate": 4.38023125047152e-07,
      "loss": 1.0163,
      "num_tokens": 460660657.0,
      "step": 3820
    },
    {
      "epoch": 2.45056,
      "grad_norm": 0.8141456247124772,
      "learning_rate": 4.283077961414125e-07,
      "loss": 1.0073,
      "num_tokens": 461868305.0,
      "step": 3830
    },
    {
      "epoch": 2.45696,
      "grad_norm": 0.7873824030524625,
      "learning_rate": 4.186913185249936e-07,
      "loss": 1.0161,
      "num_tokens": 463067022.0,
      "step": 3840
    },
    {
      "epoch": 2.4633599999999998,
      "grad_norm": 0.7651257037667265,
      "learning_rate": 4.091741510504249e-07,
      "loss": 1.0054,
      "num_tokens": 464277276.0,
      "step": 3850
    },
    {
      "epoch": 2.46976,
      "grad_norm": 0.7817592356120844,
      "learning_rate": 3.9975674783163e-07,
      "loss": 1.0131,
      "num_tokens": 465486770.0,
      "step": 3860
    },
    {
      "epoch": 2.47616,
      "grad_norm": 0.7600628098450863,
      "learning_rate": 3.904395582222578e-07,
      "loss": 1.0,
      "num_tokens": 466688564.0,
      "step": 3870
    },
    {
      "epoch": 2.48256,
      "grad_norm": 0.7452814104047683,
      "learning_rate": 3.81223026794241e-07,
      "loss": 0.9948,
      "num_tokens": 467893407.0,
      "step": 3880
    },
    {
      "epoch": 2.48896,
      "grad_norm": 0.7886078128816824,
      "learning_rate": 3.721075933165816e-07,
      "loss": 1.0255,
      "num_tokens": 469103315.0,
      "step": 3890
    },
    {
      "epoch": 2.49536,
      "grad_norm": 0.7883279810476201,
      "learning_rate": 3.630936927343695e-07,
      "loss": 0.9955,
      "num_tokens": 470304536.0,
      "step": 3900
    },
    {
      "epoch": 2.50176,
      "grad_norm": 0.7870530493997763,
      "learning_rate": 3.541817551480292e-07,
      "loss": 1.0106,
      "num_tokens": 471516225.0,
      "step": 3910
    },
    {
      "epoch": 2.50816,
      "grad_norm": 0.7913988775198784,
      "learning_rate": 3.4537220579279497e-07,
      "loss": 1.0123,
      "num_tokens": 472723848.0,
      "step": 3920
    },
    {
      "epoch": 2.51456,
      "grad_norm": 0.788228042670068,
      "learning_rate": 3.366654650184217e-07,
      "loss": 1.0076,
      "num_tokens": 473927605.0,
      "step": 3930
    },
    {
      "epoch": 2.52096,
      "grad_norm": 0.7671091431259203,
      "learning_rate": 3.2806194826913107e-07,
      "loss": 1.0054,
      "num_tokens": 475130341.0,
      "step": 3940
    },
    {
      "epoch": 2.52736,
      "grad_norm": 0.7769242999032523,
      "learning_rate": 3.1956206606378186e-07,
      "loss": 1.0137,
      "num_tokens": 476337471.0,
      "step": 3950
    },
    {
      "epoch": 2.53376,
      "grad_norm": 0.7761725619806417,
      "learning_rate": 3.1116622397628886e-07,
      "loss": 1.0139,
      "num_tokens": 477546278.0,
      "step": 3960
    },
    {
      "epoch": 2.54016,
      "grad_norm": 0.8119517968358277,
      "learning_rate": 3.0287482261626727e-07,
      "loss": 1.0112,
      "num_tokens": 478748834.0,
      "step": 3970
    },
    {
      "epoch": 2.54656,
      "grad_norm": 0.7768387486408453,
      "learning_rate": 2.946882576099164e-07,
      "loss": 1.0176,
      "num_tokens": 479951666.0,
      "step": 3980
    },
    {
      "epoch": 2.55296,
      "grad_norm": 0.8059661577502851,
      "learning_rate": 2.8660691958114384e-07,
      "loss": 1.0192,
      "num_tokens": 481155740.0,
      "step": 3990
    },
    {
      "epoch": 2.55936,
      "grad_norm": 0.7923218074076707,
      "learning_rate": 2.786311941329298e-07,
      "loss": 1.0228,
      "num_tokens": 482362569.0,
      "step": 4000
    },
    {
      "epoch": 2.56576,
      "grad_norm": 0.7737100130087119,
      "learning_rate": 2.70761461828922e-07,
      "loss": 1.0117,
      "num_tokens": 483577083.0,
      "step": 4010
    },
    {
      "epoch": 2.5721600000000002,
      "grad_norm": 0.8198263737858525,
      "learning_rate": 2.629980981752803e-07,
      "loss": 1.0027,
      "num_tokens": 484785169.0,
      "step": 4020
    },
    {
      "epoch": 2.57856,
      "grad_norm": 0.7800117950292567,
      "learning_rate": 2.5534147360276014e-07,
      "loss": 1.0061,
      "num_tokens": 485992637.0,
      "step": 4030
    },
    {
      "epoch": 2.58496,
      "grad_norm": 0.7806994703813391,
      "learning_rate": 2.4779195344903447e-07,
      "loss": 1.0067,
      "num_tokens": 487200371.0,
      "step": 4040
    },
    {
      "epoch": 2.59136,
      "grad_norm": 0.7967832568550222,
      "learning_rate": 2.4034989794126494e-07,
      "loss": 1.005,
      "num_tokens": 488411438.0,
      "step": 4050
    },
    {
      "epoch": 2.59776,
      "grad_norm": 0.7613054637393943,
      "learning_rate": 2.3301566217891148e-07,
      "loss": 1.0057,
      "num_tokens": 489619089.0,
      "step": 4060
    },
    {
      "epoch": 2.6041600000000003,
      "grad_norm": 0.8097260832659626,
      "learning_rate": 2.257895961167886e-07,
      "loss": 1.0115,
      "num_tokens": 490822004.0,
      "step": 4070
    },
    {
      "epoch": 2.61056,
      "grad_norm": 0.7724807002861569,
      "learning_rate": 2.18672044548367e-07,
      "loss": 1.013,
      "num_tokens": 492031022.0,
      "step": 4080
    },
    {
      "epoch": 2.6169599999999997,
      "grad_norm": 0.769701738678788,
      "learning_rate": 2.1166334708932367e-07,
      "loss": 1.0097,
      "num_tokens": 493240890.0,
      "step": 4090
    },
    {
      "epoch": 2.62336,
      "grad_norm": 0.76114972582814,
      "learning_rate": 2.0476383816133594e-07,
      "loss": 1.0042,
      "num_tokens": 494453799.0,
      "step": 4100
    },
    {
      "epoch": 2.62976,
      "grad_norm": 0.8083057947332605,
      "learning_rate": 1.9797384697612277e-07,
      "loss": 1.0044,
      "num_tokens": 495667359.0,
      "step": 4110
    },
    {
      "epoch": 2.63616,
      "grad_norm": 0.7707158865091736,
      "learning_rate": 1.912936975197388e-07,
      "loss": 1.0073,
      "num_tokens": 496881814.0,
      "step": 4120
    },
    {
      "epoch": 2.64256,
      "grad_norm": 0.7676478517895791,
      "learning_rate": 1.8472370853711397e-07,
      "loss": 1.0187,
      "num_tokens": 498083665.0,
      "step": 4130
    },
    {
      "epoch": 2.6489599999999998,
      "grad_norm": 0.7728314364028435,
      "learning_rate": 1.7826419351684553e-07,
      "loss": 0.996,
      "num_tokens": 499285193.0,
      "step": 4140
    },
    {
      "epoch": 2.65536,
      "grad_norm": 0.7787493559807903,
      "learning_rate": 1.7191546067623772e-07,
      "loss": 0.9928,
      "num_tokens": 500495522.0,
      "step": 4150
    },
    {
      "epoch": 2.66176,
      "grad_norm": 0.7740957124528121,
      "learning_rate": 1.656778129465983e-07,
      "loss": 0.9942,
      "num_tokens": 501704772.0,
      "step": 4160
    },
    {
      "epoch": 2.66816,
      "grad_norm": 0.7834164164129861,
      "learning_rate": 1.5955154795878086e-07,
      "loss": 1.0018,
      "num_tokens": 502908159.0,
      "step": 4170
    },
    {
      "epoch": 2.67456,
      "grad_norm": 0.7690261436250733,
      "learning_rate": 1.5353695802898556e-07,
      "loss": 0.9966,
      "num_tokens": 504119578.0,
      "step": 4180
    },
    {
      "epoch": 2.68096,
      "grad_norm": 0.7500003508328252,
      "learning_rate": 1.4763433014481105e-07,
      "loss": 1.0175,
      "num_tokens": 505329761.0,
      "step": 4190
    },
    {
      "epoch": 2.68736,
      "grad_norm": 0.7619674427912766,
      "learning_rate": 1.4184394595155887e-07,
      "loss": 1.0084,
      "num_tokens": 506541089.0,
      "step": 4200
    },
    {
      "epoch": 2.69376,
      "grad_norm": 0.7905928509034632,
      "learning_rate": 1.3616608173879636e-07,
      "loss": 1.0077,
      "num_tokens": 507747398.0,
      "step": 4210
    },
    {
      "epoch": 2.70016,
      "grad_norm": 0.7768455409603942,
      "learning_rate": 1.3060100842717388e-07,
      "loss": 1.0211,
      "num_tokens": 508948926.0,
      "step": 4220
    },
    {
      "epoch": 2.70656,
      "grad_norm": 0.7650832573151034,
      "learning_rate": 1.2514899155549625e-07,
      "loss": 1.0033,
      "num_tokens": 510157051.0,
      "step": 4230
    },
    {
      "epoch": 2.71296,
      "grad_norm": 0.7847880941915708,
      "learning_rate": 1.1981029126805293e-07,
      "loss": 1.0025,
      "num_tokens": 511359623.0,
      "step": 4240
    },
    {
      "epoch": 2.71936,
      "grad_norm": 0.8047407028430222,
      "learning_rate": 1.1458516230220651e-07,
      "loss": 1.0056,
      "num_tokens": 512562364.0,
      "step": 4250
    },
    {
      "epoch": 2.72576,
      "grad_norm": 0.7894872635799464,
      "learning_rate": 1.0947385397623522e-07,
      "loss": 1.0062,
      "num_tokens": 513767195.0,
      "step": 4260
    },
    {
      "epoch": 2.73216,
      "grad_norm": 0.7754271372790722,
      "learning_rate": 1.0447661017743971e-07,
      "loss": 0.997,
      "num_tokens": 514974517.0,
      "step": 4270
    },
    {
      "epoch": 2.73856,
      "grad_norm": 0.7746425365371328,
      "learning_rate": 9.959366935050397e-08,
      "loss": 0.9987,
      "num_tokens": 516179935.0,
      "step": 4280
    },
    {
      "epoch": 2.74496,
      "grad_norm": 0.7523512554064233,
      "learning_rate": 9.482526448611807e-08,
      "loss": 1.0042,
      "num_tokens": 517387907.0,
      "step": 4290
    },
    {
      "epoch": 2.75136,
      "grad_norm": 0.7805940920378595,
      "learning_rate": 9.017162310986067e-08,
      "loss": 1.002,
      "num_tokens": 518595813.0,
      "step": 4300
    },
    {
      "epoch": 2.75776,
      "grad_norm": 0.8110259911998368,
      "learning_rate": 8.563296727134435e-08,
      "loss": 1.0066,
      "num_tokens": 519800375.0,
      "step": 4310
    },
    {
      "epoch": 2.76416,
      "grad_norm": 0.772256949618178,
      "learning_rate": 8.120951353361884e-08,
      "loss": 1.0045,
      "num_tokens": 521008297.0,
      "step": 4320
    },
    {
      "epoch": 2.77056,
      "grad_norm": 0.7629770251408482,
      "learning_rate": 7.690147296283757e-08,
      "loss": 1.0007,
      "num_tokens": 522217337.0,
      "step": 4330
    },
    {
      "epoch": 2.77696,
      "grad_norm": 0.750000751925906,
      "learning_rate": 7.270905111818744e-08,
      "loss": 1.0044,
      "num_tokens": 523427534.0,
      "step": 4340
    },
    {
      "epoch": 2.78336,
      "grad_norm": 0.7695523347419888,
      "learning_rate": 6.863244804208053e-08,
      "loss": 1.0185,
      "num_tokens": 524629610.0,
      "step": 4350
    },
    {
      "epoch": 2.7897600000000002,
      "grad_norm": 0.7594496702512009,
      "learning_rate": 6.467185825060728e-08,
      "loss": 1.0132,
      "num_tokens": 525838628.0,
      "step": 4360
    },
    {
      "epoch": 2.79616,
      "grad_norm": 0.774231464389687,
      "learning_rate": 6.082747072425844e-08,
      "loss": 0.9923,
      "num_tokens": 527047256.0,
      "step": 4370
    },
    {
      "epoch": 2.80256,
      "grad_norm": 0.7878028776389799,
      "learning_rate": 5.709946889890461e-08,
      "loss": 0.9989,
      "num_tokens": 528251412.0,
      "step": 4380
    },
    {
      "epoch": 2.80896,
      "grad_norm": 0.7680845271371904,
      "learning_rate": 5.348803065704483e-08,
      "loss": 0.9971,
      "num_tokens": 529460583.0,
      "step": 4390
    },
    {
      "epoch": 2.81536,
      "grad_norm": 0.7710477876974481,
      "learning_rate": 4.999332831931936e-08,
      "loss": 1.0097,
      "num_tokens": 530666949.0,
      "step": 4400
    },
    {
      "epoch": 2.8217600000000003,
      "grad_norm": 0.7641864260094089,
      "learning_rate": 4.6615528636286545e-08,
      "loss": 1.0083,
      "num_tokens": 531877350.0,
      "step": 4410
    },
    {
      "epoch": 2.82816,
      "grad_norm": 0.7798848074760067,
      "learning_rate": 4.3354792780467004e-08,
      "loss": 1.0145,
      "num_tokens": 533089968.0,
      "step": 4420
    },
    {
      "epoch": 2.8345599999999997,
      "grad_norm": 0.7987639919755114,
      "learning_rate": 4.021127633865196e-08,
      "loss": 1.0061,
      "num_tokens": 534295222.0,
      "step": 4430
    },
    {
      "epoch": 2.84096,
      "grad_norm": 0.7471470388574258,
      "learning_rate": 3.718512930448115e-08,
      "loss": 0.9897,
      "num_tokens": 535501172.0,
      "step": 4440
    },
    {
      "epoch": 2.84736,
      "grad_norm": 0.7784643844597081,
      "learning_rate": 3.4276496071284084e-08,
      "loss": 1.0126,
      "num_tokens": 536697925.0,
      "step": 4450
    },
    {
      "epoch": 2.85376,
      "grad_norm": 0.7972370799678196,
      "learning_rate": 3.148551542519196e-08,
      "loss": 1.0051,
      "num_tokens": 537893496.0,
      "step": 4460
    },
    {
      "epoch": 2.86016,
      "grad_norm": 0.7691284457736113,
      "learning_rate": 2.8812320538514348e-08,
      "loss": 1.0098,
      "num_tokens": 539102796.0,
      "step": 4470
    },
    {
      "epoch": 2.8665599999999998,
      "grad_norm": 0.7982125519739797,
      "learning_rate": 2.6257038963385106e-08,
      "loss": 1.0136,
      "num_tokens": 540316296.0,
      "step": 4480
    },
    {
      "epoch": 2.87296,
      "grad_norm": 0.7728520058232545,
      "learning_rate": 2.3819792625675297e-08,
      "loss": 1.0149,
      "num_tokens": 541533670.0,
      "step": 4490
    },
    {
      "epoch": 2.87936,
      "grad_norm": 0.7681197599600511,
      "learning_rate": 2.1500697819178406e-08,
      "loss": 1.0027,
      "num_tokens": 542738043.0,
      "step": 4500
    },
    {
      "epoch": 2.88576,
      "grad_norm": 0.7510549175746628,
      "learning_rate": 1.9299865200057556e-08,
      "loss": 1.0059,
      "num_tokens": 543947829.0,
      "step": 4510
    },
    {
      "epoch": 2.89216,
      "grad_norm": 0.766881311747473,
      "learning_rate": 1.721739978156778e-08,
      "loss": 1.0051,
      "num_tokens": 545163765.0,
      "step": 4520
    },
    {
      "epoch": 2.89856,
      "grad_norm": 0.8067610998392601,
      "learning_rate": 1.5253400929045036e-08,
      "loss": 0.9998,
      "num_tokens": 546371420.0,
      "step": 4530
    },
    {
      "epoch": 2.90496,
      "grad_norm": 0.7674069412891232,
      "learning_rate": 1.3407962355164728e-08,
      "loss": 1.0164,
      "num_tokens": 547577921.0,
      "step": 4540
    },
    {
      "epoch": 2.91136,
      "grad_norm": 0.775004069541473,
      "learning_rate": 1.1681172115469986e-08,
      "loss": 1.0034,
      "num_tokens": 548783680.0,
      "step": 4550
    },
    {
      "epoch": 2.91776,
      "grad_norm": 0.7833232261400477,
      "learning_rate": 1.007311260417032e-08,
      "loss": 0.9956,
      "num_tokens": 549988634.0,
      "step": 4560
    },
    {
      "epoch": 2.92416,
      "grad_norm": 0.7826676344415344,
      "learning_rate": 8.583860550210043e-09,
      "loss": 1.0098,
      "num_tokens": 551189799.0,
      "step": 4570
    },
    {
      "epoch": 2.93056,
      "grad_norm": 0.744986247926951,
      "learning_rate": 7.213487013607856e-09,
      "loss": 1.0035,
      "num_tokens": 552397598.0,
      "step": 4580
    },
    {
      "epoch": 2.93696,
      "grad_norm": 0.7521106648563647,
      "learning_rate": 5.96205738206429e-09,
      "loss": 1.0043,
      "num_tokens": 553610771.0,
      "step": 4590
    },
    {
      "epoch": 2.94336,
      "grad_norm": 0.8150061917429959,
      "learning_rate": 4.829631367844201e-09,
      "loss": 1.0,
      "num_tokens": 554824637.0,
      "step": 4600
    },
    {
      "epoch": 2.94976,
      "grad_norm": 0.772723595238506,
      "learning_rate": 3.816263004925991e-09,
      "loss": 1.0082,
      "num_tokens": 556030923.0,
      "step": 4610
    },
    {
      "epoch": 2.95616,
      "grad_norm": 0.768451723737756,
      "learning_rate": 2.922000646423118e-09,
      "loss": 0.9922,
      "num_tokens": 557231653.0,
      "step": 4620
    },
    {
      "epoch": 2.96256,
      "grad_norm": 0.7993486350591127,
      "learning_rate": 2.1468869622781608e-09,
      "loss": 1.0019,
      "num_tokens": 558442813.0,
      "step": 4630
    },
    {
      "epoch": 2.96896,
      "grad_norm": 1.1239957345324176,
      "learning_rate": 1.4909589372266719e-09,
      "loss": 1.001,
      "num_tokens": 559650373.0,
      "step": 4640
    },
    {
      "epoch": 2.9753600000000002,
      "grad_norm": 0.7957668006721109,
      "learning_rate": 9.542478690305335e-10,
      "loss": 1.0067,
      "num_tokens": 560855666.0,
      "step": 4650
    },
    {
      "epoch": 2.98176,
      "grad_norm": 0.8079239433679425,
      "learning_rate": 5.367793669874832e-10,
      "loss": 0.9969,
      "num_tokens": 562060878.0,
      "step": 4660
    },
    {
      "epoch": 2.98816,
      "grad_norm": 0.7720639449232606,
      "learning_rate": 2.385733507062615e-10,
      "loss": 1.0052,
      "num_tokens": 563260411.0,
      "step": 4670
    },
    {
      "epoch": 2.99456,
      "grad_norm": 0.7561377897632978,
      "learning_rate": 5.964404915903555e-11,
      "loss": 0.9991,
      "num_tokens": 564468049.0,
      "step": 4680
    },
    {
      "epoch": 3.0,
      "num_tokens": 565489014.0,
      "step": 4689,
      "total_flos": 722584728633344.0,
      "train_loss": 1.0774097926684294,
      "train_runtime": 15585.9875,
      "train_samples_per_second": 19.248,
      "train_steps_per_second": 0.301
    }
  ],
  "logging_steps": 10,
  "max_steps": 4689,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 3,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": false,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 722584728633344.0,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}