{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.0046453183320519995,
  "eval_steps": 2000,
  "global_step": 2000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 2.3226591660259998e-05,
      "grad_norm": 0.43654176592826843,
      "learning_rate": 0.0009999930320225019,
      "loss": 1.0703,
      "step": 10
    },
    {
      "epoch": 4.6453183320519996e-05,
      "grad_norm": 0.29478368163108826,
      "learning_rate": 0.0009999852898252817,
      "loss": 1.1726,
      "step": 20
    },
    {
      "epoch": 6.967977498078e-05,
      "grad_norm": 0.30410653352737427,
      "learning_rate": 0.0009999775476280618,
      "loss": 1.106,
      "step": 30
    },
    {
      "epoch": 9.290636664103999e-05,
      "grad_norm": 0.3648824989795685,
      "learning_rate": 0.0009999698054308417,
      "loss": 1.1939,
      "step": 40
    },
    {
      "epoch": 0.00011613295830129999,
      "grad_norm": 0.430895060300827,
      "learning_rate": 0.0009999620632336215,
      "loss": 1.2002,
      "step": 50
    },
    {
      "epoch": 0.00013935954996156,
      "grad_norm": 0.3720713257789612,
      "learning_rate": 0.0009999543210364014,
      "loss": 1.0248,
      "step": 60
    },
    {
      "epoch": 0.00016258614162182,
      "grad_norm": 0.354899138212204,
      "learning_rate": 0.0009999465788391815,
      "loss": 1.1271,
      "step": 70
    },
    {
      "epoch": 0.00018581273328207998,
      "grad_norm": 0.35504820942878723,
      "learning_rate": 0.0009999388366419614,
      "loss": 1.1396,
      "step": 80
    },
    {
      "epoch": 0.00020903932494234,
      "grad_norm": 0.4521724581718445,
      "learning_rate": 0.0009999310944447412,
      "loss": 1.1032,
      "step": 90
    },
    {
      "epoch": 0.00023226591660259997,
      "grad_norm": 0.2742864787578583,
      "learning_rate": 0.000999923352247521,
      "loss": 1.1479,
      "step": 100
    },
    {
      "epoch": 0.00025549250826286,
      "grad_norm": 0.41575589776039124,
      "learning_rate": 0.0009999156100503012,
      "loss": 1.1837,
      "step": 110
    },
    {
      "epoch": 0.00027871909992312,
      "grad_norm": 0.27715566754341125,
      "learning_rate": 0.000999907867853081,
      "loss": 1.1597,
      "step": 120
    },
    {
      "epoch": 0.00030194569158338,
      "grad_norm": 0.4537408649921417,
      "learning_rate": 0.000999900125655861,
      "loss": 1.1183,
      "step": 130
    },
    {
      "epoch": 0.00032517228324364,
      "grad_norm": 0.2952319383621216,
      "learning_rate": 0.0009998923834586408,
      "loss": 1.1501,
      "step": 140
    },
    {
      "epoch": 0.00034839887490389996,
      "grad_norm": 0.38295623660087585,
      "learning_rate": 0.0009998846412614208,
      "loss": 1.1381,
      "step": 150
    },
    {
      "epoch": 0.00037162546656415997,
      "grad_norm": 0.3845287561416626,
      "learning_rate": 0.0009998768990642007,
      "loss": 1.0968,
      "step": 160
    },
    {
      "epoch": 0.00039485205822442,
      "grad_norm": 0.25896570086479187,
      "learning_rate": 0.0009998691568669806,
      "loss": 1.0684,
      "step": 170
    },
    {
      "epoch": 0.00041807864988468,
      "grad_norm": 0.2440153807401657,
      "learning_rate": 0.0009998614146697604,
      "loss": 1.1281,
      "step": 180
    },
    {
      "epoch": 0.00044130524154494,
      "grad_norm": 0.3060740530490875,
      "learning_rate": 0.0009998536724725403,
      "loss": 1.1285,
      "step": 190
    },
    {
      "epoch": 0.00046453183320519995,
      "grad_norm": 0.2703372538089752,
      "learning_rate": 0.0009998459302753204,
      "loss": 1.2085,
      "step": 200
    },
    {
      "epoch": 0.00048775842486545995,
      "grad_norm": 0.3993639647960663,
      "learning_rate": 0.0009998381880781003,
      "loss": 1.2365,
      "step": 210
    },
    {
      "epoch": 0.00051098501652572,
      "grad_norm": 0.41694164276123047,
      "learning_rate": 0.0009998304458808801,
      "loss": 1.161,
      "step": 220
    },
    {
      "epoch": 0.0005342116081859799,
      "grad_norm": 0.2720717191696167,
      "learning_rate": 0.00099982270368366,
      "loss": 1.0553,
      "step": 230
    },
    {
      "epoch": 0.00055743819984624,
      "grad_norm": 0.3238905072212219,
      "learning_rate": 0.0009998149614864399,
      "loss": 1.0825,
      "step": 240
    },
    {
      "epoch": 0.0005806647915064999,
      "grad_norm": 0.39301878213882446,
      "learning_rate": 0.00099980721928922,
      "loss": 1.1421,
      "step": 250
    },
    {
      "epoch": 0.00060389138316676,
      "grad_norm": 0.25302958488464355,
      "learning_rate": 0.0009997994770919998,
      "loss": 1.0533,
      "step": 260
    },
    {
      "epoch": 0.00062711797482702,
      "grad_norm": 0.29384830594062805,
      "learning_rate": 0.0009997917348947797,
      "loss": 1.1011,
      "step": 270
    },
    {
      "epoch": 0.00065034456648728,
      "grad_norm": 0.35217076539993286,
      "learning_rate": 0.0009997839926975595,
      "loss": 1.0289,
      "step": 280
    },
    {
      "epoch": 0.00067357115814754,
      "grad_norm": 0.3412124216556549,
      "learning_rate": 0.0009997762505003394,
      "loss": 1.0974,
      "step": 290
    },
    {
      "epoch": 0.0006967977498077999,
      "grad_norm": 0.2988780736923218,
      "learning_rate": 0.0009997685083031195,
      "loss": 1.1618,
      "step": 300
    },
    {
      "epoch": 0.00072002434146806,
      "grad_norm": 0.43221724033355713,
      "learning_rate": 0.0009997607661058994,
      "loss": 1.1023,
      "step": 310
    },
    {
      "epoch": 0.0007432509331283199,
      "grad_norm": 0.2644006013870239,
      "learning_rate": 0.0009997530239086792,
      "loss": 1.1548,
      "step": 320
    },
    {
      "epoch": 0.00076647752478858,
      "grad_norm": 0.2950528860092163,
      "learning_rate": 0.000999745281711459,
      "loss": 1.1203,
      "step": 330
    },
    {
      "epoch": 0.00078970411644884,
      "grad_norm": 0.20538517832756042,
      "learning_rate": 0.0009997375395142392,
      "loss": 1.0904,
      "step": 340
    },
    {
      "epoch": 0.0008129307081090999,
      "grad_norm": 0.3531719446182251,
      "learning_rate": 0.000999729797317019,
      "loss": 1.0951,
      "step": 350
    },
    {
      "epoch": 0.00083615729976936,
      "grad_norm": 0.3661258816719055,
      "learning_rate": 0.000999722055119799,
      "loss": 1.0885,
      "step": 360
    },
    {
      "epoch": 0.0008593838914296199,
      "grad_norm": 0.4355231523513794,
      "learning_rate": 0.0009997143129225788,
      "loss": 1.1301,
      "step": 370
    },
    {
      "epoch": 0.00088261048308988,
      "grad_norm": 0.3286990225315094,
      "learning_rate": 0.0009997065707253588,
      "loss": 1.0705,
      "step": 380
    },
    {
      "epoch": 0.0009058370747501399,
      "grad_norm": 0.31140822172164917,
      "learning_rate": 0.0009996988285281387,
      "loss": 1.1873,
      "step": 390
    },
    {
      "epoch": 0.0009290636664103999,
      "grad_norm": 0.2582302689552307,
      "learning_rate": 0.0009996910863309186,
      "loss": 1.1567,
      "step": 400
    },
    {
      "epoch": 0.00095229025807066,
      "grad_norm": 0.36799147725105286,
      "learning_rate": 0.0009996833441336984,
      "loss": 1.2273,
      "step": 410
    },
    {
      "epoch": 0.0009755168497309199,
      "grad_norm": 0.28618550300598145,
      "learning_rate": 0.0009996756019364785,
      "loss": 1.0851,
      "step": 420
    },
    {
      "epoch": 0.00099874344139118,
      "grad_norm": 0.3006650507450104,
      "learning_rate": 0.0009996678597392584,
      "loss": 1.0341,
      "step": 430
    },
    {
      "epoch": 0.00102197003305144,
      "grad_norm": 0.3651888072490692,
      "learning_rate": 0.0009996601175420383,
      "loss": 1.0212,
      "step": 440
    },
    {
      "epoch": 0.0010451966247116999,
      "grad_norm": 0.32596904039382935,
      "learning_rate": 0.0009996523753448181,
      "loss": 1.0919,
      "step": 450
    },
    {
      "epoch": 0.0010684232163719598,
      "grad_norm": 0.30658453702926636,
      "learning_rate": 0.000999644633147598,
      "loss": 1.0934,
      "step": 460
    },
    {
      "epoch": 0.00109164980803222,
      "grad_norm": 0.49543142318725586,
      "learning_rate": 0.0009996368909503779,
      "loss": 1.1603,
      "step": 470
    },
    {
      "epoch": 0.00111487639969248,
      "grad_norm": 0.24394716322422028,
      "learning_rate": 0.000999629148753158,
      "loss": 1.1455,
      "step": 480
    },
    {
      "epoch": 0.00113810299135274,
      "grad_norm": 0.38373667001724243,
      "learning_rate": 0.0009996214065559378,
      "loss": 1.1498,
      "step": 490
    },
    {
      "epoch": 0.0011613295830129999,
      "grad_norm": 0.5020566582679749,
      "learning_rate": 0.0009996136643587177,
      "loss": 1.076,
      "step": 500
    },
    {
      "epoch": 0.0011845561746732598,
      "grad_norm": 0.3413016200065613,
      "learning_rate": 0.0009996059221614975,
      "loss": 1.1747,
      "step": 510
    },
    {
      "epoch": 0.00120778276633352,
      "grad_norm": 0.3450530171394348,
      "learning_rate": 0.0009995981799642774,
      "loss": 1.1441,
      "step": 520
    },
    {
      "epoch": 0.00123100935799378,
      "grad_norm": 0.3582036793231964,
      "learning_rate": 0.0009995904377670575,
      "loss": 1.1679,
      "step": 530
    },
    {
      "epoch": 0.00125423594965404,
      "grad_norm": 0.30296868085861206,
      "learning_rate": 0.0009995826955698373,
      "loss": 1.0446,
      "step": 540
    },
    {
      "epoch": 0.0012774625413142999,
      "grad_norm": 0.3772015869617462,
      "learning_rate": 0.0009995749533726172,
      "loss": 1.1239,
      "step": 550
    },
    {
      "epoch": 0.00130068913297456,
      "grad_norm": 0.3441556692123413,
      "learning_rate": 0.000999567211175397,
      "loss": 1.112,
      "step": 560
    },
    {
      "epoch": 0.00132391572463482,
      "grad_norm": 0.3211918771266937,
      "learning_rate": 0.0009995594689781772,
      "loss": 1.1344,
      "step": 570
    },
    {
      "epoch": 0.00134714231629508,
      "grad_norm": 0.2808244824409485,
      "learning_rate": 0.000999551726780957,
      "loss": 1.1398,
      "step": 580
    },
    {
      "epoch": 0.0013703689079553399,
      "grad_norm": 0.32571667432785034,
      "learning_rate": 0.000999543984583737,
      "loss": 1.1455,
      "step": 590
    },
    {
      "epoch": 0.0013935954996155998,
      "grad_norm": 0.3554767668247223,
      "learning_rate": 0.0009995362423865168,
      "loss": 0.991,
      "step": 600
    },
    {
      "epoch": 0.00141682209127586,
      "grad_norm": 0.253456711769104,
      "learning_rate": 0.0009995285001892968,
      "loss": 1.1686,
      "step": 610
    },
    {
      "epoch": 0.00144004868293612,
      "grad_norm": 0.31393057107925415,
      "learning_rate": 0.0009995207579920767,
      "loss": 1.1034,
      "step": 620
    },
    {
      "epoch": 0.00146327527459638,
      "grad_norm": 0.3797680735588074,
      "learning_rate": 0.0009995130157948566,
      "loss": 1.1224,
      "step": 630
    },
    {
      "epoch": 0.0014865018662566399,
      "grad_norm": 0.3667146563529968,
      "learning_rate": 0.0009995052735976364,
      "loss": 1.1484,
      "step": 640
    },
    {
      "epoch": 0.0015097284579168998,
      "grad_norm": 0.28348517417907715,
      "learning_rate": 0.0009994975314004165,
      "loss": 1.2004,
      "step": 650
    },
    {
      "epoch": 0.00153295504957716,
      "grad_norm": 0.4176248610019684,
      "learning_rate": 0.0009994897892031964,
      "loss": 1.1415,
      "step": 660
    },
    {
      "epoch": 0.00155618164123742,
      "grad_norm": 0.3170236647129059,
      "learning_rate": 0.0009994820470059763,
      "loss": 1.0853,
      "step": 670
    },
    {
      "epoch": 0.00157940823289768,
      "grad_norm": 0.31185317039489746,
      "learning_rate": 0.0009994743048087561,
      "loss": 1.1353,
      "step": 680
    },
    {
      "epoch": 0.0016026348245579399,
      "grad_norm": 0.33214762806892395,
      "learning_rate": 0.000999466562611536,
      "loss": 1.1504,
      "step": 690
    },
    {
      "epoch": 0.0016258614162181998,
      "grad_norm": 0.3761586844921112,
      "learning_rate": 0.000999458820414316,
      "loss": 1.0549,
      "step": 700
    },
    {
      "epoch": 0.00164908800787846,
      "grad_norm": 0.2806662619113922,
      "learning_rate": 0.000999451078217096,
      "loss": 1.1859,
      "step": 710
    },
    {
      "epoch": 0.00167231459953872,
      "grad_norm": 0.39696329832077026,
      "learning_rate": 0.0009994433360198758,
      "loss": 1.1716,
      "step": 720
    },
    {
      "epoch": 0.0016955411911989799,
      "grad_norm": 0.28009161353111267,
      "learning_rate": 0.0009994355938226557,
      "loss": 1.1932,
      "step": 730
    },
    {
      "epoch": 0.0017187677828592398,
      "grad_norm": 0.2747149169445038,
      "learning_rate": 0.0009994278516254355,
      "loss": 1.0847,
      "step": 740
    },
    {
      "epoch": 0.0017419943745194998,
      "grad_norm": 0.30023542046546936,
      "learning_rate": 0.0009994201094282154,
      "loss": 1.0696,
      "step": 750
    },
    {
      "epoch": 0.00176522096617976,
      "grad_norm": 0.3453909158706665,
      "learning_rate": 0.0009994123672309955,
      "loss": 1.0967,
      "step": 760
    },
    {
      "epoch": 0.00178844755784002,
      "grad_norm": 0.49272191524505615,
      "learning_rate": 0.0009994046250337753,
      "loss": 1.0573,
      "step": 770
    },
    {
      "epoch": 0.0018116741495002799,
      "grad_norm": 0.2652382254600525,
      "learning_rate": 0.0009993968828365552,
      "loss": 1.1404,
      "step": 780
    },
    {
      "epoch": 0.0018349007411605398,
      "grad_norm": 0.25675663352012634,
      "learning_rate": 0.000999389140639335,
      "loss": 1.0459,
      "step": 790
    },
    {
      "epoch": 0.0018581273328207998,
      "grad_norm": 0.3685920834541321,
      "learning_rate": 0.0009993813984421152,
      "loss": 1.0117,
      "step": 800
    },
    {
      "epoch": 0.00188135392448106,
      "grad_norm": 0.3216955363750458,
      "learning_rate": 0.000999373656244895,
      "loss": 1.1672,
      "step": 810
    },
    {
      "epoch": 0.00190458051614132,
      "grad_norm": 0.4081834852695465,
      "learning_rate": 0.000999365914047675,
      "loss": 1.1555,
      "step": 820
    },
    {
      "epoch": 0.0019278071078015799,
      "grad_norm": 0.3144775927066803,
      "learning_rate": 0.0009993581718504548,
      "loss": 1.2002,
      "step": 830
    },
    {
      "epoch": 0.0019510336994618398,
      "grad_norm": 0.3642594814300537,
      "learning_rate": 0.0009993504296532348,
      "loss": 1.0547,
      "step": 840
    },
    {
      "epoch": 0.0019742602911220998,
      "grad_norm": 0.3856127858161926,
      "learning_rate": 0.0009993426874560147,
      "loss": 1.2028,
      "step": 850
    },
    {
      "epoch": 0.00199748688278236,
      "grad_norm": 0.41429170966148376,
      "learning_rate": 0.0009993349452587946,
      "loss": 1.0857,
      "step": 860
    },
    {
      "epoch": 0.0020207134744426197,
      "grad_norm": 0.4278993606567383,
      "learning_rate": 0.0009993272030615744,
      "loss": 1.0574,
      "step": 870
    },
    {
      "epoch": 0.00204394006610288,
      "grad_norm": 0.26868101954460144,
      "learning_rate": 0.0009993194608643545,
      "loss": 1.0538,
      "step": 880
    },
    {
      "epoch": 0.00206716665776314,
      "grad_norm": 0.8726014494895935,
      "learning_rate": 0.0009993117186671344,
      "loss": 1.2263,
      "step": 890
    },
    {
      "epoch": 0.0020903932494233998,
      "grad_norm": 0.39568719267845154,
      "learning_rate": 0.0009993039764699143,
      "loss": 1.1606,
      "step": 900
    },
    {
      "epoch": 0.00211361984108366,
      "grad_norm": 0.3933831751346588,
      "learning_rate": 0.0009992962342726941,
      "loss": 1.1263,
      "step": 910
    },
    {
      "epoch": 0.0021368464327439197,
      "grad_norm": 0.4326261579990387,
      "learning_rate": 0.000999288492075474,
      "loss": 1.0729,
      "step": 920
    },
    {
      "epoch": 0.00216007302440418,
      "grad_norm": 0.3416406810283661,
      "learning_rate": 0.000999280749878254,
      "loss": 1.1538,
      "step": 930
    },
    {
      "epoch": 0.00218329961606444,
      "grad_norm": 0.338379830121994,
      "learning_rate": 0.000999273007681034,
      "loss": 1.0347,
      "step": 940
    },
    {
      "epoch": 0.0022065262077246997,
      "grad_norm": 0.34776318073272705,
      "learning_rate": 0.0009992652654838138,
      "loss": 1.1322,
      "step": 950
    },
    {
      "epoch": 0.00222975279938496,
      "grad_norm": 0.23187178373336792,
      "learning_rate": 0.0009992575232865937,
      "loss": 1.0574,
      "step": 960
    },
    {
      "epoch": 0.0022529793910452196,
      "grad_norm": 0.3015563189983368,
      "learning_rate": 0.0009992497810893735,
      "loss": 1.0911,
      "step": 970
    },
    {
      "epoch": 0.00227620598270548,
      "grad_norm": 0.31411874294281006,
      "learning_rate": 0.0009992420388921534,
      "loss": 1.1008,
      "step": 980
    },
    {
      "epoch": 0.00229943257436574,
      "grad_norm": 0.4988269805908203,
      "learning_rate": 0.0009992342966949335,
      "loss": 1.1292,
      "step": 990
    },
    {
      "epoch": 0.0023226591660259997,
      "grad_norm": 0.3398004472255707,
      "learning_rate": 0.0009992265544977133,
      "loss": 1.1665,
      "step": 1000
    },
    {
      "epoch": 0.00234588575768626,
      "grad_norm": 0.32879185676574707,
      "learning_rate": 0.0009992188123004932,
      "loss": 1.1131,
      "step": 1010
    },
    {
      "epoch": 0.0023691123493465196,
      "grad_norm": 0.40583041310310364,
      "learning_rate": 0.000999211070103273,
      "loss": 1.0571,
      "step": 1020
    },
    {
      "epoch": 0.00239233894100678,
      "grad_norm": 0.3514922559261322,
      "learning_rate": 0.0009992033279060532,
      "loss": 1.1166,
      "step": 1030
    },
    {
      "epoch": 0.00241556553266704,
      "grad_norm": 1.3851335048675537,
      "learning_rate": 0.000999195585708833,
      "loss": 1.0532,
      "step": 1040
    },
    {
      "epoch": 0.0024387921243272997,
      "grad_norm": 0.5054768919944763,
      "learning_rate": 0.000999187843511613,
      "loss": 1.16,
      "step": 1050
    },
    {
      "epoch": 0.00246201871598756,
      "grad_norm": 0.37074124813079834,
      "learning_rate": 0.0009991801013143928,
      "loss": 1.2028,
      "step": 1060
    },
    {
      "epoch": 0.0024852453076478196,
      "grad_norm": 0.3337225615978241,
      "learning_rate": 0.0009991723591171728,
      "loss": 1.1109,
      "step": 1070
    },
    {
      "epoch": 0.00250847189930808,
      "grad_norm": 0.283372163772583,
      "learning_rate": 0.0009991646169199527,
      "loss": 1.063,
      "step": 1080
    },
    {
      "epoch": 0.00253169849096834,
      "grad_norm": 0.3113659620285034,
      "learning_rate": 0.0009991568747227326,
      "loss": 1.1027,
      "step": 1090
    },
    {
      "epoch": 0.0025549250826285997,
      "grad_norm": 0.43556565046310425,
      "learning_rate": 0.0009991491325255124,
      "loss": 1.1181,
      "step": 1100
    },
    {
      "epoch": 0.00257815167428886,
      "grad_norm": 0.3736826479434967,
      "learning_rate": 0.0009991413903282925,
      "loss": 1.1035,
      "step": 1110
    },
    {
      "epoch": 0.00260137826594912,
      "grad_norm": 0.3376559913158417,
      "learning_rate": 0.0009991336481310724,
      "loss": 1.0149,
      "step": 1120
    },
    {
      "epoch": 0.0026246048576093798,
      "grad_norm": 0.3545368015766144,
      "learning_rate": 0.0009991259059338523,
      "loss": 1.1472,
      "step": 1130
    },
    {
      "epoch": 0.00264783144926964,
      "grad_norm": 0.2400045394897461,
      "learning_rate": 0.0009991181637366321,
      "loss": 1.1423,
      "step": 1140
    },
    {
      "epoch": 0.0026710580409298997,
      "grad_norm": 0.37132346630096436,
      "learning_rate": 0.0009991104215394122,
      "loss": 1.1802,
      "step": 1150
    },
    {
      "epoch": 0.00269428463259016,
      "grad_norm": 0.26770955324172974,
      "learning_rate": 0.000999102679342192,
      "loss": 1.0859,
      "step": 1160
    },
    {
      "epoch": 0.00271751122425042,
      "grad_norm": 0.3567134439945221,
      "learning_rate": 0.000999094937144972,
      "loss": 1.1699,
      "step": 1170
    },
    {
      "epoch": 0.0027407378159106798,
      "grad_norm": 0.3370940387248993,
      "learning_rate": 0.0009990871949477518,
      "loss": 1.2679,
      "step": 1180
    },
    {
      "epoch": 0.00276396440757094,
      "grad_norm": 0.3533010184764862,
      "learning_rate": 0.0009990794527505317,
      "loss": 1.1444,
      "step": 1190
    },
    {
      "epoch": 0.0027871909992311997,
      "grad_norm": 0.227728933095932,
      "learning_rate": 0.0009990717105533115,
      "loss": 1.1105,
      "step": 1200
    },
    {
      "epoch": 0.00281041759089146,
      "grad_norm": 0.39945659041404724,
      "learning_rate": 0.0009990639683560916,
      "loss": 1.0122,
      "step": 1210
    },
    {
      "epoch": 0.00283364418255172,
      "grad_norm": 0.38961905241012573,
      "learning_rate": 0.0009990562261588715,
      "loss": 1.1677,
      "step": 1220
    },
    {
      "epoch": 0.0028568707742119798,
      "grad_norm": 0.35965076088905334,
      "learning_rate": 0.0009990484839616513,
      "loss": 1.2045,
      "step": 1230
    },
    {
      "epoch": 0.00288009736587224,
      "grad_norm": 0.3876691460609436,
      "learning_rate": 0.0009990407417644312,
      "loss": 1.1577,
      "step": 1240
    },
    {
      "epoch": 0.0029033239575324997,
      "grad_norm": 0.3059842586517334,
      "learning_rate": 0.000999032999567211,
      "loss": 1.1294,
      "step": 1250
    },
    {
      "epoch": 0.00292655054919276,
      "grad_norm": 0.31481969356536865,
      "learning_rate": 0.0009990252573699912,
      "loss": 1.1202,
      "step": 1260
    },
    {
      "epoch": 0.00294977714085302,
      "grad_norm": 0.3077446222305298,
      "learning_rate": 0.000999017515172771,
      "loss": 1.0893,
      "step": 1270
    },
    {
      "epoch": 0.0029730037325132797,
      "grad_norm": 0.30285683274269104,
      "learning_rate": 0.000999009772975551,
      "loss": 1.0844,
      "step": 1280
    },
    {
      "epoch": 0.00299623032417354,
      "grad_norm": 0.32145956158638,
      "learning_rate": 0.0009990020307783308,
      "loss": 1.1524,
      "step": 1290
    },
    {
      "epoch": 0.0030194569158337996,
      "grad_norm": 0.3908081352710724,
      "learning_rate": 0.0009989942885811108,
      "loss": 1.104,
      "step": 1300
    },
    {
      "epoch": 0.00304268350749406,
      "grad_norm": 0.32902881503105164,
      "learning_rate": 0.0009989865463838907,
      "loss": 1.1161,
      "step": 1310
    },
    {
      "epoch": 0.00306591009915432,
      "grad_norm": 0.3777260184288025,
      "learning_rate": 0.0009989788041866706,
      "loss": 1.1623,
      "step": 1320
    },
    {
      "epoch": 0.0030891366908145797,
      "grad_norm": 0.4204845130443573,
      "learning_rate": 0.0009989710619894504,
      "loss": 1.1284,
      "step": 1330
    },
    {
      "epoch": 0.00311236328247484,
      "grad_norm": 0.3189554810523987,
      "learning_rate": 0.0009989633197922305,
      "loss": 1.104,
      "step": 1340
    },
    {
      "epoch": 0.0031355898741350996,
      "grad_norm": 0.30896514654159546,
      "learning_rate": 0.0009989555775950104,
      "loss": 1.1221,
      "step": 1350
    },
    {
      "epoch": 0.00315881646579536,
      "grad_norm": 1.2486257553100586,
      "learning_rate": 0.0009989478353977903,
      "loss": 1.2578,
      "step": 1360
    },
    {
      "epoch": 0.00318204305745562,
      "grad_norm": 0.433830201625824,
      "learning_rate": 0.0009989400932005701,
      "loss": 1.101,
      "step": 1370
    },
    {
      "epoch": 0.0032052696491158797,
      "grad_norm": 0.3873724341392517,
      "learning_rate": 0.0009989323510033502,
      "loss": 1.1509,
      "step": 1380
    },
    {
      "epoch": 0.00322849624077614,
      "grad_norm": 0.238771453499794,
      "learning_rate": 0.00099892460880613,
      "loss": 1.171,
      "step": 1390
    },
    {
      "epoch": 0.0032517228324363996,
      "grad_norm": 0.3480624258518219,
      "learning_rate": 0.00099891686660891,
      "loss": 1.2122,
      "step": 1400
    },
    {
      "epoch": 0.00327494942409666,
      "grad_norm": 0.35760608315467834,
      "learning_rate": 0.0009989091244116898,
      "loss": 1.0479,
      "step": 1410
    },
    {
      "epoch": 0.00329817601575692,
      "grad_norm": 0.3133438527584076,
      "learning_rate": 0.0009989013822144697,
      "loss": 1.1176,
      "step": 1420
    },
    {
      "epoch": 0.0033214026074171797,
      "grad_norm": 0.2956129014492035,
      "learning_rate": 0.0009988936400172495,
      "loss": 1.12,
      "step": 1430
    },
    {
      "epoch": 0.00334462919907744,
      "grad_norm": 0.2697290778160095,
      "learning_rate": 0.0009988858978200296,
      "loss": 1.0247,
      "step": 1440
    },
    {
      "epoch": 0.0033678557907376996,
      "grad_norm": 0.34495481848716736,
      "learning_rate": 0.0009988781556228095,
      "loss": 1.0775,
      "step": 1450
    },
    {
      "epoch": 0.0033910823823979598,
      "grad_norm": 0.29800111055374146,
      "learning_rate": 0.0009988704134255893,
      "loss": 1.1489,
      "step": 1460
    },
    {
      "epoch": 0.00341430897405822,
      "grad_norm": 0.29650014638900757,
      "learning_rate": 0.0009988626712283692,
      "loss": 1.0565,
      "step": 1470
    },
    {
      "epoch": 0.0034375355657184797,
      "grad_norm": 0.35248780250549316,
      "learning_rate": 0.000998854929031149,
      "loss": 1.1121,
      "step": 1480
    },
    {
      "epoch": 0.00346076215737874,
      "grad_norm": 0.2716731131076813,
      "learning_rate": 0.0009988471868339292,
      "loss": 1.0923,
      "step": 1490
    },
    {
      "epoch": 0.0034839887490389996,
      "grad_norm": 0.4371800422668457,
      "learning_rate": 0.000998839444636709,
      "loss": 1.0155,
      "step": 1500
    },
    {
      "epoch": 0.0035072153406992598,
      "grad_norm": 0.2633199691772461,
      "learning_rate": 0.0009988317024394889,
      "loss": 1.1037,
      "step": 1510
    },
    {
      "epoch": 0.00353044193235952,
      "grad_norm": 0.2944166362285614,
      "learning_rate": 0.0009988239602422688,
      "loss": 1.0995,
      "step": 1520
    },
    {
      "epoch": 0.0035536685240197797,
      "grad_norm": 0.2786024212837219,
      "learning_rate": 0.0009988162180450488,
      "loss": 1.0641,
      "step": 1530
    },
    {
      "epoch": 0.00357689511568004,
      "grad_norm": 0.31116756796836853,
      "learning_rate": 0.0009988084758478287,
      "loss": 1.1015,
      "step": 1540
    },
    {
      "epoch": 0.0036001217073402996,
      "grad_norm": 0.31829699873924255,
      "learning_rate": 0.0009988007336506086,
      "loss": 1.0519,
      "step": 1550
    },
    {
      "epoch": 0.0036233482990005597,
      "grad_norm": 0.4150811433792114,
      "learning_rate": 0.0009987929914533884,
      "loss": 1.1509,
      "step": 1560
    },
    {
      "epoch": 0.00364657489066082,
      "grad_norm": 0.2690746784210205,
      "learning_rate": 0.0009987852492561685,
      "loss": 1.0517,
      "step": 1570
    },
    {
      "epoch": 0.0036698014823210797,
      "grad_norm": 0.3126815855503082,
      "learning_rate": 0.0009987775070589484,
      "loss": 1.1398,
      "step": 1580
    },
    {
      "epoch": 0.00369302807398134,
      "grad_norm": 0.34572452306747437,
      "learning_rate": 0.0009987697648617283,
      "loss": 1.0342,
      "step": 1590
    },
    {
      "epoch": 0.0037162546656415996,
      "grad_norm": 0.30171483755111694,
      "learning_rate": 0.0009987620226645081,
      "loss": 1.0517,
      "step": 1600
    },
    {
      "epoch": 0.0037394812573018597,
      "grad_norm": 0.2483634054660797,
      "learning_rate": 0.0009987542804672882,
      "loss": 1.1146,
      "step": 1610
    },
    {
      "epoch": 0.00376270784896212,
      "grad_norm": 0.41606566309928894,
      "learning_rate": 0.000998746538270068,
      "loss": 1.0997,
      "step": 1620
    },
    {
      "epoch": 0.0037859344406223796,
      "grad_norm": 0.3014843761920929,
      "learning_rate": 0.000998738796072848,
      "loss": 1.0975,
      "step": 1630
    },
    {
      "epoch": 0.00380916103228264,
      "grad_norm": 0.31974515318870544,
      "learning_rate": 0.0009987310538756278,
      "loss": 1.0963,
      "step": 1640
    },
    {
      "epoch": 0.0038323876239428996,
      "grad_norm": 0.3185972273349762,
      "learning_rate": 0.0009987233116784077,
      "loss": 1.1598,
      "step": 1650
    },
    {
      "epoch": 0.0038556142156031597,
      "grad_norm": 0.3430216908454895,
      "learning_rate": 0.0009987155694811877,
      "loss": 0.9476,
      "step": 1660
    },
    {
      "epoch": 0.00387884080726342,
      "grad_norm": 0.4456688165664673,
      "learning_rate": 0.0009987078272839676,
      "loss": 1.1319,
      "step": 1670
    },
    {
      "epoch": 0.0039020673989236796,
      "grad_norm": 0.4243941605091095,
      "learning_rate": 0.0009987000850867475,
      "loss": 1.1765,
      "step": 1680
    },
    {
      "epoch": 0.003925293990583939,
      "grad_norm": 0.22148986160755157,
      "learning_rate": 0.0009986923428895273,
      "loss": 1.1305,
      "step": 1690
    },
    {
      "epoch": 0.0039485205822441995,
      "grad_norm": 0.44649383425712585,
      "learning_rate": 0.0009986846006923072,
      "loss": 1.1282,
      "step": 1700
    },
    {
      "epoch": 0.00397174717390446,
      "grad_norm": 0.35965171456336975,
      "learning_rate": 0.000998676858495087,
      "loss": 1.0997,
      "step": 1710
    },
    {
      "epoch": 0.00399497376556472,
      "grad_norm": 0.4147953987121582,
      "learning_rate": 0.0009986691162978672,
      "loss": 1.0682,
      "step": 1720
    },
    {
      "epoch": 0.00401820035722498,
      "grad_norm": 0.47538864612579346,
      "learning_rate": 0.000998661374100647,
      "loss": 1.1625,
      "step": 1730
    },
    {
      "epoch": 0.004041426948885239,
      "grad_norm": 0.3181823194026947,
      "learning_rate": 0.0009986536319034269,
      "loss": 1.1683,
      "step": 1740
    },
    {
      "epoch": 0.0040646535405454995,
      "grad_norm": 0.32929712533950806,
      "learning_rate": 0.0009986458897062068,
      "loss": 1.1306,
      "step": 1750
    },
    {
      "epoch": 0.00408788013220576,
      "grad_norm": 0.34377196431159973,
      "learning_rate": 0.0009986381475089868,
      "loss": 1.1267,
      "step": 1760
    },
    {
      "epoch": 0.00411110672386602,
      "grad_norm": 0.3156042695045471,
      "learning_rate": 0.0009986304053117667,
      "loss": 1.0523,
      "step": 1770
    },
    {
      "epoch": 0.00413433331552628,
      "grad_norm": 0.35088011622428894,
      "learning_rate": 0.0009986226631145466,
      "loss": 1.0075,
      "step": 1780
    },
    {
      "epoch": 0.004157559907186539,
      "grad_norm": 0.3740438222885132,
      "learning_rate": 0.0009986149209173264,
      "loss": 1.1788,
      "step": 1790
    },
    {
      "epoch": 0.0041807864988467995,
      "grad_norm": 0.28393882513046265,
      "learning_rate": 0.0009986071787201065,
      "loss": 1.0374,
      "step": 1800
    },
    {
      "epoch": 0.00420401309050706,
      "grad_norm": 0.2916342318058014,
      "learning_rate": 0.0009985994365228864,
      "loss": 1.0783,
      "step": 1810
    },
    {
      "epoch": 0.00422723968216732,
      "grad_norm": 0.3398910462856293,
      "learning_rate": 0.0009985916943256663,
      "loss": 1.129,
      "step": 1820
    },
    {
      "epoch": 0.00425046627382758,
      "grad_norm": 0.3244156837463379,
      "learning_rate": 0.0009985839521284461,
      "loss": 1.1812,
      "step": 1830
    },
    {
      "epoch": 0.004273692865487839,
      "grad_norm": 0.5498040318489075,
      "learning_rate": 0.0009985762099312262,
      "loss": 1.1812,
      "step": 1840
    },
    {
      "epoch": 0.0042969194571480995,
      "grad_norm": 0.27574270963668823,
      "learning_rate": 0.000998568467734006,
      "loss": 1.1414,
      "step": 1850
    },
    {
      "epoch": 0.00432014604880836,
      "grad_norm": 0.3610564172267914,
      "learning_rate": 0.000998560725536786,
      "loss": 1.0763,
      "step": 1860
    },
    {
      "epoch": 0.00434337264046862,
      "grad_norm": 0.33828043937683105,
      "learning_rate": 0.0009985529833395658,
      "loss": 1.0169,
      "step": 1870
    },
    {
      "epoch": 0.00436659923212888,
      "grad_norm": 0.22078180313110352,
      "learning_rate": 0.0009985452411423457,
      "loss": 1.0513,
      "step": 1880
    },
    {
      "epoch": 0.004389825823789139,
      "grad_norm": 0.4355666935443878,
      "learning_rate": 0.0009985374989451257,
      "loss": 1.1245,
      "step": 1890
    },
    {
      "epoch": 0.0044130524154493995,
      "grad_norm": 0.3071712851524353,
      "learning_rate": 0.0009985297567479056,
      "loss": 1.1669,
      "step": 1900
    },
    {
      "epoch": 0.00443627900710966,
      "grad_norm": 0.3043074905872345,
      "learning_rate": 0.0009985220145506855,
      "loss": 1.1917,
      "step": 1910
    },
    {
      "epoch": 0.00445950559876992,
      "grad_norm": 0.33084383606910706,
      "learning_rate": 0.0009985142723534653,
      "loss": 1.0819,
      "step": 1920
    },
    {
      "epoch": 0.00448273219043018,
      "grad_norm": 0.32064658403396606,
      "learning_rate": 0.0009985065301562452,
      "loss": 1.1362,
      "step": 1930
    },
    {
      "epoch": 0.004505958782090439,
      "grad_norm": 0.34291279315948486,
      "learning_rate": 0.0009984987879590253,
      "loss": 1.0888,
      "step": 1940
    },
    {
      "epoch": 0.0045291853737506995,
      "grad_norm": 0.4338567852973938,
      "learning_rate": 0.0009984910457618052,
      "loss": 1.0783,
      "step": 1950
    },
    {
      "epoch": 0.00455241196541096,
      "grad_norm": 0.33047792315483093,
      "learning_rate": 0.000998483303564585,
      "loss": 1.0977,
      "step": 1960
    },
    {
      "epoch": 0.00457563855707122,
      "grad_norm": 0.33728134632110596,
      "learning_rate": 0.0009984755613673649,
      "loss": 1.137,
      "step": 1970
    },
    {
      "epoch": 0.00459886514873148,
      "grad_norm": 0.27301332354545593,
      "learning_rate": 0.0009984678191701448,
      "loss": 1.1413,
      "step": 1980
    },
    {
      "epoch": 0.004622091740391739,
      "grad_norm": 0.2804515063762665,
      "learning_rate": 0.0009984600769729248,
      "loss": 1.0865,
      "step": 1990
    },
    {
      "epoch": 0.0046453183320519995,
      "grad_norm": 0.33448469638824463,
      "learning_rate": 0.0009984523347757047,
      "loss": 1.1526,
      "step": 2000
    }
  ],
  "logging_steps": 10,
  "max_steps": 1291623,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 3,
  "save_steps": 1000,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 2.5412177861554176e+16,
  "train_batch_size": 7,
  "trial_name": null,
  "trial_params": null
}