{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 3.0,
  "eval_steps": 500,
  "global_step": 9213,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0162813415825464,
      "grad_norm": 3.7931034564971924,
      "learning_rate": 4.975035276240096e-05,
      "loss": 1.7502801513671875,
      "step": 50
    },
    {
      "epoch": 0.0325626831650928,
      "grad_norm": 3.5913758277893066,
      "learning_rate": 4.947899706935852e-05,
      "loss": 0.8483324432373047,
      "step": 100
    },
    {
      "epoch": 0.04884402474763921,
      "grad_norm": 3.3178822994232178,
      "learning_rate": 4.9207641376316076e-05,
      "loss": 0.5748957061767578,
      "step": 150
    },
    {
      "epoch": 0.0651253663301856,
      "grad_norm": 2.392831802368164,
      "learning_rate": 4.8936285683273635e-05,
      "loss": 0.4335686492919922,
      "step": 200
    },
    {
      "epoch": 0.08140670791273201,
      "grad_norm": 2.411132335662842,
      "learning_rate": 4.8664929990231194e-05,
      "loss": 0.45588829040527346,
      "step": 250
    },
    {
      "epoch": 0.09768804949527841,
      "grad_norm": 3.383033275604248,
      "learning_rate": 4.839357429718876e-05,
      "loss": 0.38454761505126955,
      "step": 300
    },
    {
      "epoch": 0.11396939107782482,
      "grad_norm": 1.5641525983810425,
      "learning_rate": 4.812221860414632e-05,
      "loss": 0.31118762969970704,
      "step": 350
    },
    {
      "epoch": 0.1302507326603712,
      "grad_norm": 1.962287425994873,
      "learning_rate": 4.785086291110388e-05,
      "loss": 0.32715892791748047,
      "step": 400
    },
    {
      "epoch": 0.14653207424291761,
      "grad_norm": 2.539684534072876,
      "learning_rate": 4.7579507218061436e-05,
      "loss": 0.3269093704223633,
      "step": 450
    },
    {
      "epoch": 0.16281341582546402,
      "grad_norm": 3.244333267211914,
      "learning_rate": 4.7308151525018995e-05,
      "loss": 0.2726271057128906,
      "step": 500
    },
    {
      "epoch": 0.17909475740801042,
      "grad_norm": 2.2011330127716064,
      "learning_rate": 4.7036795831976553e-05,
      "loss": 0.3161302185058594,
      "step": 550
    },
    {
      "epoch": 0.19537609899055683,
      "grad_norm": 5.027646541595459,
      "learning_rate": 4.676544013893412e-05,
      "loss": 0.22250593185424805,
      "step": 600
    },
    {
      "epoch": 0.21165744057310323,
      "grad_norm": 0.6281399726867676,
      "learning_rate": 4.649408444589168e-05,
      "loss": 0.26152374267578127,
      "step": 650
    },
    {
      "epoch": 0.22793878215564964,
      "grad_norm": 3.362748622894287,
      "learning_rate": 4.622272875284924e-05,
      "loss": 0.2384391975402832,
      "step": 700
    },
    {
      "epoch": 0.24422012373819602,
      "grad_norm": 0.9307177066802979,
      "learning_rate": 4.5951373059806795e-05,
      "loss": 0.19612070083618163,
      "step": 750
    },
    {
      "epoch": 0.2605014653207424,
      "grad_norm": 3.107837438583374,
      "learning_rate": 4.5680017366764354e-05,
      "loss": 0.22400428771972655,
      "step": 800
    },
    {
      "epoch": 0.2767828069032888,
      "grad_norm": 2.3350419998168945,
      "learning_rate": 4.540866167372192e-05,
      "loss": 0.246726131439209,
      "step": 850
    },
    {
      "epoch": 0.29306414848583523,
      "grad_norm": 1.3348891735076904,
      "learning_rate": 4.513730598067948e-05,
      "loss": 0.17960617065429688,
      "step": 900
    },
    {
      "epoch": 0.30934549006838163,
      "grad_norm": 1.4406858682632446,
      "learning_rate": 4.486595028763704e-05,
      "loss": 0.19865007400512696,
      "step": 950
    },
    {
      "epoch": 0.32562683165092804,
      "grad_norm": 2.17195200920105,
      "learning_rate": 4.4594594594594596e-05,
      "loss": 0.19141647338867188,
      "step": 1000
    },
    {
      "epoch": 0.34190817323347444,
      "grad_norm": 2.63667893409729,
      "learning_rate": 4.4323238901552155e-05,
      "loss": 0.1807699966430664,
      "step": 1050
    },
    {
      "epoch": 0.35818951481602085,
      "grad_norm": 1.1883361339569092,
      "learning_rate": 4.4051883208509714e-05,
      "loss": 0.19377944946289063,
      "step": 1100
    },
    {
      "epoch": 0.37447085639856725,
      "grad_norm": 0.6610957384109497,
      "learning_rate": 4.378052751546728e-05,
      "loss": 0.18130062103271485,
      "step": 1150
    },
    {
      "epoch": 0.39075219798111366,
      "grad_norm": 1.802565336227417,
      "learning_rate": 4.350917182242484e-05,
      "loss": 0.17183830261230468,
      "step": 1200
    },
    {
      "epoch": 0.40703353956366006,
      "grad_norm": 1.6211966276168823,
      "learning_rate": 4.32378161293824e-05,
      "loss": 0.1512114906311035,
      "step": 1250
    },
    {
      "epoch": 0.42331488114620647,
      "grad_norm": 0.8947325944900513,
      "learning_rate": 4.2966460436339956e-05,
      "loss": 0.1733652877807617,
      "step": 1300
    },
    {
      "epoch": 0.4395962227287529,
      "grad_norm": 0.31800374388694763,
      "learning_rate": 4.2695104743297515e-05,
      "loss": 0.1839361572265625,
      "step": 1350
    },
    {
      "epoch": 0.4558775643112993,
      "grad_norm": 0.9736223220825195,
      "learning_rate": 4.2423749050255074e-05,
      "loss": 0.12980345726013184,
      "step": 1400
    },
    {
      "epoch": 0.4721589058938456,
      "grad_norm": 1.7321406602859497,
      "learning_rate": 4.215239335721264e-05,
      "loss": 0.14502116203308105,
      "step": 1450
    },
    {
      "epoch": 0.48844024747639203,
      "grad_norm": 0.47778311371803284,
      "learning_rate": 4.18810376641702e-05,
      "loss": 0.15735553741455077,
      "step": 1500
    },
    {
      "epoch": 0.5047215890589385,
      "grad_norm": 0.43138086795806885,
      "learning_rate": 4.160968197112776e-05,
      "loss": 0.13693093299865722,
      "step": 1550
    },
    {
      "epoch": 0.5210029306414848,
      "grad_norm": 0.7121404409408569,
      "learning_rate": 4.1338326278085316e-05,
      "loss": 0.13991880416870117,
      "step": 1600
    },
    {
      "epoch": 0.5372842722240313,
      "grad_norm": 1.8167650699615479,
      "learning_rate": 4.1066970585042875e-05,
      "loss": 0.13732372283935546,
      "step": 1650
    },
    {
      "epoch": 0.5535656138065776,
      "grad_norm": 1.801047921180725,
      "learning_rate": 4.079561489200044e-05,
      "loss": 0.1461949062347412,
      "step": 1700
    },
    {
      "epoch": 0.5698469553891241,
      "grad_norm": 1.2010151147842407,
      "learning_rate": 4.0524259198958e-05,
      "loss": 0.16667499542236328,
      "step": 1750
    },
    {
      "epoch": 0.5861282969716705,
      "grad_norm": 0.31175410747528076,
      "learning_rate": 4.025290350591556e-05,
      "loss": 0.13411394119262696,
      "step": 1800
    },
    {
      "epoch": 0.6024096385542169,
      "grad_norm": 1.0062410831451416,
      "learning_rate": 3.998154781287312e-05,
      "loss": 0.141832914352417,
      "step": 1850
    },
    {
      "epoch": 0.6186909801367633,
      "grad_norm": 0.5772050619125366,
      "learning_rate": 3.9710192119830675e-05,
      "loss": 0.14646322250366212,
      "step": 1900
    },
    {
      "epoch": 0.6349723217193096,
      "grad_norm": 1.1436623334884644,
      "learning_rate": 3.9444263540649085e-05,
      "loss": 0.11982306480407715,
      "step": 1950
    },
    {
      "epoch": 0.6512536633018561,
      "grad_norm": 0.6914354562759399,
      "learning_rate": 3.9172907847606644e-05,
      "loss": 0.13149891853332518,
      "step": 2000
    },
    {
      "epoch": 0.6675350048844024,
      "grad_norm": 0.5716465711593628,
      "learning_rate": 3.89015521545642e-05,
      "loss": 0.1392893123626709,
      "step": 2050
    },
    {
      "epoch": 0.6838163464669489,
      "grad_norm": 1.4796607494354248,
      "learning_rate": 3.863019646152177e-05,
      "loss": 0.1265252685546875,
      "step": 2100
    },
    {
      "epoch": 0.7000976880494952,
      "grad_norm": 0.849554717540741,
      "learning_rate": 3.835884076847933e-05,
      "loss": 0.1300504207611084,
      "step": 2150
    },
    {
      "epoch": 0.7163790296320417,
      "grad_norm": 0.9229751825332642,
      "learning_rate": 3.8087485075436886e-05,
      "loss": 0.144088077545166,
      "step": 2200
    },
    {
      "epoch": 0.732660371214588,
      "grad_norm": 0.6000483632087708,
      "learning_rate": 3.7816129382394445e-05,
      "loss": 0.1267460823059082,
      "step": 2250
    },
    {
      "epoch": 0.7489417127971345,
      "grad_norm": 1.584933876991272,
      "learning_rate": 3.7544773689352004e-05,
      "loss": 0.12461037635803222,
      "step": 2300
    },
    {
      "epoch": 0.7652230543796809,
      "grad_norm": 0.7694635987281799,
      "learning_rate": 3.727341799630956e-05,
      "loss": 0.1397037124633789,
      "step": 2350
    },
    {
      "epoch": 0.7815043959622273,
      "grad_norm": 0.9538297653198242,
      "learning_rate": 3.700206230326713e-05,
      "loss": 0.09744812965393067,
      "step": 2400
    },
    {
      "epoch": 0.7977857375447737,
      "grad_norm": 1.10379159450531,
      "learning_rate": 3.673070661022469e-05,
      "loss": 0.14414773941040038,
      "step": 2450
    },
    {
      "epoch": 0.8140670791273201,
      "grad_norm": 1.6340835094451904,
      "learning_rate": 3.6459350917182246e-05,
      "loss": 0.11836291313171386,
      "step": 2500
    },
    {
      "epoch": 0.8303484207098665,
      "grad_norm": 0.06909910589456558,
      "learning_rate": 3.6187995224139805e-05,
      "loss": 0.13456206321716307,
      "step": 2550
    },
    {
      "epoch": 0.8466297622924129,
      "grad_norm": 0.11458413302898407,
      "learning_rate": 3.5916639531097364e-05,
      "loss": 0.12975069046020507,
      "step": 2600
    },
    {
      "epoch": 0.8629111038749593,
      "grad_norm": 0.3121241331100464,
      "learning_rate": 3.564528383805492e-05,
      "loss": 0.10294739723205566,
      "step": 2650
    },
    {
      "epoch": 0.8791924454575057,
      "grad_norm": 0.7833127975463867,
      "learning_rate": 3.537392814501249e-05,
      "loss": 0.1058332633972168,
      "step": 2700
    },
    {
      "epoch": 0.8954737870400521,
      "grad_norm": 1.0220922231674194,
      "learning_rate": 3.510257245197005e-05,
      "loss": 0.11729028701782226,
      "step": 2750
    },
    {
      "epoch": 0.9117551286225986,
      "grad_norm": 0.6296119093894958,
      "learning_rate": 3.4831216758927606e-05,
      "loss": 0.12148540496826171,
      "step": 2800
    },
    {
      "epoch": 0.9280364702051449,
      "grad_norm": 0.8129004240036011,
      "learning_rate": 3.4559861065885164e-05,
      "loss": 0.09763257980346679,
      "step": 2850
    },
    {
      "epoch": 0.9443178117876913,
      "grad_norm": 0.6814725399017334,
      "learning_rate": 3.428850537284272e-05,
      "loss": 0.10192323684692382,
      "step": 2900
    },
    {
      "epoch": 0.9605991533702377,
      "grad_norm": 0.19898249208927155,
      "learning_rate": 3.401714967980029e-05,
      "loss": 0.11552732467651367,
      "step": 2950
    },
    {
      "epoch": 0.9768804949527841,
      "grad_norm": 0.7032152414321899,
      "learning_rate": 3.374579398675785e-05,
      "loss": 0.09218964576721192,
      "step": 3000
    },
    {
      "epoch": 0.9931618365353305,
      "grad_norm": 0.5327423214912415,
      "learning_rate": 3.3474438293715407e-05,
      "loss": 0.11835557937622071,
      "step": 3050
    },
    {
      "epoch": 1.0,
      "eval_bertscore_f1": 0.9908905607812545,
      "eval_bleu": 0.8857676606120443,
      "eval_loss": 0.08205162733793259,
      "eval_meteor": 0.9292767478739071,
      "eval_rouge1": 0.9454800565736884,
      "eval_rouge2": 0.9108168851120266,
      "eval_runtime": 61.8203,
      "eval_samples_per_second": 20.899,
      "eval_steps_per_second": 2.621,
      "step": 3071
    },
    {
      "epoch": 1.009443178117877,
      "grad_norm": 0.7608644366264343,
      "learning_rate": 3.3203082600672965e-05,
      "loss": 0.08838626861572266,
      "step": 3100
    },
    {
      "epoch": 1.0257245197004232,
      "grad_norm": 0.6126351952552795,
      "learning_rate": 3.2931726907630524e-05,
      "loss": 0.07393273830413818,
      "step": 3150
    },
    {
      "epoch": 1.0420058612829697,
      "grad_norm": 0.9907364845275879,
      "learning_rate": 3.266037121458808e-05,
      "loss": 0.1005620002746582,
      "step": 3200
    },
    {
      "epoch": 1.0582872028655161,
      "grad_norm": 1.0079267024993896,
      "learning_rate": 3.238901552154565e-05,
      "loss": 0.0909033203125,
      "step": 3250
    },
    {
      "epoch": 1.0745685444480626,
      "grad_norm": 1.661521315574646,
      "learning_rate": 3.211765982850321e-05,
      "loss": 0.07444488525390625,
      "step": 3300
    },
    {
      "epoch": 1.0908498860306088,
      "grad_norm": 0.5184240341186523,
      "learning_rate": 3.1846304135460766e-05,
      "loss": 0.08309778213500976,
      "step": 3350
    },
    {
      "epoch": 1.1071312276131553,
      "grad_norm": 1.1483348608016968,
      "learning_rate": 3.1574948442418325e-05,
      "loss": 0.07855434417724609,
      "step": 3400
    },
    {
      "epoch": 1.1234125691957018,
      "grad_norm": 1.0581797361373901,
      "learning_rate": 3.1303592749375884e-05,
      "loss": 0.0779510498046875,
      "step": 3450
    },
    {
      "epoch": 1.1396939107782482,
      "grad_norm": 0.3960680663585663,
      "learning_rate": 3.103223705633344e-05,
      "loss": 0.07558696269989014,
      "step": 3500
    },
    {
      "epoch": 1.1559752523607945,
      "grad_norm": 0.7705583572387695,
      "learning_rate": 3.076088136329101e-05,
      "loss": 0.07015891551971436,
      "step": 3550
    },
    {
      "epoch": 1.172256593943341,
      "grad_norm": 0.9814662933349609,
      "learning_rate": 3.0489525670248564e-05,
      "loss": 0.09184465408325196,
      "step": 3600
    },
    {
      "epoch": 1.1885379355258874,
      "grad_norm": 0.16037984192371368,
      "learning_rate": 3.0218169977206123e-05,
      "loss": 0.10087477684020996,
      "step": 3650
    },
    {
      "epoch": 1.2048192771084336,
      "grad_norm": 0.4658585488796234,
      "learning_rate": 2.994681428416368e-05,
      "loss": 0.0878927993774414,
      "step": 3700
    },
    {
      "epoch": 1.22110061869098,
      "grad_norm": 0.6178460717201233,
      "learning_rate": 2.967545859112124e-05,
      "loss": 0.08248810768127442,
      "step": 3750
    },
    {
      "epoch": 1.2373819602735265,
      "grad_norm": 0.8095784783363342,
      "learning_rate": 2.9404102898078806e-05,
      "loss": 0.07741629600524902,
      "step": 3800
    },
    {
      "epoch": 1.253663301856073,
      "grad_norm": 0.7121015191078186,
      "learning_rate": 2.9132747205036365e-05,
      "loss": 0.06926633358001709,
      "step": 3850
    },
    {
      "epoch": 1.2699446434386195,
      "grad_norm": 0.9626070857048035,
      "learning_rate": 2.8861391511993923e-05,
      "loss": 0.08737580299377441,
      "step": 3900
    },
    {
      "epoch": 1.2862259850211657,
      "grad_norm": 1.617689847946167,
      "learning_rate": 2.8590035818951482e-05,
      "loss": 0.08954649925231933,
      "step": 3950
    },
    {
      "epoch": 1.3025073266037122,
      "grad_norm": 0.17025412619113922,
      "learning_rate": 2.831868012590904e-05,
      "loss": 0.07303418159484863,
      "step": 4000
    },
    {
      "epoch": 1.3187886681862586,
      "grad_norm": 0.8474647402763367,
      "learning_rate": 2.80473244328666e-05,
      "loss": 0.10014421463012696,
      "step": 4050
    },
    {
      "epoch": 1.3350700097688049,
      "grad_norm": 1.1335641145706177,
      "learning_rate": 2.7775968739824165e-05,
      "loss": 0.09378931999206543,
      "step": 4100
    },
    {
      "epoch": 1.3513513513513513,
      "grad_norm": 0.05914885550737381,
      "learning_rate": 2.7504613046781724e-05,
      "loss": 0.0685378360748291,
      "step": 4150
    },
    {
      "epoch": 1.3676326929338978,
      "grad_norm": 0.49404996633529663,
      "learning_rate": 2.7233257353739283e-05,
      "loss": 0.0691972017288208,
      "step": 4200
    },
    {
      "epoch": 1.3839140345164442,
      "grad_norm": 0.49692803621292114,
      "learning_rate": 2.6961901660696842e-05,
      "loss": 0.07013116836547852,
      "step": 4250
    },
    {
      "epoch": 1.4001953760989905,
      "grad_norm": 1.2489663362503052,
      "learning_rate": 2.66905459676544e-05,
      "loss": 0.06815986156463623,
      "step": 4300
    },
    {
      "epoch": 1.416476717681537,
      "grad_norm": 1.234505534172058,
      "learning_rate": 2.641919027461196e-05,
      "loss": 0.07438003540039062,
      "step": 4350
    },
    {
      "epoch": 1.4327580592640834,
      "grad_norm": 0.5595135688781738,
      "learning_rate": 2.6147834581569525e-05,
      "loss": 0.08010281562805176,
      "step": 4400
    },
    {
      "epoch": 1.4490394008466296,
      "grad_norm": 0.713994026184082,
      "learning_rate": 2.5876478888527084e-05,
      "loss": 0.08089996337890625,
      "step": 4450
    },
    {
      "epoch": 1.465320742429176,
      "grad_norm": 0.41522467136383057,
      "learning_rate": 2.5605123195484643e-05,
      "loss": 0.07183042049407959,
      "step": 4500
    },
    {
      "epoch": 1.4816020840117226,
      "grad_norm": 0.4079296290874481,
      "learning_rate": 2.53337675024422e-05,
      "loss": 0.07589399337768554,
      "step": 4550
    },
    {
      "epoch": 1.497883425594269,
      "grad_norm": 0.3075660169124603,
      "learning_rate": 2.506241180939976e-05,
      "loss": 0.07919666767120362,
      "step": 4600
    },
    {
      "epoch": 1.5141647671768155,
      "grad_norm": 1.5832964181900024,
      "learning_rate": 2.4791056116357323e-05,
      "loss": 0.06133227825164795,
      "step": 4650
    },
    {
      "epoch": 1.530446108759362,
      "grad_norm": 0.32941189408302307,
      "learning_rate": 2.451970042331488e-05,
      "loss": 0.07278666496276856,
      "step": 4700
    },
    {
      "epoch": 1.5467274503419082,
      "grad_norm": 0.5237034559249878,
      "learning_rate": 2.4248344730272444e-05,
      "loss": 0.07373996734619141,
      "step": 4750
    },
    {
      "epoch": 1.5630087919244544,
      "grad_norm": 0.056225214153528214,
      "learning_rate": 2.3976989037230003e-05,
      "loss": 0.08032115936279297,
      "step": 4800
    },
    {
      "epoch": 1.5792901335070009,
      "grad_norm": 0.6325415372848511,
      "learning_rate": 2.370563334418756e-05,
      "loss": 0.08559741973876953,
      "step": 4850
    },
    {
      "epoch": 1.5955714750895473,
      "grad_norm": 1.230356216430664,
      "learning_rate": 2.3434277651145124e-05,
      "loss": 0.07180691242218018,
      "step": 4900
    },
    {
      "epoch": 1.6118528166720938,
      "grad_norm": 3.57700252532959,
      "learning_rate": 2.3162921958102682e-05,
      "loss": 0.06951488494873047,
      "step": 4950
    },
    {
      "epoch": 1.6281341582546403,
      "grad_norm": 1.004461646080017,
      "learning_rate": 2.289156626506024e-05,
      "loss": 0.057218775749206544,
      "step": 5000
    },
    {
      "epoch": 1.6444154998371867,
      "grad_norm": 0.44509896636009216,
      "learning_rate": 2.2620210572017803e-05,
      "loss": 0.08383867263793945,
      "step": 5050
    },
    {
      "epoch": 1.660696841419733,
      "grad_norm": 0.6665693521499634,
      "learning_rate": 2.2348854878975362e-05,
      "loss": 0.0708467960357666,
      "step": 5100
    },
    {
      "epoch": 1.6769781830022794,
      "grad_norm": 0.520028293132782,
      "learning_rate": 2.207749918593292e-05,
      "loss": 0.07018136024475098,
      "step": 5150
    },
    {
      "epoch": 1.6932595245848256,
      "grad_norm": 0.7581444382667542,
      "learning_rate": 2.1806143492890483e-05,
      "loss": 0.06788209915161132,
      "step": 5200
    },
    {
      "epoch": 1.709540866167372,
      "grad_norm": 0.34040266275405884,
      "learning_rate": 2.1534787799848042e-05,
      "loss": 0.08334577560424805,
      "step": 5250
    },
    {
      "epoch": 1.7258222077499186,
      "grad_norm": 0.5161302089691162,
      "learning_rate": 2.1263432106805604e-05,
      "loss": 0.06911201477050781,
      "step": 5300
    },
    {
      "epoch": 1.742103549332465,
      "grad_norm": 0.8025581240653992,
      "learning_rate": 2.0992076413763163e-05,
      "loss": 0.06495306968688964,
      "step": 5350
    },
    {
      "epoch": 1.7583848909150115,
      "grad_norm": 1.0504302978515625,
      "learning_rate": 2.0720720720720722e-05,
      "loss": 0.06523369789123536,
      "step": 5400
    },
    {
      "epoch": 1.774666232497558,
      "grad_norm": 1.5722064971923828,
      "learning_rate": 2.0449365027678284e-05,
      "loss": 0.06998776435852051,
      "step": 5450
    },
    {
      "epoch": 1.7909475740801042,
      "grad_norm": 1.4498728513717651,
      "learning_rate": 2.0178009334635843e-05,
      "loss": 0.07263383388519287,
      "step": 5500
    },
    {
      "epoch": 1.8072289156626506,
      "grad_norm": 0.1697084903717041,
      "learning_rate": 1.9906653641593402e-05,
      "loss": 0.06083515644073487,
      "step": 5550
    },
    {
      "epoch": 1.8235102572451969,
      "grad_norm": 0.043431248515844345,
      "learning_rate": 1.9635297948550964e-05,
      "loss": 0.0591968297958374,
      "step": 5600
    },
    {
      "epoch": 1.8397915988277433,
      "grad_norm": 0.9290309548377991,
      "learning_rate": 1.9363942255508523e-05,
      "loss": 0.060645227432250974,
      "step": 5650
    },
    {
      "epoch": 1.8560729404102898,
      "grad_norm": 1.0422381162643433,
      "learning_rate": 1.9092586562466082e-05,
      "loss": 0.07442611217498779,
      "step": 5700
    },
    {
      "epoch": 1.8723542819928363,
      "grad_norm": 0.3466901183128357,
      "learning_rate": 1.8821230869423644e-05,
      "loss": 0.07767025470733642,
      "step": 5750
    },
    {
      "epoch": 1.8886356235753827,
      "grad_norm": 0.39657458662986755,
      "learning_rate": 1.8549875176381203e-05,
      "loss": 0.06347317218780518,
      "step": 5800
    },
    {
      "epoch": 1.904916965157929,
      "grad_norm": 1.00450599193573,
      "learning_rate": 1.827851948333876e-05,
      "loss": 0.06967205524444581,
      "step": 5850
    },
    {
      "epoch": 1.9211983067404754,
      "grad_norm": 1.1727004051208496,
      "learning_rate": 1.800716379029632e-05,
      "loss": 0.06747759819030762,
      "step": 5900
    },
    {
      "epoch": 1.9374796483230217,
      "grad_norm": 0.8829087615013123,
      "learning_rate": 1.7735808097253883e-05,
      "loss": 0.07414731979370118,
      "step": 5950
    },
    {
      "epoch": 1.9537609899055681,
      "grad_norm": 1.3967463970184326,
      "learning_rate": 1.746445240421144e-05,
      "loss": 0.06446901321411133,
      "step": 6000
    },
    {
      "epoch": 1.9700423314881146,
      "grad_norm": 0.9375430345535278,
      "learning_rate": 1.7193096711169e-05,
      "loss": 0.06800864696502686,
      "step": 6050
    },
    {
      "epoch": 1.986323673070661,
      "grad_norm": 0.9516276717185974,
      "learning_rate": 1.692174101812656e-05,
      "loss": 0.08866607666015625,
      "step": 6100
    },
    {
      "epoch": 2.0,
      "eval_bertscore_f1": 0.9923369143584934,
      "eval_bleu": 0.8956281706064034,
      "eval_loss": 0.06535279005765915,
      "eval_meteor": 0.938086576675145,
      "eval_rouge1": 0.950788798151768,
      "eval_rouge2": 0.9176212368118313,
      "eval_runtime": 58.3038,
      "eval_samples_per_second": 22.16,
      "eval_steps_per_second": 2.779,
      "step": 6142
    },
    {
      "epoch": 2.0026050146532075,
      "grad_norm": 0.3171500861644745,
      "learning_rate": 1.665038532508412e-05,
      "loss": 0.06093011379241944,
      "step": 6150
    },
    {
      "epoch": 2.018886356235754,
      "grad_norm": 0.3844246566295624,
      "learning_rate": 1.637902963204168e-05,
      "loss": 0.05403701782226562,
      "step": 6200
    },
    {
      "epoch": 2.0351676978183004,
      "grad_norm": 1.5091606378555298,
      "learning_rate": 1.610767393899924e-05,
      "loss": 0.06063016414642334,
      "step": 6250
    },
    {
      "epoch": 2.0514490394008464,
      "grad_norm": 0.5060765743255615,
      "learning_rate": 1.58363182459568e-05,
      "loss": 0.06424860954284668,
      "step": 6300
    },
    {
      "epoch": 2.067730380983393,
      "grad_norm": 0.5501185059547424,
      "learning_rate": 1.556496255291436e-05,
      "loss": 0.052588853836059574,
      "step": 6350
    },
    {
      "epoch": 2.0840117225659394,
      "grad_norm": 0.5140529274940491,
      "learning_rate": 1.529360685987192e-05,
      "loss": 0.05470933437347412,
      "step": 6400
    },
    {
      "epoch": 2.100293064148486,
      "grad_norm": 0.13059721887111664,
      "learning_rate": 1.5022251166829483e-05,
      "loss": 0.05880857944488525,
      "step": 6450
    },
    {
      "epoch": 2.1165744057310323,
      "grad_norm": 0.5545864701271057,
      "learning_rate": 1.4750895473787041e-05,
      "loss": 0.05454400062561035,
      "step": 6500
    },
    {
      "epoch": 2.1328557473135787,
      "grad_norm": 0.7566473484039307,
      "learning_rate": 1.44795397807446e-05,
      "loss": 0.05996315956115723,
      "step": 6550
    },
    {
      "epoch": 2.149137088896125,
      "grad_norm": 0.6309687495231628,
      "learning_rate": 1.420818408770216e-05,
      "loss": 0.06270824909210206,
      "step": 6600
    },
    {
      "epoch": 2.165418430478671,
      "grad_norm": 0.6882494688034058,
      "learning_rate": 1.3936828394659721e-05,
      "loss": 0.0579791259765625,
      "step": 6650
    },
    {
      "epoch": 2.1816997720612177,
      "grad_norm": 0.5102435946464539,
      "learning_rate": 1.366547270161728e-05,
      "loss": 0.05909278869628906,
      "step": 6700
    },
    {
      "epoch": 2.197981113643764,
      "grad_norm": 0.5612519979476929,
      "learning_rate": 1.339411700857484e-05,
      "loss": 0.0631598711013794,
      "step": 6750
    },
    {
      "epoch": 2.2142624552263106,
      "grad_norm": 0.5335197448730469,
      "learning_rate": 1.31227613155324e-05,
      "loss": 0.061668686866760254,
      "step": 6800
    },
    {
      "epoch": 2.230543796808857,
      "grad_norm": 0.26907965540885925,
      "learning_rate": 1.285140562248996e-05,
      "loss": 0.05813938617706299,
      "step": 6850
    },
    {
      "epoch": 2.2468251383914035,
      "grad_norm": 0.9871731996536255,
      "learning_rate": 1.258004992944752e-05,
      "loss": 0.06166846752166748,
      "step": 6900
    },
    {
      "epoch": 2.26310647997395,
      "grad_norm": 0.7092576622962952,
      "learning_rate": 1.230869423640508e-05,
      "loss": 0.05214274883270264,
      "step": 6950
    },
    {
      "epoch": 2.2793878215564964,
      "grad_norm": 0.6084023714065552,
      "learning_rate": 1.203733854336264e-05,
      "loss": 0.06180807590484619,
      "step": 7000
    },
    {
      "epoch": 2.295669163139043,
      "grad_norm": 1.0545355081558228,
      "learning_rate": 1.17659828503202e-05,
      "loss": 0.05810202598571777,
      "step": 7050
    },
    {
      "epoch": 2.311950504721589,
      "grad_norm": 0.9563855528831482,
      "learning_rate": 1.149462715727776e-05,
      "loss": 0.05618003368377686,
      "step": 7100
    },
    {
      "epoch": 2.3282318463041354,
      "grad_norm": 0.6173250079154968,
      "learning_rate": 1.122327146423532e-05,
      "loss": 0.06320930480957031,
      "step": 7150
    },
    {
      "epoch": 2.344513187886682,
      "grad_norm": 0.08047935366630554,
      "learning_rate": 1.095191577119288e-05,
      "loss": 0.058518905639648434,
      "step": 7200
    },
    {
      "epoch": 2.3607945294692283,
      "grad_norm": 0.6877385973930359,
      "learning_rate": 1.0680560078150439e-05,
      "loss": 0.07214242458343506,
      "step": 7250
    },
    {
      "epoch": 2.3770758710517748,
      "grad_norm": 0.7921647429466248,
      "learning_rate": 1.0409204385108e-05,
      "loss": 0.0554658842086792,
      "step": 7300
    },
    {
      "epoch": 2.393357212634321,
      "grad_norm": 0.23214460909366608,
      "learning_rate": 1.013784869206556e-05,
      "loss": 0.05945809364318848,
      "step": 7350
    },
    {
      "epoch": 2.4096385542168672,
      "grad_norm": 0.23501083254814148,
      "learning_rate": 9.86649299902312e-06,
      "loss": 0.04184418678283691,
      "step": 7400
    },
    {
      "epoch": 2.4259198957994137,
      "grad_norm": 0.19243040680885315,
      "learning_rate": 9.59513730598068e-06,
      "loss": 0.0685301399230957,
      "step": 7450
    },
    {
      "epoch": 2.44220123738196,
      "grad_norm": 0.03571745380759239,
      "learning_rate": 9.32378161293824e-06,
      "loss": 0.05060723781585694,
      "step": 7500
    },
    {
      "epoch": 2.4584825789645066,
      "grad_norm": 0.06310860812664032,
      "learning_rate": 9.0524259198958e-06,
      "loss": 0.06717358589172363,
      "step": 7550
    },
    {
      "epoch": 2.474763920547053,
      "grad_norm": 0.4403184950351715,
      "learning_rate": 8.78107022685336e-06,
      "loss": 0.0508097505569458,
      "step": 7600
    },
    {
      "epoch": 2.4910452621295995,
      "grad_norm": 0.1725953370332718,
      "learning_rate": 8.50971453381092e-06,
      "loss": 0.06436698913574218,
      "step": 7650
    },
    {
      "epoch": 2.507326603712146,
      "grad_norm": 0.560205340385437,
      "learning_rate": 8.23835884076848e-06,
      "loss": 0.05466559410095215,
      "step": 7700
    },
    {
      "epoch": 2.5236079452946925,
      "grad_norm": 0.8589635491371155,
      "learning_rate": 7.96700314772604e-06,
      "loss": 0.052462191581726075,
      "step": 7750
    },
    {
      "epoch": 2.539889286877239,
      "grad_norm": 0.40856632590293884,
      "learning_rate": 7.6956474546836e-06,
      "loss": 0.057110257148742676,
      "step": 7800
    },
    {
      "epoch": 2.556170628459785,
      "grad_norm": 0.2351612001657486,
      "learning_rate": 7.424291761641159e-06,
      "loss": 0.049067635536193845,
      "step": 7850
    },
    {
      "epoch": 2.5724519700423314,
      "grad_norm": 0.3204529583454132,
      "learning_rate": 7.15293606859872e-06,
      "loss": 0.049645824432373045,
      "step": 7900
    },
    {
      "epoch": 2.588733311624878,
      "grad_norm": 0.43326708674430847,
      "learning_rate": 6.881580375556279e-06,
      "loss": 0.050102224349975584,
      "step": 7950
    },
    {
      "epoch": 2.6050146532074243,
      "grad_norm": 1.065234899520874,
      "learning_rate": 6.610224682513839e-06,
      "loss": 0.06275768280029297,
      "step": 8000
    },
    {
      "epoch": 2.6212959947899708,
      "grad_norm": 0.26160168647766113,
      "learning_rate": 6.3388689894714e-06,
      "loss": 0.04881012439727783,
      "step": 8050
    },
    {
      "epoch": 2.6375773363725172,
      "grad_norm": 0.6686789989471436,
      "learning_rate": 6.067513296428959e-06,
      "loss": 0.058712401390075684,
      "step": 8100
    },
    {
      "epoch": 2.6538586779550632,
      "grad_norm": 0.4735671281814575,
      "learning_rate": 5.796157603386519e-06,
      "loss": 0.05793766498565674,
      "step": 8150
    },
    {
      "epoch": 2.6701400195376097,
      "grad_norm": 0.9112767577171326,
      "learning_rate": 5.5248019103440796e-06,
      "loss": 0.05646980285644531,
      "step": 8200
    },
    {
      "epoch": 2.686421361120156,
      "grad_norm": 0.3665359914302826,
      "learning_rate": 5.253446217301639e-06,
      "loss": 0.05863104820251465,
      "step": 8250
    },
    {
      "epoch": 2.7027027027027026,
      "grad_norm": 0.39087387919425964,
      "learning_rate": 4.982090524259199e-06,
      "loss": 0.04811685085296631,
      "step": 8300
    },
    {
      "epoch": 2.718984044285249,
      "grad_norm": 0.7103152871131897,
      "learning_rate": 4.7107348312167594e-06,
      "loss": 0.0660721492767334,
      "step": 8350
    },
    {
      "epoch": 2.7352653858677956,
      "grad_norm": 0.30644118785858154,
      "learning_rate": 4.439379138174319e-06,
      "loss": 0.061232595443725585,
      "step": 8400
    },
    {
      "epoch": 2.751546727450342,
      "grad_norm": 0.6912480592727661,
      "learning_rate": 4.16802344513188e-06,
      "loss": 0.0465062952041626,
      "step": 8450
    },
    {
      "epoch": 2.7678280690328885,
      "grad_norm": 0.2372223436832428,
      "learning_rate": 3.896667752089439e-06,
      "loss": 0.05613251686096191,
      "step": 8500
    },
    {
      "epoch": 2.784109410615435,
      "grad_norm": 0.3588544428348541,
      "learning_rate": 3.6253120590469985e-06,
      "loss": 0.06228278636932373,
      "step": 8550
    },
    {
      "epoch": 2.800390752197981,
      "grad_norm": 0.8760668039321899,
      "learning_rate": 3.353956366004559e-06,
      "loss": 0.058021135330200195,
      "step": 8600
    },
    {
      "epoch": 2.8166720937805274,
      "grad_norm": 0.39105167984962463,
      "learning_rate": 3.0826006729621187e-06,
      "loss": 0.05042066097259521,
      "step": 8650
    },
    {
      "epoch": 2.832953435363074,
      "grad_norm": 0.8453779816627502,
      "learning_rate": 2.811244979919679e-06,
      "loss": 0.05310141086578369,
      "step": 8700
    },
    {
      "epoch": 2.8492347769456203,
      "grad_norm": 0.3931414484977722,
      "learning_rate": 2.539889286877239e-06,
      "loss": 0.04613284111022949,
      "step": 8750
    },
    {
      "epoch": 2.865516118528167,
      "grad_norm": 0.601372480392456,
      "learning_rate": 2.268533593834799e-06,
      "loss": 0.055337414741516114,
      "step": 8800
    },
    {
      "epoch": 2.8817974601107132,
      "grad_norm": 0.40091976523399353,
      "learning_rate": 1.9971779007923587e-06,
      "loss": 0.05075720310211182,
      "step": 8850
    },
    {
      "epoch": 2.8980788016932593,
      "grad_norm": 0.9332064986228943,
      "learning_rate": 1.7258222077499185e-06,
      "loss": 0.04717796325683594,
      "step": 8900
    },
    {
      "epoch": 2.9143601432758057,
      "grad_norm": 0.7941976189613342,
      "learning_rate": 1.4544665147074786e-06,
      "loss": 0.07562547206878661,
      "step": 8950
    },
    {
      "epoch": 2.930641484858352,
      "grad_norm": 0.6598140597343445,
      "learning_rate": 1.1831108216650385e-06,
      "loss": 0.05916054248809814,
      "step": 9000
    },
    {
      "epoch": 2.9469228264408986,
      "grad_norm": 0.07086297869682312,
      "learning_rate": 9.117551286225986e-07,
      "loss": 0.05104278087615967,
      "step": 9050
    },
    {
      "epoch": 2.963204168023445,
      "grad_norm": 0.5035263299942017,
      "learning_rate": 6.403994355801585e-07,
      "loss": 0.04357606887817383,
      "step": 9100
    },
    {
      "epoch": 2.9794855096059916,
      "grad_norm": 0.28602153062820435,
      "learning_rate": 3.690437425377185e-07,
      "loss": 0.04314669132232666,
      "step": 9150
    },
    {
      "epoch": 2.995766851188538,
      "grad_norm": 0.24384021759033203,
      "learning_rate": 9.768804949527842e-08,
      "loss": 0.04970499038696289,
      "step": 9200
    },
    {
      "epoch": 3.0,
      "eval_bertscore_f1": 0.9924511363724068,
      "eval_bleu": 0.9035076605970417,
      "eval_loss": 0.058707889169454575,
      "eval_meteor": 0.9399283468508673,
      "eval_rouge1": 0.9525840238092467,
      "eval_rouge2": 0.9200012975801428,
      "eval_runtime": 58.5972,
      "eval_samples_per_second": 22.049,
      "eval_steps_per_second": 2.765,
      "step": 9213
    }
  ],
  "logging_steps": 50,
  "max_steps": 9213,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 3,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 2.24385758724096e+16,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}