1355 / trainer_state.json

Add files using upload-large-folder tool

677a7e4 verified 22 days ago

250 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.0,
	"eval_steps": 500,
	"global_step": 1355,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0007380073800738007,
	"grad_norm": 52.96585464477539,
	"learning_rate": 0.0,
	"loss": 7.329597473144531,
	"step": 1
	},
	{
	"epoch": 0.0014760147601476014,
	"grad_norm": 42.55315017700195,
	"learning_rate": 1.4e-05,
	"loss": 7.168418884277344,
	"step": 2
	},
	{
	"epoch": 0.002214022140221402,
	"grad_norm": 21.52372169494629,
	"learning_rate": 2.8e-05,
	"loss": 6.947352409362793,
	"step": 3
	},
	{
	"epoch": 0.002952029520295203,
	"grad_norm": 19.89319610595703,
	"learning_rate": 4.2e-05,
	"loss": 6.611477851867676,
	"step": 4
	},
	{
	"epoch": 0.0036900369003690036,
	"grad_norm": 12.127403259277344,
	"learning_rate": 5.6e-05,
	"loss": 6.690403938293457,
	"step": 5
	},
	{
	"epoch": 0.004428044280442804,
	"grad_norm": 11.600789070129395,
	"learning_rate": 7.000000000000001e-05,
	"loss": 6.540159225463867,
	"step": 6
	},
	{
	"epoch": 0.0051660516605166054,
	"grad_norm": 8.64883804321289,
	"learning_rate": 8.4e-05,
	"loss": 6.4675188064575195,
	"step": 7
	},
	{
	"epoch": 0.005904059040590406,
	"grad_norm": 8.694304466247559,
	"learning_rate": 9.800000000000001e-05,
	"loss": 6.344979286193848,
	"step": 8
	},
	{
	"epoch": 0.006642066420664207,
	"grad_norm": 8.474891662597656,
	"learning_rate": 0.000112,
	"loss": 6.483427047729492,
	"step": 9
	},
	{
	"epoch": 0.007380073800738007,
	"grad_norm": 8.267909049987793,
	"learning_rate": 0.000126,
	"loss": 6.328839302062988,
	"step": 10
	},
	{
	"epoch": 0.008118081180811807,
	"grad_norm": 6.391619682312012,
	"learning_rate": 0.00014000000000000001,
	"loss": 6.344330787658691,
	"step": 11
	},
	{
	"epoch": 0.008856088560885609,
	"grad_norm": 4.2130842208862305,
	"learning_rate": 0.000154,
	"loss": 6.2279744148254395,
	"step": 12
	},
	{
	"epoch": 0.00959409594095941,
	"grad_norm": 4.580661296844482,
	"learning_rate": 0.000168,
	"loss": 6.267205715179443,
	"step": 13
	},
	{
	"epoch": 0.010332103321033211,
	"grad_norm": 4.600402355194092,
	"learning_rate": 0.000182,
	"loss": 6.177546501159668,
	"step": 14
	},
	{
	"epoch": 0.01107011070110701,
	"grad_norm": 6.000468730926514,
	"learning_rate": 0.00019600000000000002,
	"loss": 6.123383522033691,
	"step": 15
	},
	{
	"epoch": 0.011808118081180811,
	"grad_norm": 6.2054548263549805,
	"learning_rate": 0.00020999999999999998,
	"loss": 6.029158592224121,
	"step": 16
	},
	{
	"epoch": 0.012546125461254613,
	"grad_norm": 5.766181945800781,
	"learning_rate": 0.000224,
	"loss": 6.146026611328125,
	"step": 17
	},
	{
	"epoch": 0.013284132841328414,
	"grad_norm": 3.5282742977142334,
	"learning_rate": 0.000238,
	"loss": 6.347329139709473,
	"step": 18
	},
	{
	"epoch": 0.014022140221402213,
	"grad_norm": 10.378168106079102,
	"learning_rate": 0.000252,
	"loss": 5.982622146606445,
	"step": 19
	},
	{
	"epoch": 0.014760147601476014,
	"grad_norm": 6.26217794418335,
	"learning_rate": 0.000266,
	"loss": 6.232936859130859,
	"step": 20
	},
	{
	"epoch": 0.015498154981549815,
	"grad_norm": 3.640542984008789,
	"learning_rate": 0.00028000000000000003,
	"loss": 6.282479763031006,
	"step": 21
	},
	{
	"epoch": 0.016236162361623615,
	"grad_norm": 4.074864864349365,
	"learning_rate": 0.000294,
	"loss": 6.1197309494018555,
	"step": 22
	},
	{
	"epoch": 0.016974169741697416,
	"grad_norm": 4.15755558013916,
	"learning_rate": 0.000308,
	"loss": 6.1190900802612305,
	"step": 23
	},
	{
	"epoch": 0.017712177121771217,
	"grad_norm": 8.528851509094238,
	"learning_rate": 0.000322,
	"loss": 6.108499050140381,
	"step": 24
	},
	{
	"epoch": 0.01845018450184502,
	"grad_norm": 4.248746395111084,
	"learning_rate": 0.000336,
	"loss": 5.993032932281494,
	"step": 25
	},
	{
	"epoch": 0.01918819188191882,
	"grad_norm": 5.643017292022705,
	"learning_rate": 0.00035,
	"loss": 6.173605918884277,
	"step": 26
	},
	{
	"epoch": 0.01992619926199262,
	"grad_norm": 3.0032365322113037,
	"learning_rate": 0.000364,
	"loss": 5.9087629318237305,
	"step": 27
	},
	{
	"epoch": 0.020664206642066422,
	"grad_norm": 6.890568733215332,
	"learning_rate": 0.000378,
	"loss": 6.026180267333984,
	"step": 28
	},
	{
	"epoch": 0.021402214022140223,
	"grad_norm": 4.55826473236084,
	"learning_rate": 0.00039200000000000004,
	"loss": 6.302541732788086,
	"step": 29
	},
	{
	"epoch": 0.02214022140221402,
	"grad_norm": 5.366292953491211,
	"learning_rate": 0.00040599999999999995,
	"loss": 6.086678981781006,
	"step": 30
	},
	{
	"epoch": 0.022878228782287822,
	"grad_norm": 2.9198176860809326,
	"learning_rate": 0.00041999999999999996,
	"loss": 6.034950256347656,
	"step": 31
	},
	{
	"epoch": 0.023616236162361623,
	"grad_norm": 3.0416109561920166,
	"learning_rate": 0.000434,
	"loss": 5.959887981414795,
	"step": 32
	},
	{
	"epoch": 0.024354243542435424,
	"grad_norm": 3.6983375549316406,
	"learning_rate": 0.000448,
	"loss": 5.958649635314941,
	"step": 33
	},
	{
	"epoch": 0.025092250922509225,
	"grad_norm": 3.3332769870758057,
	"learning_rate": 0.000462,
	"loss": 6.053283214569092,
	"step": 34
	},
	{
	"epoch": 0.025830258302583026,
	"grad_norm": 4.3135857582092285,
	"learning_rate": 0.000476,
	"loss": 5.938570499420166,
	"step": 35
	},
	{
	"epoch": 0.026568265682656828,
	"grad_norm": 3.9662985801696777,
	"learning_rate": 0.00049,
	"loss": 6.1224799156188965,
	"step": 36
	},
	{
	"epoch": 0.02730627306273063,
	"grad_norm": 3.4459118843078613,
	"learning_rate": 0.000504,
	"loss": 6.048614501953125,
	"step": 37
	},
	{
	"epoch": 0.028044280442804426,
	"grad_norm": 4.011275768280029,
	"learning_rate": 0.000518,
	"loss": 6.095024108886719,
	"step": 38
	},
	{
	"epoch": 0.028782287822878228,
	"grad_norm": 4.109455108642578,
	"learning_rate": 0.000532,
	"loss": 6.097041130065918,
	"step": 39
	},
	{
	"epoch": 0.02952029520295203,
	"grad_norm": 2.0187416076660156,
	"learning_rate": 0.000546,
	"loss": 5.855551719665527,
	"step": 40
	},
	{
	"epoch": 0.03025830258302583,
	"grad_norm": 4.543977737426758,
	"learning_rate": 0.0005600000000000001,
	"loss": 5.990810394287109,
	"step": 41
	},
	{
	"epoch": 0.03099630996309963,
	"grad_norm": 3.6285860538482666,
	"learning_rate": 0.000574,
	"loss": 6.1089982986450195,
	"step": 42
	},
	{
	"epoch": 0.03173431734317343,
	"grad_norm": 2.802408218383789,
	"learning_rate": 0.000588,
	"loss": 6.059175491333008,
	"step": 43
	},
	{
	"epoch": 0.03247232472324723,
	"grad_norm": 5.055509090423584,
	"learning_rate": 0.000602,
	"loss": 6.0541791915893555,
	"step": 44
	},
	{
	"epoch": 0.033210332103321034,
	"grad_norm": 5.420635223388672,
	"learning_rate": 0.000616,
	"loss": 5.914989471435547,
	"step": 45
	},
	{
	"epoch": 0.03394833948339483,
	"grad_norm": 3.779264211654663,
	"learning_rate": 0.00063,
	"loss": 5.772123336791992,
	"step": 46
	},
	{
	"epoch": 0.03468634686346864,
	"grad_norm": 4.194505214691162,
	"learning_rate": 0.000644,
	"loss": 6.127632141113281,
	"step": 47
	},
	{
	"epoch": 0.035424354243542434,
	"grad_norm": 2.183096170425415,
	"learning_rate": 0.000658,
	"loss": 5.898839950561523,
	"step": 48
	},
	{
	"epoch": 0.03616236162361624,
	"grad_norm": 3.0196142196655273,
	"learning_rate": 0.000672,
	"loss": 5.775443077087402,
	"step": 49
	},
	{
	"epoch": 0.03690036900369004,
	"grad_norm": 4.503098011016846,
	"learning_rate": 0.000686,
	"loss": 5.992775917053223,
	"step": 50
	},
	{
	"epoch": 0.037638376383763834,
	"grad_norm": 2.646671772003174,
	"learning_rate": 0.0007,
	"loss": 5.891811370849609,
	"step": 51
	},
	{
	"epoch": 0.03837638376383764,
	"grad_norm": 4.828780651092529,
	"learning_rate": 0.0006999989858164525,
	"loss": 5.944026947021484,
	"step": 52
	},
	{
	"epoch": 0.03911439114391144,
	"grad_norm": 5.056863784790039,
	"learning_rate": 0.0006999959432716873,
	"loss": 6.092121601104736,
	"step": 53
	},
	{
	"epoch": 0.03985239852398524,
	"grad_norm": 2.9205923080444336,
	"learning_rate": 0.0006999908723833372,
	"loss": 6.128796577453613,
	"step": 54
	},
	{
	"epoch": 0.04059040590405904,
	"grad_norm": 2.503229856491089,
	"learning_rate": 0.0006999837731807897,
	"loss": 5.857043266296387,
	"step": 55
	},
	{
	"epoch": 0.041328413284132844,
	"grad_norm": 2.815605640411377,
	"learning_rate": 0.0006999746457051868,
	"loss": 5.79864501953125,
	"step": 56
	},
	{
	"epoch": 0.04206642066420664,
	"grad_norm": 2.630692481994629,
	"learning_rate": 0.0006999634900094256,
	"loss": 6.038992881774902,
	"step": 57
	},
	{
	"epoch": 0.042804428044280446,
	"grad_norm": 2.103322982788086,
	"learning_rate": 0.0006999503061581567,
	"loss": 5.8827619552612305,
	"step": 58
	},
	{
	"epoch": 0.043542435424354244,
	"grad_norm": 4.4402265548706055,
	"learning_rate": 0.0006999350942277852,
	"loss": 6.193219184875488,
	"step": 59
	},
	{
	"epoch": 0.04428044280442804,
	"grad_norm": 2.784449815750122,
	"learning_rate": 0.0006999178543064694,
	"loss": 5.896166801452637,
	"step": 60
	},
	{
	"epoch": 0.045018450184501846,
	"grad_norm": 2.158843755722046,
	"learning_rate": 0.0006998985864941203,
	"loss": 5.9794487953186035,
	"step": 61
	},
	{
	"epoch": 0.045756457564575644,
	"grad_norm": 3.826530933380127,
	"learning_rate": 0.0006998772909024012,
	"loss": 5.747754096984863,
	"step": 62
	},
	{
	"epoch": 0.04649446494464945,
	"grad_norm": 1.7147290706634521,
	"learning_rate": 0.0006998539676547274,
	"loss": 5.834345817565918,
	"step": 63
	},
	{
	"epoch": 0.047232472324723246,
	"grad_norm": 2.6357598304748535,
	"learning_rate": 0.0006998286168862646,
	"loss": 5.970273017883301,
	"step": 64
	},
	{
	"epoch": 0.04797047970479705,
	"grad_norm": 2.0640320777893066,
	"learning_rate": 0.0006998012387439294,
	"loss": 6.20042610168457,
	"step": 65
	},
	{
	"epoch": 0.04870848708487085,
	"grad_norm": 1.840738296508789,
	"learning_rate": 0.0006997718333863869,
	"loss": 5.69251823425293,
	"step": 66
	},
	{
	"epoch": 0.04944649446494465,
	"grad_norm": 1.5103991031646729,
	"learning_rate": 0.0006997404009840512,
	"loss": 5.718031883239746,
	"step": 67
	},
	{
	"epoch": 0.05018450184501845,
	"grad_norm": 2.454057455062866,
	"learning_rate": 0.0006997069417190837,
	"loss": 5.718637466430664,
	"step": 68
	},
	{
	"epoch": 0.05092250922509225,
	"grad_norm": 1.7299764156341553,
	"learning_rate": 0.0006996714557853919,
	"loss": 5.874034404754639,
	"step": 69
	},
	{
	"epoch": 0.05166051660516605,
	"grad_norm": 1.983879566192627,
	"learning_rate": 0.0006996339433886285,
	"loss": 5.866864204406738,
	"step": 70
	},
	{
	"epoch": 0.05239852398523985,
	"grad_norm": 1.7243304252624512,
	"learning_rate": 0.0006995944047461907,
	"loss": 5.6140642166137695,
	"step": 71
	},
	{
	"epoch": 0.053136531365313655,
	"grad_norm": 2.1467807292938232,
	"learning_rate": 0.0006995528400872179,
	"loss": 5.7456207275390625,
	"step": 72
	},
	{
	"epoch": 0.05387453874538745,
	"grad_norm": 1.8860361576080322,
	"learning_rate": 0.0006995092496525912,
	"loss": 5.868312835693359,
	"step": 73
	},
	{
	"epoch": 0.05461254612546126,
	"grad_norm": 1.9977107048034668,
	"learning_rate": 0.000699463633694932,
	"loss": 5.8535919189453125,
	"step": 74
	},
	{
	"epoch": 0.055350553505535055,
	"grad_norm": 1.6792536973953247,
	"learning_rate": 0.0006994159924785998,
	"loss": 5.957564353942871,
	"step": 75
	},
	{
	"epoch": 0.05608856088560885,
	"grad_norm": 1.83674955368042,
	"learning_rate": 0.0006993663262796917,
	"loss": 5.801642894744873,
	"step": 76
	},
	{
	"epoch": 0.05682656826568266,
	"grad_norm": 1.7811754941940308,
	"learning_rate": 0.0006993146353860395,
	"loss": 5.8649001121521,
	"step": 77
	},
	{
	"epoch": 0.057564575645756455,
	"grad_norm": 2.130631446838379,
	"learning_rate": 0.0006992609200972095,
	"loss": 5.959519386291504,
	"step": 78
	},
	{
	"epoch": 0.05830258302583026,
	"grad_norm": 1.914402961730957,
	"learning_rate": 0.0006992051807244997,
	"loss": 5.6643877029418945,
	"step": 79
	},
	{
	"epoch": 0.05904059040590406,
	"grad_norm": 2.480494737625122,
	"learning_rate": 0.0006991474175909385,
	"loss": 5.705104827880859,
	"step": 80
	},
	{
	"epoch": 0.05977859778597786,
	"grad_norm": 1.6274583339691162,
	"learning_rate": 0.0006990876310312825,
	"loss": 5.786376953125,
	"step": 81
	},
	{
	"epoch": 0.06051660516605166,
	"grad_norm": 3.1301629543304443,
	"learning_rate": 0.0006990258213920147,
	"loss": 5.652984142303467,
	"step": 82
	},
	{
	"epoch": 0.061254612546125464,
	"grad_norm": 1.7219048738479614,
	"learning_rate": 0.0006989619890313428,
	"loss": 5.684242248535156,
	"step": 83
	},
	{
	"epoch": 0.06199261992619926,
	"grad_norm": 2.016432046890259,
	"learning_rate": 0.0006988961343191968,
	"loss": 5.919116973876953,
	"step": 84
	},
	{
	"epoch": 0.06273062730627306,
	"grad_norm": 1.9674099683761597,
	"learning_rate": 0.0006988282576372264,
	"loss": 5.706339359283447,
	"step": 85
	},
	{
	"epoch": 0.06346863468634686,
	"grad_norm": 1.6389487981796265,
	"learning_rate": 0.0006987583593788001,
	"loss": 6.144864082336426,
	"step": 86
	},
	{
	"epoch": 0.06420664206642067,
	"grad_norm": 1.9105358123779297,
	"learning_rate": 0.0006986864399490014,
	"loss": 5.812554359436035,
	"step": 87
	},
	{
	"epoch": 0.06494464944649446,
	"grad_norm": 2.2395148277282715,
	"learning_rate": 0.0006986124997646276,
	"loss": 5.818288803100586,
	"step": 88
	},
	{
	"epoch": 0.06568265682656826,
	"grad_norm": 1.4297045469284058,
	"learning_rate": 0.0006985365392541869,
	"loss": 5.988651275634766,
	"step": 89
	},
	{
	"epoch": 0.06642066420664207,
	"grad_norm": 2.393372058868408,
	"learning_rate": 0.0006984585588578955,
	"loss": 5.834245681762695,
	"step": 90
	},
	{
	"epoch": 0.06715867158671587,
	"grad_norm": 1.7424498796463013,
	"learning_rate": 0.0006983785590276763,
	"loss": 5.847927570343018,
	"step": 91
	},
	{
	"epoch": 0.06789667896678966,
	"grad_norm": 1.7180150747299194,
	"learning_rate": 0.0006982965402271549,
	"loss": 5.745847702026367,
	"step": 92
	},
	{
	"epoch": 0.06863468634686347,
	"grad_norm": 1.5406665802001953,
	"learning_rate": 0.0006982125029316576,
	"loss": 5.680943012237549,
	"step": 93
	},
	{
	"epoch": 0.06937269372693727,
	"grad_norm": 1.9634002447128296,
	"learning_rate": 0.0006981264476282089,
	"loss": 5.660253524780273,
	"step": 94
	},
	{
	"epoch": 0.07011070110701106,
	"grad_norm": 1.7053471803665161,
	"learning_rate": 0.0006980383748155278,
	"loss": 5.777673721313477,
	"step": 95
	},
	{
	"epoch": 0.07084870848708487,
	"grad_norm": 1.8611632585525513,
	"learning_rate": 0.0006979482850040258,
	"loss": 5.753267288208008,
	"step": 96
	},
	{
	"epoch": 0.07158671586715867,
	"grad_norm": 2.236954689025879,
	"learning_rate": 0.0006978561787158036,
	"loss": 5.762792587280273,
	"step": 97
	},
	{
	"epoch": 0.07232472324723248,
	"grad_norm": 1.5513856410980225,
	"learning_rate": 0.0006977620564846479,
	"loss": 5.847312927246094,
	"step": 98
	},
	{
	"epoch": 0.07306273062730627,
	"grad_norm": 1.6298314332962036,
	"learning_rate": 0.0006976659188560285,
	"loss": 5.568481922149658,
	"step": 99
	},
	{
	"epoch": 0.07380073800738007,
	"grad_norm": 1.6806327104568481,
	"learning_rate": 0.0006975677663870951,
	"loss": 5.746288776397705,
	"step": 100
	},
	{
	"epoch": 0.07453874538745388,
	"grad_norm": 1.5393524169921875,
	"learning_rate": 0.0006974675996466741,
	"loss": 5.562119960784912,
	"step": 101
	},
	{
	"epoch": 0.07527675276752767,
	"grad_norm": 1.3935660123825073,
	"learning_rate": 0.0006973654192152653,
	"loss": 5.655695915222168,
	"step": 102
	},
	{
	"epoch": 0.07601476014760147,
	"grad_norm": 1.8384559154510498,
	"learning_rate": 0.0006972612256850385,
	"loss": 5.717691421508789,
	"step": 103
	},
	{
	"epoch": 0.07675276752767528,
	"grad_norm": 1.4056777954101562,
	"learning_rate": 0.00069715501965983,
	"loss": 5.4914422035217285,
	"step": 104
	},
	{
	"epoch": 0.07749077490774908,
	"grad_norm": 1.5063185691833496,
	"learning_rate": 0.0006970468017551393,
	"loss": 5.804128170013428,
	"step": 105
	},
	{
	"epoch": 0.07822878228782287,
	"grad_norm": 1.5670958757400513,
	"learning_rate": 0.0006969365725981253,
	"loss": 5.555459976196289,
	"step": 106
	},
	{
	"epoch": 0.07896678966789668,
	"grad_norm": 1.4736913442611694,
	"learning_rate": 0.000696824332827603,
	"loss": 5.734355926513672,
	"step": 107
	},
	{
	"epoch": 0.07970479704797048,
	"grad_norm": 1.2875981330871582,
	"learning_rate": 0.0006967100830940393,
	"loss": 5.615688800811768,
	"step": 108
	},
	{
	"epoch": 0.08044280442804429,
	"grad_norm": 1.6725730895996094,
	"learning_rate": 0.0006965938240595497,
	"loss": 5.705436706542969,
	"step": 109
	},
	{
	"epoch": 0.08118081180811808,
	"grad_norm": 1.2822149991989136,
	"learning_rate": 0.000696475556397894,
	"loss": 5.77439022064209,
	"step": 110
	},
	{
	"epoch": 0.08191881918819188,
	"grad_norm": 1.5231584310531616,
	"learning_rate": 0.0006963552807944731,
	"loss": 5.540444374084473,
	"step": 111
	},
	{
	"epoch": 0.08265682656826569,
	"grad_norm": 1.3938168287277222,
	"learning_rate": 0.0006962329979463242,
	"loss": 5.578408241271973,
	"step": 112
	},
	{
	"epoch": 0.08339483394833948,
	"grad_norm": 1.80418062210083,
	"learning_rate": 0.0006961087085621174,
	"loss": 5.822021484375,
	"step": 113
	},
	{
	"epoch": 0.08413284132841328,
	"grad_norm": 1.3559857606887817,
	"learning_rate": 0.0006959824133621514,
	"loss": 5.527395248413086,
	"step": 114
	},
	{
	"epoch": 0.08487084870848709,
	"grad_norm": 1.6934373378753662,
	"learning_rate": 0.0006958541130783489,
	"loss": 5.64322566986084,
	"step": 115
	},
	{
	"epoch": 0.08560885608856089,
	"grad_norm": 2.645036220550537,
	"learning_rate": 0.0006957238084542531,
	"loss": 5.786375999450684,
	"step": 116
	},
	{
	"epoch": 0.08634686346863468,
	"grad_norm": 1.7617570161819458,
	"learning_rate": 0.0006955915002450227,
	"loss": 5.706923484802246,
	"step": 117
	},
	{
	"epoch": 0.08708487084870849,
	"grad_norm": 1.4721003770828247,
	"learning_rate": 0.0006954571892174282,
	"loss": 5.816807746887207,
	"step": 118
	},
	{
	"epoch": 0.08782287822878229,
	"grad_norm": 1.4024418592453003,
	"learning_rate": 0.0006953208761498471,
	"loss": 5.504622459411621,
	"step": 119
	},
	{
	"epoch": 0.08856088560885608,
	"grad_norm": 1.1762746572494507,
	"learning_rate": 0.0006951825618322589,
	"loss": 5.638977527618408,
	"step": 120
	},
	{
	"epoch": 0.08929889298892989,
	"grad_norm": 1.4858025312423706,
	"learning_rate": 0.0006950422470662416,
	"loss": 5.7883405685424805,
	"step": 121
	},
	{
	"epoch": 0.09003690036900369,
	"grad_norm": 1.197791576385498,
	"learning_rate": 0.0006948999326649661,
	"loss": 5.5270586013793945,
	"step": 122
	},
	{
	"epoch": 0.0907749077490775,
	"grad_norm": 1.280106782913208,
	"learning_rate": 0.000694755619453192,
	"loss": 5.614171504974365,
	"step": 123
	},
	{
	"epoch": 0.09151291512915129,
	"grad_norm": 1.1635382175445557,
	"learning_rate": 0.0006946093082672625,
	"loss": 5.714271545410156,
	"step": 124
	},
	{
	"epoch": 0.09225092250922509,
	"grad_norm": 1.5833303928375244,
	"learning_rate": 0.0006944609999551001,
	"loss": 5.534208297729492,
	"step": 125
	},
	{
	"epoch": 0.0929889298892989,
	"grad_norm": 1.2109582424163818,
	"learning_rate": 0.0006943106953762009,
	"loss": 5.419297218322754,
	"step": 126
	},
	{
	"epoch": 0.09372693726937269,
	"grad_norm": 1.551060676574707,
	"learning_rate": 0.0006941583954016304,
	"loss": 5.700986385345459,
	"step": 127
	},
	{
	"epoch": 0.09446494464944649,
	"grad_norm": 1.1270159482955933,
	"learning_rate": 0.0006940041009140178,
	"loss": 5.61196231842041,
	"step": 128
	},
	{
	"epoch": 0.0952029520295203,
	"grad_norm": 1.288231372833252,
	"learning_rate": 0.0006938478128075513,
	"loss": 5.599189758300781,
	"step": 129
	},
	{
	"epoch": 0.0959409594095941,
	"grad_norm": 1.7800358533859253,
	"learning_rate": 0.0006936895319879727,
	"loss": 5.359455108642578,
	"step": 130
	},
	{
	"epoch": 0.09667896678966789,
	"grad_norm": 1.5556919574737549,
	"learning_rate": 0.0006935292593725724,
	"loss": 5.530261516571045,
	"step": 131
	},
	{
	"epoch": 0.0974169741697417,
	"grad_norm": 1.737862229347229,
	"learning_rate": 0.0006933669958901836,
	"loss": 5.362129211425781,
	"step": 132
	},
	{
	"epoch": 0.0981549815498155,
	"grad_norm": 1.5239074230194092,
	"learning_rate": 0.0006932027424811779,
	"loss": 5.559414863586426,
	"step": 133
	},
	{
	"epoch": 0.0988929889298893,
	"grad_norm": 1.206781029701233,
	"learning_rate": 0.0006930365000974584,
	"loss": 5.415935516357422,
	"step": 134
	},
	{
	"epoch": 0.0996309963099631,
	"grad_norm": 1.5241954326629639,
	"learning_rate": 0.0006928682697024555,
	"loss": 5.514790058135986,
	"step": 135
	},
	{
	"epoch": 0.1003690036900369,
	"grad_norm": 1.7540452480316162,
	"learning_rate": 0.0006926980522711204,
	"loss": 5.370218276977539,
	"step": 136
	},
	{
	"epoch": 0.1011070110701107,
	"grad_norm": 1.4406752586364746,
	"learning_rate": 0.0006925258487899203,
	"loss": 5.334672451019287,
	"step": 137
	},
	{
	"epoch": 0.1018450184501845,
	"grad_norm": 1.2946128845214844,
	"learning_rate": 0.000692351660256832,
	"loss": 5.602551460266113,
	"step": 138
	},
	{
	"epoch": 0.1025830258302583,
	"grad_norm": 1.2579693794250488,
	"learning_rate": 0.0006921754876813361,
	"loss": 5.522645473480225,
	"step": 139
	},
	{
	"epoch": 0.1033210332103321,
	"grad_norm": 1.2886651754379272,
	"learning_rate": 0.0006919973320844118,
	"loss": 5.577740669250488,
	"step": 140
	},
	{
	"epoch": 0.10405904059040591,
	"grad_norm": 1.0571826696395874,
	"learning_rate": 0.0006918171944985303,
	"loss": 5.557397842407227,
	"step": 141
	},
	{
	"epoch": 0.1047970479704797,
	"grad_norm": 1.4176267385482788,
	"learning_rate": 0.0006916350759676493,
	"loss": 5.38129997253418,
	"step": 142
	},
	{
	"epoch": 0.1055350553505535,
	"grad_norm": 1.2939625978469849,
	"learning_rate": 0.0006914509775472065,
	"loss": 5.3804121017456055,
	"step": 143
	},
	{
	"epoch": 0.10627306273062731,
	"grad_norm": 1.3399301767349243,
	"learning_rate": 0.0006912649003041137,
	"loss": 5.509670734405518,
	"step": 144
	},
	{
	"epoch": 0.1070110701107011,
	"grad_norm": 1.1282126903533936,
	"learning_rate": 0.000691076845316751,
	"loss": 5.5377583503723145,
	"step": 145
	},
	{
	"epoch": 0.1077490774907749,
	"grad_norm": 1.372504711151123,
	"learning_rate": 0.00069088681367496,
	"loss": 5.6342878341674805,
	"step": 146
	},
	{
	"epoch": 0.10848708487084871,
	"grad_norm": 1.4673429727554321,
	"learning_rate": 0.0006906948064800376,
	"loss": 5.346056938171387,
	"step": 147
	},
	{
	"epoch": 0.10922509225092251,
	"grad_norm": 1.4786832332611084,
	"learning_rate": 0.0006905008248447296,
	"loss": 5.530672073364258,
	"step": 148
	},
	{
	"epoch": 0.1099630996309963,
	"grad_norm": 1.14403235912323,
	"learning_rate": 0.0006903048698932245,
	"loss": 5.126125812530518,
	"step": 149
	},
	{
	"epoch": 0.11070110701107011,
	"grad_norm": 1.4274934530258179,
	"learning_rate": 0.0006901069427611469,
	"loss": 5.36081600189209,
	"step": 150
	},
	{
	"epoch": 0.11143911439114391,
	"grad_norm": 1.224621295928955,
	"learning_rate": 0.0006899070445955507,
	"loss": 5.192722797393799,
	"step": 151
	},
	{
	"epoch": 0.1121771217712177,
	"grad_norm": 1.1289647817611694,
	"learning_rate": 0.0006897051765549127,
	"loss": 5.438913822174072,
	"step": 152
	},
	{
	"epoch": 0.11291512915129151,
	"grad_norm": 1.3115386962890625,
	"learning_rate": 0.0006895013398091256,
	"loss": 5.402008533477783,
	"step": 153
	},
	{
	"epoch": 0.11365313653136531,
	"grad_norm": 1.4054917097091675,
	"learning_rate": 0.0006892955355394918,
	"loss": 5.593056678771973,
	"step": 154
	},
	{
	"epoch": 0.11439114391143912,
	"grad_norm": 1.2027919292449951,
	"learning_rate": 0.0006890877649387155,
	"loss": 5.359673500061035,
	"step": 155
	},
	{
	"epoch": 0.11512915129151291,
	"grad_norm": 1.1730295419692993,
	"learning_rate": 0.0006888780292108971,
	"loss": 5.578248023986816,
	"step": 156
	},
	{
	"epoch": 0.11586715867158671,
	"grad_norm": 1.2120227813720703,
	"learning_rate": 0.0006886663295715254,
	"loss": 5.643091678619385,
	"step": 157
	},
	{
	"epoch": 0.11660516605166052,
	"grad_norm": 1.2268054485321045,
	"learning_rate": 0.0006884526672474704,
	"loss": 5.381834030151367,
	"step": 158
	},
	{
	"epoch": 0.11734317343173432,
	"grad_norm": 1.3834030628204346,
	"learning_rate": 0.0006882370434769769,
	"loss": 5.615821838378906,
	"step": 159
	},
	{
	"epoch": 0.11808118081180811,
	"grad_norm": 1.7289725542068481,
	"learning_rate": 0.0006880194595096567,
	"loss": 5.346611499786377,
	"step": 160
	},
	{
	"epoch": 0.11881918819188192,
	"grad_norm": 1.434497356414795,
	"learning_rate": 0.0006877999166064817,
	"loss": 5.427518844604492,
	"step": 161
	},
	{
	"epoch": 0.11955719557195572,
	"grad_norm": 1.2287393808364868,
	"learning_rate": 0.0006875784160397766,
	"loss": 5.595153331756592,
	"step": 162
	},
	{
	"epoch": 0.12029520295202951,
	"grad_norm": 1.327791690826416,
	"learning_rate": 0.0006873549590932111,
	"loss": 5.294317722320557,
	"step": 163
	},
	{
	"epoch": 0.12103321033210332,
	"grad_norm": 1.358208179473877,
	"learning_rate": 0.0006871295470617932,
	"loss": 5.65151309967041,
	"step": 164
	},
	{
	"epoch": 0.12177121771217712,
	"grad_norm": 1.1277738809585571,
	"learning_rate": 0.0006869021812518607,
	"loss": 5.721683979034424,
	"step": 165
	},
	{
	"epoch": 0.12250922509225093,
	"grad_norm": 1.407368540763855,
	"learning_rate": 0.0006866728629810749,
	"loss": 5.473011016845703,
	"step": 166
	},
	{
	"epoch": 0.12324723247232472,
	"grad_norm": 1.3105313777923584,
	"learning_rate": 0.0006864415935784116,
	"loss": 5.670052528381348,
	"step": 167
	},
	{
	"epoch": 0.12398523985239852,
	"grad_norm": 1.4188215732574463,
	"learning_rate": 0.0006862083743841545,
	"loss": 5.493824005126953,
	"step": 168
	},
	{
	"epoch": 0.12472324723247233,
	"grad_norm": 1.2717117071151733,
	"learning_rate": 0.0006859732067498869,
	"loss": 5.524445056915283,
	"step": 169
	},
	{
	"epoch": 0.12546125461254612,
	"grad_norm": 1.1162827014923096,
	"learning_rate": 0.0006857360920384839,
	"loss": 5.39989709854126,
	"step": 170
	},
	{
	"epoch": 0.12619926199261994,
	"grad_norm": 1.166066288948059,
	"learning_rate": 0.0006854970316241045,
	"loss": 5.495843887329102,
	"step": 171
	},
	{
	"epoch": 0.12693726937269373,
	"grad_norm": 1.9042305946350098,
	"learning_rate": 0.0006852560268921838,
	"loss": 5.403502464294434,
	"step": 172
	},
	{
	"epoch": 0.12767527675276752,
	"grad_norm": 1.0880268812179565,
	"learning_rate": 0.0006850130792394249,
	"loss": 5.439591407775879,
	"step": 173
	},
	{
	"epoch": 0.12841328413284134,
	"grad_norm": 1.0691889524459839,
	"learning_rate": 0.0006847681900737907,
	"loss": 5.504947185516357,
	"step": 174
	},
	{
	"epoch": 0.12915129151291513,
	"grad_norm": 1.2986247539520264,
	"learning_rate": 0.0006845213608144958,
	"loss": 5.43480920791626,
	"step": 175
	},
	{
	"epoch": 0.12988929889298892,
	"grad_norm": 1.1326215267181396,
	"learning_rate": 0.0006842725928919984,
	"loss": 5.448299407958984,
	"step": 176
	},
	{
	"epoch": 0.13062730627306274,
	"grad_norm": 1.1839748620986938,
	"learning_rate": 0.0006840218877479918,
	"loss": 5.370269775390625,
	"step": 177
	},
	{
	"epoch": 0.13136531365313653,
	"grad_norm": 1.3466558456420898,
	"learning_rate": 0.0006837692468353963,
	"loss": 5.503698348999023,
	"step": 178
	},
	{
	"epoch": 0.13210332103321032,
	"grad_norm": 1.2086361646652222,
	"learning_rate": 0.0006835146716183503,
	"loss": 5.3210554122924805,
	"step": 179
	},
	{
	"epoch": 0.13284132841328414,
	"grad_norm": 1.0457011461257935,
	"learning_rate": 0.0006832581635722026,
	"loss": 5.430882930755615,
	"step": 180
	},
	{
	"epoch": 0.13357933579335793,
	"grad_norm": 1.2964543104171753,
	"learning_rate": 0.0006829997241835029,
	"loss": 5.3685688972473145,
	"step": 181
	},
	{
	"epoch": 0.13431734317343175,
	"grad_norm": 1.12661612033844,
	"learning_rate": 0.0006827393549499941,
	"loss": 5.366943359375,
	"step": 182
	},
	{
	"epoch": 0.13505535055350554,
	"grad_norm": 1.4851716756820679,
	"learning_rate": 0.0006824770573806029,
	"loss": 5.4124755859375,
	"step": 183
	},
	{
	"epoch": 0.13579335793357933,
	"grad_norm": 2.0913474559783936,
	"learning_rate": 0.0006822128329954316,
	"loss": 5.477243423461914,
	"step": 184
	},
	{
	"epoch": 0.13653136531365315,
	"grad_norm": 1.6759217977523804,
	"learning_rate": 0.0006819466833257487,
	"loss": 5.315946578979492,
	"step": 185
	},
	{
	"epoch": 0.13726937269372694,
	"grad_norm": 1.5114970207214355,
	"learning_rate": 0.0006816786099139809,
	"loss": 5.488532066345215,
	"step": 186
	},
	{
	"epoch": 0.13800738007380073,
	"grad_norm": 1.229912519454956,
	"learning_rate": 0.0006814086143137029,
	"loss": 5.235088348388672,
	"step": 187
	},
	{
	"epoch": 0.13874538745387455,
	"grad_norm": 1.1838656663894653,
	"learning_rate": 0.0006811366980896299,
	"loss": 5.650766372680664,
	"step": 188
	},
	{
	"epoch": 0.13948339483394834,
	"grad_norm": 1.2359192371368408,
	"learning_rate": 0.0006808628628176073,
	"loss": 5.51072883605957,
	"step": 189
	},
	{
	"epoch": 0.14022140221402213,
	"grad_norm": 1.2534209489822388,
	"learning_rate": 0.0006805871100846018,
	"loss": 5.4855170249938965,
	"step": 190
	},
	{
	"epoch": 0.14095940959409595,
	"grad_norm": 1.1044737100601196,
	"learning_rate": 0.0006803094414886932,
	"loss": 5.416131973266602,
	"step": 191
	},
	{
	"epoch": 0.14169741697416974,
	"grad_norm": 1.1578259468078613,
	"learning_rate": 0.0006800298586390637,
	"loss": 5.303211688995361,
	"step": 192
	},
	{
	"epoch": 0.14243542435424356,
	"grad_norm": 1.2732160091400146,
	"learning_rate": 0.0006797483631559893,
	"loss": 5.596409320831299,
	"step": 193
	},
	{
	"epoch": 0.14317343173431735,
	"grad_norm": 1.3185418844223022,
	"learning_rate": 0.0006794649566708308,
	"loss": 5.081386089324951,
	"step": 194
	},
	{
	"epoch": 0.14391143911439114,
	"grad_norm": 1.2399559020996094,
	"learning_rate": 0.0006791796408260233,
	"loss": 5.367499828338623,
	"step": 195
	},
	{
	"epoch": 0.14464944649446496,
	"grad_norm": 1.4244142770767212,
	"learning_rate": 0.000678892417275068,
	"loss": 5.420333385467529,
	"step": 196
	},
	{
	"epoch": 0.14538745387453875,
	"grad_norm": 1.079671025276184,
	"learning_rate": 0.000678603287682521,
	"loss": 5.452577114105225,
	"step": 197
	},
	{
	"epoch": 0.14612546125461254,
	"grad_norm": 1.2236963510513306,
	"learning_rate": 0.0006783122537239852,
	"loss": 5.477599143981934,
	"step": 198
	},
	{
	"epoch": 0.14686346863468636,
	"grad_norm": 1.2248585224151611,
	"learning_rate": 0.0006780193170860999,
	"loss": 5.277920722961426,
	"step": 199
	},
	{
	"epoch": 0.14760147601476015,
	"grad_norm": 1.1838936805725098,
	"learning_rate": 0.0006777244794665307,
	"loss": 5.3089447021484375,
	"step": 200
	},
	{
	"epoch": 0.14833948339483394,
	"grad_norm": 1.0920487642288208,
	"learning_rate": 0.0006774277425739603,
	"loss": 5.312920570373535,
	"step": 201
	},
	{
	"epoch": 0.14907749077490776,
	"grad_norm": 1.5156118869781494,
	"learning_rate": 0.0006771291081280784,
	"loss": 5.365443229675293,
	"step": 202
	},
	{
	"epoch": 0.14981549815498155,
	"grad_norm": 1.1590790748596191,
	"learning_rate": 0.0006768285778595714,
	"loss": 5.726003646850586,
	"step": 203
	},
	{
	"epoch": 0.15055350553505534,
	"grad_norm": 1.1078206300735474,
	"learning_rate": 0.0006765261535101128,
	"loss": 5.49555778503418,
	"step": 204
	},
	{
	"epoch": 0.15129151291512916,
	"grad_norm": 1.1094913482666016,
	"learning_rate": 0.0006762218368323528,
	"loss": 5.463008880615234,
	"step": 205
	},
	{
	"epoch": 0.15202952029520295,
	"grad_norm": 1.043042540550232,
	"learning_rate": 0.0006759156295899086,
	"loss": 5.329763889312744,
	"step": 206
	},
	{
	"epoch": 0.15276752767527677,
	"grad_norm": 0.9944074153900146,
	"learning_rate": 0.0006756075335573533,
	"loss": 5.15687370300293,
	"step": 207
	},
	{
	"epoch": 0.15350553505535056,
	"grad_norm": 1.320447564125061,
	"learning_rate": 0.0006752975505202067,
	"loss": 5.366092681884766,
	"step": 208
	},
	{
	"epoch": 0.15424354243542435,
	"grad_norm": 0.9683417081832886,
	"learning_rate": 0.0006749856822749241,
	"loss": 5.286744117736816,
	"step": 209
	},
	{
	"epoch": 0.15498154981549817,
	"grad_norm": 1.0429140329360962,
	"learning_rate": 0.0006746719306288863,
	"loss": 5.36182165145874,
	"step": 210
	},
	{
	"epoch": 0.15571955719557196,
	"grad_norm": 0.9789266586303711,
	"learning_rate": 0.0006743562974003891,
	"loss": 5.401203155517578,
	"step": 211
	},
	{
	"epoch": 0.15645756457564575,
	"grad_norm": 1.5062106847763062,
	"learning_rate": 0.0006740387844186328,
	"loss": 5.4269890785217285,
	"step": 212
	},
	{
	"epoch": 0.15719557195571957,
	"grad_norm": 1.2152825593948364,
	"learning_rate": 0.0006737193935237112,
	"loss": 5.164780616760254,
	"step": 213
	},
	{
	"epoch": 0.15793357933579336,
	"grad_norm": 1.0402345657348633,
	"learning_rate": 0.0006733981265666012,
	"loss": 5.193200588226318,
	"step": 214
	},
	{
	"epoch": 0.15867158671586715,
	"grad_norm": 1.123574137687683,
	"learning_rate": 0.0006730749854091528,
	"loss": 5.191850185394287,
	"step": 215
	},
	{
	"epoch": 0.15940959409594097,
	"grad_norm": 1.2188745737075806,
	"learning_rate": 0.0006727499719240766,
	"loss": 5.239185810089111,
	"step": 216
	},
	{
	"epoch": 0.16014760147601476,
	"grad_norm": 1.1848610639572144,
	"learning_rate": 0.0006724230879949348,
	"loss": 5.381966590881348,
	"step": 217
	},
	{
	"epoch": 0.16088560885608857,
	"grad_norm": 1.0746642351150513,
	"learning_rate": 0.000672094335516129,
	"loss": 5.212441444396973,
	"step": 218
	},
	{
	"epoch": 0.16162361623616237,
	"grad_norm": 1.389511227607727,
	"learning_rate": 0.0006717637163928899,
	"loss": 5.391989707946777,
	"step": 219
	},
	{
	"epoch": 0.16236162361623616,
	"grad_norm": 1.4301270246505737,
	"learning_rate": 0.0006714312325412659,
	"loss": 5.462432861328125,
	"step": 220
	},
	{
	"epoch": 0.16309963099630997,
	"grad_norm": 0.9488272666931152,
	"learning_rate": 0.000671096885888112,
	"loss": 5.5252790451049805,
	"step": 221
	},
	{
	"epoch": 0.16383763837638377,
	"grad_norm": 1.0613595247268677,
	"learning_rate": 0.0006707606783710791,
	"loss": 5.263217926025391,
	"step": 222
	},
	{
	"epoch": 0.16457564575645756,
	"grad_norm": 1.04259192943573,
	"learning_rate": 0.0006704226119386022,
	"loss": 5.378625869750977,
	"step": 223
	},
	{
	"epoch": 0.16531365313653137,
	"grad_norm": 1.0206512212753296,
	"learning_rate": 0.0006700826885498893,
	"loss": 5.315357208251953,
	"step": 224
	},
	{
	"epoch": 0.16605166051660517,
	"grad_norm": 0.9734926819801331,
	"learning_rate": 0.0006697409101749102,
	"loss": 5.143043518066406,
	"step": 225
	},
	{
	"epoch": 0.16678966789667896,
	"grad_norm": 1.2763937711715698,
	"learning_rate": 0.0006693972787943851,
	"loss": 5.372148513793945,
	"step": 226
	},
	{
	"epoch": 0.16752767527675277,
	"grad_norm": 1.0929063558578491,
	"learning_rate": 0.0006690517963997727,
	"loss": 5.465537071228027,
	"step": 227
	},
	{
	"epoch": 0.16826568265682657,
	"grad_norm": 1.098317265510559,
	"learning_rate": 0.0006687044649932588,
	"loss": 5.2183990478515625,
	"step": 228
	},
	{
	"epoch": 0.16900369003690036,
	"grad_norm": 1.4758684635162354,
	"learning_rate": 0.0006683552865877454,
	"loss": 5.08128023147583,
	"step": 229
	},
	{
	"epoch": 0.16974169741697417,
	"grad_norm": 1.425257921218872,
	"learning_rate": 0.0006680042632068382,
	"loss": 5.4712233543396,
	"step": 230
	},
	{
	"epoch": 0.17047970479704797,
	"grad_norm": 1.0762962102890015,
	"learning_rate": 0.000667651396884835,
	"loss": 5.113118648529053,
	"step": 231
	},
	{
	"epoch": 0.17121771217712178,
	"grad_norm": 1.028893232345581,
	"learning_rate": 0.0006672966896667142,
	"loss": 5.485983848571777,
	"step": 232
	},
	{
	"epoch": 0.17195571955719557,
	"grad_norm": 0.9485227465629578,
	"learning_rate": 0.0006669401436081229,
	"loss": 5.1485090255737305,
	"step": 233
	},
	{
	"epoch": 0.17269372693726937,
	"grad_norm": 1.146479606628418,
	"learning_rate": 0.0006665817607753645,
	"loss": 5.232944011688232,
	"step": 234
	},
	{
	"epoch": 0.17343173431734318,
	"grad_norm": 1.1146334409713745,
	"learning_rate": 0.0006662215432453878,
	"loss": 5.381141662597656,
	"step": 235
	},
	{
	"epoch": 0.17416974169741697,
	"grad_norm": 1.4399679899215698,
	"learning_rate": 0.0006658594931057739,
	"loss": 5.011406421661377,
	"step": 236
	},
	{
	"epoch": 0.17490774907749077,
	"grad_norm": 1.268681287765503,
	"learning_rate": 0.0006654956124547241,
	"loss": 5.245846748352051,
	"step": 237
	},
	{
	"epoch": 0.17564575645756458,
	"grad_norm": 1.001254677772522,
	"learning_rate": 0.0006651299034010487,
	"loss": 5.424437522888184,
	"step": 238
	},
	{
	"epoch": 0.17638376383763837,
	"grad_norm": 1.2181994915008545,
	"learning_rate": 0.0006647623680641542,
	"loss": 5.456673622131348,
	"step": 239
	},
	{
	"epoch": 0.17712177121771217,
	"grad_norm": 1.1333999633789062,
	"learning_rate": 0.0006643930085740306,
	"loss": 5.315772533416748,
	"step": 240
	},
	{
	"epoch": 0.17785977859778598,
	"grad_norm": 1.0992910861968994,
	"learning_rate": 0.0006640218270712397,
	"loss": 5.436305999755859,
	"step": 241
	},
	{
	"epoch": 0.17859778597785977,
	"grad_norm": 1.0746663808822632,
	"learning_rate": 0.0006636488257069027,
	"loss": 5.308970928192139,
	"step": 242
	},
	{
	"epoch": 0.1793357933579336,
	"grad_norm": 1.0561422109603882,
	"learning_rate": 0.0006632740066426873,
	"loss": 5.426042079925537,
	"step": 243
	},
	{
	"epoch": 0.18007380073800738,
	"grad_norm": 1.031684160232544,
	"learning_rate": 0.0006628973720507951,
	"loss": 5.2547478675842285,
	"step": 244
	},
	{
	"epoch": 0.18081180811808117,
	"grad_norm": 1.0969058275222778,
	"learning_rate": 0.0006625189241139498,
	"loss": 5.28012752532959,
	"step": 245
	},
	{
	"epoch": 0.181549815498155,
	"grad_norm": 1.047112226486206,
	"learning_rate": 0.0006621386650253838,
	"loss": 5.20250129699707,
	"step": 246
	},
	{
	"epoch": 0.18228782287822878,
	"grad_norm": 0.9869337677955627,
	"learning_rate": 0.0006617565969888257,
	"loss": 5.25740909576416,
	"step": 247
	},
	{
	"epoch": 0.18302583025830257,
	"grad_norm": 1.0927937030792236,
	"learning_rate": 0.0006613727222184874,
	"loss": 5.5139288902282715,
	"step": 248
	},
	{
	"epoch": 0.1837638376383764,
	"grad_norm": 1.2841873168945312,
	"learning_rate": 0.000660987042939052,
	"loss": 5.233647346496582,
	"step": 249
	},
	{
	"epoch": 0.18450184501845018,
	"grad_norm": 0.9890136122703552,
	"learning_rate": 0.0006605995613856595,
	"loss": 5.420958518981934,
	"step": 250
	},
	{
	"epoch": 0.18523985239852397,
	"grad_norm": 0.8926162719726562,
	"learning_rate": 0.0006602102798038957,
	"loss": 5.308608055114746,
	"step": 251
	},
	{
	"epoch": 0.1859778597785978,
	"grad_norm": 1.0019422769546509,
	"learning_rate": 0.0006598192004497771,
	"loss": 5.302347660064697,
	"step": 252
	},
	{
	"epoch": 0.18671586715867158,
	"grad_norm": 0.8486745953559875,
	"learning_rate": 0.0006594263255897396,
	"loss": 5.099376678466797,
	"step": 253
	},
	{
	"epoch": 0.18745387453874537,
	"grad_norm": 1.0783238410949707,
	"learning_rate": 0.0006590316575006244,
	"loss": 5.218788146972656,
	"step": 254
	},
	{
	"epoch": 0.1881918819188192,
	"grad_norm": 0.9183611869812012,
	"learning_rate": 0.0006586351984696653,
	"loss": 5.240777969360352,
	"step": 255
	},
	{
	"epoch": 0.18892988929889298,
	"grad_norm": 0.9513900876045227,
	"learning_rate": 0.0006582369507944747,
	"loss": 5.222758769989014,
	"step": 256
	},
	{
	"epoch": 0.1896678966789668,
	"grad_norm": 0.9337455630302429,
	"learning_rate": 0.0006578369167830314,
	"loss": 5.062905311584473,
	"step": 257
	},
	{
	"epoch": 0.1904059040590406,
	"grad_norm": 1.158604383468628,
	"learning_rate": 0.0006574350987536662,
	"loss": 5.026293754577637,
	"step": 258
	},
	{
	"epoch": 0.19114391143911438,
	"grad_norm": 1.0550696849822998,
	"learning_rate": 0.000657031499035049,
	"loss": 5.1148905754089355,
	"step": 259
	},
	{
	"epoch": 0.1918819188191882,
	"grad_norm": 0.9606300592422485,
	"learning_rate": 0.0006566261199661753,
	"loss": 5.163092613220215,
	"step": 260
	},
	{
	"epoch": 0.192619926199262,
	"grad_norm": 1.0590009689331055,
	"learning_rate": 0.0006562189638963524,
	"loss": 5.3179521560668945,
	"step": 261
	},
	{
	"epoch": 0.19335793357933578,
	"grad_norm": 0.9940695762634277,
	"learning_rate": 0.0006558100331851859,
	"loss": 5.129310607910156,
	"step": 262
	},
	{
	"epoch": 0.1940959409594096,
	"grad_norm": 1.0227980613708496,
	"learning_rate": 0.0006553993302025659,
	"loss": 5.162182807922363,
	"step": 263
	},
	{
	"epoch": 0.1948339483394834,
	"grad_norm": 1.0441575050354004,
	"learning_rate": 0.0006549868573286539,
	"loss": 5.2034454345703125,
	"step": 264
	},
	{
	"epoch": 0.19557195571955718,
	"grad_norm": 1.1191506385803223,
	"learning_rate": 0.0006545726169538681,
	"loss": 4.916297435760498,
	"step": 265
	},
	{
	"epoch": 0.196309963099631,
	"grad_norm": 1.1132999658584595,
	"learning_rate": 0.00065415661147887,
	"loss": 5.2382707595825195,
	"step": 266
	},
	{
	"epoch": 0.1970479704797048,
	"grad_norm": 1.352728247642517,
	"learning_rate": 0.0006537388433145504,
	"loss": 5.228781700134277,
	"step": 267
	},
	{
	"epoch": 0.1977859778597786,
	"grad_norm": 1.0661629438400269,
	"learning_rate": 0.0006533193148820159,
	"loss": 5.341499328613281,
	"step": 268
	},
	{
	"epoch": 0.1985239852398524,
	"grad_norm": 1.1771162748336792,
	"learning_rate": 0.0006528980286125739,
	"loss": 5.339306831359863,
	"step": 269
	},
	{
	"epoch": 0.1992619926199262,
	"grad_norm": 0.9680821895599365,
	"learning_rate": 0.0006524749869477192,
	"loss": 5.367077827453613,
	"step": 270
	},
	{
	"epoch": 0.2,
	"grad_norm": 1.0213592052459717,
	"learning_rate": 0.00065205019233912,
	"loss": 5.1391096115112305,
	"step": 271
	},
	{
	"epoch": 0.2007380073800738,
	"grad_norm": 0.8894791603088379,
	"learning_rate": 0.0006516236472486032,
	"loss": 5.218973159790039,
	"step": 272
	},
	{
	"epoch": 0.2014760147601476,
	"grad_norm": 1.1796555519104004,
	"learning_rate": 0.00065119535414814,
	"loss": 5.110937118530273,
	"step": 273
	},
	{
	"epoch": 0.2022140221402214,
	"grad_norm": 0.9279013872146606,
	"learning_rate": 0.0006507653155198322,
	"loss": 5.301558494567871,
	"step": 274
	},
	{
	"epoch": 0.2029520295202952,
	"grad_norm": 0.9340477585792542,
	"learning_rate": 0.000650333533855898,
	"loss": 5.283820152282715,
	"step": 275
	},
	{
	"epoch": 0.203690036900369,
	"grad_norm": 1.0362911224365234,
	"learning_rate": 0.0006499000116586562,
	"loss": 4.982748031616211,
	"step": 276
	},
	{
	"epoch": 0.2044280442804428,
	"grad_norm": 1.1206884384155273,
	"learning_rate": 0.0006494647514405131,
	"loss": 4.973568916320801,
	"step": 277
	},
	{
	"epoch": 0.2051660516605166,
	"grad_norm": 1.0366051197052002,
	"learning_rate": 0.0006490277557239472,
	"loss": 5.242402076721191,
	"step": 278
	},
	{
	"epoch": 0.2059040590405904,
	"grad_norm": 1.0412499904632568,
	"learning_rate": 0.000648589027041495,
	"loss": 5.113008499145508,
	"step": 279
	},
	{
	"epoch": 0.2066420664206642,
	"grad_norm": 1.0954289436340332,
	"learning_rate": 0.0006481485679357359,
	"loss": 5.448449611663818,
	"step": 280
	},
	{
	"epoch": 0.207380073800738,
	"grad_norm": 0.9032571911811829,
	"learning_rate": 0.0006477063809592778,
	"loss": 4.939189910888672,
	"step": 281
	},
	{
	"epoch": 0.20811808118081182,
	"grad_norm": 0.890612006187439,
	"learning_rate": 0.0006472624686747421,
	"loss": 5.256400108337402,
	"step": 282
	},
	{
	"epoch": 0.2088560885608856,
	"grad_norm": 0.9753661751747131,
	"learning_rate": 0.000646816833654749,
	"loss": 5.353178024291992,
	"step": 283
	},
	{
	"epoch": 0.2095940959409594,
	"grad_norm": 0.8233433365821838,
	"learning_rate": 0.0006463694784819029,
	"loss": 5.223405838012695,
	"step": 284
	},
	{
	"epoch": 0.21033210332103322,
	"grad_norm": 1.0614573955535889,
	"learning_rate": 0.0006459204057487762,
	"loss": 5.132536888122559,
	"step": 285
	},
	{
	"epoch": 0.211070110701107,
	"grad_norm": 1.074107050895691,
	"learning_rate": 0.0006454696180578957,
	"loss": 5.2558369636535645,
	"step": 286
	},
	{
	"epoch": 0.2118081180811808,
	"grad_norm": 1.0157700777053833,
	"learning_rate": 0.0006450171180217273,
	"loss": 4.989593505859375,
	"step": 287
	},
	{
	"epoch": 0.21254612546125462,
	"grad_norm": 0.886896550655365,
	"learning_rate": 0.0006445629082626595,
	"loss": 5.041266441345215,
	"step": 288
	},
	{
	"epoch": 0.2132841328413284,
	"grad_norm": 0.8866286873817444,
	"learning_rate": 0.0006441069914129903,
	"loss": 5.1668171882629395,
	"step": 289
	},
	{
	"epoch": 0.2140221402214022,
	"grad_norm": 0.9136367440223694,
	"learning_rate": 0.0006436493701149102,
	"loss": 5.044548988342285,
	"step": 290
	},
	{
	"epoch": 0.21476014760147602,
	"grad_norm": 1.0716575384140015,
	"learning_rate": 0.0006431900470204876,
	"loss": 4.962906837463379,
	"step": 291
	},
	{
	"epoch": 0.2154981549815498,
	"grad_norm": 1.0485093593597412,
	"learning_rate": 0.0006427290247916537,
	"loss": 5.0265655517578125,
	"step": 292
	},
	{
	"epoch": 0.21623616236162363,
	"grad_norm": 0.9726313352584839,
	"learning_rate": 0.0006422663061001865,
	"loss": 5.10546875,
	"step": 293
	},
	{
	"epoch": 0.21697416974169742,
	"grad_norm": 0.8890307545661926,
	"learning_rate": 0.0006418018936276956,
	"loss": 4.885697841644287,
	"step": 294
	},
	{
	"epoch": 0.2177121771217712,
	"grad_norm": 1.256881594657898,
	"learning_rate": 0.0006413357900656066,
	"loss": 5.05020809173584,
	"step": 295
	},
	{
	"epoch": 0.21845018450184503,
	"grad_norm": 0.8236335515975952,
	"learning_rate": 0.0006408679981151456,
	"loss": 5.077518463134766,
	"step": 296
	},
	{
	"epoch": 0.21918819188191882,
	"grad_norm": 1.0636200904846191,
	"learning_rate": 0.0006403985204873235,
	"loss": 5.087857246398926,
	"step": 297
	},
	{
	"epoch": 0.2199261992619926,
	"grad_norm": 1.0351738929748535,
	"learning_rate": 0.0006399273599029202,
	"loss": 5.218321800231934,
	"step": 298
	},
	{
	"epoch": 0.22066420664206643,
	"grad_norm": 1.1184179782867432,
	"learning_rate": 0.000639454519092469,
	"loss": 5.41963529586792,
	"step": 299
	},
	{
	"epoch": 0.22140221402214022,
	"grad_norm": 1.005051851272583,
	"learning_rate": 0.0006389800007962404,
	"loss": 5.267976760864258,
	"step": 300
	},
	{
	"epoch": 0.222140221402214,
	"grad_norm": 0.8542754054069519,
	"learning_rate": 0.0006385038077642268,
	"loss": 5.143088340759277,
	"step": 301
	},
	{
	"epoch": 0.22287822878228783,
	"grad_norm": 1.0211315155029297,
	"learning_rate": 0.0006380259427561262,
	"loss": 5.287484169006348,
	"step": 302
	},
	{
	"epoch": 0.22361623616236162,
	"grad_norm": 0.9097702503204346,
	"learning_rate": 0.000637546408541326,
	"loss": 5.212584972381592,
	"step": 303
	},
	{
	"epoch": 0.2243542435424354,
	"grad_norm": 1.0342856645584106,
	"learning_rate": 0.0006370652078988876,
	"loss": 5.081629753112793,
	"step": 304
	},
	{
	"epoch": 0.22509225092250923,
	"grad_norm": 1.046463131904602,
	"learning_rate": 0.0006365823436175296,
	"loss": 5.043882369995117,
	"step": 305
	},
	{
	"epoch": 0.22583025830258302,
	"grad_norm": 0.9955232739448547,
	"learning_rate": 0.0006360978184956121,
	"loss": 5.135004997253418,
	"step": 306
	},
	{
	"epoch": 0.22656826568265684,
	"grad_norm": 0.8027132153511047,
	"learning_rate": 0.0006356116353411203,
	"loss": 5.337245941162109,
	"step": 307
	},
	{
	"epoch": 0.22730627306273063,
	"grad_norm": 1.2090736627578735,
	"learning_rate": 0.0006351237969716482,
	"loss": 5.095905780792236,
	"step": 308
	},
	{
	"epoch": 0.22804428044280442,
	"grad_norm": 1.090334177017212,
	"learning_rate": 0.0006346343062143824,
	"loss": 5.060598373413086,
	"step": 309
	},
	{
	"epoch": 0.22878228782287824,
	"grad_norm": 1.190928339958191,
	"learning_rate": 0.0006341431659060856,
	"loss": 5.230974197387695,
	"step": 310
	},
	{
	"epoch": 0.22952029520295203,
	"grad_norm": 1.0362082719802856,
	"learning_rate": 0.0006336503788930801,
	"loss": 4.835149765014648,
	"step": 311
	},
	{
	"epoch": 0.23025830258302582,
	"grad_norm": 1.1221998929977417,
	"learning_rate": 0.0006331559480312316,
	"loss": 5.359483242034912,
	"step": 312
	},
	{
	"epoch": 0.23099630996309964,
	"grad_norm": 0.8904932737350464,
	"learning_rate": 0.0006326598761859323,
	"loss": 5.057035446166992,
	"step": 313
	},
	{
	"epoch": 0.23173431734317343,
	"grad_norm": 0.9242574572563171,
	"learning_rate": 0.0006321621662320847,
	"loss": 5.011726379394531,
	"step": 314
	},
	{
	"epoch": 0.23247232472324722,
	"grad_norm": 1.059004306793213,
	"learning_rate": 0.0006316628210540842,
	"loss": 4.693303108215332,
	"step": 315
	},
	{
	"epoch": 0.23321033210332104,
	"grad_norm": 1.2370541095733643,
	"learning_rate": 0.0006311618435458034,
	"loss": 5.188898086547852,
	"step": 316
	},
	{
	"epoch": 0.23394833948339483,
	"grad_norm": 1.0214468240737915,
	"learning_rate": 0.0006306592366105744,
	"loss": 5.003267288208008,
	"step": 317
	},
	{
	"epoch": 0.23468634686346865,
	"grad_norm": 0.9486777782440186,
	"learning_rate": 0.0006301550031611726,
	"loss": 4.848117828369141,
	"step": 318
	},
	{
	"epoch": 0.23542435424354244,
	"grad_norm": 0.9645982980728149,
	"learning_rate": 0.0006296491461197996,
	"loss": 5.02429723739624,
	"step": 319
	},
	{
	"epoch": 0.23616236162361623,
	"grad_norm": 1.2168879508972168,
	"learning_rate": 0.0006291416684180662,
	"loss": 5.0632429122924805,
	"step": 320
	},
	{
	"epoch": 0.23690036900369005,
	"grad_norm": 0.8020527362823486,
	"learning_rate": 0.0006286325729969753,
	"loss": 4.867977142333984,
	"step": 321
	},
	{
	"epoch": 0.23763837638376384,
	"grad_norm": 0.900245726108551,
	"learning_rate": 0.0006281218628069054,
	"loss": 4.880187511444092,
	"step": 322
	},
	{
	"epoch": 0.23837638376383763,
	"grad_norm": 0.9947592616081238,
	"learning_rate": 0.0006276095408075927,
	"loss": 5.083812236785889,
	"step": 323
	},
	{
	"epoch": 0.23911439114391145,
	"grad_norm": 0.8965998888015747,
	"learning_rate": 0.0006270956099681148,
	"loss": 4.908682823181152,
	"step": 324
	},
	{
	"epoch": 0.23985239852398524,
	"grad_norm": 1.1312414407730103,
	"learning_rate": 0.0006265800732668727,
	"loss": 5.093230247497559,
	"step": 325
	},
	{
	"epoch": 0.24059040590405903,
	"grad_norm": 0.925629734992981,
	"learning_rate": 0.0006260629336915741,
	"loss": 4.874239444732666,
	"step": 326
	},
	{
	"epoch": 0.24132841328413285,
	"grad_norm": 1.307646632194519,
	"learning_rate": 0.0006255441942392159,
	"loss": 5.057682514190674,
	"step": 327
	},
	{
	"epoch": 0.24206642066420664,
	"grad_norm": 1.0218299627304077,
	"learning_rate": 0.0006250238579160666,
	"loss": 5.127986907958984,
	"step": 328
	},
	{
	"epoch": 0.24280442804428043,
	"grad_norm": 0.8645507097244263,
	"learning_rate": 0.0006245019277376496,
	"loss": 5.13686466217041,
	"step": 329
	},
	{
	"epoch": 0.24354243542435425,
	"grad_norm": 0.9296532273292542,
	"learning_rate": 0.0006239784067287245,
	"loss": 5.124481678009033,
	"step": 330
	},
	{
	"epoch": 0.24428044280442804,
	"grad_norm": 0.9728212952613831,
	"learning_rate": 0.0006234532979232711,
	"loss": 5.0022687911987305,
	"step": 331
	},
	{
	"epoch": 0.24501845018450186,
	"grad_norm": 0.8225215077400208,
	"learning_rate": 0.0006229266043644702,
	"loss": 4.9633378982543945,
	"step": 332
	},
	{
	"epoch": 0.24575645756457565,
	"grad_norm": 0.960574209690094,
	"learning_rate": 0.0006223983291046875,
	"loss": 4.844850540161133,
	"step": 333
	},
	{
	"epoch": 0.24649446494464944,
	"grad_norm": 0.9003048539161682,
	"learning_rate": 0.0006218684752054549,
	"loss": 5.180695056915283,
	"step": 334
	},
	{
	"epoch": 0.24723247232472326,
	"grad_norm": 0.9519006013870239,
	"learning_rate": 0.0006213370457374527,
	"loss": 4.989326477050781,
	"step": 335
	},
	{
	"epoch": 0.24797047970479705,
	"grad_norm": 0.9743554592132568,
	"learning_rate": 0.0006208040437804927,
	"loss": 4.731540679931641,
	"step": 336
	},
	{
	"epoch": 0.24870848708487084,
	"grad_norm": 0.9855546951293945,
	"learning_rate": 0.0006202694724234994,
	"loss": 5.105901718139648,
	"step": 337
	},
	{
	"epoch": 0.24944649446494466,
	"grad_norm": 1.8261312246322632,
	"learning_rate": 0.0006197333347644928,
	"loss": 5.079566478729248,
	"step": 338
	},
	{
	"epoch": 0.25018450184501845,
	"grad_norm": 1.058996558189392,
	"learning_rate": 0.0006191956339105701,
	"loss": 4.985716819763184,
	"step": 339
	},
	{
	"epoch": 0.25092250922509224,
	"grad_norm": 1.018185019493103,
	"learning_rate": 0.0006186563729778875,
	"loss": 4.921426296234131,
	"step": 340
	},
	{
	"epoch": 0.25166051660516603,
	"grad_norm": 1.154246211051941,
	"learning_rate": 0.0006181155550916423,
	"loss": 5.044010162353516,
	"step": 341
	},
	{
	"epoch": 0.2523985239852399,
	"grad_norm": 0.9054587483406067,
	"learning_rate": 0.0006175731833860554,
	"loss": 4.953484535217285,
	"step": 342
	},
	{
	"epoch": 0.25313653136531367,
	"grad_norm": 0.8154107928276062,
	"learning_rate": 0.0006170292610043523,
	"loss": 5.044363975524902,
	"step": 343
	},
	{
	"epoch": 0.25387453874538746,
	"grad_norm": 1.3822500705718994,
	"learning_rate": 0.0006164837910987449,
	"loss": 5.227883338928223,
	"step": 344
	},
	{
	"epoch": 0.25461254612546125,
	"grad_norm": 0.9022698402404785,
	"learning_rate": 0.000615936776830414,
	"loss": 4.860300064086914,
	"step": 345
	},
	{
	"epoch": 0.25535055350553504,
	"grad_norm": 1.0594429969787598,
	"learning_rate": 0.0006153882213694903,
	"loss": 5.256074905395508,
	"step": 346
	},
	{
	"epoch": 0.25608856088560883,
	"grad_norm": 0.9493646025657654,
	"learning_rate": 0.0006148381278950362,
	"loss": 4.957509994506836,
	"step": 347
	},
	{
	"epoch": 0.2568265682656827,
	"grad_norm": 1.0270938873291016,
	"learning_rate": 0.0006142864995950273,
	"loss": 4.809982776641846,
	"step": 348
	},
	{
	"epoch": 0.25756457564575647,
	"grad_norm": 1.663167953491211,
	"learning_rate": 0.0006137333396663342,
	"loss": 4.888598918914795,
	"step": 349
	},
	{
	"epoch": 0.25830258302583026,
	"grad_norm": 0.983447253704071,
	"learning_rate": 0.0006131786513147038,
	"loss": 5.165590763092041,
	"step": 350
	},
	{
	"epoch": 0.25904059040590405,
	"grad_norm": 0.980798065662384,
	"learning_rate": 0.0006126224377547408,
	"loss": 4.966999053955078,
	"step": 351
	},
	{
	"epoch": 0.25977859778597784,
	"grad_norm": 1.074250340461731,
	"learning_rate": 0.0006120647022098887,
	"loss": 4.936653137207031,
	"step": 352
	},
	{
	"epoch": 0.2605166051660517,
	"grad_norm": 0.9961046576499939,
	"learning_rate": 0.0006115054479124115,
	"loss": 5.0761308670043945,
	"step": 353
	},
	{
	"epoch": 0.2612546125461255,
	"grad_norm": 0.937942385673523,
	"learning_rate": 0.0006109446781033752,
	"loss": 4.909850597381592,
	"step": 354
	},
	{
	"epoch": 0.26199261992619927,
	"grad_norm": 1.0551375150680542,
	"learning_rate": 0.0006103823960326283,
	"loss": 4.967006683349609,
	"step": 355
	},
	{
	"epoch": 0.26273062730627306,
	"grad_norm": 1.0866034030914307,
	"learning_rate": 0.0006098186049587834,
	"loss": 5.049051284790039,
	"step": 356
	},
	{
	"epoch": 0.26346863468634685,
	"grad_norm": 1.0815985202789307,
	"learning_rate": 0.0006092533081491987,
	"loss": 4.931700229644775,
	"step": 357
	},
	{
	"epoch": 0.26420664206642064,
	"grad_norm": 1.0863465070724487,
	"learning_rate": 0.000608686508879958,
	"loss": 5.032581329345703,
	"step": 358
	},
	{
	"epoch": 0.2649446494464945,
	"grad_norm": 0.871529757976532,
	"learning_rate": 0.000608118210435853,
	"loss": 5.066904544830322,
	"step": 359
	},
	{
	"epoch": 0.2656826568265683,
	"grad_norm": 0.9786545038223267,
	"learning_rate": 0.0006075484161103631,
	"loss": 5.073785305023193,
	"step": 360
	},
	{
	"epoch": 0.26642066420664207,
	"grad_norm": 0.8924750089645386,
	"learning_rate": 0.000606977129205637,
	"loss": 4.997740745544434,
	"step": 361
	},
	{
	"epoch": 0.26715867158671586,
	"grad_norm": 1.49006986618042,
	"learning_rate": 0.0006064043530324738,
	"loss": 5.006748676300049,
	"step": 362
	},
	{
	"epoch": 0.26789667896678965,
	"grad_norm": 1.0208152532577515,
	"learning_rate": 0.0006058300909103026,
	"loss": 5.057985305786133,
	"step": 363
	},
	{
	"epoch": 0.2686346863468635,
	"grad_norm": 0.8836379051208496,
	"learning_rate": 0.000605254346167165,
	"loss": 4.999290466308594,
	"step": 364
	},
	{
	"epoch": 0.2693726937269373,
	"grad_norm": 0.8716019988059998,
	"learning_rate": 0.0006046771221396938,
	"loss": 5.058474540710449,
	"step": 365
	},
	{
	"epoch": 0.2701107011070111,
	"grad_norm": 1.1286225318908691,
	"learning_rate": 0.0006040984221730958,
	"loss": 4.990628719329834,
	"step": 366
	},
	{
	"epoch": 0.27084870848708487,
	"grad_norm": 1.099913477897644,
	"learning_rate": 0.0006035182496211308,
	"loss": 4.981925010681152,
	"step": 367
	},
	{
	"epoch": 0.27158671586715866,
	"grad_norm": 1.0594391822814941,
	"learning_rate": 0.0006029366078460929,
	"loss": 4.859918594360352,
	"step": 368
	},
	{
	"epoch": 0.27232472324723245,
	"grad_norm": 0.8651653528213501,
	"learning_rate": 0.0006023535002187907,
	"loss": 4.930809020996094,
	"step": 369
	},
	{
	"epoch": 0.2730627306273063,
	"grad_norm": 0.9700394868850708,
	"learning_rate": 0.0006017689301185279,
	"loss": 4.7630720138549805,
	"step": 370
	},
	{
	"epoch": 0.2738007380073801,
	"grad_norm": 0.9684885740280151,
	"learning_rate": 0.000601182900933084,
	"loss": 4.800506114959717,
	"step": 371
	},
	{
	"epoch": 0.2745387453874539,
	"grad_norm": 1.2140804529190063,
	"learning_rate": 0.0006005954160586941,
	"loss": 5.034149646759033,
	"step": 372
	},
	{
	"epoch": 0.27527675276752767,
	"grad_norm": 1.0811138153076172,
	"learning_rate": 0.0006000064789000295,
	"loss": 4.837162494659424,
	"step": 373
	},
	{
	"epoch": 0.27601476014760146,
	"grad_norm": 1.328092098236084,
	"learning_rate": 0.0005994160928701782,
	"loss": 5.215338706970215,
	"step": 374
	},
	{
	"epoch": 0.2767527675276753,
	"grad_norm": 0.9813052415847778,
	"learning_rate": 0.0005988242613906248,
	"loss": 5.164502143859863,
	"step": 375
	},
	{
	"epoch": 0.2774907749077491,
	"grad_norm": 1.1087919473648071,
	"learning_rate": 0.0005982309878912306,
	"loss": 5.113296031951904,
	"step": 376
	},
	{
	"epoch": 0.2782287822878229,
	"grad_norm": 1.0566635131835938,
	"learning_rate": 0.000597636275810214,
	"loss": 4.566821098327637,
	"step": 377
	},
	{
	"epoch": 0.2789667896678967,
	"grad_norm": 1.1309762001037598,
	"learning_rate": 0.0005970401285941305,
	"loss": 5.184887886047363,
	"step": 378
	},
	{
	"epoch": 0.27970479704797047,
	"grad_norm": 1.3037056922912598,
	"learning_rate": 0.0005964425496978528,
	"loss": 4.654736042022705,
	"step": 379
	},
	{
	"epoch": 0.28044280442804426,
	"grad_norm": 1.0882046222686768,
	"learning_rate": 0.0005958435425845504,
	"loss": 4.828828811645508,
	"step": 380
	},
	{
	"epoch": 0.2811808118081181,
	"grad_norm": 0.9877819418907166,
	"learning_rate": 0.0005952431107256698,
	"loss": 4.909351348876953,
	"step": 381
	},
	{
	"epoch": 0.2819188191881919,
	"grad_norm": 1.0387706756591797,
	"learning_rate": 0.0005946412576009148,
	"loss": 4.700501441955566,
	"step": 382
	},
	{
	"epoch": 0.2826568265682657,
	"grad_norm": 0.9511588215827942,
	"learning_rate": 0.0005940379866982255,
	"loss": 4.84822940826416,
	"step": 383
	},
	{
	"epoch": 0.2833948339483395,
	"grad_norm": 1.4258911609649658,
	"learning_rate": 0.0005934333015137585,
	"loss": 4.82274055480957,
	"step": 384
	},
	{
	"epoch": 0.28413284132841327,
	"grad_norm": 0.9327899217605591,
	"learning_rate": 0.0005928272055518667,
	"loss": 4.844176292419434,
	"step": 385
	},
	{
	"epoch": 0.2848708487084871,
	"grad_norm": 0.9245155453681946,
	"learning_rate": 0.0005922197023250793,
	"loss": 5.153466701507568,
	"step": 386
	},
	{
	"epoch": 0.2856088560885609,
	"grad_norm": 1.0576754808425903,
	"learning_rate": 0.0005916107953540805,
	"loss": 4.96760368347168,
	"step": 387
	},
	{
	"epoch": 0.2863468634686347,
	"grad_norm": 0.8730959892272949,
	"learning_rate": 0.0005910004881676898,
	"loss": 4.808976650238037,
	"step": 388
	},
	{
	"epoch": 0.2870848708487085,
	"grad_norm": 0.8937351107597351,
	"learning_rate": 0.0005903887843028418,
	"loss": 4.953003883361816,
	"step": 389
	},
	{
	"epoch": 0.2878228782287823,
	"grad_norm": 0.9199606776237488,
	"learning_rate": 0.0005897756873045648,
	"loss": 5.063399314880371,
	"step": 390
	},
	{
	"epoch": 0.28856088560885607,
	"grad_norm": 0.9909579753875732,
	"learning_rate": 0.0005891612007259613,
	"loss": 4.7940473556518555,
	"step": 391
	},
	{
	"epoch": 0.2892988929889299,
	"grad_norm": 0.9309024214744568,
	"learning_rate": 0.0005885453281281863,
	"loss": 4.881161689758301,
	"step": 392
	},
	{
	"epoch": 0.2900369003690037,
	"grad_norm": 1.1199829578399658,
	"learning_rate": 0.0005879280730804277,
	"loss": 5.138465404510498,
	"step": 393
	},
	{
	"epoch": 0.2907749077490775,
	"grad_norm": 0.9535595178604126,
	"learning_rate": 0.000587309439159885,
	"loss": 4.985682487487793,
	"step": 394
	},
	{
	"epoch": 0.2915129151291513,
	"grad_norm": 0.9754979014396667,
	"learning_rate": 0.0005866894299517488,
	"loss": 4.827736854553223,
	"step": 395
	},
	{
	"epoch": 0.2922509225092251,
	"grad_norm": 0.9567784667015076,
	"learning_rate": 0.0005860680490491798,
	"loss": 4.916905879974365,
	"step": 396
	},
	{
	"epoch": 0.29298892988929887,
	"grad_norm": 0.9050018191337585,
	"learning_rate": 0.0005854453000532884,
	"loss": 5.034615993499756,
	"step": 397
	},
	{
	"epoch": 0.2937269372693727,
	"grad_norm": 0.8965482115745544,
	"learning_rate": 0.0005848211865731131,
	"loss": 4.918941497802734,
	"step": 398
	},
	{
	"epoch": 0.2944649446494465,
	"grad_norm": 0.9906476140022278,
	"learning_rate": 0.0005841957122256004,
	"loss": 4.973904609680176,
	"step": 399
	},
	{
	"epoch": 0.2952029520295203,
	"grad_norm": 0.9818461537361145,
	"learning_rate": 0.0005835688806355835,
	"loss": 4.993786811828613,
	"step": 400
	},
	{
	"epoch": 0.2959409594095941,
	"grad_norm": 0.99074786901474,
	"learning_rate": 0.0005829406954357611,
	"loss": 5.0351457595825195,
	"step": 401
	},
	{
	"epoch": 0.2966789667896679,
	"grad_norm": 0.9858592748641968,
	"learning_rate": 0.0005823111602666765,
	"loss": 4.854518413543701,
	"step": 402
	},
	{
	"epoch": 0.2974169741697417,
	"grad_norm": 1.0143122673034668,
	"learning_rate": 0.0005816802787766969,
	"loss": 4.9962921142578125,
	"step": 403
	},
	{
	"epoch": 0.2981549815498155,
	"grad_norm": 0.8965126276016235,
	"learning_rate": 0.0005810480546219914,
	"loss": 4.845615386962891,
	"step": 404
	},
	{
	"epoch": 0.2988929889298893,
	"grad_norm": 0.9247124791145325,
	"learning_rate": 0.0005804144914665105,
	"loss": 4.576415061950684,
	"step": 405
	},
	{
	"epoch": 0.2996309963099631,
	"grad_norm": 1.0036989450454712,
	"learning_rate": 0.0005797795929819646,
	"loss": 4.833454132080078,
	"step": 406
	},
	{
	"epoch": 0.3003690036900369,
	"grad_norm": 1.1179319620132446,
	"learning_rate": 0.0005791433628478031,
	"loss": 5.014064311981201,
	"step": 407
	},
	{
	"epoch": 0.3011070110701107,
	"grad_norm": 1.1040972471237183,
	"learning_rate": 0.0005785058047511922,
	"loss": 4.786684513092041,
	"step": 408
	},
	{
	"epoch": 0.3018450184501845,
	"grad_norm": 0.9538096785545349,
	"learning_rate": 0.0005778669223869945,
	"loss": 4.815490245819092,
	"step": 409
	},
	{
	"epoch": 0.3025830258302583,
	"grad_norm": 1.1620954275131226,
	"learning_rate": 0.0005772267194577469,
	"loss": 4.706133842468262,
	"step": 410
	},
	{
	"epoch": 0.3033210332103321,
	"grad_norm": 1.137211799621582,
	"learning_rate": 0.0005765851996736397,
	"loss": 4.959315299987793,
	"step": 411
	},
	{
	"epoch": 0.3040590405904059,
	"grad_norm": 0.9818885922431946,
	"learning_rate": 0.0005759423667524947,
	"loss": 4.72605037689209,
	"step": 412
	},
	{
	"epoch": 0.3047970479704797,
	"grad_norm": 0.9897336959838867,
	"learning_rate": 0.0005752982244197436,
	"loss": 4.857034683227539,
	"step": 413
	},
	{
	"epoch": 0.30553505535055353,
	"grad_norm": 0.9276419281959534,
	"learning_rate": 0.0005746527764084068,
	"loss": 4.825818061828613,
	"step": 414
	},
	{
	"epoch": 0.3062730627306273,
	"grad_norm": 0.9956037998199463,
	"learning_rate": 0.0005740060264590714,
	"loss": 4.663302421569824,
	"step": 415
	},
	{
	"epoch": 0.3070110701107011,
	"grad_norm": 0.9424338340759277,
	"learning_rate": 0.00057335797831987,
	"loss": 4.876203536987305,
	"step": 416
	},
	{
	"epoch": 0.3077490774907749,
	"grad_norm": 0.9253562092781067,
	"learning_rate": 0.000572708635746458,
	"loss": 4.914989471435547,
	"step": 417
	},
	{
	"epoch": 0.3084870848708487,
	"grad_norm": 1.0256803035736084,
	"learning_rate": 0.000572058002501993,
	"loss": 4.6925859451293945,
	"step": 418
	},
	{
	"epoch": 0.3092250922509225,
	"grad_norm": 0.9552437663078308,
	"learning_rate": 0.0005714060823571126,
	"loss": 4.923905372619629,
	"step": 419
	},
	{
	"epoch": 0.30996309963099633,
	"grad_norm": 0.8474723696708679,
	"learning_rate": 0.0005707528790899117,
	"loss": 4.9794769287109375,
	"step": 420
	},
	{
	"epoch": 0.3107011070110701,
	"grad_norm": 0.9562621712684631,
	"learning_rate": 0.0005700983964859219,
	"loss": 4.790196418762207,
	"step": 421
	},
	{
	"epoch": 0.3114391143911439,
	"grad_norm": 0.9205673336982727,
	"learning_rate": 0.000569442638338089,
	"loss": 4.9875407218933105,
	"step": 422
	},
	{
	"epoch": 0.3121771217712177,
	"grad_norm": 0.9803183674812317,
	"learning_rate": 0.0005687856084467509,
	"loss": 4.777838230133057,
	"step": 423
	},
	{
	"epoch": 0.3129151291512915,
	"grad_norm": 1.1361783742904663,
	"learning_rate": 0.0005681273106196154,
	"loss": 4.891695976257324,
	"step": 424
	},
	{
	"epoch": 0.31365313653136534,
	"grad_norm": 0.937116265296936,
	"learning_rate": 0.0005674677486717386,
	"loss": 4.8178324699401855,
	"step": 425
	},
	{
	"epoch": 0.31439114391143913,
	"grad_norm": 0.7977975606918335,
	"learning_rate": 0.000566806926425503,
	"loss": 4.76682710647583,
	"step": 426
	},
	{
	"epoch": 0.3151291512915129,
	"grad_norm": 1.0328474044799805,
	"learning_rate": 0.0005661448477105944,
	"loss": 4.845677852630615,
	"step": 427
	},
	{
	"epoch": 0.3158671586715867,
	"grad_norm": 0.977131187915802,
	"learning_rate": 0.0005654815163639804,
	"loss": 4.799696922302246,
	"step": 428
	},
	{
	"epoch": 0.3166051660516605,
	"grad_norm": 1.0650629997253418,
	"learning_rate": 0.0005648169362298881,
	"loss": 4.999658584594727,
	"step": 429
	},
	{
	"epoch": 0.3173431734317343,
	"grad_norm": 1.0764038562774658,
	"learning_rate": 0.0005641511111597818,
	"loss": 4.789190292358398,
	"step": 430
	},
	{
	"epoch": 0.31808118081180814,
	"grad_norm": 0.8251600861549377,
	"learning_rate": 0.0005634840450123405,
	"loss": 4.80035400390625,
	"step": 431
	},
	{
	"epoch": 0.31881918819188193,
	"grad_norm": 0.9509308338165283,
	"learning_rate": 0.0005628157416534356,
	"loss": 4.975335597991943,
	"step": 432
	},
	{
	"epoch": 0.3195571955719557,
	"grad_norm": 0.9815534353256226,
	"learning_rate": 0.000562146204956109,
	"loss": 4.860112190246582,
	"step": 433
	},
	{
	"epoch": 0.3202952029520295,
	"grad_norm": 1.0006123781204224,
	"learning_rate": 0.0005614754388005494,
	"loss": 4.970834732055664,
	"step": 434
	},
	{
	"epoch": 0.3210332103321033,
	"grad_norm": 0.9528962969779968,
	"learning_rate": 0.0005608034470740712,
	"loss": 4.864804267883301,
	"step": 435
	},
	{
	"epoch": 0.32177121771217715,
	"grad_norm": 0.9165347218513489,
	"learning_rate": 0.0005601302336710914,
	"loss": 4.844846725463867,
	"step": 436
	},
	{
	"epoch": 0.32250922509225094,
	"grad_norm": 0.8079850673675537,
	"learning_rate": 0.0005594558024931068,
	"loss": 4.501960754394531,
	"step": 437
	},
	{
	"epoch": 0.32324723247232473,
	"grad_norm": 1.0351104736328125,
	"learning_rate": 0.000558780157448672,
	"loss": 4.843764305114746,
	"step": 438
	},
	{
	"epoch": 0.3239852398523985,
	"grad_norm": 1.180903673171997,
	"learning_rate": 0.0005581033024533757,
	"loss": 4.818984508514404,
	"step": 439
	},
	{
	"epoch": 0.3247232472324723,
	"grad_norm": 1.0522313117980957,
	"learning_rate": 0.0005574252414298192,
	"loss": 4.750001907348633,
	"step": 440
	},
	{
	"epoch": 0.3254612546125461,
	"grad_norm": 1.0479143857955933,
	"learning_rate": 0.0005567459783075928,
	"loss": 4.75580358505249,
	"step": 441
	},
	{
	"epoch": 0.32619926199261995,
	"grad_norm": 0.9943499565124512,
	"learning_rate": 0.000556065517023254,
	"loss": 4.778286933898926,
	"step": 442
	},
	{
	"epoch": 0.32693726937269374,
	"grad_norm": 1.0374329090118408,
	"learning_rate": 0.0005553838615203031,
	"loss": 4.718173027038574,
	"step": 443
	},
	{
	"epoch": 0.32767527675276753,
	"grad_norm": 0.8165338635444641,
	"learning_rate": 0.0005547010157491621,
	"loss": 4.73118257522583,
	"step": 444
	},
	{
	"epoch": 0.3284132841328413,
	"grad_norm": 0.840587854385376,
	"learning_rate": 0.0005540169836671505,
	"loss": 4.625949859619141,
	"step": 445
	},
	{
	"epoch": 0.3291512915129151,
	"grad_norm": 0.9079518914222717,
	"learning_rate": 0.0005533317692384632,
	"loss": 4.873010158538818,
	"step": 446
	},
	{
	"epoch": 0.3298892988929889,
	"grad_norm": 0.9068413376808167,
	"learning_rate": 0.000552645376434147,
	"loss": 4.96326208114624,
	"step": 447
	},
	{
	"epoch": 0.33062730627306275,
	"grad_norm": 0.91420578956604,
	"learning_rate": 0.0005519578092320779,
	"loss": 4.897895336151123,
	"step": 448
	},
	{
	"epoch": 0.33136531365313654,
	"grad_norm": 0.986501932144165,
	"learning_rate": 0.0005512690716169378,
	"loss": 5.1402740478515625,
	"step": 449
	},
	{
	"epoch": 0.33210332103321033,
	"grad_norm": 0.9404821395874023,
	"learning_rate": 0.0005505791675801916,
	"loss": 4.783200740814209,
	"step": 450
	},
	{
	"epoch": 0.3328413284132841,
	"grad_norm": 0.9507829546928406,
	"learning_rate": 0.0005498881011200641,
	"loss": 4.688559532165527,
	"step": 451
	},
	{
	"epoch": 0.3335793357933579,
	"grad_norm": 0.9329268932342529,
	"learning_rate": 0.0005491958762415166,
	"loss": 4.877443790435791,
	"step": 452
	},
	{
	"epoch": 0.33431734317343176,
	"grad_norm": 1.0837727785110474,
	"learning_rate": 0.0005485024969562237,
	"loss": 4.7941789627075195,
	"step": 453
	},
	{
	"epoch": 0.33505535055350555,
	"grad_norm": 1.0305438041687012,
	"learning_rate": 0.0005478079672825504,
	"loss": 4.639592170715332,
	"step": 454
	},
	{
	"epoch": 0.33579335793357934,
	"grad_norm": 0.8832004070281982,
	"learning_rate": 0.0005471122912455287,
	"loss": 4.873642444610596,
	"step": 455
	},
	{
	"epoch": 0.33653136531365313,
	"grad_norm": 0.9681616425514221,
	"learning_rate": 0.0005464154728768339,
	"loss": 4.844632148742676,
	"step": 456
	},
	{
	"epoch": 0.3372693726937269,
	"grad_norm": 0.9066919088363647,
	"learning_rate": 0.0005457175162147614,
	"loss": 4.705622673034668,
	"step": 457
	},
	{
	"epoch": 0.3380073800738007,
	"grad_norm": 0.8449764251708984,
	"learning_rate": 0.0005450184253042037,
	"loss": 4.834818363189697,
	"step": 458
	},
	{
	"epoch": 0.33874538745387456,
	"grad_norm": 1.009404182434082,
	"learning_rate": 0.0005443182041966266,
	"loss": 4.893503665924072,
	"step": 459
	},
	{
	"epoch": 0.33948339483394835,
	"grad_norm": 0.9231082201004028,
	"learning_rate": 0.0005436168569500456,
	"loss": 4.946817398071289,
	"step": 460
	},
	{
	"epoch": 0.34022140221402214,
	"grad_norm": 0.9415441155433655,
	"learning_rate": 0.0005429143876290025,
	"loss": 4.941875457763672,
	"step": 461
	},
	{
	"epoch": 0.34095940959409593,
	"grad_norm": 0.8538420796394348,
	"learning_rate": 0.0005422108003045423,
	"loss": 4.770623207092285,
	"step": 462
	},
	{
	"epoch": 0.3416974169741697,
	"grad_norm": 1.1796035766601562,
	"learning_rate": 0.0005415060990541887,
	"loss": 5.057588577270508,
	"step": 463
	},
	{
	"epoch": 0.34243542435424357,
	"grad_norm": 0.9784668684005737,
	"learning_rate": 0.0005408002879619213,
	"loss": 4.873748779296875,
	"step": 464
	},
	{
	"epoch": 0.34317343173431736,
	"grad_norm": 0.7987930774688721,
	"learning_rate": 0.0005400933711181515,
	"loss": 4.990841865539551,
	"step": 465
	},
	{
	"epoch": 0.34391143911439115,
	"grad_norm": 0.9904403686523438,
	"learning_rate": 0.0005393853526196988,
	"loss": 4.766284942626953,
	"step": 466
	},
	{
	"epoch": 0.34464944649446494,
	"grad_norm": 1.3431742191314697,
	"learning_rate": 0.0005386762365697678,
	"loss": 4.805080413818359,
	"step": 467
	},
	{
	"epoch": 0.34538745387453873,
	"grad_norm": 0.9435102343559265,
	"learning_rate": 0.0005379660270779224,
	"loss": 4.853346824645996,
	"step": 468
	},
	{
	"epoch": 0.3461254612546125,
	"grad_norm": 0.9755591154098511,
	"learning_rate": 0.0005372547282600649,
	"loss": 4.719388008117676,
	"step": 469
	},
	{
	"epoch": 0.34686346863468637,
	"grad_norm": 0.8468083739280701,
	"learning_rate": 0.0005365423442384097,
	"loss": 4.8452301025390625,
	"step": 470
	},
	{
	"epoch": 0.34760147601476016,
	"grad_norm": 0.8244897723197937,
	"learning_rate": 0.0005358288791414604,
	"loss": 4.7897844314575195,
	"step": 471
	},
	{
	"epoch": 0.34833948339483395,
	"grad_norm": 1.2169724702835083,
	"learning_rate": 0.0005351143371039861,
	"loss": 4.922556400299072,
	"step": 472
	},
	{
	"epoch": 0.34907749077490774,
	"grad_norm": 0.7928814888000488,
	"learning_rate": 0.0005343987222669969,
	"loss": 4.509468078613281,
	"step": 473
	},
	{
	"epoch": 0.34981549815498153,
	"grad_norm": 0.8514037132263184,
	"learning_rate": 0.0005336820387777202,
	"loss": 4.7827959060668945,
	"step": 474
	},
	{
	"epoch": 0.3505535055350554,
	"grad_norm": 1.0094245672225952,
	"learning_rate": 0.0005329642907895766,
	"loss": 4.922459602355957,
	"step": 475
	},
	{
	"epoch": 0.35129151291512917,
	"grad_norm": 0.8496381044387817,
	"learning_rate": 0.0005322454824621558,
	"loss": 4.833901405334473,
	"step": 476
	},
	{
	"epoch": 0.35202952029520296,
	"grad_norm": 0.9164729714393616,
	"learning_rate": 0.0005315256179611926,
	"loss": 4.579873085021973,
	"step": 477
	},
	{
	"epoch": 0.35276752767527675,
	"grad_norm": 0.9636603593826294,
	"learning_rate": 0.0005308047014585427,
	"loss": 4.682124614715576,
	"step": 478
	},
	{
	"epoch": 0.35350553505535054,
	"grad_norm": 0.8201807141304016,
	"learning_rate": 0.000530082737132158,
	"loss": 4.792829513549805,
	"step": 479
	},
	{
	"epoch": 0.35424354243542433,
	"grad_norm": 1.1766455173492432,
	"learning_rate": 0.0005293597291660638,
	"loss": 4.957970142364502,
	"step": 480
	},
	{
	"epoch": 0.3549815498154982,
	"grad_norm": 1.2056677341461182,
	"learning_rate": 0.0005286356817503329,
	"loss": 4.584798812866211,
	"step": 481
	},
	{
	"epoch": 0.35571955719557197,
	"grad_norm": 0.9210802316665649,
	"learning_rate": 0.0005279105990810624,
	"loss": 4.629232406616211,
	"step": 482
	},
	{
	"epoch": 0.35645756457564576,
	"grad_norm": 0.9124312400817871,
	"learning_rate": 0.0005271844853603489,
	"loss": 4.6753435134887695,
	"step": 483
	},
	{
	"epoch": 0.35719557195571955,
	"grad_norm": 0.9933983087539673,
	"learning_rate": 0.0005264573447962644,
	"loss": 4.6301984786987305,
	"step": 484
	},
	{
	"epoch": 0.35793357933579334,
	"grad_norm": 0.93276047706604,
	"learning_rate": 0.0005257291816028317,
	"loss": 4.541720390319824,
	"step": 485
	},
	{
	"epoch": 0.3586715867158672,
	"grad_norm": 1.028709053993225,
	"learning_rate": 0.000525,
	"loss": 4.660837650299072,
	"step": 486
	},
	{
	"epoch": 0.359409594095941,
	"grad_norm": 0.935407817363739,
	"learning_rate": 0.0005242698042136208,
	"loss": 4.810506820678711,
	"step": 487
	},
	{
	"epoch": 0.36014760147601477,
	"grad_norm": 0.9050341844558716,
	"learning_rate": 0.000523538598475423,
	"loss": 4.896993637084961,
	"step": 488
	},
	{
	"epoch": 0.36088560885608856,
	"grad_norm": 0.9780540466308594,
	"learning_rate": 0.0005228063870229883,
	"loss": 4.808036804199219,
	"step": 489
	},
	{
	"epoch": 0.36162361623616235,
	"grad_norm": 1.107608675956726,
	"learning_rate": 0.0005220731740997273,
	"loss": 4.784989833831787,
	"step": 490
	},
	{
	"epoch": 0.36236162361623614,
	"grad_norm": 1.0185608863830566,
	"learning_rate": 0.0005213389639548539,
	"loss": 4.635310173034668,
	"step": 491
	},
	{
	"epoch": 0.36309963099631,
	"grad_norm": 0.9982399940490723,
	"learning_rate": 0.0005206037608433617,
	"loss": 4.810551643371582,
	"step": 492
	},
	{
	"epoch": 0.3638376383763838,
	"grad_norm": 0.7861829400062561,
	"learning_rate": 0.0005198675690259988,
	"loss": 4.704036712646484,
	"step": 493
	},
	{
	"epoch": 0.36457564575645757,
	"grad_norm": 0.935389518737793,
	"learning_rate": 0.0005191303927692428,
	"loss": 5.006328582763672,
	"step": 494
	},
	{
	"epoch": 0.36531365313653136,
	"grad_norm": 0.9794636368751526,
	"learning_rate": 0.0005183922363452768,
	"loss": 4.736790180206299,
	"step": 495
	},
	{
	"epoch": 0.36605166051660515,
	"grad_norm": 0.915691614151001,
	"learning_rate": 0.0005176531040319643,
	"loss": 4.851039409637451,
	"step": 496
	},
	{
	"epoch": 0.36678966789667894,
	"grad_norm": 1.203650712966919,
	"learning_rate": 0.0005169130001128246,
	"loss": 4.811964988708496,
	"step": 497
	},
	{
	"epoch": 0.3675276752767528,
	"grad_norm": 1.001997947692871,
	"learning_rate": 0.000516171928877007,
	"loss": 4.62536096572876,
	"step": 498
	},
	{
	"epoch": 0.3682656826568266,
	"grad_norm": 0.9129559993743896,
	"learning_rate": 0.0005154298946192679,
	"loss": 4.895463466644287,
	"step": 499
	},
	{
	"epoch": 0.36900369003690037,
	"grad_norm": 0.9465571045875549,
	"learning_rate": 0.0005146869016399432,
	"loss": 4.418019771575928,
	"step": 500
	},
	{
	"epoch": 0.36974169741697416,
	"grad_norm": 1.1695398092269897,
	"learning_rate": 0.0005139429542449265,
	"loss": 4.949154376983643,
	"step": 501
	},
	{
	"epoch": 0.37047970479704795,
	"grad_norm": 0.9523534774780273,
	"learning_rate": 0.0005131980567456417,
	"loss": 4.633477687835693,
	"step": 502
	},
	{
	"epoch": 0.3712177121771218,
	"grad_norm": 0.9152795076370239,
	"learning_rate": 0.0005124522134590188,
	"loss": 4.966670989990234,
	"step": 503
	},
	{
	"epoch": 0.3719557195571956,
	"grad_norm": 1.2700462341308594,
	"learning_rate": 0.0005117054287074694,
	"loss": 4.756679534912109,
	"step": 504
	},
	{
	"epoch": 0.3726937269372694,
	"grad_norm": 1.0250760316848755,
	"learning_rate": 0.0005109577068188609,
	"loss": 5.008725166320801,
	"step": 505
	},
	{
	"epoch": 0.37343173431734317,
	"grad_norm": 1.0058673620224,
	"learning_rate": 0.0005102090521264917,
	"loss": 4.794961452484131,
	"step": 506
	},
	{
	"epoch": 0.37416974169741696,
	"grad_norm": 0.9521406292915344,
	"learning_rate": 0.0005094594689690664,
	"loss": 4.621726989746094,
	"step": 507
	},
	{
	"epoch": 0.37490774907749075,
	"grad_norm": 1.1385680437088013,
	"learning_rate": 0.0005087089616906701,
	"loss": 4.789394378662109,
	"step": 508
	},
	{
	"epoch": 0.3756457564575646,
	"grad_norm": 1.1471185684204102,
	"learning_rate": 0.0005079575346407434,
	"loss": 4.895359039306641,
	"step": 509
	},
	{
	"epoch": 0.3763837638376384,
	"grad_norm": 0.9710941910743713,
	"learning_rate": 0.0005072051921740577,
	"loss": 4.706118583679199,
	"step": 510
	},
	{
	"epoch": 0.3771217712177122,
	"grad_norm": 1.0084307193756104,
	"learning_rate": 0.0005064519386506892,
	"loss": 4.653249740600586,
	"step": 511
	},
	{
	"epoch": 0.37785977859778597,
	"grad_norm": 0.8812188506126404,
	"learning_rate": 0.000505697778435994,
	"loss": 4.762184143066406,
	"step": 512
	},
	{
	"epoch": 0.37859778597785976,
	"grad_norm": 0.902651846408844,
	"learning_rate": 0.0005049427159005829,
	"loss": 4.499927520751953,
	"step": 513
	},
	{
	"epoch": 0.3793357933579336,
	"grad_norm": 0.9034081697463989,
	"learning_rate": 0.000504186755420296,
	"loss": 4.713489055633545,
	"step": 514
	},
	{
	"epoch": 0.3800738007380074,
	"grad_norm": 0.9847108721733093,
	"learning_rate": 0.000503429901376177,
	"loss": 4.567604064941406,
	"step": 515
	},
	{
	"epoch": 0.3808118081180812,
	"grad_norm": 1.009543776512146,
	"learning_rate": 0.0005026721581544485,
	"loss": 4.737997055053711,
	"step": 516
	},
	{
	"epoch": 0.381549815498155,
	"grad_norm": 0.8869209289550781,
	"learning_rate": 0.0005019135301464861,
	"loss": 4.873485565185547,
	"step": 517
	},
	{
	"epoch": 0.38228782287822877,
	"grad_norm": 1.083253026008606,
	"learning_rate": 0.0005011540217487924,
	"loss": 4.698840618133545,
	"step": 518
	},
	{
	"epoch": 0.38302583025830256,
	"grad_norm": 0.9394760131835938,
	"learning_rate": 0.0005003936373629732,
	"loss": 4.629981994628906,
	"step": 519
	},
	{
	"epoch": 0.3837638376383764,
	"grad_norm": 0.9423143863677979,
	"learning_rate": 0.00049963238139571,
	"loss": 4.612939834594727,
	"step": 520
	},
	{
	"epoch": 0.3845018450184502,
	"grad_norm": 0.9476136565208435,
	"learning_rate": 0.000498870258258736,
	"loss": 4.849869728088379,
	"step": 521
	},
	{
	"epoch": 0.385239852398524,
	"grad_norm": 0.9509242177009583,
	"learning_rate": 0.0004981072723688098,
	"loss": 4.818325996398926,
	"step": 522
	},
	{
	"epoch": 0.3859778597785978,
	"grad_norm": 0.834679901599884,
	"learning_rate": 0.0004973434281476899,
	"loss": 4.750872611999512,
	"step": 523
	},
	{
	"epoch": 0.38671586715867157,
	"grad_norm": 0.799146831035614,
	"learning_rate": 0.0004965787300221089,
	"loss": 4.632112503051758,
	"step": 524
	},
	{
	"epoch": 0.3874538745387454,
	"grad_norm": 0.8336266875267029,
	"learning_rate": 0.0004958131824237484,
	"loss": 4.630362510681152,
	"step": 525
	},
	{
	"epoch": 0.3881918819188192,
	"grad_norm": 0.9787878394126892,
	"learning_rate": 0.0004950467897892132,
	"loss": 4.63228702545166,
	"step": 526
	},
	{
	"epoch": 0.388929889298893,
	"grad_norm": 1.0535902976989746,
	"learning_rate": 0.0004942795565600044,
	"loss": 4.849504470825195,
	"step": 527
	},
	{
	"epoch": 0.3896678966789668,
	"grad_norm": 0.953353226184845,
	"learning_rate": 0.0004935114871824956,
	"loss": 4.9335222244262695,
	"step": 528
	},
	{
	"epoch": 0.3904059040590406,
	"grad_norm": 0.9515429735183716,
	"learning_rate": 0.0004927425861079057,
	"loss": 4.6670451164245605,
	"step": 529
	},
	{
	"epoch": 0.39114391143911437,
	"grad_norm": 1.0168793201446533,
	"learning_rate": 0.0004919728577922739,
	"loss": 4.654256820678711,
	"step": 530
	},
	{
	"epoch": 0.3918819188191882,
	"grad_norm": 0.9733904600143433,
	"learning_rate": 0.000491202306696433,
	"loss": 4.637208938598633,
	"step": 531
	},
	{
	"epoch": 0.392619926199262,
	"grad_norm": 0.9687494039535522,
	"learning_rate": 0.0004904309372859844,
	"loss": 4.994683742523193,
	"step": 532
	},
	{
	"epoch": 0.3933579335793358,
	"grad_norm": 1.066312313079834,
	"learning_rate": 0.0004896587540312722,
	"loss": 4.801863670349121,
	"step": 533
	},
	{
	"epoch": 0.3940959409594096,
	"grad_norm": 0.9010938405990601,
	"learning_rate": 0.0004888857614073565,
	"loss": 4.627843856811523,
	"step": 534
	},
	{
	"epoch": 0.3948339483394834,
	"grad_norm": 0.9718567728996277,
	"learning_rate": 0.00048811196389398823,
	"loss": 4.693809509277344,
	"step": 535
	},
	{
	"epoch": 0.3955719557195572,
	"grad_norm": 1.1631206274032593,
	"learning_rate": 0.00048733736597558264,
	"loss": 4.649688720703125,
	"step": 536
	},
	{
	"epoch": 0.396309963099631,
	"grad_norm": 1.0241073369979858,
	"learning_rate": 0.0004865619721411941,
	"loss": 4.654960632324219,
	"step": 537
	},
	{
	"epoch": 0.3970479704797048,
	"grad_norm": 0.9926833510398865,
	"learning_rate": 0.0004857857868844891,
	"loss": 4.601881504058838,
	"step": 538
	},
	{
	"epoch": 0.3977859778597786,
	"grad_norm": 1.0237977504730225,
	"learning_rate": 0.0004850088147037211,
	"loss": 4.73300838470459,
	"step": 539
	},
	{
	"epoch": 0.3985239852398524,
	"grad_norm": 1.060038685798645,
	"learning_rate": 0.0004842310601017036,
	"loss": 4.862484931945801,
	"step": 540
	},
	{
	"epoch": 0.3992619926199262,
	"grad_norm": 1.2825253009796143,
	"learning_rate": 0.00048345252758578484,
	"loss": 4.497199058532715,
	"step": 541
	},
	{
	"epoch": 0.4,
	"grad_norm": 0.9599003791809082,
	"learning_rate": 0.00048267322166782123,
	"loss": 4.726795673370361,
	"step": 542
	},
	{
	"epoch": 0.4007380073800738,
	"grad_norm": 0.9577689170837402,
	"learning_rate": 0.0004818931468641511,
	"loss": 4.560695648193359,
	"step": 543
	},
	{
	"epoch": 0.4014760147601476,
	"grad_norm": 0.9004948139190674,
	"learning_rate": 0.0004811123076955693,
	"loss": 4.900054931640625,
	"step": 544
	},
	{
	"epoch": 0.4022140221402214,
	"grad_norm": 1.0973906517028809,
	"learning_rate": 0.0004803307086872996,
	"loss": 4.605217933654785,
	"step": 545
	},
	{
	"epoch": 0.4029520295202952,
	"grad_norm": 0.9591420888900757,
	"learning_rate": 0.0004795483543689701,
	"loss": 4.580148696899414,
	"step": 546
	},
	{
	"epoch": 0.40369003690036903,
	"grad_norm": 0.9317168593406677,
	"learning_rate": 0.00047876524927458554,
	"loss": 4.676855087280273,
	"step": 547
	},
	{
	"epoch": 0.4044280442804428,
	"grad_norm": 0.8841069936752319,
	"learning_rate": 0.0004779813979425022,
	"loss": 4.510927677154541,
	"step": 548
	},
	{
	"epoch": 0.4051660516605166,
	"grad_norm": 0.8826556205749512,
	"learning_rate": 0.0004771968049154005,
	"loss": 4.688409805297852,
	"step": 549
	},
	{
	"epoch": 0.4059040590405904,
	"grad_norm": 1.0118300914764404,
	"learning_rate": 0.00047641147474025973,
	"loss": 4.612986087799072,
	"step": 550
	},
	{
	"epoch": 0.4066420664206642,
	"grad_norm": 0.7752644419670105,
	"learning_rate": 0.00047562541196833106,
	"loss": 4.80881929397583,
	"step": 551
	},
	{
	"epoch": 0.407380073800738,
	"grad_norm": 0.8387100100517273,
	"learning_rate": 0.000474838621155111,
	"loss": 4.728845596313477,
	"step": 552
	},
	{
	"epoch": 0.40811808118081183,
	"grad_norm": 0.8829529285430908,
	"learning_rate": 0.00047405110686031575,
	"loss": 4.959627151489258,
	"step": 553
	},
	{
	"epoch": 0.4088560885608856,
	"grad_norm": 0.8168521523475647,
	"learning_rate": 0.000473262873647854,
	"loss": 4.744089603424072,
	"step": 554
	},
	{
	"epoch": 0.4095940959409594,
	"grad_norm": 0.8763787150382996,
	"learning_rate": 0.000472473926085801,
	"loss": 4.78373908996582,
	"step": 555
	},
	{
	"epoch": 0.4103321033210332,
	"grad_norm": 0.8329116106033325,
	"learning_rate": 0.00047168426874637167,
	"loss": 4.739480018615723,
	"step": 556
	},
	{
	"epoch": 0.411070110701107,
	"grad_norm": 0.8480055332183838,
	"learning_rate": 0.0004708939062058946,
	"loss": 4.604061126708984,
	"step": 557
	},
	{
	"epoch": 0.4118081180811808,
	"grad_norm": 0.8095789551734924,
	"learning_rate": 0.0004701028430447852,
	"loss": 4.522249221801758,
	"step": 558
	},
	{
	"epoch": 0.41254612546125463,
	"grad_norm": 1.0202033519744873,
	"learning_rate": 0.00046931108384751897,
	"loss": 4.50852632522583,
	"step": 559
	},
	{
	"epoch": 0.4132841328413284,
	"grad_norm": 1.0811773538589478,
	"learning_rate": 0.00046851863320260544,
	"loss": 4.552791118621826,
	"step": 560
	},
	{
	"epoch": 0.4140221402214022,
	"grad_norm": 1.1033447980880737,
	"learning_rate": 0.00046772549570256125,
	"loss": 4.458186149597168,
	"step": 561
	},
	{
	"epoch": 0.414760147601476,
	"grad_norm": 0.8855783939361572,
	"learning_rate": 0.00046693167594388357,
	"loss": 4.8609724044799805,
	"step": 562
	},
	{
	"epoch": 0.4154981549815498,
	"grad_norm": 0.8844220042228699,
	"learning_rate": 0.00046613717852702345,
	"loss": 4.472495079040527,
	"step": 563
	},
	{
	"epoch": 0.41623616236162364,
	"grad_norm": 1.000057339668274,
	"learning_rate": 0.0004653420080563592,
	"loss": 4.571652412414551,
	"step": 564
	},
	{
	"epoch": 0.41697416974169743,
	"grad_norm": 1.2004189491271973,
	"learning_rate": 0.0004645461691401697,
	"loss": 4.222049713134766,
	"step": 565
	},
	{
	"epoch": 0.4177121771217712,
	"grad_norm": 0.891960859298706,
	"learning_rate": 0.0004637496663906077,
	"loss": 4.547060966491699,
	"step": 566
	},
	{
	"epoch": 0.418450184501845,
	"grad_norm": 0.895974338054657,
	"learning_rate": 0.0004629525044236733,
	"loss": 4.556779861450195,
	"step": 567
	},
	{
	"epoch": 0.4191881918819188,
	"grad_norm": 0.9765421152114868,
	"learning_rate": 0.0004621546878591865,
	"loss": 4.732317924499512,
	"step": 568
	},
	{
	"epoch": 0.4199261992619926,
	"grad_norm": 0.8740888237953186,
	"learning_rate": 0.00046135622132076153,
	"loss": 4.561002731323242,
	"step": 569
	},
	{
	"epoch": 0.42066420664206644,
	"grad_norm": 0.768431544303894,
	"learning_rate": 0.00046055710943577896,
	"loss": 4.428035259246826,
	"step": 570
	},
	{
	"epoch": 0.42140221402214023,
	"grad_norm": 0.9561269879341125,
	"learning_rate": 0.0004597573568353595,
	"loss": 4.324114799499512,
	"step": 571
	},
	{
	"epoch": 0.422140221402214,
	"grad_norm": 0.9126472473144531,
	"learning_rate": 0.00045895696815433687,
	"loss": 4.664113521575928,
	"step": 572
	},
	{
	"epoch": 0.4228782287822878,
	"grad_norm": 0.8882591128349304,
	"learning_rate": 0.0004581559480312316,
	"loss": 4.339204788208008,
	"step": 573
	},
	{
	"epoch": 0.4236162361623616,
	"grad_norm": 1.081982135772705,
	"learning_rate": 0.00045735430110822303,
	"loss": 4.641040802001953,
	"step": 574
	},
	{
	"epoch": 0.42435424354243545,
	"grad_norm": 0.7895275950431824,
	"learning_rate": 0.0004565520320311235,
	"loss": 4.488674163818359,
	"step": 575
	},
	{
	"epoch": 0.42509225092250924,
	"grad_norm": 0.9767966866493225,
	"learning_rate": 0.0004557491454493504,
	"loss": 5.026608943939209,
	"step": 576
	},
	{
	"epoch": 0.42583025830258303,
	"grad_norm": 0.8868175148963928,
	"learning_rate": 0.0004549456460159004,
	"loss": 4.576347351074219,
	"step": 577
	},
	{
	"epoch": 0.4265682656826568,
	"grad_norm": 0.8501465320587158,
	"learning_rate": 0.00045414153838732135,
	"loss": 4.619839668273926,
	"step": 578
	},
	{
	"epoch": 0.4273062730627306,
	"grad_norm": 0.8614507913589478,
	"learning_rate": 0.00045333682722368597,
	"loss": 4.661761283874512,
	"step": 579
	},
	{
	"epoch": 0.4280442804428044,
	"grad_norm": 1.0277959108352661,
	"learning_rate": 0.0004525315171885648,
	"loss": 4.562242031097412,
	"step": 580
	},
	{
	"epoch": 0.42878228782287825,
	"grad_norm": 0.9864504933357239,
	"learning_rate": 0.00045172561294899884,
	"loss": 4.4832258224487305,
	"step": 581
	},
	{
	"epoch": 0.42952029520295204,
	"grad_norm": 0.8841885924339294,
	"learning_rate": 0.0004509191191754728,
	"loss": 4.594321250915527,
	"step": 582
	},
	{
	"epoch": 0.43025830258302583,
	"grad_norm": 0.8487964272499084,
	"learning_rate": 0.00045011204054188784,
	"loss": 4.805062294006348,
	"step": 583
	},
	{
	"epoch": 0.4309963099630996,
	"grad_norm": 1.027441143989563,
	"learning_rate": 0.0004493043817255347,
	"loss": 4.6832685470581055,
	"step": 584
	},
	{
	"epoch": 0.4317343173431734,
	"grad_norm": 0.9376983046531677,
	"learning_rate": 0.0004484961474070665,
	"loss": 4.687745094299316,
	"step": 585
	},
	{
	"epoch": 0.43247232472324726,
	"grad_norm": 0.927667498588562,
	"learning_rate": 0.00044768734227047146,
	"loss": 4.67139196395874,
	"step": 586
	},
	{
	"epoch": 0.43321033210332105,
	"grad_norm": 0.8729023933410645,
	"learning_rate": 0.00044687797100304596,
	"loss": 4.648367404937744,
	"step": 587
	},
	{
	"epoch": 0.43394833948339484,
	"grad_norm": 0.9207971692085266,
	"learning_rate": 0.0004460680382953672,
	"loss": 4.687824249267578,
	"step": 588
	},
	{
	"epoch": 0.43468634686346863,
	"grad_norm": 0.8276870846748352,
	"learning_rate": 0.00044525754884126634,
	"loss": 4.622544288635254,
	"step": 589
	},
	{
	"epoch": 0.4354243542435424,
	"grad_norm": 0.9223991632461548,
	"learning_rate": 0.0004444465073378007,
	"loss": 4.5522003173828125,
	"step": 590
	},
	{
	"epoch": 0.4361623616236162,
	"grad_norm": 1.1231549978256226,
	"learning_rate": 0.00044363491848522737,
	"loss": 4.543008804321289,
	"step": 591
	},
	{
	"epoch": 0.43690036900369006,
	"grad_norm": 0.867957592010498,
	"learning_rate": 0.00044282278698697504,
	"loss": 4.716594219207764,
	"step": 592
	},
	{
	"epoch": 0.43763837638376385,
	"grad_norm": 0.7886962890625,
	"learning_rate": 0.0004420101175496176,
	"loss": 4.6924920082092285,
	"step": 593
	},
	{
	"epoch": 0.43837638376383764,
	"grad_norm": 0.8600431680679321,
	"learning_rate": 0.00044119691488284644,
	"loss": 4.623996257781982,
	"step": 594
	},
	{
	"epoch": 0.43911439114391143,
	"grad_norm": 0.8535895347595215,
	"learning_rate": 0.0004403831836994428,
	"loss": 4.559450149536133,
	"step": 595
	},
	{
	"epoch": 0.4398523985239852,
	"grad_norm": 0.8784546256065369,
	"learning_rate": 0.00043956892871525123,
	"loss": 4.410243988037109,
	"step": 596
	},
	{
	"epoch": 0.44059040590405907,
	"grad_norm": 0.9997196197509766,
	"learning_rate": 0.0004387541546491518,
	"loss": 4.677160739898682,
	"step": 597
	},
	{
	"epoch": 0.44132841328413286,
	"grad_norm": 0.9354564547538757,
	"learning_rate": 0.000437938866223033,
	"loss": 4.577181816101074,
	"step": 598
	},
	{
	"epoch": 0.44206642066420665,
	"grad_norm": 0.8507137298583984,
	"learning_rate": 0.00043712306816176365,
	"loss": 4.933267593383789,
	"step": 599
	},
	{
	"epoch": 0.44280442804428044,
	"grad_norm": 0.7964354753494263,
	"learning_rate": 0.0004363067651931667,
	"loss": 4.742018222808838,
	"step": 600
	},
	{
	"epoch": 0.44354243542435423,
	"grad_norm": 0.8398452997207642,
	"learning_rate": 0.0004354899620479909,
	"loss": 4.496376991271973,
	"step": 601
	},
	{
	"epoch": 0.444280442804428,
	"grad_norm": 0.8302538990974426,
	"learning_rate": 0.00043467266345988365,
	"loss": 4.4834885597229,
	"step": 602
	},
	{
	"epoch": 0.44501845018450187,
	"grad_norm": 0.8685540556907654,
	"learning_rate": 0.00043385487416536397,
	"loss": 4.598426342010498,
	"step": 603
	},
	{
	"epoch": 0.44575645756457566,
	"grad_norm": 1.008470892906189,
	"learning_rate": 0.0004330365989037941,
	"loss": 4.579464912414551,
	"step": 604
	},
	{
	"epoch": 0.44649446494464945,
	"grad_norm": 0.9266964793205261,
	"learning_rate": 0.00043221784241735315,
	"loss": 4.776824474334717,
	"step": 605
	},
	{
	"epoch": 0.44723247232472324,
	"grad_norm": 0.8900343775749207,
	"learning_rate": 0.00043139860945100864,
	"loss": 4.573504447937012,
	"step": 606
	},
	{
	"epoch": 0.44797047970479703,
	"grad_norm": 0.9872782826423645,
	"learning_rate": 0.0004305789047524901,
	"loss": 4.563179969787598,
	"step": 607
	},
	{
	"epoch": 0.4487084870848708,
	"grad_norm": 0.8987732529640198,
	"learning_rate": 0.00042975873307226,
	"loss": 4.483942031860352,
	"step": 608
	},
	{
	"epoch": 0.44944649446494467,
	"grad_norm": 0.9567626714706421,
	"learning_rate": 0.000428938099163488,
	"loss": 4.630576133728027,
	"step": 609
	},
	{
	"epoch": 0.45018450184501846,
	"grad_norm": 0.8059940934181213,
	"learning_rate": 0.000428117007782022,
	"loss": 4.429983615875244,
	"step": 610
	},
	{
	"epoch": 0.45092250922509225,
	"grad_norm": 0.8970604538917542,
	"learning_rate": 0.0004272954636863613,
	"loss": 4.672665596008301,
	"step": 611
	},
	{
	"epoch": 0.45166051660516604,
	"grad_norm": 0.9387950301170349,
	"learning_rate": 0.0004264734716376287,
	"loss": 4.554316520690918,
	"step": 612
	},
	{
	"epoch": 0.45239852398523983,
	"grad_norm": 0.8920540809631348,
	"learning_rate": 0.0004256510363995433,
	"loss": 4.600342750549316,
	"step": 613
	},
	{
	"epoch": 0.4531365313653137,
	"grad_norm": 1.0435482263565063,
	"learning_rate": 0.0004248281627383923,
	"loss": 4.5729475021362305,
	"step": 614
	},
	{
	"epoch": 0.45387453874538747,
	"grad_norm": 0.8200010657310486,
	"learning_rate": 0.0004240048554230039,
	"loss": 4.369121551513672,
	"step": 615
	},
	{
	"epoch": 0.45461254612546126,
	"grad_norm": 0.9972869157791138,
	"learning_rate": 0.0004231811192247195,
	"loss": 4.570677757263184,
	"step": 616
	},
	{
	"epoch": 0.45535055350553505,
	"grad_norm": 0.9263824224472046,
	"learning_rate": 0.00042235695891736585,
	"loss": 4.355930328369141,
	"step": 617
	},
	{
	"epoch": 0.45608856088560884,
	"grad_norm": 1.002906084060669,
	"learning_rate": 0.00042153237927722775,
	"loss": 4.620849609375,
	"step": 618
	},
	{
	"epoch": 0.45682656826568263,
	"grad_norm": 0.9105566143989563,
	"learning_rate": 0.00042070738508302003,
	"loss": 4.353985786437988,
	"step": 619
	},
	{
	"epoch": 0.4575645756457565,
	"grad_norm": 0.8016074895858765,
	"learning_rate": 0.0004198819811158601,
	"loss": 4.468338966369629,
	"step": 620
	},
	{
	"epoch": 0.45830258302583027,
	"grad_norm": 0.8135733604431152,
	"learning_rate": 0.00041905617215924,
	"loss": 4.608132362365723,
	"step": 621
	},
	{
	"epoch": 0.45904059040590406,
	"grad_norm": 0.9293224215507507,
	"learning_rate": 0.00041822996299899906,
	"loss": 4.565390586853027,
	"step": 622
	},
	{
	"epoch": 0.45977859778597785,
	"grad_norm": 1.1056631803512573,
	"learning_rate": 0.00041740335842329566,
	"loss": 4.949249267578125,
	"step": 623
	},
	{
	"epoch": 0.46051660516605164,
	"grad_norm": 0.840045154094696,
	"learning_rate": 0.00041657636322257993,
	"loss": 4.710245609283447,
	"step": 624
	},
	{
	"epoch": 0.4612546125461255,
	"grad_norm": 0.9296345710754395,
	"learning_rate": 0.0004157489821895657,
	"loss": 4.73885440826416,
	"step": 625
	},
	{
	"epoch": 0.4619926199261993,
	"grad_norm": 0.8654890656471252,
	"learning_rate": 0.0004149212201192029,
	"loss": 4.420188903808594,
	"step": 626
	},
	{
	"epoch": 0.46273062730627307,
	"grad_norm": 1.0963070392608643,
	"learning_rate": 0.0004140930818086497,
	"loss": 4.5778985023498535,
	"step": 627
	},
	{
	"epoch": 0.46346863468634686,
	"grad_norm": 0.8319039940834045,
	"learning_rate": 0.00041326457205724445,
	"loss": 4.544205188751221,
	"step": 628
	},
	{
	"epoch": 0.46420664206642065,
	"grad_norm": 0.9679455757141113,
	"learning_rate": 0.0004124356956664786,
	"loss": 4.58363151550293,
	"step": 629
	},
	{
	"epoch": 0.46494464944649444,
	"grad_norm": 0.9498420357704163,
	"learning_rate": 0.00041160645743996803,
	"loss": 4.450014114379883,
	"step": 630
	},
	{
	"epoch": 0.4656826568265683,
	"grad_norm": 0.8234408497810364,
	"learning_rate": 0.0004107768621834257,
	"loss": 4.5670857429504395,
	"step": 631
	},
	{
	"epoch": 0.4664206642066421,
	"grad_norm": 1.0177075862884521,
	"learning_rate": 0.0004099469147046336,
	"loss": 4.445223808288574,
	"step": 632
	},
	{
	"epoch": 0.46715867158671587,
	"grad_norm": 0.7691503167152405,
	"learning_rate": 0.0004091166198134151,
	"loss": 4.425694465637207,
	"step": 633
	},
	{
	"epoch": 0.46789667896678966,
	"grad_norm": 0.966654896736145,
	"learning_rate": 0.00040828598232160696,
	"loss": 4.650933265686035,
	"step": 634
	},
	{
	"epoch": 0.46863468634686345,
	"grad_norm": 1.0035220384597778,
	"learning_rate": 0.0004074550070430312,
	"loss": 4.69790506362915,
	"step": 635
	},
	{
	"epoch": 0.4693726937269373,
	"grad_norm": 0.8333247900009155,
	"learning_rate": 0.0004066236987934677,
	"loss": 4.4094438552856445,
	"step": 636
	},
	{
	"epoch": 0.4701107011070111,
	"grad_norm": 0.9272137880325317,
	"learning_rate": 0.0004057920623906257,
	"loss": 4.437854766845703,
	"step": 637
	},
	{
	"epoch": 0.4708487084870849,
	"grad_norm": 0.9257310628890991,
	"learning_rate": 0.0004049601026541166,
	"loss": 4.607282638549805,
	"step": 638
	},
	{
	"epoch": 0.47158671586715867,
	"grad_norm": 0.9032636880874634,
	"learning_rate": 0.0004041278244054253,
	"loss": 4.529732704162598,
	"step": 639
	},
	{
	"epoch": 0.47232472324723246,
	"grad_norm": 0.8978585600852966,
	"learning_rate": 0.0004032952324678826,
	"loss": 4.577826499938965,
	"step": 640
	},
	{
	"epoch": 0.47306273062730625,
	"grad_norm": 0.9967110753059387,
	"learning_rate": 0.0004024623316666376,
	"loss": 4.280439376831055,
	"step": 641
	},
	{
	"epoch": 0.4738007380073801,
	"grad_norm": 0.9799245595932007,
	"learning_rate": 0.00040162912682862884,
	"loss": 4.567631721496582,
	"step": 642
	},
	{
	"epoch": 0.4745387453874539,
	"grad_norm": 0.9125800728797913,
	"learning_rate": 0.00040079562278255726,
	"loss": 4.556615352630615,
	"step": 643
	},
	{
	"epoch": 0.4752767527675277,
	"grad_norm": 0.8560841679573059,
	"learning_rate": 0.00039996182435885744,
	"loss": 4.567816734313965,
	"step": 644
	},
	{
	"epoch": 0.47601476014760147,
	"grad_norm": 0.8384515643119812,
	"learning_rate": 0.00039912773638967053,
	"loss": 4.32409143447876,
	"step": 645
	},
	{
	"epoch": 0.47675276752767526,
	"grad_norm": 0.9469295144081116,
	"learning_rate": 0.0003982933637088151,
	"loss": 4.505819797515869,
	"step": 646
	},
	{
	"epoch": 0.4774907749077491,
	"grad_norm": 0.8418838381767273,
	"learning_rate": 0.0003974587111517601,
	"loss": 4.288963317871094,
	"step": 647
	},
	{
	"epoch": 0.4782287822878229,
	"grad_norm": 0.9017887711524963,
	"learning_rate": 0.00039662378355559636,
	"loss": 4.349027633666992,
	"step": 648
	},
	{
	"epoch": 0.4789667896678967,
	"grad_norm": 0.9656051993370056,
	"learning_rate": 0.00039578858575900857,
	"loss": 4.5458478927612305,
	"step": 649
	},
	{
	"epoch": 0.4797047970479705,
	"grad_norm": 0.8434630632400513,
	"learning_rate": 0.0003949531226022474,
	"loss": 4.536887168884277,
	"step": 650
	},
	{
	"epoch": 0.48044280442804427,
	"grad_norm": 0.8146916627883911,
	"learning_rate": 0.0003941173989271013,
	"loss": 4.554960250854492,
	"step": 651
	},
	{
	"epoch": 0.48118081180811806,
	"grad_norm": 0.8592056035995483,
	"learning_rate": 0.0003932814195768687,
	"loss": 4.47853422164917,
	"step": 652
	},
	{
	"epoch": 0.4819188191881919,
	"grad_norm": 0.8136284351348877,
	"learning_rate": 0.0003924451893963294,
	"loss": 4.614603042602539,
	"step": 653
	},
	{
	"epoch": 0.4826568265682657,
	"grad_norm": 0.8898813724517822,
	"learning_rate": 0.0003916087132317173,
	"loss": 4.604781150817871,
	"step": 654
	},
	{
	"epoch": 0.4833948339483395,
	"grad_norm": 0.9451072216033936,
	"learning_rate": 0.0003907719959306915,
	"loss": 4.379412651062012,
	"step": 655
	},
	{
	"epoch": 0.4841328413284133,
	"grad_norm": 1.0912781953811646,
	"learning_rate": 0.0003899350423423087,
	"loss": 4.53802490234375,
	"step": 656
	},
	{
	"epoch": 0.48487084870848707,
	"grad_norm": 0.9553581476211548,
	"learning_rate": 0.0003890978573169949,
	"loss": 4.305476188659668,
	"step": 657
	},
	{
	"epoch": 0.48560885608856086,
	"grad_norm": 0.942167341709137,
	"learning_rate": 0.00038826044570651756,
	"loss": 4.399786949157715,
	"step": 658
	},
	{
	"epoch": 0.4863468634686347,
	"grad_norm": 0.9437850117683411,
	"learning_rate": 0.00038742281236395703,
	"loss": 4.361236572265625,
	"step": 659
	},
	{
	"epoch": 0.4870848708487085,
	"grad_norm": 0.9068073034286499,
	"learning_rate": 0.00038658496214367873,
	"loss": 4.441727638244629,
	"step": 660
	},
	{
	"epoch": 0.4878228782287823,
	"grad_norm": 0.9844712615013123,
	"learning_rate": 0.00038574689990130513,
	"loss": 4.4561309814453125,
	"step": 661
	},
	{
	"epoch": 0.4885608856088561,
	"grad_norm": 0.8944956064224243,
	"learning_rate": 0.00038490863049368704,
	"loss": 4.5960493087768555,
	"step": 662
	},
	{
	"epoch": 0.48929889298892987,
	"grad_norm": 0.8984336853027344,
	"learning_rate": 0.0003840701587788765,
	"loss": 4.440349578857422,
	"step": 663
	},
	{
	"epoch": 0.4900369003690037,
	"grad_norm": 1.0019009113311768,
	"learning_rate": 0.0003832314896160973,
	"loss": 4.5855865478515625,
	"step": 664
	},
	{
	"epoch": 0.4907749077490775,
	"grad_norm": 0.949760913848877,
	"learning_rate": 0.00038239262786571787,
	"loss": 4.4265828132629395,
	"step": 665
	},
	{
	"epoch": 0.4915129151291513,
	"grad_norm": 1.0857264995574951,
	"learning_rate": 0.0003815535783892229,
	"loss": 4.488886833190918,
	"step": 666
	},
	{
	"epoch": 0.4922509225092251,
	"grad_norm": 1.0607296228408813,
	"learning_rate": 0.00038071434604918463,
	"loss": 4.221587657928467,
	"step": 667
	},
	{
	"epoch": 0.4929889298892989,
	"grad_norm": 1.056148648262024,
	"learning_rate": 0.0003798749357092352,
	"loss": 4.554340362548828,
	"step": 668
	},
	{
	"epoch": 0.49372693726937267,
	"grad_norm": 0.8420839309692383,
	"learning_rate": 0.00037903535223403855,
	"loss": 4.401950359344482,
	"step": 669
	},
	{
	"epoch": 0.4944649446494465,
	"grad_norm": 0.8287214040756226,
	"learning_rate": 0.00037819560048926173,
	"loss": 4.45570182800293,
	"step": 670
	},
	{
	"epoch": 0.4952029520295203,
	"grad_norm": 1.0356512069702148,
	"learning_rate": 0.000377355685341547,
	"loss": 4.568255424499512,
	"step": 671
	},
	{
	"epoch": 0.4959409594095941,
	"grad_norm": 0.9578806161880493,
	"learning_rate": 0.0003765156116584837,
	"loss": 4.606746673583984,
	"step": 672
	},
	{
	"epoch": 0.4966789667896679,
	"grad_norm": 0.8309308886528015,
	"learning_rate": 0.00037567538430857976,
	"loss": 4.480656147003174,
	"step": 673
	},
	{
	"epoch": 0.4974169741697417,
	"grad_norm": 0.9627919793128967,
	"learning_rate": 0.0003748350081612339,
	"loss": 4.540738105773926,
	"step": 674
	},
	{
	"epoch": 0.4981549815498155,
	"grad_norm": 0.7901818752288818,
	"learning_rate": 0.00037399448808670706,
	"loss": 4.378629684448242,
	"step": 675
	},
	{
	"epoch": 0.4988929889298893,
	"grad_norm": 1.1135075092315674,
	"learning_rate": 0.0003731538289560941,
	"loss": 4.591548442840576,
	"step": 676
	},
	{
	"epoch": 0.4996309963099631,
	"grad_norm": 0.8672391772270203,
	"learning_rate": 0.0003723130356412962,
	"loss": 4.584698677062988,
	"step": 677
	},
	{
	"epoch": 0.5003690036900369,
	"grad_norm": 0.879558265209198,
	"learning_rate": 0.00037147211301499176,
	"loss": 4.36656379699707,
	"step": 678
	},
	{
	"epoch": 0.5011070110701107,
	"grad_norm": 0.8770106434822083,
	"learning_rate": 0.0003706310659506087,
	"loss": 4.566497802734375,
	"step": 679
	},
	{
	"epoch": 0.5018450184501845,
	"grad_norm": 0.8778314590454102,
	"learning_rate": 0.0003697898993222961,
	"loss": 4.343081474304199,
	"step": 680
	},
	{
	"epoch": 0.5025830258302583,
	"grad_norm": 0.9130513668060303,
	"learning_rate": 0.00036894861800489614,
	"loss": 4.3984694480896,
	"step": 681
	},
	{
	"epoch": 0.5033210332103321,
	"grad_norm": 0.8704879879951477,
	"learning_rate": 0.00036810722687391544,
	"loss": 4.561816215515137,
	"step": 682
	},
	{
	"epoch": 0.5040590405904058,
	"grad_norm": 1.010489821434021,
	"learning_rate": 0.00036726573080549704,
	"loss": 4.25577449798584,
	"step": 683
	},
	{
	"epoch": 0.5047970479704798,
	"grad_norm": 0.9569144248962402,
	"learning_rate": 0.0003664241346763924,
	"loss": 4.4627227783203125,
	"step": 684
	},
	{
	"epoch": 0.5055350553505535,
	"grad_norm": 0.8847797513008118,
	"learning_rate": 0.00036558244336393236,
	"loss": 4.437929153442383,
	"step": 685
	},
	{
	"epoch": 0.5062730627306273,
	"grad_norm": 0.8487216830253601,
	"learning_rate": 0.00036474066174599986,
	"loss": 4.435924053192139,
	"step": 686
	},
	{
	"epoch": 0.5070110701107011,
	"grad_norm": 0.8881345391273499,
	"learning_rate": 0.00036389879470100095,
	"loss": 4.873279094696045,
	"step": 687
	},
	{
	"epoch": 0.5077490774907749,
	"grad_norm": 0.8549903035163879,
	"learning_rate": 0.00036305684710783684,
	"loss": 4.272536754608154,
	"step": 688
	},
	{
	"epoch": 0.5084870848708487,
	"grad_norm": 0.906299889087677,
	"learning_rate": 0.0003622148238458754,
	"loss": 4.555997848510742,
	"step": 689
	},
	{
	"epoch": 0.5092250922509225,
	"grad_norm": 0.922178328037262,
	"learning_rate": 0.0003613727297949232,
	"loss": 4.573604583740234,
	"step": 690
	},
	{
	"epoch": 0.5099630996309963,
	"grad_norm": 0.8890010118484497,
	"learning_rate": 0.00036053056983519706,
	"loss": 4.512640953063965,
	"step": 691
	},
	{
	"epoch": 0.5107011070110701,
	"grad_norm": 0.8093462586402893,
	"learning_rate": 0.00035968834884729555,
	"loss": 4.304255485534668,
	"step": 692
	},
	{
	"epoch": 0.5114391143911439,
	"grad_norm": 0.9470013380050659,
	"learning_rate": 0.00035884607171217126,
	"loss": 4.261716365814209,
	"step": 693
	},
	{
	"epoch": 0.5121771217712177,
	"grad_norm": 1.0242949724197388,
	"learning_rate": 0.0003580037433111018,
	"loss": 4.365228652954102,
	"step": 694
	},
	{
	"epoch": 0.5129151291512916,
	"grad_norm": 0.8128859996795654,
	"learning_rate": 0.0003571613685256623,
	"loss": 4.409188270568848,
	"step": 695
	},
	{
	"epoch": 0.5136531365313654,
	"grad_norm": 0.9906793236732483,
	"learning_rate": 0.00035631895223769614,
	"loss": 4.144466876983643,
	"step": 696
	},
	{
	"epoch": 0.5143911439114391,
	"grad_norm": 0.8540819883346558,
	"learning_rate": 0.0003554764993292878,
	"loss": 4.1609907150268555,
	"step": 697
	},
	{
	"epoch": 0.5151291512915129,
	"grad_norm": 0.8967404365539551,
	"learning_rate": 0.00035463401468273365,
	"loss": 4.335708141326904,
	"step": 698
	},
	{
	"epoch": 0.5158671586715867,
	"grad_norm": 0.9019063115119934,
	"learning_rate": 0.00035379150318051397,
	"loss": 4.435550689697266,
	"step": 699
	},
	{
	"epoch": 0.5166051660516605,
	"grad_norm": 0.8940041065216064,
	"learning_rate": 0.00035294896970526504,
	"loss": 4.551334381103516,
	"step": 700
	},
	{
	"epoch": 0.5173431734317343,
	"grad_norm": 0.9932311773300171,
	"learning_rate": 0.0003521064191397499,
	"loss": 4.3837890625,
	"step": 701
	},
	{
	"epoch": 0.5180811808118081,
	"grad_norm": 0.8308423757553101,
	"learning_rate": 0.0003512638563668313,
	"loss": 4.352203845977783,
	"step": 702
	},
	{
	"epoch": 0.5188191881918819,
	"grad_norm": 1.0316524505615234,
	"learning_rate": 0.00035042128626944203,
	"loss": 4.69419527053833,
	"step": 703
	},
	{
	"epoch": 0.5195571955719557,
	"grad_norm": 0.845513105392456,
	"learning_rate": 0.00034957871373055796,
	"loss": 4.403134346008301,
	"step": 704
	},
	{
	"epoch": 0.5202952029520295,
	"grad_norm": 1.1955550909042358,
	"learning_rate": 0.0003487361436331689,
	"loss": 4.507143974304199,
	"step": 705
	},
	{
	"epoch": 0.5210332103321034,
	"grad_norm": 0.9265637993812561,
	"learning_rate": 0.0003478935808602501,
	"loss": 4.529629707336426,
	"step": 706
	},
	{
	"epoch": 0.5217712177121772,
	"grad_norm": 0.7645063400268555,
	"learning_rate": 0.0003470510302947351,
	"loss": 4.37443733215332,
	"step": 707
	},
	{
	"epoch": 0.522509225092251,
	"grad_norm": 0.8971974849700928,
	"learning_rate": 0.0003462084968194861,
	"loss": 4.33015251159668,
	"step": 708
	},
	{
	"epoch": 0.5232472324723247,
	"grad_norm": 0.813549816608429,
	"learning_rate": 0.00034536598531726646,
	"loss": 4.5936079025268555,
	"step": 709
	},
	{
	"epoch": 0.5239852398523985,
	"grad_norm": 0.953991711139679,
	"learning_rate": 0.0003445235006707122,
	"loss": 4.403616905212402,
	"step": 710
	},
	{
	"epoch": 0.5247232472324723,
	"grad_norm": 0.8936543464660645,
	"learning_rate": 0.0003436810477623038,
	"loss": 4.279123306274414,
	"step": 711
	},
	{
	"epoch": 0.5254612546125461,
	"grad_norm": 0.9178246855735779,
	"learning_rate": 0.00034283863147433776,
	"loss": 4.134098052978516,
	"step": 712
	},
	{
	"epoch": 0.5261992619926199,
	"grad_norm": 0.9482448101043701,
	"learning_rate": 0.0003419962566888981,
	"loss": 4.32552433013916,
	"step": 713
	},
	{
	"epoch": 0.5269372693726937,
	"grad_norm": 0.787865161895752,
	"learning_rate": 0.0003411539282878288,
	"loss": 4.394043922424316,
	"step": 714
	},
	{
	"epoch": 0.5276752767527675,
	"grad_norm": 0.9969366788864136,
	"learning_rate": 0.00034031165115270444,
	"loss": 4.486443996429443,
	"step": 715
	},
	{
	"epoch": 0.5284132841328413,
	"grad_norm": 0.8682870268821716,
	"learning_rate": 0.00033946943016480304,
	"loss": 4.508628845214844,
	"step": 716
	},
	{
	"epoch": 0.5291512915129152,
	"grad_norm": 0.9052722454071045,
	"learning_rate": 0.0003386272702050769,
	"loss": 4.4580583572387695,
	"step": 717
	},
	{
	"epoch": 0.529889298892989,
	"grad_norm": 0.909764289855957,
	"learning_rate": 0.00033778517615412477,
	"loss": 4.225852012634277,
	"step": 718
	},
	{
	"epoch": 0.5306273062730628,
	"grad_norm": 0.8234180808067322,
	"learning_rate": 0.0003369431528921632,
	"loss": 4.583276748657227,
	"step": 719
	},
	{
	"epoch": 0.5313653136531366,
	"grad_norm": 0.8727805614471436,
	"learning_rate": 0.0003361012052989992,
	"loss": 4.535766124725342,
	"step": 720
	},
	{
	"epoch": 0.5321033210332103,
	"grad_norm": 1.0564109086990356,
	"learning_rate": 0.00033525933825400014,
	"loss": 4.4810943603515625,
	"step": 721
	},
	{
	"epoch": 0.5328413284132841,
	"grad_norm": 0.9636712074279785,
	"learning_rate": 0.0003344175566360676,
	"loss": 4.364070415496826,
	"step": 722
	},
	{
	"epoch": 0.5335793357933579,
	"grad_norm": 0.9482673406600952,
	"learning_rate": 0.00033357586532360765,
	"loss": 4.78449821472168,
	"step": 723
	},
	{
	"epoch": 0.5343173431734317,
	"grad_norm": 0.7933990955352783,
	"learning_rate": 0.00033273426919450285,
	"loss": 4.399996280670166,
	"step": 724
	},
	{
	"epoch": 0.5350553505535055,
	"grad_norm": 0.8797454237937927,
	"learning_rate": 0.0003318927731260846,
	"loss": 4.585580825805664,
	"step": 725
	},
	{
	"epoch": 0.5357933579335793,
	"grad_norm": 0.8431602716445923,
	"learning_rate": 0.00033105138199510386,
	"loss": 4.289941787719727,
	"step": 726
	},
	{
	"epoch": 0.5365313653136531,
	"grad_norm": 0.8969424962997437,
	"learning_rate": 0.00033021010067770396,
	"loss": 4.353963375091553,
	"step": 727
	},
	{
	"epoch": 0.537269372693727,
	"grad_norm": 0.7266989350318909,
	"learning_rate": 0.00032936893404939135,
	"loss": 4.287866592407227,
	"step": 728
	},
	{
	"epoch": 0.5380073800738008,
	"grad_norm": 0.9192749261856079,
	"learning_rate": 0.0003285278869850084,
	"loss": 4.431896209716797,
	"step": 729
	},
	{
	"epoch": 0.5387453874538746,
	"grad_norm": 0.9108367562294006,
	"learning_rate": 0.0003276869643587038,
	"loss": 4.330748558044434,
	"step": 730
	},
	{
	"epoch": 0.5394833948339484,
	"grad_norm": 0.789059579372406,
	"learning_rate": 0.000326846171043906,
	"loss": 4.409814834594727,
	"step": 731
	},
	{
	"epoch": 0.5402214022140222,
	"grad_norm": 0.931719183921814,
	"learning_rate": 0.000326005511913293,
	"loss": 4.5224928855896,
	"step": 732
	},
	{
	"epoch": 0.5409594095940959,
	"grad_norm": 0.9140210747718811,
	"learning_rate": 0.00032516499183876614,
	"loss": 4.469390869140625,
	"step": 733
	},
	{
	"epoch": 0.5416974169741697,
	"grad_norm": 0.7886836528778076,
	"learning_rate": 0.0003243246156914203,
	"loss": 4.169953346252441,
	"step": 734
	},
	{
	"epoch": 0.5424354243542435,
	"grad_norm": 0.9898924827575684,
	"learning_rate": 0.00032348438834151636,
	"loss": 4.523615837097168,
	"step": 735
	},
	{
	"epoch": 0.5431734317343173,
	"grad_norm": 0.9171273112297058,
	"learning_rate": 0.00032264431465845307,
	"loss": 4.362099647521973,
	"step": 736
	},
	{
	"epoch": 0.5439114391143911,
	"grad_norm": 0.8603449463844299,
	"learning_rate": 0.0003218043995107383,
	"loss": 4.252144813537598,
	"step": 737
	},
	{
	"epoch": 0.5446494464944649,
	"grad_norm": 0.9839322566986084,
	"learning_rate": 0.0003209646477659615,
	"loss": 4.401839256286621,
	"step": 738
	},
	{
	"epoch": 0.5453874538745388,
	"grad_norm": 1.1770368814468384,
	"learning_rate": 0.00032012506429076476,
	"loss": 4.247356414794922,
	"step": 739
	},
	{
	"epoch": 0.5461254612546126,
	"grad_norm": 0.8217732310295105,
	"learning_rate": 0.0003192856539508155,
	"loss": 4.566009521484375,
	"step": 740
	},
	{
	"epoch": 0.5468634686346864,
	"grad_norm": 1.1834269762039185,
	"learning_rate": 0.00031844642161077717,
	"loss": 4.510600566864014,
	"step": 741
	},
	{
	"epoch": 0.5476014760147602,
	"grad_norm": 0.9773359298706055,
	"learning_rate": 0.0003176073721342822,
	"loss": 4.310590744018555,
	"step": 742
	},
	{
	"epoch": 0.548339483394834,
	"grad_norm": 0.9322510957717896,
	"learning_rate": 0.00031676851038390277,
	"loss": 4.397828102111816,
	"step": 743
	},
	{
	"epoch": 0.5490774907749078,
	"grad_norm": 0.9611193537712097,
	"learning_rate": 0.00031592984122112363,
	"loss": 4.509471893310547,
	"step": 744
	},
	{
	"epoch": 0.5498154981549815,
	"grad_norm": 0.8511263132095337,
	"learning_rate": 0.00031509136950631295,
	"loss": 4.605403900146484,
	"step": 745
	},
	{
	"epoch": 0.5505535055350553,
	"grad_norm": 1.1331124305725098,
	"learning_rate": 0.00031425310009869497,
	"loss": 4.705798625946045,
	"step": 746
	},
	{
	"epoch": 0.5512915129151291,
	"grad_norm": 0.9317970871925354,
	"learning_rate": 0.0003134150378563213,
	"loss": 4.538765907287598,
	"step": 747
	},
	{
	"epoch": 0.5520295202952029,
	"grad_norm": 0.7060513496398926,
	"learning_rate": 0.00031257718763604296,
	"loss": 4.484154224395752,
	"step": 748
	},
	{
	"epoch": 0.5527675276752767,
	"grad_norm": 0.9105408191680908,
	"learning_rate": 0.00031173955429348254,
	"loss": 4.227485656738281,
	"step": 749
	},
	{
	"epoch": 0.5535055350553506,
	"grad_norm": 0.8890596628189087,
	"learning_rate": 0.000310902142683005,
	"loss": 4.158082008361816,
	"step": 750
	},
	{
	"epoch": 0.5542435424354244,
	"grad_norm": 1.074188470840454,
	"learning_rate": 0.00031006495765769135,
	"loss": 4.741909980773926,
	"step": 751
	},
	{
	"epoch": 0.5549815498154982,
	"grad_norm": 1.0221657752990723,
	"learning_rate": 0.0003092280040693085,
	"loss": 4.476526260375977,
	"step": 752
	},
	{
	"epoch": 0.555719557195572,
	"grad_norm": 0.9633339643478394,
	"learning_rate": 0.00030839128676828277,
	"loss": 4.336530685424805,
	"step": 753
	},
	{
	"epoch": 0.5564575645756458,
	"grad_norm": 1.0310927629470825,
	"learning_rate": 0.0003075548106036706,
	"loss": 4.326992988586426,
	"step": 754
	},
	{
	"epoch": 0.5571955719557196,
	"grad_norm": 0.8011588454246521,
	"learning_rate": 0.0003067185804231314,
	"loss": 4.4770827293396,
	"step": 755
	},
	{
	"epoch": 0.5579335793357934,
	"grad_norm": 0.921048641204834,
	"learning_rate": 0.00030588260107289875,
	"loss": 4.608548164367676,
	"step": 756
	},
	{
	"epoch": 0.5586715867158671,
	"grad_norm": 0.9670724272727966,
	"learning_rate": 0.0003050468773977527,
	"loss": 4.357841491699219,
	"step": 757
	},
	{
	"epoch": 0.5594095940959409,
	"grad_norm": 1.0081647634506226,
	"learning_rate": 0.00030421141424099153,
	"loss": 4.160003662109375,
	"step": 758
	},
	{
	"epoch": 0.5601476014760147,
	"grad_norm": 0.8587222695350647,
	"learning_rate": 0.0003033762164444036,
	"loss": 4.5625104904174805,
	"step": 759
	},
	{
	"epoch": 0.5608856088560885,
	"grad_norm": 0.9064732789993286,
	"learning_rate": 0.00030254128884823995,
	"loss": 4.558137893676758,
	"step": 760
	},
	{
	"epoch": 0.5616236162361624,
	"grad_norm": 0.9167226552963257,
	"learning_rate": 0.00030170663629118484,
	"loss": 4.650042533874512,
	"step": 761
	},
	{
	"epoch": 0.5623616236162362,
	"grad_norm": 0.9208563566207886,
	"learning_rate": 0.0003008722636103295,
	"loss": 4.311919212341309,
	"step": 762
	},
	{
	"epoch": 0.56309963099631,
	"grad_norm": 0.8243905305862427,
	"learning_rate": 0.0003000381756411425,
	"loss": 4.592479705810547,
	"step": 763
	},
	{
	"epoch": 0.5638376383763838,
	"grad_norm": 0.88048255443573,
	"learning_rate": 0.00029920437721744285,
	"loss": 4.383855819702148,
	"step": 764
	},
	{
	"epoch": 0.5645756457564576,
	"grad_norm": 0.8309145569801331,
	"learning_rate": 0.0002983708731713712,
	"loss": 4.523615837097168,
	"step": 765
	},
	{
	"epoch": 0.5653136531365314,
	"grad_norm": 0.9054703116416931,
	"learning_rate": 0.0002975376683333625,
	"loss": 4.120911121368408,
	"step": 766
	},
	{
	"epoch": 0.5660516605166052,
	"grad_norm": 0.8789876103401184,
	"learning_rate": 0.0002967047675321174,
	"loss": 4.314697265625,
	"step": 767
	},
	{
	"epoch": 0.566789667896679,
	"grad_norm": 1.055936336517334,
	"learning_rate": 0.0002958721755945748,
	"loss": 4.497006416320801,
	"step": 768
	},
	{
	"epoch": 0.5675276752767527,
	"grad_norm": 1.1139589548110962,
	"learning_rate": 0.00029503989734588345,
	"loss": 4.493967056274414,
	"step": 769
	},
	{
	"epoch": 0.5682656826568265,
	"grad_norm": 0.8091505169868469,
	"learning_rate": 0.0002942079376093742,
	"loss": 4.10081672668457,
	"step": 770
	},
	{
	"epoch": 0.5690036900369003,
	"grad_norm": 0.8381765484809875,
	"learning_rate": 0.00029337630120653235,
	"loss": 4.278990745544434,
	"step": 771
	},
	{
	"epoch": 0.5697416974169742,
	"grad_norm": 0.8964424729347229,
	"learning_rate": 0.00029254499295696876,
	"loss": 4.365828514099121,
	"step": 772
	},
	{
	"epoch": 0.570479704797048,
	"grad_norm": 0.8812311887741089,
	"learning_rate": 0.0002917140176783931,
	"loss": 4.407172679901123,
	"step": 773
	},
	{
	"epoch": 0.5712177121771218,
	"grad_norm": 0.9463404417037964,
	"learning_rate": 0.0002908833801865849,
	"loss": 4.176614761352539,
	"step": 774
	},
	{
	"epoch": 0.5719557195571956,
	"grad_norm": 0.9128312468528748,
	"learning_rate": 0.0002900530852953665,
	"loss": 4.4936604499816895,
	"step": 775
	},
	{
	"epoch": 0.5726937269372694,
	"grad_norm": 0.9788138270378113,
	"learning_rate": 0.0002892231378165744,
	"loss": 4.425959587097168,
	"step": 776
	},
	{
	"epoch": 0.5734317343173432,
	"grad_norm": 0.8016911149024963,
	"learning_rate": 0.0002883935425600321,
	"loss": 4.351809024810791,
	"step": 777
	},
	{
	"epoch": 0.574169741697417,
	"grad_norm": 0.8947065472602844,
	"learning_rate": 0.00028756430433352146,
	"loss": 4.333946228027344,
	"step": 778
	},
	{
	"epoch": 0.5749077490774908,
	"grad_norm": 0.8357275724411011,
	"learning_rate": 0.0002867354279427556,
	"loss": 4.609579086303711,
	"step": 779
	},
	{
	"epoch": 0.5756457564575646,
	"grad_norm": 0.9476321339607239,
	"learning_rate": 0.0002859069181913503,
	"loss": 4.475932598114014,
	"step": 780
	},
	{
	"epoch": 0.5763837638376383,
	"grad_norm": 0.9456009268760681,
	"learning_rate": 0.00028507877988079717,
	"loss": 4.241294860839844,
	"step": 781
	},
	{
	"epoch": 0.5771217712177121,
	"grad_norm": 0.7762236595153809,
	"learning_rate": 0.0002842510178104343,
	"loss": 4.2514777183532715,
	"step": 782
	},
	{
	"epoch": 0.5778597785977859,
	"grad_norm": 0.8480483889579773,
	"learning_rate": 0.00028342363677742,
	"loss": 4.5362043380737305,
	"step": 783
	},
	{
	"epoch": 0.5785977859778598,
	"grad_norm": 0.8248271942138672,
	"learning_rate": 0.00028259664157670434,
	"loss": 4.289585113525391,
	"step": 784
	},
	{
	"epoch": 0.5793357933579336,
	"grad_norm": 0.9554965496063232,
	"learning_rate": 0.00028177003700100093,
	"loss": 4.234594345092773,
	"step": 785
	},
	{
	"epoch": 0.5800738007380074,
	"grad_norm": 1.0218883752822876,
	"learning_rate": 0.00028094382784076005,
	"loss": 4.032539367675781,
	"step": 786
	},
	{
	"epoch": 0.5808118081180812,
	"grad_norm": 0.9201107621192932,
	"learning_rate": 0.00028011801888413996,
	"loss": 4.4474711418151855,
	"step": 787
	},
	{
	"epoch": 0.581549815498155,
	"grad_norm": 0.9545875191688538,
	"learning_rate": 0.00027929261491698,
	"loss": 4.290918350219727,
	"step": 788
	},
	{
	"epoch": 0.5822878228782288,
	"grad_norm": 0.9154767394065857,
	"learning_rate": 0.00027846762072277235,
	"loss": 4.266115188598633,
	"step": 789
	},
	{
	"epoch": 0.5830258302583026,
	"grad_norm": 0.9572087526321411,
	"learning_rate": 0.00027764304108263425,
	"loss": 4.489130973815918,
	"step": 790
	},
	{
	"epoch": 0.5837638376383764,
	"grad_norm": 0.864920973777771,
	"learning_rate": 0.0002768188807752806,
	"loss": 4.22702693939209,
	"step": 791
	},
	{
	"epoch": 0.5845018450184502,
	"grad_norm": 0.9186403751373291,
	"learning_rate": 0.0002759951445769962,
	"loss": 4.370454788208008,
	"step": 792
	},
	{
	"epoch": 0.5852398523985239,
	"grad_norm": 0.9486933350563049,
	"learning_rate": 0.00027517183726160775,
	"loss": 4.345991611480713,
	"step": 793
	},
	{
	"epoch": 0.5859778597785977,
	"grad_norm": 0.9103389382362366,
	"learning_rate": 0.0002743489636004567,
	"loss": 4.232224941253662,
	"step": 794
	},
	{
	"epoch": 0.5867158671586716,
	"grad_norm": 0.9209710359573364,
	"learning_rate": 0.0002735265283623713,
	"loss": 3.9969122409820557,
	"step": 795
	},
	{
	"epoch": 0.5874538745387454,
	"grad_norm": 1.2172404527664185,
	"learning_rate": 0.00027270453631363876,
	"loss": 4.3851318359375,
	"step": 796
	},
	{
	"epoch": 0.5881918819188192,
	"grad_norm": 1.0857105255126953,
	"learning_rate": 0.00027188299221797806,
	"loss": 4.543056488037109,
	"step": 797
	},
	{
	"epoch": 0.588929889298893,
	"grad_norm": 0.8917638659477234,
	"learning_rate": 0.00027106190083651206,
	"loss": 4.233307838439941,
	"step": 798
	},
	{
	"epoch": 0.5896678966789668,
	"grad_norm": 0.9834994077682495,
	"learning_rate": 0.0002702412669277401,
	"loss": 4.3369035720825195,
	"step": 799
	},
	{
	"epoch": 0.5904059040590406,
	"grad_norm": 0.9920309782028198,
	"learning_rate": 0.00026942109524751,
	"loss": 4.263988971710205,
	"step": 800
	},
	{
	"epoch": 0.5911439114391144,
	"grad_norm": 0.7995727062225342,
	"learning_rate": 0.00026860139054899146,
	"loss": 4.237081050872803,
	"step": 801
	},
	{
	"epoch": 0.5918819188191882,
	"grad_norm": 0.8966661095619202,
	"learning_rate": 0.00026778215758264696,
	"loss": 4.278907299041748,
	"step": 802
	},
	{
	"epoch": 0.592619926199262,
	"grad_norm": 0.8927947282791138,
	"learning_rate": 0.000266963401096206,
	"loss": 4.3486151695251465,
	"step": 803
	},
	{
	"epoch": 0.5933579335793358,
	"grad_norm": 0.7980582118034363,
	"learning_rate": 0.0002661451258346361,
	"loss": 4.231438636779785,
	"step": 804
	},
	{
	"epoch": 0.5940959409594095,
	"grad_norm": 0.8703809380531311,
	"learning_rate": 0.00026532733654011635,
	"loss": 4.2430419921875,
	"step": 805
	},
	{
	"epoch": 0.5948339483394834,
	"grad_norm": 1.0357931852340698,
	"learning_rate": 0.00026451003795200913,
	"loss": 4.256633281707764,
	"step": 806
	},
	{
	"epoch": 0.5955719557195572,
	"grad_norm": 0.8626582026481628,
	"learning_rate": 0.00026369323480683333,
	"loss": 4.278927326202393,
	"step": 807
	},
	{
	"epoch": 0.596309963099631,
	"grad_norm": 0.8148908615112305,
	"learning_rate": 0.0002628769318382364,
	"loss": 4.354986190795898,
	"step": 808
	},
	{
	"epoch": 0.5970479704797048,
	"grad_norm": 0.7945446372032166,
	"learning_rate": 0.000262061133776967,
	"loss": 4.433017730712891,
	"step": 809
	},
	{
	"epoch": 0.5977859778597786,
	"grad_norm": 0.8125186562538147,
	"learning_rate": 0.00026124584535084825,
	"loss": 4.323663711547852,
	"step": 810
	},
	{
	"epoch": 0.5985239852398524,
	"grad_norm": 0.8656073808670044,
	"learning_rate": 0.00026043107128474876,
	"loss": 4.364239692687988,
	"step": 811
	},
	{
	"epoch": 0.5992619926199262,
	"grad_norm": 0.7823298573493958,
	"learning_rate": 0.00025961681630055737,
	"loss": 4.095296382904053,
	"step": 812
	},
	{
	"epoch": 0.6,
	"grad_norm": 0.8082625865936279,
	"learning_rate": 0.00025880308511715366,
	"loss": 4.251285552978516,
	"step": 813
	},
	{
	"epoch": 0.6007380073800738,
	"grad_norm": 0.8128904104232788,
	"learning_rate": 0.00025798988245038243,
	"loss": 4.234792709350586,
	"step": 814
	},
	{
	"epoch": 0.6014760147601476,
	"grad_norm": 0.9591745138168335,
	"learning_rate": 0.00025717721301302495,
	"loss": 4.191695213317871,
	"step": 815
	},
	{
	"epoch": 0.6022140221402214,
	"grad_norm": 0.8306787014007568,
	"learning_rate": 0.0002563650815147728,
	"loss": 4.182519912719727,
	"step": 816
	},
	{
	"epoch": 0.6029520295202953,
	"grad_norm": 1.0368632078170776,
	"learning_rate": 0.0002555534926621994,
	"loss": 4.357141971588135,
	"step": 817
	},
	{
	"epoch": 0.603690036900369,
	"grad_norm": 0.9401784539222717,
	"learning_rate": 0.00025474245115873377,
	"loss": 4.2874016761779785,
	"step": 818
	},
	{
	"epoch": 0.6044280442804428,
	"grad_norm": 0.9086504578590393,
	"learning_rate": 0.00025393196170463286,
	"loss": 4.135937690734863,
	"step": 819
	},
	{
	"epoch": 0.6051660516605166,
	"grad_norm": 0.8185088634490967,
	"learning_rate": 0.00025312202899695403,
	"loss": 4.31793212890625,
	"step": 820
	},
	{
	"epoch": 0.6059040590405904,
	"grad_norm": 0.8340873718261719,
	"learning_rate": 0.00025231265772952864,
	"loss": 4.332757949829102,
	"step": 821
	},
	{
	"epoch": 0.6066420664206642,
	"grad_norm": 0.9770723581314087,
	"learning_rate": 0.00025150385259293346,
	"loss": 4.115085124969482,
	"step": 822
	},
	{
	"epoch": 0.607380073800738,
	"grad_norm": 1.0393363237380981,
	"learning_rate": 0.0002506956182744653,
	"loss": 4.164813995361328,
	"step": 823
	},
	{
	"epoch": 0.6081180811808118,
	"grad_norm": 0.9465534090995789,
	"learning_rate": 0.00024988795945811215,
	"loss": 4.53727912902832,
	"step": 824
	},
	{
	"epoch": 0.6088560885608856,
	"grad_norm": 0.8929158449172974,
	"learning_rate": 0.00024908088082452724,
	"loss": 4.265376091003418,
	"step": 825
	},
	{
	"epoch": 0.6095940959409594,
	"grad_norm": 0.7848824262619019,
	"learning_rate": 0.00024827438705100116,
	"loss": 4.300992965698242,
	"step": 826
	},
	{
	"epoch": 0.6103321033210332,
	"grad_norm": 0.7737518548965454,
	"learning_rate": 0.00024746848281143524,
	"loss": 4.297072410583496,
	"step": 827
	},
	{
	"epoch": 0.6110701107011071,
	"grad_norm": 1.0166592597961426,
	"learning_rate": 0.00024666317277631403,
	"loss": 4.4208478927612305,
	"step": 828
	},
	{
	"epoch": 0.6118081180811809,
	"grad_norm": 0.8515886664390564,
	"learning_rate": 0.00024585846161267875,
	"loss": 4.542513847351074,
	"step": 829
	},
	{
	"epoch": 0.6125461254612546,
	"grad_norm": 0.8427137732505798,
	"learning_rate": 0.00024505435398409966,
	"loss": 4.270936965942383,
	"step": 830
	},
	{
	"epoch": 0.6132841328413284,
	"grad_norm": 0.811477541923523,
	"learning_rate": 0.0002442508545506495,
	"loss": 4.223374366760254,
	"step": 831
	},
	{
	"epoch": 0.6140221402214022,
	"grad_norm": 0.9186045527458191,
	"learning_rate": 0.00024344796796887656,
	"loss": 4.369760036468506,
	"step": 832
	},
	{
	"epoch": 0.614760147601476,
	"grad_norm": 0.809533417224884,
	"learning_rate": 0.0002426456988917769,
	"loss": 4.350223541259766,
	"step": 833
	},
	{
	"epoch": 0.6154981549815498,
	"grad_norm": 0.8991212248802185,
	"learning_rate": 0.00024184405196876844,
	"loss": 4.136372089385986,
	"step": 834
	},
	{
	"epoch": 0.6162361623616236,
	"grad_norm": 0.8988363742828369,
	"learning_rate": 0.00024104303184566307,
	"loss": 4.202424049377441,
	"step": 835
	},
	{
	"epoch": 0.6169741697416974,
	"grad_norm": 1.3087947368621826,
	"learning_rate": 0.00024024264316464065,
	"loss": 4.428619384765625,
	"step": 836
	},
	{
	"epoch": 0.6177121771217712,
	"grad_norm": 0.7776771783828735,
	"learning_rate": 0.0002394428905642211,
	"loss": 4.351472854614258,
	"step": 837
	},
	{
	"epoch": 0.618450184501845,
	"grad_norm": 0.996083676815033,
	"learning_rate": 0.00023864377867923852,
	"loss": 3.9067325592041016,
	"step": 838
	},
	{
	"epoch": 0.6191881918819189,
	"grad_norm": 0.8904930949211121,
	"learning_rate": 0.00023784531214081348,
	"loss": 4.205554008483887,
	"step": 839
	},
	{
	"epoch": 0.6199261992619927,
	"grad_norm": 0.9460301399230957,
	"learning_rate": 0.00023704749557632688,
	"loss": 4.3381452560424805,
	"step": 840
	},
	{
	"epoch": 0.6206642066420665,
	"grad_norm": 0.8847654461860657,
	"learning_rate": 0.00023625033360939239,
	"loss": 4.210631370544434,
	"step": 841
	},
	{
	"epoch": 0.6214022140221402,
	"grad_norm": 0.9049587249755859,
	"learning_rate": 0.00023545383085983034,
	"loss": 4.128975868225098,
	"step": 842
	},
	{
	"epoch": 0.622140221402214,
	"grad_norm": 0.881879985332489,
	"learning_rate": 0.00023465799194364087,
	"loss": 4.109155654907227,
	"step": 843
	},
	{
	"epoch": 0.6228782287822878,
	"grad_norm": 0.9331649541854858,
	"learning_rate": 0.00023386282147297657,
	"loss": 4.180877685546875,
	"step": 844
	},
	{
	"epoch": 0.6236162361623616,
	"grad_norm": 1.0155686140060425,
	"learning_rate": 0.00023306832405611643,
	"loss": 4.2506818771362305,
	"step": 845
	},
	{
	"epoch": 0.6243542435424354,
	"grad_norm": 0.9788922667503357,
	"learning_rate": 0.00023227450429743867,
	"loss": 4.536131858825684,
	"step": 846
	},
	{
	"epoch": 0.6250922509225092,
	"grad_norm": 1.0663362741470337,
	"learning_rate": 0.00023148136679739453,
	"loss": 4.059211730957031,
	"step": 847
	},
	{
	"epoch": 0.625830258302583,
	"grad_norm": 0.8880152702331543,
	"learning_rate": 0.00023068891615248102,
	"loss": 4.163819313049316,
	"step": 848
	},
	{
	"epoch": 0.6265682656826568,
	"grad_norm": 0.9166035056114197,
	"learning_rate": 0.0002298971569552149,
	"loss": 4.22659158706665,
	"step": 849
	},
	{
	"epoch": 0.6273062730627307,
	"grad_norm": 1.1947702169418335,
	"learning_rate": 0.00022910609379410546,
	"loss": 4.3044633865356445,
	"step": 850
	},
	{
	"epoch": 0.6280442804428045,
	"grad_norm": 1.251198410987854,
	"learning_rate": 0.0002283157312536284,
	"loss": 4.213165283203125,
	"step": 851
	},
	{
	"epoch": 0.6287822878228783,
	"grad_norm": 0.9441475868225098,
	"learning_rate": 0.00022752607391419904,
	"loss": 4.37963342666626,
	"step": 852
	},
	{
	"epoch": 0.629520295202952,
	"grad_norm": 0.8944138884544373,
	"learning_rate": 0.0002267371263521461,
	"loss": 4.479311943054199,
	"step": 853
	},
	{
	"epoch": 0.6302583025830258,
	"grad_norm": 0.9756674766540527,
	"learning_rate": 0.00022594889313968424,
	"loss": 4.323942184448242,
	"step": 854
	},
	{
	"epoch": 0.6309963099630996,
	"grad_norm": 0.9520359039306641,
	"learning_rate": 0.00022516137884488895,
	"loss": 4.259498596191406,
	"step": 855
	},
	{
	"epoch": 0.6317343173431734,
	"grad_norm": 0.8389827609062195,
	"learning_rate": 0.000224374588031669,
	"loss": 4.353797435760498,
	"step": 856
	},
	{
	"epoch": 0.6324723247232472,
	"grad_norm": 0.9523439407348633,
	"learning_rate": 0.0002235885252597402,
	"loss": 4.485894203186035,
	"step": 857
	},
	{
	"epoch": 0.633210332103321,
	"grad_norm": 0.8450521230697632,
	"learning_rate": 0.00022280319508459953,
	"loss": 4.3302717208862305,
	"step": 858
	},
	{
	"epoch": 0.6339483394833948,
	"grad_norm": 0.9799603819847107,
	"learning_rate": 0.00022201860205749792,
	"loss": 4.216465950012207,
	"step": 859
	},
	{
	"epoch": 0.6346863468634686,
	"grad_norm": 0.8215528726577759,
	"learning_rate": 0.00022123475072541456,
	"loss": 4.218143463134766,
	"step": 860
	},
	{
	"epoch": 0.6354243542435425,
	"grad_norm": 0.8392944931983948,
	"learning_rate": 0.00022045164563102993,
	"loss": 4.393090724945068,
	"step": 861
	},
	{
	"epoch": 0.6361623616236163,
	"grad_norm": 0.9801323413848877,
	"learning_rate": 0.00021966929131270053,
	"loss": 4.3347978591918945,
	"step": 862
	},
	{
	"epoch": 0.6369003690036901,
	"grad_norm": 1.0346145629882812,
	"learning_rate": 0.00021888769230443076,
	"loss": 4.304266452789307,
	"step": 863
	},
	{
	"epoch": 0.6376383763837639,
	"grad_norm": 0.8837590217590332,
	"learning_rate": 0.00021810685313584894,
	"loss": 4.318976879119873,
	"step": 864
	},
	{
	"epoch": 0.6383763837638377,
	"grad_norm": 0.9550504088401794,
	"learning_rate": 0.00021732677833217884,
	"loss": 4.0572285652160645,
	"step": 865
	},
	{
	"epoch": 0.6391143911439114,
	"grad_norm": 0.9023411273956299,
	"learning_rate": 0.00021654747241421515,
	"loss": 4.210879325866699,
	"step": 866
	},
	{
	"epoch": 0.6398523985239852,
	"grad_norm": 1.2458837032318115,
	"learning_rate": 0.00021576893989829648,
	"loss": 4.031771183013916,
	"step": 867
	},
	{
	"epoch": 0.640590405904059,
	"grad_norm": 0.931896448135376,
	"learning_rate": 0.00021499118529627893,
	"loss": 4.238314151763916,
	"step": 868
	},
	{
	"epoch": 0.6413284132841328,
	"grad_norm": 0.8535945415496826,
	"learning_rate": 0.00021421421311551095,
	"loss": 4.30747652053833,
	"step": 869
	},
	{
	"epoch": 0.6420664206642066,
	"grad_norm": 0.8937339186668396,
	"learning_rate": 0.0002134380278588059,
	"loss": 4.368441581726074,
	"step": 870
	},
	{
	"epoch": 0.6428044280442804,
	"grad_norm": 0.9691210985183716,
	"learning_rate": 0.00021266263402441746,
	"loss": 4.286958694458008,
	"step": 871
	},
	{
	"epoch": 0.6435424354243543,
	"grad_norm": 0.9562344551086426,
	"learning_rate": 0.00021188803610601187,
	"loss": 4.331124305725098,
	"step": 872
	},
	{
	"epoch": 0.6442804428044281,
	"grad_norm": 0.9085299372673035,
	"learning_rate": 0.00021111423859264362,
	"loss": 4.204074859619141,
	"step": 873
	},
	{
	"epoch": 0.6450184501845019,
	"grad_norm": 1.0217558145523071,
	"learning_rate": 0.00021034124596872776,
	"loss": 4.061552047729492,
	"step": 874
	},
	{
	"epoch": 0.6457564575645757,
	"grad_norm": 0.8775967359542847,
	"learning_rate": 0.00020956906271401554,
	"loss": 4.252497673034668,
	"step": 875
	},
	{
	"epoch": 0.6464944649446495,
	"grad_norm": 0.9603700637817383,
	"learning_rate": 0.00020879769330356705,
	"loss": 4.17333984375,
	"step": 876
	},
	{
	"epoch": 0.6472324723247233,
	"grad_norm": 0.9519745707511902,
	"learning_rate": 0.0002080271422077262,
	"loss": 4.414155006408691,
	"step": 877
	},
	{
	"epoch": 0.647970479704797,
	"grad_norm": 0.8470144271850586,
	"learning_rate": 0.00020725741389209423,
	"loss": 4.405782699584961,
	"step": 878
	},
	{
	"epoch": 0.6487084870848708,
	"grad_norm": 0.872512698173523,
	"learning_rate": 0.00020648851281750437,
	"loss": 4.448093414306641,
	"step": 879
	},
	{
	"epoch": 0.6494464944649446,
	"grad_norm": 1.0624064207077026,
	"learning_rate": 0.00020572044343999566,
	"loss": 4.4731950759887695,
	"step": 880
	},
	{
	"epoch": 0.6501845018450184,
	"grad_norm": 0.9333707094192505,
	"learning_rate": 0.00020495321021078686,
	"loss": 4.351503849029541,
	"step": 881
	},
	{
	"epoch": 0.6509225092250922,
	"grad_norm": 0.8607699275016785,
	"learning_rate": 0.00020418681757625152,
	"loss": 4.024420738220215,
	"step": 882
	},
	{
	"epoch": 0.6516605166051661,
	"grad_norm": 0.8372026085853577,
	"learning_rate": 0.00020342126997789113,
	"loss": 4.254813194274902,
	"step": 883
	},
	{
	"epoch": 0.6523985239852399,
	"grad_norm": 0.8102350234985352,
	"learning_rate": 0.00020265657185231017,
	"loss": 4.309717178344727,
	"step": 884
	},
	{
	"epoch": 0.6531365313653137,
	"grad_norm": 0.8655620217323303,
	"learning_rate": 0.0002018927276311902,
	"loss": 4.270059108734131,
	"step": 885
	},
	{
	"epoch": 0.6538745387453875,
	"grad_norm": 0.8550220727920532,
	"learning_rate": 0.00020112974174126406,
	"loss": 4.238635063171387,
	"step": 886
	},
	{
	"epoch": 0.6546125461254613,
	"grad_norm": 0.8815758228302002,
	"learning_rate": 0.00020036761860428999,
	"loss": 4.169132232666016,
	"step": 887
	},
	{
	"epoch": 0.6553505535055351,
	"grad_norm": 0.9161958694458008,
	"learning_rate": 0.00019960636263702692,
	"loss": 4.314050674438477,
	"step": 888
	},
	{
	"epoch": 0.6560885608856089,
	"grad_norm": 1.0340604782104492,
	"learning_rate": 0.00019884597825120762,
	"loss": 3.9258623123168945,
	"step": 889
	},
	{
	"epoch": 0.6568265682656826,
	"grad_norm": 0.896084725856781,
	"learning_rate": 0.000198086469853514,
	"loss": 4.141365051269531,
	"step": 890
	},
	{
	"epoch": 0.6575645756457564,
	"grad_norm": 0.9871026277542114,
	"learning_rate": 0.00019732784184555138,
	"loss": 4.212796211242676,
	"step": 891
	},
	{
	"epoch": 0.6583025830258302,
	"grad_norm": 1.0540019273757935,
	"learning_rate": 0.00019657009862382286,
	"loss": 4.061999797821045,
	"step": 892
	},
	{
	"epoch": 0.659040590405904,
	"grad_norm": 0.8863611817359924,
	"learning_rate": 0.00019581324457970407,
	"loss": 4.253866195678711,
	"step": 893
	},
	{
	"epoch": 0.6597785977859778,
	"grad_norm": 1.1371312141418457,
	"learning_rate": 0.00019505728409941711,
	"loss": 4.08126163482666,
	"step": 894
	},
	{
	"epoch": 0.6605166051660517,
	"grad_norm": 2.1047496795654297,
	"learning_rate": 0.00019430222156400606,
	"loss": 4.196209907531738,
	"step": 895
	},
	{
	"epoch": 0.6612546125461255,
	"grad_norm": 0.85357266664505,
	"learning_rate": 0.00019354806134931087,
	"loss": 4.412619590759277,
	"step": 896
	},
	{
	"epoch": 0.6619926199261993,
	"grad_norm": 1.048453450202942,
	"learning_rate": 0.00019279480782594244,
	"loss": 4.392220497131348,
	"step": 897
	},
	{
	"epoch": 0.6627306273062731,
	"grad_norm": 0.8711747527122498,
	"learning_rate": 0.00019204246535925654,
	"loss": 4.262413024902344,
	"step": 898
	},
	{
	"epoch": 0.6634686346863469,
	"grad_norm": 0.7952659130096436,
	"learning_rate": 0.00019129103830933008,
	"loss": 4.36223840713501,
	"step": 899
	},
	{
	"epoch": 0.6642066420664207,
	"grad_norm": 0.8127221465110779,
	"learning_rate": 0.00019054053103093366,
	"loss": 4.27398681640625,
	"step": 900
	},
	{
	"epoch": 0.6649446494464945,
	"grad_norm": 0.8177223801612854,
	"learning_rate": 0.0001897909478735083,
	"loss": 3.997640609741211,
	"step": 901
	},
	{
	"epoch": 0.6656826568265682,
	"grad_norm": 1.2305352687835693,
	"learning_rate": 0.00018904229318113914,
	"loss": 4.09181022644043,
	"step": 902
	},
	{
	"epoch": 0.666420664206642,
	"grad_norm": 0.862445056438446,
	"learning_rate": 0.00018829457129253057,
	"loss": 4.322624206542969,
	"step": 903
	},
	{
	"epoch": 0.6671586715867158,
	"grad_norm": 0.8462716937065125,
	"learning_rate": 0.00018754778654098123,
	"loss": 4.413826942443848,
	"step": 904
	},
	{
	"epoch": 0.6678966789667896,
	"grad_norm": 0.8606178164482117,
	"learning_rate": 0.00018680194325435839,
	"loss": 4.309714317321777,
	"step": 905
	},
	{
	"epoch": 0.6686346863468635,
	"grad_norm": 0.8559933304786682,
	"learning_rate": 0.00018605704575507347,
	"loss": 4.162710189819336,
	"step": 906
	},
	{
	"epoch": 0.6693726937269373,
	"grad_norm": 0.9497646689414978,
	"learning_rate": 0.00018531309836005675,
	"loss": 4.144913673400879,
	"step": 907
	},
	{
	"epoch": 0.6701107011070111,
	"grad_norm": 0.8656502962112427,
	"learning_rate": 0.00018457010538073236,
	"loss": 4.23277473449707,
	"step": 908
	},
	{
	"epoch": 0.6708487084870849,
	"grad_norm": 0.9220851063728333,
	"learning_rate": 0.00018382807112299283,
	"loss": 4.004146099090576,
	"step": 909
	},
	{
	"epoch": 0.6715867158671587,
	"grad_norm": 0.8644999265670776,
	"learning_rate": 0.0001830869998871755,
	"loss": 4.135645389556885,
	"step": 910
	},
	{
	"epoch": 0.6723247232472325,
	"grad_norm": 0.9802985787391663,
	"learning_rate": 0.0001823468959680356,
	"loss": 4.413508892059326,
	"step": 911
	},
	{
	"epoch": 0.6730627306273063,
	"grad_norm": 0.8389285802841187,
	"learning_rate": 0.0001816077636547232,
	"loss": 4.484038829803467,
	"step": 912
	},
	{
	"epoch": 0.67380073800738,
	"grad_norm": 0.9547582864761353,
	"learning_rate": 0.00018086960723075727,
	"loss": 4.3295416831970215,
	"step": 913
	},
	{
	"epoch": 0.6745387453874538,
	"grad_norm": 0.8170531392097473,
	"learning_rate": 0.00018013243097400128,
	"loss": 4.145027160644531,
	"step": 914
	},
	{
	"epoch": 0.6752767527675276,
	"grad_norm": 0.8581196665763855,
	"learning_rate": 0.00017939623915663833,
	"loss": 4.246807098388672,
	"step": 915
	},
	{
	"epoch": 0.6760147601476014,
	"grad_norm": 0.9968565702438354,
	"learning_rate": 0.000178661036045146,
	"loss": 4.355518817901611,
	"step": 916
	},
	{
	"epoch": 0.6767527675276753,
	"grad_norm": 1.08475923538208,
	"learning_rate": 0.00017792682590027278,
	"loss": 4.216618061065674,
	"step": 917
	},
	{
	"epoch": 0.6774907749077491,
	"grad_norm": 0.9199729561805725,
	"learning_rate": 0.00017719361297701167,
	"loss": 4.03296422958374,
	"step": 918
	},
	{
	"epoch": 0.6782287822878229,
	"grad_norm": 0.9441756010055542,
	"learning_rate": 0.00017646140152457717,
	"loss": 4.32381010055542,
	"step": 919
	},
	{
	"epoch": 0.6789667896678967,
	"grad_norm": 0.8643115162849426,
	"learning_rate": 0.00017573019578637913,
	"loss": 4.274387359619141,
	"step": 920
	},
	{
	"epoch": 0.6797047970479705,
	"grad_norm": 0.8102643489837646,
	"learning_rate": 0.00017500000000000008,
	"loss": 4.232758522033691,
	"step": 921
	},
	{
	"epoch": 0.6804428044280443,
	"grad_norm": 1.063491702079773,
	"learning_rate": 0.0001742708183971684,
	"loss": 4.3541483879089355,
	"step": 922
	},
	{
	"epoch": 0.6811808118081181,
	"grad_norm": 0.7408610582351685,
	"learning_rate": 0.00017354265520373567,
	"loss": 4.151790618896484,
	"step": 923
	},
	{
	"epoch": 0.6819188191881919,
	"grad_norm": 0.7934446930885315,
	"learning_rate": 0.0001728155146396511,
	"loss": 4.396363258361816,
	"step": 924
	},
	{
	"epoch": 0.6826568265682657,
	"grad_norm": 0.954188883304596,
	"learning_rate": 0.00017208940091893756,
	"loss": 3.97440767288208,
	"step": 925
	},
	{
	"epoch": 0.6833948339483394,
	"grad_norm": 1.0053012371063232,
	"learning_rate": 0.00017136431824966715,
	"loss": 4.055703163146973,
	"step": 926
	},
	{
	"epoch": 0.6841328413284132,
	"grad_norm": 0.8948765397071838,
	"learning_rate": 0.00017064027083393612,
	"loss": 4.3566484451293945,
	"step": 927
	},
	{
	"epoch": 0.6848708487084871,
	"grad_norm": 0.8520956039428711,
	"learning_rate": 0.000169917262867842,
	"loss": 3.928354263305664,
	"step": 928
	},
	{
	"epoch": 0.6856088560885609,
	"grad_norm": 0.8816937804222107,
	"learning_rate": 0.00016919529854145745,
	"loss": 4.179725170135498,
	"step": 929
	},
	{
	"epoch": 0.6863468634686347,
	"grad_norm": 1.3806109428405762,
	"learning_rate": 0.00016847438203880735,
	"loss": 4.185024738311768,
	"step": 930
	},
	{
	"epoch": 0.6870848708487085,
	"grad_norm": 0.7780953049659729,
	"learning_rate": 0.00016775451753784414,
	"loss": 4.327208995819092,
	"step": 931
	},
	{
	"epoch": 0.6878228782287823,
	"grad_norm": 1.103068470954895,
	"learning_rate": 0.00016703570921042344,
	"loss": 4.4666948318481445,
	"step": 932
	},
	{
	"epoch": 0.6885608856088561,
	"grad_norm": 0.8747889995574951,
	"learning_rate": 0.00016631796122227983,
	"loss": 4.146649360656738,
	"step": 933
	},
	{
	"epoch": 0.6892988929889299,
	"grad_norm": 0.9435983896255493,
	"learning_rate": 0.00016560127773300313,
	"loss": 4.554599761962891,
	"step": 934
	},
	{
	"epoch": 0.6900369003690037,
	"grad_norm": 0.800839364528656,
	"learning_rate": 0.00016488566289601388,
	"loss": 4.008693218231201,
	"step": 935
	},
	{
	"epoch": 0.6907749077490775,
	"grad_norm": 0.8912091851234436,
	"learning_rate": 0.00016417112085853969,
	"loss": 4.274938583374023,
	"step": 936
	},
	{
	"epoch": 0.6915129151291513,
	"grad_norm": 0.9369155168533325,
	"learning_rate": 0.00016345765576159042,
	"loss": 4.299943447113037,
	"step": 937
	},
	{
	"epoch": 0.692250922509225,
	"grad_norm": 0.7870283722877502,
	"learning_rate": 0.000162745271739935,
	"loss": 4.334400177001953,
	"step": 938
	},
	{
	"epoch": 0.6929889298892989,
	"grad_norm": 0.8504934310913086,
	"learning_rate": 0.00016203397292207758,
	"loss": 4.140174865722656,
	"step": 939
	},
	{
	"epoch": 0.6937269372693727,
	"grad_norm": 1.016496181488037,
	"learning_rate": 0.00016132376343023233,
	"loss": 4.296517848968506,
	"step": 940
	},
	{
	"epoch": 0.6944649446494465,
	"grad_norm": 1.214504599571228,
	"learning_rate": 0.00016061464738030106,
	"loss": 4.107439041137695,
	"step": 941
	},
	{
	"epoch": 0.6952029520295203,
	"grad_norm": 0.9972517490386963,
	"learning_rate": 0.0001599066288818485,
	"loss": 4.203211307525635,
	"step": 942
	},
	{
	"epoch": 0.6959409594095941,
	"grad_norm": 0.8465280532836914,
	"learning_rate": 0.0001591997120380788,
	"loss": 4.145995616912842,
	"step": 943
	},
	{
	"epoch": 0.6966789667896679,
	"grad_norm": 0.9349222779273987,
	"learning_rate": 0.00015849390094581142,
	"loss": 4.01326847076416,
	"step": 944
	},
	{
	"epoch": 0.6974169741697417,
	"grad_norm": 1.018925666809082,
	"learning_rate": 0.0001577891996954578,
	"loss": 4.1635026931762695,
	"step": 945
	},
	{
	"epoch": 0.6981549815498155,
	"grad_norm": 0.7925598621368408,
	"learning_rate": 0.0001570856123709975,
	"loss": 4.1779022216796875,
	"step": 946
	},
	{
	"epoch": 0.6988929889298893,
	"grad_norm": 0.932461142539978,
	"learning_rate": 0.00015638314304995454,
	"loss": 4.21356201171875,
	"step": 947
	},
	{
	"epoch": 0.6996309963099631,
	"grad_norm": 0.9300697445869446,
	"learning_rate": 0.00015568179580337333,
	"loss": 4.0165696144104,
	"step": 948
	},
	{
	"epoch": 0.7003690036900369,
	"grad_norm": 0.8354659676551819,
	"learning_rate": 0.0001549815746957962,
	"loss": 4.235401630401611,
	"step": 949
	},
	{
	"epoch": 0.7011070110701108,
	"grad_norm": 0.926152765750885,
	"learning_rate": 0.00015428248378523865,
	"loss": 4.415463447570801,
	"step": 950
	},
	{
	"epoch": 0.7018450184501845,
	"grad_norm": 1.0506153106689453,
	"learning_rate": 0.0001535845271231662,
	"loss": 4.269872665405273,
	"step": 951
	},
	{
	"epoch": 0.7025830258302583,
	"grad_norm": 0.8655766248703003,
	"learning_rate": 0.00015288770875447128,
	"loss": 4.350858688354492,
	"step": 952
	},
	{
	"epoch": 0.7033210332103321,
	"grad_norm": 0.7818317413330078,
	"learning_rate": 0.00015219203271744954,
	"loss": 4.015618801116943,
	"step": 953
	},
	{
	"epoch": 0.7040590405904059,
	"grad_norm": 0.8752409815788269,
	"learning_rate": 0.00015149750304377645,
	"loss": 4.2518510818481445,
	"step": 954
	},
	{
	"epoch": 0.7047970479704797,
	"grad_norm": 1.2109910249710083,
	"learning_rate": 0.00015080412375848357,
	"loss": 4.2393035888671875,
	"step": 955
	},
	{
	"epoch": 0.7055350553505535,
	"grad_norm": 0.925682544708252,
	"learning_rate": 0.00015011189887993598,
	"loss": 4.126298904418945,
	"step": 956
	},
	{
	"epoch": 0.7062730627306273,
	"grad_norm": 0.9237503409385681,
	"learning_rate": 0.00014942083241980837,
	"loss": 3.981215476989746,
	"step": 957
	},
	{
	"epoch": 0.7070110701107011,
	"grad_norm": 0.9711774587631226,
	"learning_rate": 0.0001487309283830623,
	"loss": 4.350025177001953,
	"step": 958
	},
	{
	"epoch": 0.7077490774907749,
	"grad_norm": 0.9577892422676086,
	"learning_rate": 0.00014804219076792202,
	"loss": 4.178315162658691,
	"step": 959
	},
	{
	"epoch": 0.7084870848708487,
	"grad_norm": 0.9610137343406677,
	"learning_rate": 0.00014735462356585302,
	"loss": 4.048961639404297,
	"step": 960
	},
	{
	"epoch": 0.7092250922509226,
	"grad_norm": 0.8772600889205933,
	"learning_rate": 0.0001466682307615368,
	"loss": 4.249874114990234,
	"step": 961
	},
	{
	"epoch": 0.7099630996309964,
	"grad_norm": 0.8270952105522156,
	"learning_rate": 0.00014598301633284952,
	"loss": 4.296774387359619,
	"step": 962
	},
	{
	"epoch": 0.7107011070110701,
	"grad_norm": 0.8505011796951294,
	"learning_rate": 0.00014529898425083793,
	"loss": 4.15446662902832,
	"step": 963
	},
	{
	"epoch": 0.7114391143911439,
	"grad_norm": 0.7727055549621582,
	"learning_rate": 0.00014461613847969687,
	"loss": 4.255171298980713,
	"step": 964
	},
	{
	"epoch": 0.7121771217712177,
	"grad_norm": 1.0215280055999756,
	"learning_rate": 0.00014393448297674613,
	"loss": 4.0843987464904785,
	"step": 965
	},
	{
	"epoch": 0.7129151291512915,
	"grad_norm": 0.9580904841423035,
	"learning_rate": 0.00014325402169240717,
	"loss": 4.22476863861084,
	"step": 966
	},
	{
	"epoch": 0.7136531365313653,
	"grad_norm": 0.8007642030715942,
	"learning_rate": 0.0001425747585701809,
	"loss": 4.2899861335754395,
	"step": 967
	},
	{
	"epoch": 0.7143911439114391,
	"grad_norm": 1.048153042793274,
	"learning_rate": 0.00014189669754662433,
	"loss": 4.137915134429932,
	"step": 968
	},
	{
	"epoch": 0.7151291512915129,
	"grad_norm": 0.9277073740959167,
	"learning_rate": 0.00014121984255132812,
	"loss": 4.19291877746582,
	"step": 969
	},
	{
	"epoch": 0.7158671586715867,
	"grad_norm": 0.9412124752998352,
	"learning_rate": 0.00014054419750689302,
	"loss": 4.134371757507324,
	"step": 970
	},
	{
	"epoch": 0.7166051660516605,
	"grad_norm": 0.9520360827445984,
	"learning_rate": 0.0001398697663289086,
	"loss": 3.9994983673095703,
	"step": 971
	},
	{
	"epoch": 0.7173431734317344,
	"grad_norm": 1.108952522277832,
	"learning_rate": 0.00013919655292592885,
	"loss": 4.142839431762695,
	"step": 972
	},
	{
	"epoch": 0.7180811808118082,
	"grad_norm": 0.882947564125061,
	"learning_rate": 0.0001385245611994507,
	"loss": 4.331300258636475,
	"step": 973
	},
	{
	"epoch": 0.718819188191882,
	"grad_norm": 0.9011394381523132,
	"learning_rate": 0.00013785379504389108,
	"loss": 4.304719924926758,
	"step": 974
	},
	{
	"epoch": 0.7195571955719557,
	"grad_norm": 0.9489427208900452,
	"learning_rate": 0.00013718425834656427,
	"loss": 3.873215675354004,
	"step": 975
	},
	{
	"epoch": 0.7202952029520295,
	"grad_norm": 0.8889840841293335,
	"learning_rate": 0.00013651595498765954,
	"loss": 4.21721076965332,
	"step": 976
	},
	{
	"epoch": 0.7210332103321033,
	"grad_norm": 0.8962631821632385,
	"learning_rate": 0.0001358488888402181,
	"loss": 4.268343925476074,
	"step": 977
	},
	{
	"epoch": 0.7217712177121771,
	"grad_norm": 1.0096079111099243,
	"learning_rate": 0.0001351830637701119,
	"loss": 4.305258750915527,
	"step": 978
	},
	{
	"epoch": 0.7225092250922509,
	"grad_norm": 0.8910917043685913,
	"learning_rate": 0.0001345184836360196,
	"loss": 4.095419883728027,
	"step": 979
	},
	{
	"epoch": 0.7232472324723247,
	"grad_norm": 0.8660383224487305,
	"learning_rate": 0.00013385515228940572,
	"loss": 4.2480149269104,
	"step": 980
	},
	{
	"epoch": 0.7239852398523985,
	"grad_norm": 0.7730628252029419,
	"learning_rate": 0.00013319307357449696,
	"loss": 4.004230499267578,
	"step": 981
	},
	{
	"epoch": 0.7247232472324723,
	"grad_norm": 0.9015150666236877,
	"learning_rate": 0.00013253225132826138,
	"loss": 4.344229698181152,
	"step": 982
	},
	{
	"epoch": 0.7254612546125462,
	"grad_norm": 0.8757840991020203,
	"learning_rate": 0.0001318726893803847,
	"loss": 4.284424781799316,
	"step": 983
	},
	{
	"epoch": 0.72619926199262,
	"grad_norm": 0.8267972469329834,
	"learning_rate": 0.00013121439155324918,
	"loss": 3.9191102981567383,
	"step": 984
	},
	{
	"epoch": 0.7269372693726938,
	"grad_norm": 0.998901903629303,
	"learning_rate": 0.00013055736166191095,
	"loss": 4.020920276641846,
	"step": 985
	},
	{
	"epoch": 0.7276752767527676,
	"grad_norm": 0.9288577437400818,
	"learning_rate": 0.00012990160351407804,
	"loss": 4.161448001861572,
	"step": 986
	},
	{
	"epoch": 0.7284132841328413,
	"grad_norm": 0.8598924279212952,
	"learning_rate": 0.00012924712091008842,
	"loss": 4.157841205596924,
	"step": 987
	},
	{
	"epoch": 0.7291512915129151,
	"grad_norm": 0.8927615880966187,
	"learning_rate": 0.0001285939176428874,
	"loss": 4.054559230804443,
	"step": 988
	},
	{
	"epoch": 0.7298892988929889,
	"grad_norm": 0.8624060750007629,
	"learning_rate": 0.00012794199749800698,
	"loss": 4.096704006195068,
	"step": 989
	},
	{
	"epoch": 0.7306273062730627,
	"grad_norm": 0.9361541271209717,
	"learning_rate": 0.00012729136425354204,
	"loss": 4.233707427978516,
	"step": 990
	},
	{
	"epoch": 0.7313653136531365,
	"grad_norm": 0.9343904256820679,
	"learning_rate": 0.00012664202168013005,
	"loss": 3.9704904556274414,
	"step": 991
	},
	{
	"epoch": 0.7321033210332103,
	"grad_norm": 0.9579162001609802,
	"learning_rate": 0.0001259939735409285,
	"loss": 4.047106742858887,
	"step": 992
	},
	{
	"epoch": 0.7328413284132841,
	"grad_norm": 0.9848127365112305,
	"learning_rate": 0.0001253472235915933,
	"loss": 4.055668830871582,
	"step": 993
	},
	{
	"epoch": 0.7335793357933579,
	"grad_norm": 0.8801389932632446,
	"learning_rate": 0.00012470177558025652,
	"loss": 4.0792717933654785,
	"step": 994
	},
	{
	"epoch": 0.7343173431734318,
	"grad_norm": 1.0689746141433716,
	"learning_rate": 0.0001240576332475054,
	"loss": 4.3891496658325195,
	"step": 995
	},
	{
	"epoch": 0.7350553505535056,
	"grad_norm": 0.9340549111366272,
	"learning_rate": 0.00012341480032636035,
	"loss": 3.9269206523895264,
	"step": 996
	},
	{
	"epoch": 0.7357933579335794,
	"grad_norm": 1.6336300373077393,
	"learning_rate": 0.0001227732805422531,
	"loss": 4.390302658081055,
	"step": 997
	},
	{
	"epoch": 0.7365313653136532,
	"grad_norm": 1.0127570629119873,
	"learning_rate": 0.00012213307761300567,
	"loss": 4.110518455505371,
	"step": 998
	},
	{
	"epoch": 0.7372693726937269,
	"grad_norm": 0.9814800024032593,
	"learning_rate": 0.00012149419524880778,
	"loss": 4.395967960357666,
	"step": 999
	},
	{
	"epoch": 0.7380073800738007,
	"grad_norm": 0.8709611892700195,
	"learning_rate": 0.00012085663715219694,
	"loss": 4.2395758628845215,
	"step": 1000
	},
	{
	"epoch": 0.7387453874538745,
	"grad_norm": 0.810457706451416,
	"learning_rate": 0.00012022040701803532,
	"loss": 4.192559242248535,
	"step": 1001
	},
	{
	"epoch": 0.7394833948339483,
	"grad_norm": 0.8743382692337036,
	"learning_rate": 0.00011958550853348949,
	"loss": 4.053243637084961,
	"step": 1002
	},
	{
	"epoch": 0.7402214022140221,
	"grad_norm": 1.0082160234451294,
	"learning_rate": 0.0001189519453780086,
	"loss": 4.024561405181885,
	"step": 1003
	},
	{
	"epoch": 0.7409594095940959,
	"grad_norm": 0.9494944214820862,
	"learning_rate": 0.00011831972122330317,
	"loss": 4.133411407470703,
	"step": 1004
	},
	{
	"epoch": 0.7416974169741697,
	"grad_norm": 0.729489266872406,
	"learning_rate": 0.00011768883973332351,
	"loss": 4.2208356857299805,
	"step": 1005
	},
	{
	"epoch": 0.7424354243542436,
	"grad_norm": 0.8364970684051514,
	"learning_rate": 0.000117059304564239,
	"loss": 4.144787788391113,
	"step": 1006
	},
	{
	"epoch": 0.7431734317343174,
	"grad_norm": 1.0048389434814453,
	"learning_rate": 0.00011643111936441654,
	"loss": 4.1646552085876465,
	"step": 1007
	},
	{
	"epoch": 0.7439114391143912,
	"grad_norm": 0.8014469742774963,
	"learning_rate": 0.00011580428777439973,
	"loss": 4.183121681213379,
	"step": 1008
	},
	{
	"epoch": 0.744649446494465,
	"grad_norm": 1.1298073530197144,
	"learning_rate": 0.00011517881342688705,
	"loss": 4.2498016357421875,
	"step": 1009
	},
	{
	"epoch": 0.7453874538745388,
	"grad_norm": 0.9686313271522522,
	"learning_rate": 0.00011455469994671158,
	"loss": 4.157444000244141,
	"step": 1010
	},
	{
	"epoch": 0.7461254612546125,
	"grad_norm": 0.7569875121116638,
	"learning_rate": 0.00011393195095082015,
	"loss": 4.179769515991211,
	"step": 1011
	},
	{
	"epoch": 0.7468634686346863,
	"grad_norm": 0.9126372933387756,
	"learning_rate": 0.00011331057004825114,
	"loss": 4.2508544921875,
	"step": 1012
	},
	{
	"epoch": 0.7476014760147601,
	"grad_norm": 0.9252088069915771,
	"learning_rate": 0.00011269056084011492,
	"loss": 4.427289009094238,
	"step": 1013
	},
	{
	"epoch": 0.7483394833948339,
	"grad_norm": 0.8704126477241516,
	"learning_rate": 0.00011207192691957224,
	"loss": 4.120467185974121,
	"step": 1014
	},
	{
	"epoch": 0.7490774907749077,
	"grad_norm": 0.7337223291397095,
	"learning_rate": 0.00011145467187181378,
	"loss": 4.24467658996582,
	"step": 1015
	},
	{
	"epoch": 0.7498154981549815,
	"grad_norm": 1.0976858139038086,
	"learning_rate": 0.0001108387992740388,
	"loss": 4.356447696685791,
	"step": 1016
	},
	{
	"epoch": 0.7505535055350554,
	"grad_norm": 0.9983663558959961,
	"learning_rate": 0.00011022431269543517,
	"loss": 4.160353660583496,
	"step": 1017
	},
	{
	"epoch": 0.7512915129151292,
	"grad_norm": 1.2688814401626587,
	"learning_rate": 0.00010961121569715825,
	"loss": 4.209506988525391,
	"step": 1018
	},
	{
	"epoch": 0.752029520295203,
	"grad_norm": 0.8176230788230896,
	"learning_rate": 0.00010899951183231028,
	"loss": 4.172100067138672,
	"step": 1019
	},
	{
	"epoch": 0.7527675276752768,
	"grad_norm": 0.8766177892684937,
	"learning_rate": 0.00010838920464591952,
	"loss": 4.03950834274292,
	"step": 1020
	},
	{
	"epoch": 0.7535055350553506,
	"grad_norm": 0.8611599802970886,
	"learning_rate": 0.00010778029767492066,
	"loss": 4.484358787536621,
	"step": 1021
	},
	{
	"epoch": 0.7542435424354244,
	"grad_norm": 0.8686861395835876,
	"learning_rate": 0.00010717279444813325,
	"loss": 4.179934501647949,
	"step": 1022
	},
	{
	"epoch": 0.7549815498154981,
	"grad_norm": 0.8060294985771179,
	"learning_rate": 0.00010656669848624154,
	"loss": 4.116765975952148,
	"step": 1023
	},
	{
	"epoch": 0.7557195571955719,
	"grad_norm": 0.9301735162734985,
	"learning_rate": 0.0001059620133017745,
	"loss": 3.9561753273010254,
	"step": 1024
	},
	{
	"epoch": 0.7564575645756457,
	"grad_norm": 0.8732739686965942,
	"learning_rate": 0.00010535874239908514,
	"loss": 4.087579250335693,
	"step": 1025
	},
	{
	"epoch": 0.7571955719557195,
	"grad_norm": 0.8588765859603882,
	"learning_rate": 0.00010475688927433018,
	"loss": 4.3742876052856445,
	"step": 1026
	},
	{
	"epoch": 0.7579335793357933,
	"grad_norm": 0.7727426290512085,
	"learning_rate": 0.0001041564574154497,
	"loss": 4.053977012634277,
	"step": 1027
	},
	{
	"epoch": 0.7586715867158672,
	"grad_norm": 0.7998579144477844,
	"learning_rate": 0.00010355745030214725,
	"loss": 4.124699592590332,
	"step": 1028
	},
	{
	"epoch": 0.759409594095941,
	"grad_norm": 0.8935081362724304,
	"learning_rate": 0.00010295987140586949,
	"loss": 4.136198997497559,
	"step": 1029
	},
	{
	"epoch": 0.7601476014760148,
	"grad_norm": 0.8178191184997559,
	"learning_rate": 0.00010236372418978614,
	"loss": 4.050296783447266,
	"step": 1030
	},
	{
	"epoch": 0.7608856088560886,
	"grad_norm": 0.8848076462745667,
	"learning_rate": 0.00010176901210876947,
	"loss": 3.9550304412841797,
	"step": 1031
	},
	{
	"epoch": 0.7616236162361624,
	"grad_norm": 0.9924454689025879,
	"learning_rate": 0.00010117573860937533,
	"loss": 4.258056640625,
	"step": 1032
	},
	{
	"epoch": 0.7623616236162362,
	"grad_norm": 1.1687978506088257,
	"learning_rate": 0.00010058390712982184,
	"loss": 4.050140380859375,
	"step": 1033
	},
	{
	"epoch": 0.76309963099631,
	"grad_norm": 0.8403159379959106,
	"learning_rate": 9.999352109997051e-05,
	"loss": 4.150047302246094,
	"step": 1034
	},
	{
	"epoch": 0.7638376383763837,
	"grad_norm": 0.92585289478302,
	"learning_rate": 9.940458394130595e-05,
	"loss": 3.9567012786865234,
	"step": 1035
	},
	{
	"epoch": 0.7645756457564575,
	"grad_norm": 0.9140007495880127,
	"learning_rate": 9.881709906691602e-05,
	"loss": 4.100074291229248,
	"step": 1036
	},
	{
	"epoch": 0.7653136531365313,
	"grad_norm": 0.9550725817680359,
	"learning_rate": 9.823106988147217e-05,
	"loss": 4.270690441131592,
	"step": 1037
	},
	{
	"epoch": 0.7660516605166051,
	"grad_norm": 1.0491443872451782,
	"learning_rate": 9.764649978120944e-05,
	"loss": 4.158552169799805,
	"step": 1038
	},
	{
	"epoch": 0.766789667896679,
	"grad_norm": 0.827170729637146,
	"learning_rate": 9.706339215390715e-05,
	"loss": 4.432864189147949,
	"step": 1039
	},
	{
	"epoch": 0.7675276752767528,
	"grad_norm": 1.0315954685211182,
	"learning_rate": 9.64817503788692e-05,
	"loss": 4.234312534332275,
	"step": 1040
	},
	{
	"epoch": 0.7682656826568266,
	"grad_norm": 0.9796032905578613,
	"learning_rate": 9.590157782690429e-05,
	"loss": 3.9558591842651367,
	"step": 1041
	},
	{
	"epoch": 0.7690036900369004,
	"grad_norm": 1.082369327545166,
	"learning_rate": 9.532287786030617e-05,
	"loss": 4.016860485076904,
	"step": 1042
	},
	{
	"epoch": 0.7697416974169742,
	"grad_norm": 0.9409294724464417,
	"learning_rate": 9.474565383283518e-05,
	"loss": 4.121254920959473,
	"step": 1043
	},
	{
	"epoch": 0.770479704797048,
	"grad_norm": 0.9006357192993164,
	"learning_rate": 9.416990908969736e-05,
	"loss": 4.089673042297363,
	"step": 1044
	},
	{
	"epoch": 0.7712177121771218,
	"grad_norm": 1.0219764709472656,
	"learning_rate": 9.359564696752622e-05,
	"loss": 3.96942138671875,
	"step": 1045
	},
	{
	"epoch": 0.7719557195571956,
	"grad_norm": 0.9810526967048645,
	"learning_rate": 9.302287079436289e-05,
	"loss": 3.9760637283325195,
	"step": 1046
	},
	{
	"epoch": 0.7726937269372693,
	"grad_norm": 0.9141161441802979,
	"learning_rate": 9.245158388963689e-05,
	"loss": 4.305903434753418,
	"step": 1047
	},
	{
	"epoch": 0.7734317343173431,
	"grad_norm": 2.4086737632751465,
	"learning_rate": 9.188178956414705e-05,
	"loss": 4.438955307006836,
	"step": 1048
	},
	{
	"epoch": 0.7741697416974169,
	"grad_norm": 0.9075452089309692,
	"learning_rate": 9.131349112004189e-05,
	"loss": 4.143951416015625,
	"step": 1049
	},
	{
	"epoch": 0.7749077490774908,
	"grad_norm": 0.8627065420150757,
	"learning_rate": 9.074669185080134e-05,
	"loss": 4.145493984222412,
	"step": 1050
	},
	{
	"epoch": 0.7756457564575646,
	"grad_norm": 0.9488852620124817,
	"learning_rate": 9.018139504121653e-05,
	"loss": 4.0962677001953125,
	"step": 1051
	},
	{
	"epoch": 0.7763837638376384,
	"grad_norm": 0.8987521529197693,
	"learning_rate": 8.96176039673717e-05,
	"loss": 4.037075996398926,
	"step": 1052
	},
	{
	"epoch": 0.7771217712177122,
	"grad_norm": 1.5608737468719482,
	"learning_rate": 8.905532189662476e-05,
	"loss": 4.093520164489746,
	"step": 1053
	},
	{
	"epoch": 0.777859778597786,
	"grad_norm": 1.0437077283859253,
	"learning_rate": 8.849455208758849e-05,
	"loss": 4.453344821929932,
	"step": 1054
	},
	{
	"epoch": 0.7785977859778598,
	"grad_norm": 0.9098041653633118,
	"learning_rate": 8.793529779011133e-05,
	"loss": 3.896477699279785,
	"step": 1055
	},
	{
	"epoch": 0.7793357933579336,
	"grad_norm": 0.7569055557250977,
	"learning_rate": 8.737756224525918e-05,
	"loss": 4.115358352661133,
	"step": 1056
	},
	{
	"epoch": 0.7800738007380074,
	"grad_norm": 1.0293289422988892,
	"learning_rate": 8.68213486852961e-05,
	"loss": 4.121119976043701,
	"step": 1057
	},
	{
	"epoch": 0.7808118081180812,
	"grad_norm": 0.8127309083938599,
	"learning_rate": 8.626666033366578e-05,
	"loss": 4.106558799743652,
	"step": 1058
	},
	{
	"epoch": 0.7815498154981549,
	"grad_norm": 0.9031323790550232,
	"learning_rate": 8.57135004049728e-05,
	"loss": 3.9452483654022217,
	"step": 1059
	},
	{
	"epoch": 0.7822878228782287,
	"grad_norm": 1.2205437421798706,
	"learning_rate": 8.516187210496385e-05,
	"loss": 3.8204894065856934,
	"step": 1060
	},
	{
	"epoch": 0.7830258302583026,
	"grad_norm": 0.907437801361084,
	"learning_rate": 8.461177863050975e-05,
	"loss": 4.430585861206055,
	"step": 1061
	},
	{
	"epoch": 0.7837638376383764,
	"grad_norm": 0.8979167342185974,
	"learning_rate": 8.406322316958601e-05,
	"loss": 4.146002292633057,
	"step": 1062
	},
	{
	"epoch": 0.7845018450184502,
	"grad_norm": 0.9116492867469788,
	"learning_rate": 8.351620890125513e-05,
	"loss": 4.052881240844727,
	"step": 1063
	},
	{
	"epoch": 0.785239852398524,
	"grad_norm": 1.1355615854263306,
	"learning_rate": 8.297073899564777e-05,
	"loss": 4.160739898681641,
	"step": 1064
	},
	{
	"epoch": 0.7859778597785978,
	"grad_norm": 0.8989261984825134,
	"learning_rate": 8.242681661394466e-05,
	"loss": 3.9555885791778564,
	"step": 1065
	},
	{
	"epoch": 0.7867158671586716,
	"grad_norm": 1.0729719400405884,
	"learning_rate": 8.188444490835773e-05,
	"loss": 4.048243999481201,
	"step": 1066
	},
	{
	"epoch": 0.7874538745387454,
	"grad_norm": 0.9004929661750793,
	"learning_rate": 8.134362702211263e-05,
	"loss": 4.261412143707275,
	"step": 1067
	},
	{
	"epoch": 0.7881918819188192,
	"grad_norm": 0.7723477482795715,
	"learning_rate": 8.080436608942988e-05,
	"loss": 3.9241394996643066,
	"step": 1068
	},
	{
	"epoch": 0.788929889298893,
	"grad_norm": 0.833265483379364,
	"learning_rate": 8.026666523550708e-05,
	"loss": 4.336735248565674,
	"step": 1069
	},
	{
	"epoch": 0.7896678966789668,
	"grad_norm": 0.9609919190406799,
	"learning_rate": 7.973052757650058e-05,
	"loss": 3.9808225631713867,
	"step": 1070
	},
	{
	"epoch": 0.7904059040590405,
	"grad_norm": 1.0244325399398804,
	"learning_rate": 7.919595621950728e-05,
	"loss": 4.093958854675293,
	"step": 1071
	},
	{
	"epoch": 0.7911439114391144,
	"grad_norm": 0.7694634199142456,
	"learning_rate": 7.866295426254735e-05,
	"loss": 3.9361343383789062,
	"step": 1072
	},
	{
	"epoch": 0.7918819188191882,
	"grad_norm": 0.8412328958511353,
	"learning_rate": 7.813152479454516e-05,
	"loss": 4.3025431632995605,
	"step": 1073
	},
	{
	"epoch": 0.792619926199262,
	"grad_norm": 0.9007997512817383,
	"learning_rate": 7.760167089531244e-05,
	"loss": 4.1600799560546875,
	"step": 1074
	},
	{
	"epoch": 0.7933579335793358,
	"grad_norm": 0.8552005887031555,
	"learning_rate": 7.707339563552973e-05,
	"loss": 3.9373395442962646,
	"step": 1075
	},
	{
	"epoch": 0.7940959409594096,
	"grad_norm": 0.9131635427474976,
	"learning_rate": 7.654670207672905e-05,
	"loss": 4.242855072021484,
	"step": 1076
	},
	{
	"epoch": 0.7948339483394834,
	"grad_norm": 0.8459916710853577,
	"learning_rate": 7.602159327127555e-05,
	"loss": 4.222464084625244,
	"step": 1077
	},
	{
	"epoch": 0.7955719557195572,
	"grad_norm": 0.9173424243927002,
	"learning_rate": 7.549807226235051e-05,
	"loss": 4.072568416595459,
	"step": 1078
	},
	{
	"epoch": 0.796309963099631,
	"grad_norm": 0.9082213640213013,
	"learning_rate": 7.497614208393341e-05,
	"loss": 3.9589667320251465,
	"step": 1079
	},
	{
	"epoch": 0.7970479704797048,
	"grad_norm": 0.8568102717399597,
	"learning_rate": 7.44558057607843e-05,
	"loss": 4.217202663421631,
	"step": 1080
	},
	{
	"epoch": 0.7977859778597786,
	"grad_norm": 0.9027300477027893,
	"learning_rate": 7.393706630842592e-05,
	"loss": 4.339812278747559,
	"step": 1081
	},
	{
	"epoch": 0.7985239852398524,
	"grad_norm": 0.8236647844314575,
	"learning_rate": 7.341992673312733e-05,
	"loss": 3.9794492721557617,
	"step": 1082
	},
	{
	"epoch": 0.7992619926199263,
	"grad_norm": 1.059795618057251,
	"learning_rate": 7.290439003188531e-05,
	"loss": 4.107804298400879,
	"step": 1083
	},
	{
	"epoch": 0.8,
	"grad_norm": 1.0308328866958618,
	"learning_rate": 7.239045919240731e-05,
	"loss": 4.0905232429504395,
	"step": 1084
	},
	{
	"epoch": 0.8007380073800738,
	"grad_norm": 0.9931803345680237,
	"learning_rate": 7.187813719309466e-05,
	"loss": 3.8613810539245605,
	"step": 1085
	},
	{
	"epoch": 0.8014760147601476,
	"grad_norm": 0.9674167037010193,
	"learning_rate": 7.136742700302469e-05,
	"loss": 4.229313850402832,
	"step": 1086
	},
	{
	"epoch": 0.8022140221402214,
	"grad_norm": 1.1589391231536865,
	"learning_rate": 7.085833158193391e-05,
	"loss": 4.372422695159912,
	"step": 1087
	},
	{
	"epoch": 0.8029520295202952,
	"grad_norm": 1.1077316999435425,
	"learning_rate": 7.035085388020041e-05,
	"loss": 4.1049089431762695,
	"step": 1088
	},
	{
	"epoch": 0.803690036900369,
	"grad_norm": 0.9430045485496521,
	"learning_rate": 6.984499683882739e-05,
	"loss": 4.282869338989258,
	"step": 1089
	},
	{
	"epoch": 0.8044280442804428,
	"grad_norm": 1.254410982131958,
	"learning_rate": 6.934076338942564e-05,
	"loss": 3.9536659717559814,
	"step": 1090
	},
	{
	"epoch": 0.8051660516605166,
	"grad_norm": 0.8754069209098816,
	"learning_rate": 6.883815645419675e-05,
	"loss": 4.139862060546875,
	"step": 1091
	},
	{
	"epoch": 0.8059040590405904,
	"grad_norm": 0.9515761733055115,
	"learning_rate": 6.833717894591579e-05,
	"loss": 4.331487655639648,
	"step": 1092
	},
	{
	"epoch": 0.8066420664206642,
	"grad_norm": 1.1361658573150635,
	"learning_rate": 6.783783376791533e-05,
	"loss": 4.143629550933838,
	"step": 1093
	},
	{
	"epoch": 0.8073800738007381,
	"grad_norm": 0.8871273398399353,
	"learning_rate": 6.734012381406767e-05,
	"loss": 4.211644172668457,
	"step": 1094
	},
	{
	"epoch": 0.8081180811808119,
	"grad_norm": 0.8796087503433228,
	"learning_rate": 6.684405196876843e-05,
	"loss": 4.109099864959717,
	"step": 1095
	},
	{
	"epoch": 0.8088560885608856,
	"grad_norm": 1.0282338857650757,
	"learning_rate": 6.634962110691991e-05,
	"loss": 3.9217135906219482,
	"step": 1096
	},
	{
	"epoch": 0.8095940959409594,
	"grad_norm": 0.8852423429489136,
	"learning_rate": 6.585683409391441e-05,
	"loss": 3.826831579208374,
	"step": 1097
	},
	{
	"epoch": 0.8103321033210332,
	"grad_norm": 1.1207947731018066,
	"learning_rate": 6.536569378561766e-05,
	"loss": 4.236572265625,
	"step": 1098
	},
	{
	"epoch": 0.811070110701107,
	"grad_norm": 0.7631810307502747,
	"learning_rate": 6.487620302835181e-05,
	"loss": 4.135857582092285,
	"step": 1099
	},
	{
	"epoch": 0.8118081180811808,
	"grad_norm": 1.0373399257659912,
	"learning_rate": 6.438836465887968e-05,
	"loss": 3.926546096801758,
	"step": 1100
	},
	{
	"epoch": 0.8125461254612546,
	"grad_norm": 0.8193474411964417,
	"learning_rate": 6.390218150438787e-05,
	"loss": 4.056336402893066,
	"step": 1101
	},
	{
	"epoch": 0.8132841328413284,
	"grad_norm": 0.8076398968696594,
	"learning_rate": 6.341765638247046e-05,
	"loss": 4.038424968719482,
	"step": 1102
	},
	{
	"epoch": 0.8140221402214022,
	"grad_norm": 0.9038758873939514,
	"learning_rate": 6.29347921011124e-05,
	"loss": 4.076757431030273,
	"step": 1103
	},
	{
	"epoch": 0.814760147601476,
	"grad_norm": 1.0241302251815796,
	"learning_rate": 6.245359145867404e-05,
	"loss": 4.188800811767578,
	"step": 1104
	},
	{
	"epoch": 0.8154981549815498,
	"grad_norm": 0.8670378923416138,
	"learning_rate": 6.197405724387391e-05,
	"loss": 3.7736902236938477,
	"step": 1105
	},
	{
	"epoch": 0.8162361623616237,
	"grad_norm": 0.8043569922447205,
	"learning_rate": 6.149619223577322e-05,
	"loss": 4.0094099044799805,
	"step": 1106
	},
	{
	"epoch": 0.8169741697416975,
	"grad_norm": 1.0722813606262207,
	"learning_rate": 6.101999920375964e-05,
	"loss": 4.505285263061523,
	"step": 1107
	},
	{
	"epoch": 0.8177121771217712,
	"grad_norm": 0.8136195540428162,
	"learning_rate": 6.054548090753103e-05,
	"loss": 3.993842840194702,
	"step": 1108
	},
	{
	"epoch": 0.818450184501845,
	"grad_norm": 0.8687028288841248,
	"learning_rate": 6.0072640097079836e-05,
	"loss": 4.127281188964844,
	"step": 1109
	},
	{
	"epoch": 0.8191881918819188,
	"grad_norm": 0.879191517829895,
	"learning_rate": 5.960147951267643e-05,
	"loss": 4.027138710021973,
	"step": 1110
	},
	{
	"epoch": 0.8199261992619926,
	"grad_norm": 0.8649862408638,
	"learning_rate": 5.913200188485442e-05,
	"loss": 4.080497741699219,
	"step": 1111
	},
	{
	"epoch": 0.8206642066420664,
	"grad_norm": 0.9337714314460754,
	"learning_rate": 5.866420993439344e-05,
	"loss": 4.245942115783691,
	"step": 1112
	},
	{
	"epoch": 0.8214022140221402,
	"grad_norm": 0.8696949481964111,
	"learning_rate": 5.81981063723045e-05,
	"loss": 4.227627754211426,
	"step": 1113
	},
	{
	"epoch": 0.822140221402214,
	"grad_norm": 0.9521300792694092,
	"learning_rate": 5.773369389981347e-05,
	"loss": 4.130904197692871,
	"step": 1114
	},
	{
	"epoch": 0.8228782287822878,
	"grad_norm": 1.0789848566055298,
	"learning_rate": 5.7270975208346306e-05,
	"loss": 4.207403182983398,
	"step": 1115
	},
	{
	"epoch": 0.8236162361623616,
	"grad_norm": 0.8551551103591919,
	"learning_rate": 5.680995297951237e-05,
	"loss": 4.2299041748046875,
	"step": 1116
	},
	{
	"epoch": 0.8243542435424355,
	"grad_norm": 0.790813684463501,
	"learning_rate": 5.635062988508984e-05,
	"loss": 4.201531410217285,
	"step": 1117
	},
	{
	"epoch": 0.8250922509225093,
	"grad_norm": 0.7844054698944092,
	"learning_rate": 5.5893008587009665e-05,
	"loss": 3.9883697032928467,
	"step": 1118
	},
	{
	"epoch": 0.825830258302583,
	"grad_norm": 0.8120241165161133,
	"learning_rate": 5.543709173734044e-05,
	"loss": 3.9854788780212402,
	"step": 1119
	},
	{
	"epoch": 0.8265682656826568,
	"grad_norm": 1.1635088920593262,
	"learning_rate": 5.498288197827285e-05,
	"loss": 3.948390007019043,
	"step": 1120
	},
	{
	"epoch": 0.8273062730627306,
	"grad_norm": 0.8426750898361206,
	"learning_rate": 5.4530381942104213e-05,
	"loss": 4.034334182739258,
	"step": 1121
	},
	{
	"epoch": 0.8280442804428044,
	"grad_norm": 0.8258629441261292,
	"learning_rate": 5.4079594251223894e-05,
	"loss": 4.009230613708496,
	"step": 1122
	},
	{
	"epoch": 0.8287822878228782,
	"grad_norm": 0.8874958157539368,
	"learning_rate": 5.363052151809721e-05,
	"loss": 3.9225668907165527,
	"step": 1123
	},
	{
	"epoch": 0.829520295202952,
	"grad_norm": 0.9092878103256226,
	"learning_rate": 5.318316634525092e-05,
	"loss": 4.106935977935791,
	"step": 1124
	},
	{
	"epoch": 0.8302583025830258,
	"grad_norm": 1.0611941814422607,
	"learning_rate": 5.273753132525793e-05,
	"loss": 4.086188793182373,
	"step": 1125
	},
	{
	"epoch": 0.8309963099630996,
	"grad_norm": 0.9324346780776978,
	"learning_rate": 5.229361904072231e-05,
	"loss": 4.163631916046143,
	"step": 1126
	},
	{
	"epoch": 0.8317343173431734,
	"grad_norm": 0.901092529296875,
	"learning_rate": 5.1851432064264184e-05,
	"loss": 3.8213887214660645,
	"step": 1127
	},
	{
	"epoch": 0.8324723247232473,
	"grad_norm": 0.8883295655250549,
	"learning_rate": 5.141097295850506e-05,
	"loss": 4.020335674285889,
	"step": 1128
	},
	{
	"epoch": 0.8332103321033211,
	"grad_norm": 0.8910163044929504,
	"learning_rate": 5.0972244276052794e-05,
	"loss": 3.904737949371338,
	"step": 1129
	},
	{
	"epoch": 0.8339483394833949,
	"grad_norm": 0.9039924144744873,
	"learning_rate": 5.053524855948689e-05,
	"loss": 3.9267964363098145,
	"step": 1130
	},
	{
	"epoch": 0.8346863468634687,
	"grad_norm": 0.7226197123527527,
	"learning_rate": 5.0099988341343834e-05,
	"loss": 4.004914283752441,
	"step": 1131
	},
	{
	"epoch": 0.8354243542435424,
	"grad_norm": 1.0319029092788696,
	"learning_rate": 4.966646614410193e-05,
	"loss": 3.922898769378662,
	"step": 1132
	},
	{
	"epoch": 0.8361623616236162,
	"grad_norm": 0.8679114580154419,
	"learning_rate": 4.92346844801677e-05,
	"loss": 4.130770206451416,
	"step": 1133
	},
	{
	"epoch": 0.83690036900369,
	"grad_norm": 1.1186548471450806,
	"learning_rate": 4.8804645851860066e-05,
	"loss": 4.051120758056641,
	"step": 1134
	},
	{
	"epoch": 0.8376383763837638,
	"grad_norm": 0.9294642806053162,
	"learning_rate": 4.8376352751396885e-05,
	"loss": 4.042642593383789,
	"step": 1135
	},
	{
	"epoch": 0.8383763837638376,
	"grad_norm": 0.9107891917228699,
	"learning_rate": 4.794980766087991e-05,
	"loss": 4.207566261291504,
	"step": 1136
	},
	{
	"epoch": 0.8391143911439114,
	"grad_norm": 0.8764515519142151,
	"learning_rate": 4.752501305228076e-05,
	"loss": 3.926863670349121,
	"step": 1137
	},
	{
	"epoch": 0.8398523985239852,
	"grad_norm": 0.7595376372337341,
	"learning_rate": 4.7101971387426126e-05,
	"loss": 4.053175926208496,
	"step": 1138
	},
	{
	"epoch": 0.8405904059040591,
	"grad_norm": 1.015899419784546,
	"learning_rate": 4.668068511798407e-05,
	"loss": 4.323257923126221,
	"step": 1139
	},
	{
	"epoch": 0.8413284132841329,
	"grad_norm": 0.7909930348396301,
	"learning_rate": 4.62611566854495e-05,
	"loss": 4.0056915283203125,
	"step": 1140
	},
	{
	"epoch": 0.8420664206642067,
	"grad_norm": 0.9827620387077332,
	"learning_rate": 4.5843388521130024e-05,
	"loss": 4.075970649719238,
	"step": 1141
	},
	{
	"epoch": 0.8428044280442805,
	"grad_norm": 0.8181502223014832,
	"learning_rate": 4.5427383046131974e-05,
	"loss": 4.204850673675537,
	"step": 1142
	},
	{
	"epoch": 0.8435424354243543,
	"grad_norm": 0.917636513710022,
	"learning_rate": 4.5013142671346035e-05,
	"loss": 4.204797744750977,
	"step": 1143
	},
	{
	"epoch": 0.844280442804428,
	"grad_norm": 0.8521405458450317,
	"learning_rate": 4.46006697974341e-05,
	"loss": 3.8248231410980225,
	"step": 1144
	},
	{
	"epoch": 0.8450184501845018,
	"grad_norm": 0.9880871176719666,
	"learning_rate": 4.41899668148142e-05,
	"loss": 4.135077476501465,
	"step": 1145
	},
	{
	"epoch": 0.8457564575645756,
	"grad_norm": 0.7729653120040894,
	"learning_rate": 4.3781036103647625e-05,
	"loss": 4.0869975090026855,
	"step": 1146
	},
	{
	"epoch": 0.8464944649446494,
	"grad_norm": 0.8864187598228455,
	"learning_rate": 4.337388003382462e-05,
	"loss": 3.949108600616455,
	"step": 1147
	},
	{
	"epoch": 0.8472324723247232,
	"grad_norm": 0.7802934646606445,
	"learning_rate": 4.296850096495096e-05,
	"loss": 4.134548664093018,
	"step": 1148
	},
	{
	"epoch": 0.847970479704797,
	"grad_norm": 1.1349821090698242,
	"learning_rate": 4.2564901246333816e-05,
	"loss": 3.8663113117218018,
	"step": 1149
	},
	{
	"epoch": 0.8487084870848709,
	"grad_norm": 0.8297522068023682,
	"learning_rate": 4.216308321696862e-05,
	"loss": 4.069552421569824,
	"step": 1150
	},
	{
	"epoch": 0.8494464944649447,
	"grad_norm": 0.8287118077278137,
	"learning_rate": 4.1763049205525295e-05,
	"loss": 4.17302131652832,
	"step": 1151
	},
	{
	"epoch": 0.8501845018450185,
	"grad_norm": 0.9213622212409973,
	"learning_rate": 4.136480153033484e-05,
	"loss": 3.975867748260498,
	"step": 1152
	},
	{
	"epoch": 0.8509225092250923,
	"grad_norm": 0.937636137008667,
	"learning_rate": 4.096834249937555e-05,
	"loss": 4.308503150939941,
	"step": 1153
	},
	{
	"epoch": 0.8516605166051661,
	"grad_norm": 0.894312858581543,
	"learning_rate": 4.0573674410260384e-05,
	"loss": 4.0722808837890625,
	"step": 1154
	},
	{
	"epoch": 0.8523985239852399,
	"grad_norm": 0.8254060745239258,
	"learning_rate": 4.0180799550222964e-05,
	"loss": 4.237331390380859,
	"step": 1155
	},
	{
	"epoch": 0.8531365313653136,
	"grad_norm": 0.9793713092803955,
	"learning_rate": 3.9789720196104374e-05,
	"loss": 3.960724115371704,
	"step": 1156
	},
	{
	"epoch": 0.8538745387453874,
	"grad_norm": 0.9438844323158264,
	"learning_rate": 3.940043861434043e-05,
	"loss": 4.011446952819824,
	"step": 1157
	},
	{
	"epoch": 0.8546125461254612,
	"grad_norm": 0.9776595234870911,
	"learning_rate": 3.901295706094806e-05,
	"loss": 4.202037334442139,
	"step": 1158
	},
	{
	"epoch": 0.855350553505535,
	"grad_norm": 0.8546213507652283,
	"learning_rate": 3.862727778151262e-05,
	"loss": 4.176602363586426,
	"step": 1159
	},
	{
	"epoch": 0.8560885608856088,
	"grad_norm": 0.9939232468605042,
	"learning_rate": 3.8243403011174406e-05,
	"loss": 4.394288063049316,
	"step": 1160
	},
	{
	"epoch": 0.8568265682656827,
	"grad_norm": 0.8461161851882935,
	"learning_rate": 3.786133497461622e-05,
	"loss": 4.105259895324707,
	"step": 1161
	},
	{
	"epoch": 0.8575645756457565,
	"grad_norm": 0.8759531378746033,
	"learning_rate": 3.748107588605018e-05,
	"loss": 3.866830348968506,
	"step": 1162
	},
	{
	"epoch": 0.8583025830258303,
	"grad_norm": 0.9277933239936829,
	"learning_rate": 3.710262794920493e-05,
	"loss": 4.112336158752441,
	"step": 1163
	},
	{
	"epoch": 0.8590405904059041,
	"grad_norm": 0.8277254104614258,
	"learning_rate": 3.672599335731272e-05,
	"loss": 4.080126762390137,
	"step": 1164
	},
	{
	"epoch": 0.8597785977859779,
	"grad_norm": 0.9238406419754028,
	"learning_rate": 3.635117429309721e-05,
	"loss": 3.9586308002471924,
	"step": 1165
	},
	{
	"epoch": 0.8605166051660517,
	"grad_norm": 0.8009730577468872,
	"learning_rate": 3.597817292876031e-05,
	"loss": 4.31672477722168,
	"step": 1166
	},
	{
	"epoch": 0.8612546125461255,
	"grad_norm": 0.9162194728851318,
	"learning_rate": 3.560699142596952e-05,
	"loss": 4.007983684539795,
	"step": 1167
	},
	{
	"epoch": 0.8619926199261992,
	"grad_norm": 0.809906542301178,
	"learning_rate": 3.523763193584591e-05,
	"loss": 4.362383842468262,
	"step": 1168
	},
	{
	"epoch": 0.862730627306273,
	"grad_norm": 1.0050405263900757,
	"learning_rate": 3.487009659895132e-05,
	"loss": 3.949605941772461,
	"step": 1169
	},
	{
	"epoch": 0.8634686346863468,
	"grad_norm": 0.821631669998169,
	"learning_rate": 3.4504387545276056e-05,
	"loss": 4.222439765930176,
	"step": 1170
	},
	{
	"epoch": 0.8642066420664206,
	"grad_norm": 1.0776225328445435,
	"learning_rate": 3.414050689422626e-05,
	"loss": 4.083227157592773,
	"step": 1171
	},
	{
	"epoch": 0.8649446494464945,
	"grad_norm": 0.9266446232795715,
	"learning_rate": 3.3778456754612195e-05,
	"loss": 3.8666300773620605,
	"step": 1172
	},
	{
	"epoch": 0.8656826568265683,
	"grad_norm": 0.7478688359260559,
	"learning_rate": 3.341823922463545e-05,
	"loss": 3.9161956310272217,
	"step": 1173
	},
	{
	"epoch": 0.8664206642066421,
	"grad_norm": 0.9101294875144958,
	"learning_rate": 3.305985639187726e-05,
	"loss": 4.048511505126953,
	"step": 1174
	},
	{
	"epoch": 0.8671586715867159,
	"grad_norm": 0.9844819903373718,
	"learning_rate": 3.270331033328581e-05,
	"loss": 4.01615571975708,
	"step": 1175
	},
	{
	"epoch": 0.8678966789667897,
	"grad_norm": 0.8775573968887329,
	"learning_rate": 3.2348603115165085e-05,
	"loss": 4.202104568481445,
	"step": 1176
	},
	{
	"epoch": 0.8686346863468635,
	"grad_norm": 0.8407407999038696,
	"learning_rate": 3.199573679316183e-05,
	"loss": 4.121450424194336,
	"step": 1177
	},
	{
	"epoch": 0.8693726937269373,
	"grad_norm": 0.9224722981452942,
	"learning_rate": 3.164471341225457e-05,
	"loss": 3.914332389831543,
	"step": 1178
	},
	{
	"epoch": 0.870110701107011,
	"grad_norm": 0.8708797693252563,
	"learning_rate": 3.1295535006741184e-05,
	"loss": 3.9288840293884277,
	"step": 1179
	},
	{
	"epoch": 0.8708487084870848,
	"grad_norm": 0.8619300127029419,
	"learning_rate": 3.0948203600227365e-05,
	"loss": 4.033664226531982,
	"step": 1180
	},
	{
	"epoch": 0.8715867158671586,
	"grad_norm": 1.0247814655303955,
	"learning_rate": 3.060272120561491e-05,
	"loss": 3.908498764038086,
	"step": 1181
	},
	{
	"epoch": 0.8723247232472324,
	"grad_norm": 0.8571381568908691,
	"learning_rate": 3.0259089825089657e-05,
	"loss": 3.937492847442627,
	"step": 1182
	},
	{
	"epoch": 0.8730627306273063,
	"grad_norm": 0.8049359917640686,
	"learning_rate": 2.9917311450110688e-05,
	"loss": 4.154782295227051,
	"step": 1183
	},
	{
	"epoch": 0.8738007380073801,
	"grad_norm": 0.8404570817947388,
	"learning_rate": 2.9577388061397813e-05,
	"loss": 3.8062617778778076,
	"step": 1184
	},
	{
	"epoch": 0.8745387453874539,
	"grad_norm": 0.8313830494880676,
	"learning_rate": 2.92393216289209e-05,
	"loss": 4.034999847412109,
	"step": 1185
	},
	{
	"epoch": 0.8752767527675277,
	"grad_norm": 0.8629732131958008,
	"learning_rate": 2.8903114111887997e-05,
	"loss": 3.9214658737182617,
	"step": 1186
	},
	{
	"epoch": 0.8760147601476015,
	"grad_norm": 0.788813054561615,
	"learning_rate": 2.8568767458734206e-05,
	"loss": 4.004258155822754,
	"step": 1187
	},
	{
	"epoch": 0.8767527675276753,
	"grad_norm": 1.0045006275177002,
	"learning_rate": 2.8236283607110122e-05,
	"loss": 4.084541320800781,
	"step": 1188
	},
	{
	"epoch": 0.8774907749077491,
	"grad_norm": 0.9397458434104919,
	"learning_rate": 2.7905664483871018e-05,
	"loss": 4.225802421569824,
	"step": 1189
	},
	{
	"epoch": 0.8782287822878229,
	"grad_norm": 0.9364494681358337,
	"learning_rate": 2.757691200506522e-05,
	"loss": 4.048999786376953,
	"step": 1190
	},
	{
	"epoch": 0.8789667896678967,
	"grad_norm": 0.9341748952865601,
	"learning_rate": 2.7250028075923393e-05,
	"loss": 4.081840515136719,
	"step": 1191
	},
	{
	"epoch": 0.8797047970479704,
	"grad_norm": 1.1266894340515137,
	"learning_rate": 2.6925014590847357e-05,
	"loss": 4.127097129821777,
	"step": 1192
	},
	{
	"epoch": 0.8804428044280442,
	"grad_norm": 1.646851658821106,
	"learning_rate": 2.660187343339872e-05,
	"loss": 3.9492740631103516,
	"step": 1193
	},
	{
	"epoch": 0.8811808118081181,
	"grad_norm": 0.8900485038757324,
	"learning_rate": 2.628060647628891e-05,
	"loss": 4.004465103149414,
	"step": 1194
	},
	{
	"epoch": 0.8819188191881919,
	"grad_norm": 1.2839107513427734,
	"learning_rate": 2.596121558136723e-05,
	"loss": 3.9589195251464844,
	"step": 1195
	},
	{
	"epoch": 0.8826568265682657,
	"grad_norm": 0.9112879037857056,
	"learning_rate": 2.564370259961085e-05,
	"loss": 3.956997871398926,
	"step": 1196
	},
	{
	"epoch": 0.8833948339483395,
	"grad_norm": 0.9632598161697388,
	"learning_rate": 2.532806937111368e-05,
	"loss": 4.068366050720215,
	"step": 1197
	},
	{
	"epoch": 0.8841328413284133,
	"grad_norm": 1.0053609609603882,
	"learning_rate": 2.5014317725075963e-05,
	"loss": 4.128815650939941,
	"step": 1198
	},
	{
	"epoch": 0.8848708487084871,
	"grad_norm": 0.9752780199050903,
	"learning_rate": 2.470244947979335e-05,
	"loss": 4.243814468383789,
	"step": 1199
	},
	{
	"epoch": 0.8856088560885609,
	"grad_norm": 0.8026096820831299,
	"learning_rate": 2.439246644264672e-05,
	"loss": 3.8507800102233887,
	"step": 1200
	},
	{
	"epoch": 0.8863468634686347,
	"grad_norm": 1.0604981184005737,
	"learning_rate": 2.4084370410091432e-05,
	"loss": 4.058777332305908,
	"step": 1201
	},
	{
	"epoch": 0.8870848708487085,
	"grad_norm": 0.9318236708641052,
	"learning_rate": 2.377816316764712e-05,
	"loss": 3.807260751724243,
	"step": 1202
	},
	{
	"epoch": 0.8878228782287823,
	"grad_norm": 0.902949333190918,
	"learning_rate": 2.347384648988722e-05,
	"loss": 4.102638244628906,
	"step": 1203
	},
	{
	"epoch": 0.888560885608856,
	"grad_norm": 0.8091539144515991,
	"learning_rate": 2.317142214042854e-05,
	"loss": 4.0851216316223145,
	"step": 1204
	},
	{
	"epoch": 0.8892988929889298,
	"grad_norm": 0.9384903907775879,
	"learning_rate": 2.28708918719216e-05,
	"loss": 3.8504605293273926,
	"step": 1205
	},
	{
	"epoch": 0.8900369003690037,
	"grad_norm": 1.5000700950622559,
	"learning_rate": 2.2572257426039673e-05,
	"loss": 3.7018003463745117,
	"step": 1206
	},
	{
	"epoch": 0.8907749077490775,
	"grad_norm": 0.853367269039154,
	"learning_rate": 2.2275520533469324e-05,
	"loss": 4.134353160858154,
	"step": 1207
	},
	{
	"epoch": 0.8915129151291513,
	"grad_norm": 0.9626766443252563,
	"learning_rate": 2.1980682913900136e-05,
	"loss": 3.798292636871338,
	"step": 1208
	},
	{
	"epoch": 0.8922509225092251,
	"grad_norm": 1.0532819032669067,
	"learning_rate": 2.1687746276014825e-05,
	"loss": 3.908432960510254,
	"step": 1209
	},
	{
	"epoch": 0.8929889298892989,
	"grad_norm": 0.9355469346046448,
	"learning_rate": 2.1396712317479066e-05,
	"loss": 3.97414493560791,
	"step": 1210
	},
	{
	"epoch": 0.8937269372693727,
	"grad_norm": 0.9721041917800903,
	"learning_rate": 2.110758272493209e-05,
	"loss": 4.170253753662109,
	"step": 1211
	},
	{
	"epoch": 0.8944649446494465,
	"grad_norm": 1.4950439929962158,
	"learning_rate": 2.082035917397661e-05,
	"loss": 3.9789202213287354,
	"step": 1212
	},
	{
	"epoch": 0.8952029520295203,
	"grad_norm": 0.7959940433502197,
	"learning_rate": 2.05350433291692e-05,
	"loss": 3.8894667625427246,
	"step": 1213
	},
	{
	"epoch": 0.8959409594095941,
	"grad_norm": 0.885735034942627,
	"learning_rate": 2.0251636844010645e-05,
	"loss": 4.206930637359619,
	"step": 1214
	},
	{
	"epoch": 0.8966789667896679,
	"grad_norm": 0.8489437103271484,
	"learning_rate": 1.997014136093635e-05,
	"loss": 4.1217241287231445,
	"step": 1215
	},
	{
	"epoch": 0.8974169741697416,
	"grad_norm": 0.9283955693244934,
	"learning_rate": 1.9690558511306816e-05,
	"loss": 4.022772789001465,
	"step": 1216
	},
	{
	"epoch": 0.8981549815498155,
	"grad_norm": 1.0239266157150269,
	"learning_rate": 1.9412889915398164e-05,
	"loss": 3.9056153297424316,
	"step": 1217
	},
	{
	"epoch": 0.8988929889298893,
	"grad_norm": 0.8964755535125732,
	"learning_rate": 1.91371371823928e-05,
	"loss": 4.042991638183594,
	"step": 1218
	},
	{
	"epoch": 0.8996309963099631,
	"grad_norm": 0.8521272540092468,
	"learning_rate": 1.88633019103701e-05,
	"loss": 4.2974958419799805,
	"step": 1219
	},
	{
	"epoch": 0.9003690036900369,
	"grad_norm": 0.8455408215522766,
	"learning_rate": 1.859138568629708e-05,
	"loss": 4.03305721282959,
	"step": 1220
	},
	{
	"epoch": 0.9011070110701107,
	"grad_norm": 0.9025142788887024,
	"learning_rate": 1.832139008601918e-05,
	"loss": 4.064189434051514,
	"step": 1221
	},
	{
	"epoch": 0.9018450184501845,
	"grad_norm": 0.789932131767273,
	"learning_rate": 1.8053316674251256e-05,
	"loss": 3.8885226249694824,
	"step": 1222
	},
	{
	"epoch": 0.9025830258302583,
	"grad_norm": 0.8709638118743896,
	"learning_rate": 1.7787167004568416e-05,
	"loss": 4.0818986892700195,
	"step": 1223
	},
	{
	"epoch": 0.9033210332103321,
	"grad_norm": 1.0169392824172974,
	"learning_rate": 1.75229426193971e-05,
	"loss": 4.12254524230957,
	"step": 1224
	},
	{
	"epoch": 0.9040590405904059,
	"grad_norm": 0.9385191798210144,
	"learning_rate": 1.7260645050005903e-05,
	"loss": 3.894554853439331,
	"step": 1225
	},
	{
	"epoch": 0.9047970479704797,
	"grad_norm": 0.87216717004776,
	"learning_rate": 1.7000275816497063e-05,
	"loss": 4.0138773918151855,
	"step": 1226
	},
	{
	"epoch": 0.9055350553505535,
	"grad_norm": 0.8227195143699646,
	"learning_rate": 1.6741836427797447e-05,
	"loss": 3.842376708984375,
	"step": 1227
	},
	{
	"epoch": 0.9062730627306274,
	"grad_norm": 0.9171870350837708,
	"learning_rate": 1.6485328381649667e-05,
	"loss": 4.184534072875977,
	"step": 1228
	},
	{
	"epoch": 0.9070110701107011,
	"grad_norm": 0.8216118216514587,
	"learning_rate": 1.6230753164603735e-05,
	"loss": 3.9486520290374756,
	"step": 1229
	},
	{
	"epoch": 0.9077490774907749,
	"grad_norm": 0.8233117461204529,
	"learning_rate": 1.597811225200816e-05,
	"loss": 4.167961597442627,
	"step": 1230
	},
	{
	"epoch": 0.9084870848708487,
	"grad_norm": 0.9360010623931885,
	"learning_rate": 1.5727407108001634e-05,
	"loss": 4.118611812591553,
	"step": 1231
	},
	{
	"epoch": 0.9092250922509225,
	"grad_norm": 0.8383175730705261,
	"learning_rate": 1.5478639185504255e-05,
	"loss": 4.2346062660217285,
	"step": 1232
	},
	{
	"epoch": 0.9099630996309963,
	"grad_norm": 0.7830789685249329,
	"learning_rate": 1.52318099262094e-05,
	"loss": 4.022680759429932,
	"step": 1233
	},
	{
	"epoch": 0.9107011070110701,
	"grad_norm": 0.8860730528831482,
	"learning_rate": 1.4986920760575173e-05,
	"loss": 3.8851001262664795,
	"step": 1234
	},
	{
	"epoch": 0.9114391143911439,
	"grad_norm": 1.0096216201782227,
	"learning_rate": 1.4743973107816294e-05,
	"loss": 4.16072940826416,
	"step": 1235
	},
	{
	"epoch": 0.9121771217712177,
	"grad_norm": 0.8702698945999146,
	"learning_rate": 1.4502968375895542e-05,
	"loss": 4.074400901794434,
	"step": 1236
	},
	{
	"epoch": 0.9129151291512915,
	"grad_norm": 1.0048964023590088,
	"learning_rate": 1.4263907961516103e-05,
	"loss": 4.206517219543457,
	"step": 1237
	},
	{
	"epoch": 0.9136531365313653,
	"grad_norm": 1.0056480169296265,
	"learning_rate": 1.40267932501131e-05,
	"loss": 4.110833644866943,
	"step": 1238
	},
	{
	"epoch": 0.9143911439114392,
	"grad_norm": 0.9925635457038879,
	"learning_rate": 1.379162561584547e-05,
	"loss": 3.903393507003784,
	"step": 1239
	},
	{
	"epoch": 0.915129151291513,
	"grad_norm": 1.1309577226638794,
	"learning_rate": 1.3558406421588386e-05,
	"loss": 4.20203971862793,
	"step": 1240
	},
	{
	"epoch": 0.9158671586715867,
	"grad_norm": 0.9794964790344238,
	"learning_rate": 1.332713701892514e-05,
	"loss": 4.138725280761719,
	"step": 1241
	},
	{
	"epoch": 0.9166051660516605,
	"grad_norm": 0.9882869720458984,
	"learning_rate": 1.3097818748139284e-05,
	"loss": 3.934995174407959,
	"step": 1242
	},
	{
	"epoch": 0.9173431734317343,
	"grad_norm": 0.9639918804168701,
	"learning_rate": 1.2870452938206834e-05,
	"loss": 3.992349147796631,
	"step": 1243
	},
	{
	"epoch": 0.9180811808118081,
	"grad_norm": 0.761677086353302,
	"learning_rate": 1.2645040906788873e-05,
	"loss": 4.091512680053711,
	"step": 1244
	},
	{
	"epoch": 0.9188191881918819,
	"grad_norm": 0.8653919100761414,
	"learning_rate": 1.2421583960223403e-05,
	"loss": 4.175684452056885,
	"step": 1245
	},
	{
	"epoch": 0.9195571955719557,
	"grad_norm": 0.8463162779808044,
	"learning_rate": 1.22000833935183e-05,
	"loss": 3.7140493392944336,
	"step": 1246
	},
	{
	"epoch": 0.9202952029520295,
	"grad_norm": 1.5709336996078491,
	"learning_rate": 1.1980540490343322e-05,
	"loss": 4.196260452270508,
	"step": 1247
	},
	{
	"epoch": 0.9210332103321033,
	"grad_norm": 1.0555191040039062,
	"learning_rate": 1.1762956523023177e-05,
	"loss": 4.01348876953125,
	"step": 1248
	},
	{
	"epoch": 0.9217712177121771,
	"grad_norm": 0.8740063309669495,
	"learning_rate": 1.1547332752529649e-05,
	"loss": 4.2362470626831055,
	"step": 1249
	},
	{
	"epoch": 0.922509225092251,
	"grad_norm": 0.7975241541862488,
	"learning_rate": 1.1333670428474634e-05,
	"loss": 3.9546077251434326,
	"step": 1250
	},
	{
	"epoch": 0.9232472324723248,
	"grad_norm": 0.9999665021896362,
	"learning_rate": 1.1121970789102842e-05,
	"loss": 4.26607608795166,
	"step": 1251
	},
	{
	"epoch": 0.9239852398523986,
	"grad_norm": 0.8974668979644775,
	"learning_rate": 1.0912235061284481e-05,
	"loss": 3.8792271614074707,
	"step": 1252
	},
	{
	"epoch": 0.9247232472324723,
	"grad_norm": 0.9566179513931274,
	"learning_rate": 1.0704464460508312e-05,
	"loss": 3.9453883171081543,
	"step": 1253
	},
	{
	"epoch": 0.9254612546125461,
	"grad_norm": 0.8908551335334778,
	"learning_rate": 1.0498660190874298e-05,
	"loss": 4.036525726318359,
	"step": 1254
	},
	{
	"epoch": 0.9261992619926199,
	"grad_norm": 0.8145546317100525,
	"learning_rate": 1.0294823445087275e-05,
	"loss": 4.188867568969727,
	"step": 1255
	},
	{
	"epoch": 0.9269372693726937,
	"grad_norm": 0.8675177097320557,
	"learning_rate": 1.0092955404449255e-05,
	"loss": 4.099850654602051,
	"step": 1256
	},
	{
	"epoch": 0.9276752767527675,
	"grad_norm": 0.8431053757667542,
	"learning_rate": 9.893057238853053e-06,
	"loss": 4.123414039611816,
	"step": 1257
	},
	{
	"epoch": 0.9284132841328413,
	"grad_norm": 0.8683810830116272,
	"learning_rate": 9.69513010677545e-06,
	"loss": 4.246320724487305,
	"step": 1258
	},
	{
	"epoch": 0.9291512915129151,
	"grad_norm": 0.8188611268997192,
	"learning_rate": 9.499175155270433e-06,
	"loss": 4.140353202819824,
	"step": 1259
	},
	{
	"epoch": 0.9298892988929889,
	"grad_norm": 0.9163283705711365,
	"learning_rate": 9.30519351996243e-06,
	"loss": 4.289680480957031,
	"step": 1260
	},
	{
	"epoch": 0.9306273062730628,
	"grad_norm": 0.9404510855674744,
	"learning_rate": 9.113186325039935e-06,
	"loss": 3.925518035888672,
	"step": 1261
	},
	{
	"epoch": 0.9313653136531366,
	"grad_norm": 1.0115693807601929,
	"learning_rate": 8.923154683248873e-06,
	"loss": 4.255781173706055,
	"step": 1262
	},
	{
	"epoch": 0.9321033210332104,
	"grad_norm": 0.9950158596038818,
	"learning_rate": 8.735099695886261e-06,
	"loss": 4.2205657958984375,
	"step": 1263
	},
	{
	"epoch": 0.9328413284132842,
	"grad_norm": 0.886117160320282,
	"learning_rate": 8.549022452793597e-06,
	"loss": 4.172645568847656,
	"step": 1264
	},
	{
	"epoch": 0.933579335793358,
	"grad_norm": 0.8960427045822144,
	"learning_rate": 8.364924032350728e-06,
	"loss": 4.060420513153076,
	"step": 1265
	},
	{
	"epoch": 0.9343173431734317,
	"grad_norm": 0.9799672961235046,
	"learning_rate": 8.18280550146967e-06,
	"loss": 4.113704681396484,
	"step": 1266
	},
	{
	"epoch": 0.9350553505535055,
	"grad_norm": 1.0600509643554688,
	"learning_rate": 8.002667915588191e-06,
	"loss": 4.008590221405029,
	"step": 1267
	},
	{
	"epoch": 0.9357933579335793,
	"grad_norm": 1.0815836191177368,
	"learning_rate": 7.824512318663873e-06,
	"loss": 3.9697742462158203,
	"step": 1268
	},
	{
	"epoch": 0.9365313653136531,
	"grad_norm": 0.8676935434341431,
	"learning_rate": 7.648339743168008e-06,
	"loss": 3.9918062686920166,
	"step": 1269
	},
	{
	"epoch": 0.9372693726937269,
	"grad_norm": 0.8141337633132935,
	"learning_rate": 7.474151210079654e-06,
	"loss": 4.000406742095947,
	"step": 1270
	},
	{
	"epoch": 0.9380073800738007,
	"grad_norm": 0.9304051995277405,
	"learning_rate": 7.301947728879571e-06,
	"loss": 4.1023969650268555,
	"step": 1271
	},
	{
	"epoch": 0.9387453874538746,
	"grad_norm": 0.8569762110710144,
	"learning_rate": 7.131730297544547e-06,
	"loss": 3.9308419227600098,
	"step": 1272
	},
	{
	"epoch": 0.9394833948339484,
	"grad_norm": 0.9410969018936157,
	"learning_rate": 6.963499902541575e-06,
	"loss": 4.188969612121582,
	"step": 1273
	},
	{
	"epoch": 0.9402214022140222,
	"grad_norm": 1.1418845653533936,
	"learning_rate": 6.7972575188220975e-06,
	"loss": 3.789651870727539,
	"step": 1274
	},
	{
	"epoch": 0.940959409594096,
	"grad_norm": 0.8757267594337463,
	"learning_rate": 6.633004109816293e-06,
	"loss": 4.139651298522949,
	"step": 1275
	},
	{
	"epoch": 0.9416974169741698,
	"grad_norm": 0.794495165348053,
	"learning_rate": 6.4707406274276015e-06,
	"loss": 4.01513671875,
	"step": 1276
	},
	{
	"epoch": 0.9424354243542435,
	"grad_norm": 0.8835275769233704,
	"learning_rate": 6.310468012027321e-06,
	"loss": 4.235984802246094,
	"step": 1277
	},
	{
	"epoch": 0.9431734317343173,
	"grad_norm": 0.8845841884613037,
	"learning_rate": 6.152187192448738e-06,
	"loss": 4.170893669128418,
	"step": 1278
	},
	{
	"epoch": 0.9439114391143911,
	"grad_norm": 0.8521038293838501,
	"learning_rate": 5.995899085982198e-06,
	"loss": 4.143123626708984,
	"step": 1279
	},
	{
	"epoch": 0.9446494464944649,
	"grad_norm": 0.8681446313858032,
	"learning_rate": 5.841604598369543e-06,
	"loss": 3.9806013107299805,
	"step": 1280
	},
	{
	"epoch": 0.9453874538745387,
	"grad_norm": 0.8543822765350342,
	"learning_rate": 5.689304623799063e-06,
	"loss": 4.092264175415039,
	"step": 1281
	},
	{
	"epoch": 0.9461254612546125,
	"grad_norm": 0.8498107194900513,
	"learning_rate": 5.5390000448999e-06,
	"loss": 3.961348056793213,
	"step": 1282
	},
	{
	"epoch": 0.9468634686346864,
	"grad_norm": 0.9987668991088867,
	"learning_rate": 5.390691732737501e-06,
	"loss": 3.853841781616211,
	"step": 1283
	},
	{
	"epoch": 0.9476014760147602,
	"grad_norm": 0.8435112833976746,
	"learning_rate": 5.244380546808064e-06,
	"loss": 4.074121475219727,
	"step": 1284
	},
	{
	"epoch": 0.948339483394834,
	"grad_norm": 0.9243870377540588,
	"learning_rate": 5.100067335033909e-06,
	"loss": 3.9349491596221924,
	"step": 1285
	},
	{
	"epoch": 0.9490774907749078,
	"grad_norm": 0.9198288917541504,
	"learning_rate": 4.957752933758391e-06,
	"loss": 4.085498332977295,
	"step": 1286
	},
	{
	"epoch": 0.9498154981549816,
	"grad_norm": 1.0337499380111694,
	"learning_rate": 4.817438167741045e-06,
	"loss": 4.015393257141113,
	"step": 1287
	},
	{
	"epoch": 0.9505535055350554,
	"grad_norm": 0.9356955289840698,
	"learning_rate": 4.679123850152955e-06,
	"loss": 4.079366683959961,
	"step": 1288
	},
	{
	"epoch": 0.9512915129151291,
	"grad_norm": 0.8707476854324341,
	"learning_rate": 4.542810782571749e-06,
	"loss": 3.9717764854431152,
	"step": 1289
	},
	{
	"epoch": 0.9520295202952029,
	"grad_norm": 0.8522350788116455,
	"learning_rate": 4.4084997549773184e-06,
	"loss": 3.9818825721740723,
	"step": 1290
	},
	{
	"epoch": 0.9527675276752767,
	"grad_norm": 0.9296215176582336,
	"learning_rate": 4.276191545747004e-06,
	"loss": 4.0599365234375,
	"step": 1291
	},
	{
	"epoch": 0.9535055350553505,
	"grad_norm": 0.9785073399543762,
	"learning_rate": 4.145886921651165e-06,
	"loss": 3.9496049880981445,
	"step": 1292
	},
	{
	"epoch": 0.9542435424354243,
	"grad_norm": 1.0265014171600342,
	"learning_rate": 4.017586637848669e-06,
	"loss": 3.9062700271606445,
	"step": 1293
	},
	{
	"epoch": 0.9549815498154982,
	"grad_norm": 0.8512267470359802,
	"learning_rate": 3.891291437882544e-06,
	"loss": 3.8862087726593018,
	"step": 1294
	},
	{
	"epoch": 0.955719557195572,
	"grad_norm": 0.9458624124526978,
	"learning_rate": 3.7670020536757775e-06,
	"loss": 4.076284408569336,
	"step": 1295
	},
	{
	"epoch": 0.9564575645756458,
	"grad_norm": 1.0091397762298584,
	"learning_rate": 3.6447192055269694e-06,
	"loss": 4.171298503875732,
	"step": 1296
	},
	{
	"epoch": 0.9571955719557196,
	"grad_norm": 1.085514783859253,
	"learning_rate": 3.5244436021060143e-06,
	"loss": 4.2273736000061035,
	"step": 1297
	},
	{
	"epoch": 0.9579335793357934,
	"grad_norm": 0.9626381397247314,
	"learning_rate": 3.4061759404503734e-06,
	"loss": 3.9600830078125,
	"step": 1298
	},
	{
	"epoch": 0.9586715867158672,
	"grad_norm": 0.892805814743042,
	"learning_rate": 3.2899169059607216e-06,
	"loss": 4.168842315673828,
	"step": 1299
	},
	{
	"epoch": 0.959409594095941,
	"grad_norm": 1.0419422388076782,
	"learning_rate": 3.1756671723969843e-06,
	"loss": 4.045411109924316,
	"step": 1300
	},
	{
	"epoch": 0.9601476014760147,
	"grad_norm": 0.9553176760673523,
	"learning_rate": 3.0634274018746466e-06,
	"loss": 4.090331077575684,
	"step": 1301
	},
	{
	"epoch": 0.9608856088560885,
	"grad_norm": 0.7899879813194275,
	"learning_rate": 2.9531982448607108e-06,
	"loss": 4.1696577072143555,
	"step": 1302
	},
	{
	"epoch": 0.9616236162361623,
	"grad_norm": 0.8720894455909729,
	"learning_rate": 2.8449803401700445e-06,
	"loss": 4.093484878540039,
	"step": 1303
	},
	{
	"epoch": 0.9623616236162361,
	"grad_norm": 0.93953937292099,
	"learning_rate": 2.738774314961534e-06,
	"loss": 4.138238430023193,
	"step": 1304
	},
	{
	"epoch": 0.9630996309963099,
	"grad_norm": 0.8301063179969788,
	"learning_rate": 2.6345807847347413e-06,
	"loss": 4.250385761260986,
	"step": 1305
	},
	{
	"epoch": 0.9638376383763838,
	"grad_norm": 0.9756575226783752,
	"learning_rate": 2.532400353325903e-06,
	"loss": 4.020941734313965,
	"step": 1306
	},
	{
	"epoch": 0.9645756457564576,
	"grad_norm": 0.955294132232666,
	"learning_rate": 2.4322336129049384e-06,
	"loss": 4.259998321533203,
	"step": 1307
	},
	{
	"epoch": 0.9653136531365314,
	"grad_norm": 0.8463285565376282,
	"learning_rate": 2.3340811439715223e-06,
	"loss": 4.142585754394531,
	"step": 1308
	},
	{
	"epoch": 0.9660516605166052,
	"grad_norm": 1.4179046154022217,
	"learning_rate": 2.237943515352098e-06,
	"loss": 3.9881856441497803,
	"step": 1309
	},
	{
	"epoch": 0.966789667896679,
	"grad_norm": 0.9249223470687866,
	"learning_rate": 2.1438212841963734e-06,
	"loss": 4.063835144042969,
	"step": 1310
	},
	{
	"epoch": 0.9675276752767528,
	"grad_norm": 0.8510631322860718,
	"learning_rate": 2.051714995974141e-06,
	"loss": 3.82594895362854,
	"step": 1311
	},
	{
	"epoch": 0.9682656826568266,
	"grad_norm": 1.0183271169662476,
	"learning_rate": 1.9616251844722042e-06,
	"loss": 4.1191205978393555,
	"step": 1312
	},
	{
	"epoch": 0.9690036900369003,
	"grad_norm": 0.9534389972686768,
	"learning_rate": 1.873552371791115e-06,
	"loss": 4.130201816558838,
	"step": 1313
	},
	{
	"epoch": 0.9697416974169741,
	"grad_norm": 0.9956035017967224,
	"learning_rate": 1.7874970683423364e-06,
	"loss": 3.9721202850341797,
	"step": 1314
	},
	{
	"epoch": 0.9704797047970479,
	"grad_norm": 0.8220584988594055,
	"learning_rate": 1.703459772845095e-06,
	"loss": 4.076860427856445,
	"step": 1315
	},
	{
	"epoch": 0.9712177121771217,
	"grad_norm": 0.9613221287727356,
	"learning_rate": 1.6214409723236623e-06,
	"loss": 3.937884569168091,
	"step": 1316
	},
	{
	"epoch": 0.9719557195571956,
	"grad_norm": 0.8680334687232971,
	"learning_rate": 1.5414411421044382e-06,
	"loss": 4.201882362365723,
	"step": 1317
	},
	{
	"epoch": 0.9726937269372694,
	"grad_norm": 0.759444534778595,
	"learning_rate": 1.4634607458131555e-06,
	"loss": 4.007597923278809,
	"step": 1318
	},
	{
	"epoch": 0.9734317343173432,
	"grad_norm": 1.0436582565307617,
	"learning_rate": 1.387500235372352e-06,
	"loss": 4.142274379730225,
	"step": 1319
	},
	{
	"epoch": 0.974169741697417,
	"grad_norm": 0.9300816059112549,
	"learning_rate": 1.3135600509985745e-06,
	"loss": 4.145612716674805,
	"step": 1320
	},
	{
	"epoch": 0.9749077490774908,
	"grad_norm": 0.9446290731430054,
	"learning_rate": 1.2416406211999298e-06,
	"loss": 4.090052604675293,
	"step": 1321
	},
	{
	"epoch": 0.9756457564575646,
	"grad_norm": 0.8639572262763977,
	"learning_rate": 1.171742362773559e-06,
	"loss": 3.974188804626465,
	"step": 1322
	},
	{
	"epoch": 0.9763837638376384,
	"grad_norm": 0.8869412541389465,
	"learning_rate": 1.1038656808032675e-06,
	"loss": 3.864497184753418,
	"step": 1323
	},
	{
	"epoch": 0.9771217712177122,
	"grad_norm": 1.0420503616333008,
	"learning_rate": 1.0380109686571549e-06,
	"loss": 4.054100036621094,
	"step": 1324
	},
	{
	"epoch": 0.977859778597786,
	"grad_norm": 0.8223108053207397,
	"learning_rate": 9.74178607985282e-07,
	"loss": 3.966116428375244,
	"step": 1325
	},
	{
	"epoch": 0.9785977859778597,
	"grad_norm": 0.9738601446151733,
	"learning_rate": 9.123689687175751e-07,
	"loss": 4.062865257263184,
	"step": 1326
	},
	{
	"epoch": 0.9793357933579335,
	"grad_norm": 0.9468348026275635,
	"learning_rate": 8.525824090615308e-07,
	"loss": 3.845522165298462,
	"step": 1327
	},
	{
	"epoch": 0.9800738007380074,
	"grad_norm": 0.9388923048973083,
	"learning_rate": 7.948192755002747e-07,
	"loss": 4.0565595626831055,
	"step": 1328
	},
	{
	"epoch": 0.9808118081180812,
	"grad_norm": 0.8884272575378418,
	"learning_rate": 7.390799027904627e-07,
	"loss": 3.9518604278564453,
	"step": 1329
	},
	{
	"epoch": 0.981549815498155,
	"grad_norm": 0.8875818252563477,
	"learning_rate": 6.85364613960493e-07,
	"loss": 4.188823223114014,
	"step": 1330
	},
	{
	"epoch": 0.9822878228782288,
	"grad_norm": 0.7383257150650024,
	"learning_rate": 6.336737203083698e-07,
	"loss": 4.029225826263428,
	"step": 1331
	},
	{
	"epoch": 0.9830258302583026,
	"grad_norm": 0.8472557663917542,
	"learning_rate": 5.840075214001095e-07,
	"loss": 4.239529609680176,
	"step": 1332
	},
	{
	"epoch": 0.9837638376383764,
	"grad_norm": 0.8474605679512024,
	"learning_rate": 5.363663050679535e-07,
	"loss": 4.032186508178711,
	"step": 1333
	},
	{
	"epoch": 0.9845018450184502,
	"grad_norm": 1.059869647026062,
	"learning_rate": 4.90750347408736e-07,
	"loss": 4.1005859375,
	"step": 1334
	},
	{
	"epoch": 0.985239852398524,
	"grad_norm": 0.8023120760917664,
	"learning_rate": 4.4715991278213576e-07,
	"loss": 3.901467800140381,
	"step": 1335
	},
	{
	"epoch": 0.9859778597785978,
	"grad_norm": 0.8805201053619385,
	"learning_rate": 4.0559525380935435e-07,
	"loss": 3.9754929542541504,
	"step": 1336
	},
	{
	"epoch": 0.9867158671586715,
	"grad_norm": 0.844008207321167,
	"learning_rate": 3.660566113714847e-07,
	"loss": 4.112626552581787,
	"step": 1337
	},
	{
	"epoch": 0.9874538745387453,
	"grad_norm": 0.8604761958122253,
	"learning_rate": 3.2854421460815075e-07,
	"loss": 3.6430814266204834,
	"step": 1338
	},
	{
	"epoch": 0.9881918819188192,
	"grad_norm": 0.8547300100326538,
	"learning_rate": 2.930582809162641e-07,
	"loss": 4.121878623962402,
	"step": 1339
	},
	{
	"epoch": 0.988929889298893,
	"grad_norm": 0.9670364260673523,
	"learning_rate": 2.5959901594870273e-07,
	"loss": 3.9410769939422607,
	"step": 1340
	},
	{
	"epoch": 0.9896678966789668,
	"grad_norm": 1.0530565977096558,
	"learning_rate": 2.281666136130678e-07,
	"loss": 3.989541530609131,
	"step": 1341
	},
	{
	"epoch": 0.9904059040590406,
	"grad_norm": 1.0222362279891968,
	"learning_rate": 1.9876125607067309e-07,
	"loss": 4.04118537902832,
	"step": 1342
	},
	{
	"epoch": 0.9911439114391144,
	"grad_norm": 0.7860491275787354,
	"learning_rate": 1.713831137353794e-07,
	"loss": 3.8432321548461914,
	"step": 1343
	},
	{
	"epoch": 0.9918819188191882,
	"grad_norm": 0.8329381942749023,
	"learning_rate": 1.460323452727008e-07,
	"loss": 3.9724719524383545,
	"step": 1344
	},
	{
	"epoch": 0.992619926199262,
	"grad_norm": 0.8542125225067139,
	"learning_rate": 1.2270909759879432e-07,
	"loss": 4.1086506843566895,
	"step": 1345
	},
	{
	"epoch": 0.9933579335793358,
	"grad_norm": 0.9141987562179565,
	"learning_rate": 1.0141350587972164e-07,
	"loss": 3.7987635135650635,
	"step": 1346
	},
	{
	"epoch": 0.9940959409594096,
	"grad_norm": 0.8679295778274536,
	"learning_rate": 8.214569353055534e-08,
	"loss": 4.131080627441406,
	"step": 1347
	},
	{
	"epoch": 0.9948339483394834,
	"grad_norm": 0.9177278876304626,
	"learning_rate": 6.490577221467953e-08,
	"loss": 4.434652328491211,
	"step": 1348
	},
	{
	"epoch": 0.9955719557195571,
	"grad_norm": 0.8580910563468933,
	"learning_rate": 4.9693841843245764e-08,
	"loss": 4.102374076843262,
	"step": 1349
	},
	{
	"epoch": 0.996309963099631,
	"grad_norm": 0.9112648367881775,
	"learning_rate": 3.6509990574473684e-08,
	"loss": 4.2107343673706055,
	"step": 1350
	},
	{
	"epoch": 0.9970479704797048,
	"grad_norm": 1.0079255104064941,
	"learning_rate": 2.535429481318463e-08,
	"loss": 3.846949577331543,
	"step": 1351
	},
	{
	"epoch": 0.9977859778597786,
	"grad_norm": 0.7972182035446167,
	"learning_rate": 1.622681921033542e-08,
	"loss": 3.9979095458984375,
	"step": 1352
	},
	{
	"epoch": 0.9985239852398524,
	"grad_norm": 0.8567417860031128,
	"learning_rate": 9.127616662746307e-09,
	"loss": 3.994305372238159,
	"step": 1353
	},
	{
	"epoch": 0.9992619926199262,
	"grad_norm": 0.8455564379692078,
	"learning_rate": 4.0567283126347055e-09,
	"loss": 4.195075988769531,
	"step": 1354
	},
	{
	"epoch": 1.0,
	"grad_norm": 0.7844815254211426,
	"learning_rate": 1.0141835475374616e-09,
	"loss": 4.3078813552856445,
	"step": 1355
	}
	],
	"logging_steps": 1,
	"max_steps": 1355,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 2.572106671245492e+18,
	"train_batch_size": 32,
	"trial_name": null,
	"trial_params": null
	}