sft-625-zero / trainer_state.json

Add files using upload-large-folder tool

ec45a55 verified 22 days ago

107 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.0,
	"eval_steps": 500,
	"global_step": 625,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0016,
	"grad_norm": 36.86253356933594,
	"learning_rate": 0.0,
	"loss": 6.970664024353027,
	"step": 1
	},
	{
	"epoch": 0.0032,
	"grad_norm": 46.62815475463867,
	"learning_rate": 1e-05,
	"loss": 7.119298934936523,
	"step": 2
	},
	{
	"epoch": 0.0048,
	"grad_norm": 38.75471878051758,
	"learning_rate": 2e-05,
	"loss": 6.804569721221924,
	"step": 3
	},
	{
	"epoch": 0.0064,
	"grad_norm": 23.79888343811035,
	"learning_rate": 3e-05,
	"loss": 6.857824325561523,
	"step": 4
	},
	{
	"epoch": 0.008,
	"grad_norm": 21.74065589904785,
	"learning_rate": 4e-05,
	"loss": 6.550006866455078,
	"step": 5
	},
	{
	"epoch": 0.0096,
	"grad_norm": 18.586503982543945,
	"learning_rate": 5e-05,
	"loss": 6.686573028564453,
	"step": 6
	},
	{
	"epoch": 0.0112,
	"grad_norm": 15.070769309997559,
	"learning_rate": 6e-05,
	"loss": 6.578455924987793,
	"step": 7
	},
	{
	"epoch": 0.0128,
	"grad_norm": 7.648688316345215,
	"learning_rate": 7.000000000000001e-05,
	"loss": 6.312182426452637,
	"step": 8
	},
	{
	"epoch": 0.0144,
	"grad_norm": 11.109657287597656,
	"learning_rate": 8e-05,
	"loss": 6.330634593963623,
	"step": 9
	},
	{
	"epoch": 0.016,
	"grad_norm": 11.878482818603516,
	"learning_rate": 8.999999999999999e-05,
	"loss": 6.246118545532227,
	"step": 10
	},
	{
	"epoch": 0.0176,
	"grad_norm": 15.020891189575195,
	"learning_rate": 0.0001,
	"loss": 6.080811500549316,
	"step": 11
	},
	{
	"epoch": 0.0192,
	"grad_norm": 10.975037574768066,
	"learning_rate": 0.00011,
	"loss": 6.293004989624023,
	"step": 12
	},
	{
	"epoch": 0.0208,
	"grad_norm": 5.8413214683532715,
	"learning_rate": 0.00012,
	"loss": 6.052936553955078,
	"step": 13
	},
	{
	"epoch": 0.0224,
	"grad_norm": 11.264659881591797,
	"learning_rate": 0.00013000000000000002,
	"loss": 6.178928852081299,
	"step": 14
	},
	{
	"epoch": 0.024,
	"grad_norm": 5.662702560424805,
	"learning_rate": 0.00014000000000000001,
	"loss": 6.111515998840332,
	"step": 15
	},
	{
	"epoch": 0.0256,
	"grad_norm": 7.999163627624512,
	"learning_rate": 0.00015,
	"loss": 6.4416985511779785,
	"step": 16
	},
	{
	"epoch": 0.0272,
	"grad_norm": 4.368480205535889,
	"learning_rate": 0.00016,
	"loss": 6.070431709289551,
	"step": 17
	},
	{
	"epoch": 0.0288,
	"grad_norm": 6.195078372955322,
	"learning_rate": 0.00017,
	"loss": 6.400940895080566,
	"step": 18
	},
	{
	"epoch": 0.0304,
	"grad_norm": 4.218802452087402,
	"learning_rate": 0.00017999999999999998,
	"loss": 5.938872337341309,
	"step": 19
	},
	{
	"epoch": 0.032,
	"grad_norm": 8.09906005859375,
	"learning_rate": 0.00019,
	"loss": 6.1384053230285645,
	"step": 20
	},
	{
	"epoch": 0.0336,
	"grad_norm": 5.7899065017700195,
	"learning_rate": 0.0002,
	"loss": 6.211584568023682,
	"step": 21
	},
	{
	"epoch": 0.0352,
	"grad_norm": 3.5106873512268066,
	"learning_rate": 0.00021,
	"loss": 6.081808567047119,
	"step": 22
	},
	{
	"epoch": 0.0368,
	"grad_norm": 5.990793228149414,
	"learning_rate": 0.00022,
	"loss": 6.311020374298096,
	"step": 23
	},
	{
	"epoch": 0.0384,
	"grad_norm": 4.144802570343018,
	"learning_rate": 0.00023,
	"loss": 6.124863147735596,
	"step": 24
	},
	{
	"epoch": 0.04,
	"grad_norm": 4.716309547424316,
	"learning_rate": 0.00024,
	"loss": 6.189701557159424,
	"step": 25
	},
	{
	"epoch": 0.0416,
	"grad_norm": 3.5594468116760254,
	"learning_rate": 0.00025,
	"loss": 5.711904048919678,
	"step": 26
	},
	{
	"epoch": 0.0432,
	"grad_norm": 7.885351657867432,
	"learning_rate": 0.00026000000000000003,
	"loss": 6.188915729522705,
	"step": 27
	},
	{
	"epoch": 0.0448,
	"grad_norm": 4.330770492553711,
	"learning_rate": 0.00027,
	"loss": 6.156501293182373,
	"step": 28
	},
	{
	"epoch": 0.0464,
	"grad_norm": 6.669336318969727,
	"learning_rate": 0.00028000000000000003,
	"loss": 6.337223052978516,
	"step": 29
	},
	{
	"epoch": 0.048,
	"grad_norm": 4.431726932525635,
	"learning_rate": 0.00029,
	"loss": 5.854226112365723,
	"step": 30
	},
	{
	"epoch": 0.0496,
	"grad_norm": 5.652588367462158,
	"learning_rate": 0.0003,
	"loss": 6.1465911865234375,
	"step": 31
	},
	{
	"epoch": 0.0512,
	"grad_norm": 4.4275360107421875,
	"learning_rate": 0.00031,
	"loss": 6.568665504455566,
	"step": 32
	},
	{
	"epoch": 0.0528,
	"grad_norm": 5.78800106048584,
	"learning_rate": 0.00032,
	"loss": 5.84707498550415,
	"step": 33
	},
	{
	"epoch": 0.0544,
	"grad_norm": 5.778809547424316,
	"learning_rate": 0.00033,
	"loss": 6.26806640625,
	"step": 34
	},
	{
	"epoch": 0.056,
	"grad_norm": 3.150599718093872,
	"learning_rate": 0.00034,
	"loss": 5.942642688751221,
	"step": 35
	},
	{
	"epoch": 0.0576,
	"grad_norm": 5.755363464355469,
	"learning_rate": 0.00035,
	"loss": 6.048552989959717,
	"step": 36
	},
	{
	"epoch": 0.0592,
	"grad_norm": 4.171663284301758,
	"learning_rate": 0.00035999999999999997,
	"loss": 6.371613025665283,
	"step": 37
	},
	{
	"epoch": 0.0608,
	"grad_norm": 4.288946628570557,
	"learning_rate": 0.00037,
	"loss": 6.1250200271606445,
	"step": 38
	},
	{
	"epoch": 0.0624,
	"grad_norm": 4.6287713050842285,
	"learning_rate": 0.00038,
	"loss": 6.222686767578125,
	"step": 39
	},
	{
	"epoch": 0.064,
	"grad_norm": 5.058150291442871,
	"learning_rate": 0.00039000000000000005,
	"loss": 6.543748378753662,
	"step": 40
	},
	{
	"epoch": 0.0656,
	"grad_norm": 4.104369640350342,
	"learning_rate": 0.0004,
	"loss": 6.065921783447266,
	"step": 41
	},
	{
	"epoch": 0.0672,
	"grad_norm": 6.011862754821777,
	"learning_rate": 0.00041,
	"loss": 5.975309371948242,
	"step": 42
	},
	{
	"epoch": 0.0688,
	"grad_norm": 3.899702787399292,
	"learning_rate": 0.00042,
	"loss": 6.357814788818359,
	"step": 43
	},
	{
	"epoch": 0.0704,
	"grad_norm": 4.300708770751953,
	"learning_rate": 0.00043,
	"loss": 5.761978626251221,
	"step": 44
	},
	{
	"epoch": 0.072,
	"grad_norm": 5.165529727935791,
	"learning_rate": 0.00044,
	"loss": 6.23648738861084,
	"step": 45
	},
	{
	"epoch": 0.0736,
	"grad_norm": 3.270381212234497,
	"learning_rate": 0.00045000000000000004,
	"loss": 6.216146469116211,
	"step": 46
	},
	{
	"epoch": 0.0752,
	"grad_norm": 3.381625175476074,
	"learning_rate": 0.00046,
	"loss": 5.920130729675293,
	"step": 47
	},
	{
	"epoch": 0.0768,
	"grad_norm": 2.7397425174713135,
	"learning_rate": 0.00047,
	"loss": 5.948547840118408,
	"step": 48
	},
	{
	"epoch": 0.0784,
	"grad_norm": 4.689820289611816,
	"learning_rate": 0.00048,
	"loss": 6.4204936027526855,
	"step": 49
	},
	{
	"epoch": 0.08,
	"grad_norm": 4.353704929351807,
	"learning_rate": 0.00049,
	"loss": 5.919530391693115,
	"step": 50
	},
	{
	"epoch": 0.0816,
	"grad_norm": 3.5159783363342285,
	"learning_rate": 0.0005,
	"loss": 6.303610324859619,
	"step": 51
	},
	{
	"epoch": 0.0832,
	"grad_norm": 3.121208429336548,
	"learning_rate": 0.000499996268589849,
	"loss": 5.74945068359375,
	"step": 52
	},
	{
	"epoch": 0.0848,
	"grad_norm": 3.5212831497192383,
	"learning_rate": 0.0004999850744707835,
	"loss": 6.07124662399292,
	"step": 53
	},
	{
	"epoch": 0.0864,
	"grad_norm": 2.848412275314331,
	"learning_rate": 0.0004999664179769621,
	"loss": 6.209238052368164,
	"step": 54
	},
	{
	"epoch": 0.088,
	"grad_norm": 2.6709463596343994,
	"learning_rate": 0.0004999402996653051,
	"loss": 5.881043910980225,
	"step": 55
	},
	{
	"epoch": 0.0896,
	"grad_norm": 2.7929718494415283,
	"learning_rate": 0.0004999067203154777,
	"loss": 6.170549392700195,
	"step": 56
	},
	{
	"epoch": 0.0912,
	"grad_norm": 2.7909319400787354,
	"learning_rate": 0.0004998656809298664,
	"loss": 5.91437292098999,
	"step": 57
	},
	{
	"epoch": 0.0928,
	"grad_norm": 3.028071880340576,
	"learning_rate": 0.0004998171827335494,
	"loss": 5.768723964691162,
	"step": 58
	},
	{
	"epoch": 0.0944,
	"grad_norm": 3.5717194080352783,
	"learning_rate": 0.0004997612271742601,
	"loss": 6.126382827758789,
	"step": 59
	},
	{
	"epoch": 0.096,
	"grad_norm": 2.5707123279571533,
	"learning_rate": 0.0004996978159223436,
	"loss": 6.031285285949707,
	"step": 60
	},
	{
	"epoch": 0.0976,
	"grad_norm": 2.886106252670288,
	"learning_rate": 0.000499626950870707,
	"loss": 5.81216287612915,
	"step": 61
	},
	{
	"epoch": 0.0992,
	"grad_norm": 3.2320756912231445,
	"learning_rate": 0.000499548634134763,
	"loss": 6.256302833557129,
	"step": 62
	},
	{
	"epoch": 0.1008,
	"grad_norm": 2.3101658821105957,
	"learning_rate": 0.0004994628680523662,
	"loss": 6.089540481567383,
	"step": 63
	},
	{
	"epoch": 0.1024,
	"grad_norm": 2.2067813873291016,
	"learning_rate": 0.0004993696551837443,
	"loss": 6.167810440063477,
	"step": 64
	},
	{
	"epoch": 0.104,
	"grad_norm": 2.936598300933838,
	"learning_rate": 0.0004992689983114208,
	"loss": 6.019635200500488,
	"step": 65
	},
	{
	"epoch": 0.1056,
	"grad_norm": 3.3017938137054443,
	"learning_rate": 0.0004991609004401324,
	"loss": 5.883628845214844,
	"step": 66
	},
	{
	"epoch": 0.1072,
	"grad_norm": 3.359445333480835,
	"learning_rate": 0.0004990453647967389,
	"loss": 5.827721118927002,
	"step": 67
	},
	{
	"epoch": 0.1088,
	"grad_norm": 3.057800769805908,
	"learning_rate": 0.0004989223948301272,
	"loss": 5.853091239929199,
	"step": 68
	},
	{
	"epoch": 0.1104,
	"grad_norm": 3.4538474082946777,
	"learning_rate": 0.0004987919942111087,
	"loss": 6.159923553466797,
	"step": 69
	},
	{
	"epoch": 0.112,
	"grad_norm": 2.778003692626953,
	"learning_rate": 0.0004986541668323086,
	"loss": 5.855865478515625,
	"step": 70
	},
	{
	"epoch": 0.1136,
	"grad_norm": 2.497781753540039,
	"learning_rate": 0.0004985089168080509,
	"loss": 6.018093109130859,
	"step": 71
	},
	{
	"epoch": 0.1152,
	"grad_norm": 2.0816121101379395,
	"learning_rate": 0.0004983562484742349,
	"loss": 6.006240367889404,
	"step": 72
	},
	{
	"epoch": 0.1168,
	"grad_norm": 2.8136582374572754,
	"learning_rate": 0.000498196166388206,
	"loss": 5.550631999969482,
	"step": 73
	},
	{
	"epoch": 0.1184,
	"grad_norm": 2.223203420639038,
	"learning_rate": 0.0004980286753286195,
	"loss": 5.823319911956787,
	"step": 74
	},
	{
	"epoch": 0.12,
	"grad_norm": 2.3398818969726562,
	"learning_rate": 0.0004978537802952981,
	"loss": 5.757394790649414,
	"step": 75
	},
	{
	"epoch": 0.1216,
	"grad_norm": 3.7000091075897217,
	"learning_rate": 0.0004976714865090827,
	"loss": 6.139785289764404,
	"step": 76
	},
	{
	"epoch": 0.1232,
	"grad_norm": 2.992990255355835,
	"learning_rate": 0.0004974817994116764,
	"loss": 5.841603755950928,
	"step": 77
	},
	{
	"epoch": 0.1248,
	"grad_norm": 4.935225963592529,
	"learning_rate": 0.0004972847246654819,
	"loss": 5.688216209411621,
	"step": 78
	},
	{
	"epoch": 0.1264,
	"grad_norm": 2.531768798828125,
	"learning_rate": 0.0004970802681534331,
	"loss": 6.026415824890137,
	"step": 79
	},
	{
	"epoch": 0.128,
	"grad_norm": 3.366121530532837,
	"learning_rate": 0.0004968684359788187,
	"loss": 6.1217217445373535,
	"step": 80
	},
	{
	"epoch": 0.1296,
	"grad_norm": 2.439563035964966,
	"learning_rate": 0.0004966492344651005,
	"loss": 5.786462783813477,
	"step": 81
	},
	{
	"epoch": 0.1312,
	"grad_norm": 2.759390115737915,
	"learning_rate": 0.0004964226701557246,
	"loss": 6.397160053253174,
	"step": 82
	},
	{
	"epoch": 0.1328,
	"grad_norm": 2.6187775135040283,
	"learning_rate": 0.000496188749813926,
	"loss": 5.781584739685059,
	"step": 83
	},
	{
	"epoch": 0.1344,
	"grad_norm": 2.3311808109283447,
	"learning_rate": 0.0004959474804225263,
	"loss": 5.623251914978027,
	"step": 84
	},
	{
	"epoch": 0.136,
	"grad_norm": 1.8278515338897705,
	"learning_rate": 0.0004956988691837262,
	"loss": 5.646507263183594,
	"step": 85
	},
	{
	"epoch": 0.1376,
	"grad_norm": 1.940083622932434,
	"learning_rate": 0.0004954429235188896,
	"loss": 5.845520496368408,
	"step": 86
	},
	{
	"epoch": 0.1392,
	"grad_norm": 1.715268611907959,
	"learning_rate": 0.0004951796510683226,
	"loss": 5.86661434173584,
	"step": 87
	},
	{
	"epoch": 0.1408,
	"grad_norm": 2.3065476417541504,
	"learning_rate": 0.0004949090596910452,
	"loss": 6.391292572021484,
	"step": 88
	},
	{
	"epoch": 0.1424,
	"grad_norm": 2.54691481590271,
	"learning_rate": 0.0004946311574645565,
	"loss": 5.941152572631836,
	"step": 89
	},
	{
	"epoch": 0.144,
	"grad_norm": 2.3436925411224365,
	"learning_rate": 0.0004943459526845942,
	"loss": 5.867047309875488,
	"step": 90
	},
	{
	"epoch": 0.1456,
	"grad_norm": 2.8488574028015137,
	"learning_rate": 0.0004940534538648862,
	"loss": 6.295483112335205,
	"step": 91
	},
	{
	"epoch": 0.1472,
	"grad_norm": 2.0991811752319336,
	"learning_rate": 0.0004937536697368971,
	"loss": 6.155615329742432,
	"step": 92
	},
	{
	"epoch": 0.1488,
	"grad_norm": 2.874187707901001,
	"learning_rate": 0.0004934466092495673,
	"loss": 6.002193450927734,
	"step": 93
	},
	{
	"epoch": 0.1504,
	"grad_norm": 2.6309406757354736,
	"learning_rate": 0.0004931322815690456,
	"loss": 6.190125942230225,
	"step": 94
	},
	{
	"epoch": 0.152,
	"grad_norm": 2.5140063762664795,
	"learning_rate": 0.0004928106960784163,
	"loss": 5.832353591918945,
	"step": 95
	},
	{
	"epoch": 0.1536,
	"grad_norm": 2.2540531158447266,
	"learning_rate": 0.0004924818623774179,
	"loss": 5.870430946350098,
	"step": 96
	},
	{
	"epoch": 0.1552,
	"grad_norm": 2.5736892223358154,
	"learning_rate": 0.0004921457902821578,
	"loss": 5.9354658126831055,
	"step": 97
	},
	{
	"epoch": 0.1568,
	"grad_norm": 2.8597569465637207,
	"learning_rate": 0.0004918024898248188,
	"loss": 5.980432987213135,
	"step": 98
	},
	{
	"epoch": 0.1584,
	"grad_norm": 2.679422616958618,
	"learning_rate": 0.0004914519712533592,
	"loss": 5.808017253875732,
	"step": 99
	},
	{
	"epoch": 0.16,
	"grad_norm": 2.6200029850006104,
	"learning_rate": 0.0004910942450312075,
	"loss": 6.042236804962158,
	"step": 100
	},
	{
	"epoch": 0.1616,
	"grad_norm": 2.3748672008514404,
	"learning_rate": 0.0004907293218369499,
	"loss": 5.913302421569824,
	"step": 101
	},
	{
	"epoch": 0.1632,
	"grad_norm": 2.0950937271118164,
	"learning_rate": 0.000490357212564011,
	"loss": 5.478336334228516,
	"step": 102
	},
	{
	"epoch": 0.1648,
	"grad_norm": 2.222339391708374,
	"learning_rate": 0.0004899779283203296,
	"loss": 5.753122329711914,
	"step": 103
	},
	{
	"epoch": 0.1664,
	"grad_norm": 1.8135013580322266,
	"learning_rate": 0.0004895914804280262,
	"loss": 5.8378705978393555,
	"step": 104
	},
	{
	"epoch": 0.168,
	"grad_norm": 1.834136962890625,
	"learning_rate": 0.0004891978804230655,
	"loss": 5.386728286743164,
	"step": 105
	},
	{
	"epoch": 0.1696,
	"grad_norm": 2.7069461345672607,
	"learning_rate": 0.000488797140054912,
	"loss": 5.91385555267334,
	"step": 106
	},
	{
	"epoch": 0.1712,
	"grad_norm": 2.961819648742676,
	"learning_rate": 0.0004883892712861791,
	"loss": 5.622028350830078,
	"step": 107
	},
	{
	"epoch": 0.1728,
	"grad_norm": 2.6172969341278076,
	"learning_rate": 0.0004879742862922721,
	"loss": 5.701954364776611,
	"step": 108
	},
	{
	"epoch": 0.1744,
	"grad_norm": 2.4764273166656494,
	"learning_rate": 0.0004875521974610247,
	"loss": 5.922611236572266,
	"step": 109
	},
	{
	"epoch": 0.176,
	"grad_norm": 2.321749448776245,
	"learning_rate": 0.00048712301739232933,
	"loss": 5.958606719970703,
	"step": 110
	},
	{
	"epoch": 0.1776,
	"grad_norm": 2.569371461868286,
	"learning_rate": 0.00048668675889776094,
	"loss": 5.966418266296387,
	"step": 111
	},
	{
	"epoch": 0.1792,
	"grad_norm": 2.0367257595062256,
	"learning_rate": 0.00048624343500019453,
	"loss": 5.828032970428467,
	"step": 112
	},
	{
	"epoch": 0.1808,
	"grad_norm": 2.0033013820648193,
	"learning_rate": 0.0004857930589334164,
	"loss": 5.9207658767700195,
	"step": 113
	},
	{
	"epoch": 0.1824,
	"grad_norm": 2.4433813095092773,
	"learning_rate": 0.00048533564414172915,
	"loss": 5.987303256988525,
	"step": 114
	},
	{
	"epoch": 0.184,
	"grad_norm": 1.6759791374206543,
	"learning_rate": 0.00048487120427955047,
	"loss": 5.758200168609619,
	"step": 115
	},
	{
	"epoch": 0.1856,
	"grad_norm": 1.9562362432479858,
	"learning_rate": 0.0004843997532110051,
	"loss": 6.076003074645996,
	"step": 116
	},
	{
	"epoch": 0.1872,
	"grad_norm": 1.9110207557678223,
	"learning_rate": 0.0004839213050095116,
	"loss": 5.927783966064453,
	"step": 117
	},
	{
	"epoch": 0.1888,
	"grad_norm": 1.9068591594696045,
	"learning_rate": 0.00048343587395736177,
	"loss": 5.609103202819824,
	"step": 118
	},
	{
	"epoch": 0.1904,
	"grad_norm": 1.801079273223877,
	"learning_rate": 0.0004829434745452944,
	"loss": 6.146678924560547,
	"step": 119
	},
	{
	"epoch": 0.192,
	"grad_norm": 2.160980224609375,
	"learning_rate": 0.00048244412147206283,
	"loss": 5.927748203277588,
	"step": 120
	},
	{
	"epoch": 0.1936,
	"grad_norm": 2.2416179180145264,
	"learning_rate": 0.0004819378296439961,
	"loss": 5.8890509605407715,
	"step": 121
	},
	{
	"epoch": 0.1952,
	"grad_norm": 2.4966790676116943,
	"learning_rate": 0.000481424614174554,
	"loss": 5.660029411315918,
	"step": 122
	},
	{
	"epoch": 0.1968,
	"grad_norm": 2.2897145748138428,
	"learning_rate": 0.00048090449038387564,
	"loss": 5.889649391174316,
	"step": 123
	},
	{
	"epoch": 0.1984,
	"grad_norm": 2.1526010036468506,
	"learning_rate": 0.00048037747379832266,
	"loss": 5.937025547027588,
	"step": 124
	},
	{
	"epoch": 0.2,
	"grad_norm": 2.3477089405059814,
	"learning_rate": 0.0004798435801500154,
	"loss": 5.83440637588501,
	"step": 125
	},
	{
	"epoch": 0.2016,
	"grad_norm": 1.9011043310165405,
	"learning_rate": 0.00047930282537636326,
	"loss": 6.049851417541504,
	"step": 126
	},
	{
	"epoch": 0.2032,
	"grad_norm": 2.7886276245117188,
	"learning_rate": 0.00047875522561958907,
	"loss": 6.053065299987793,
	"step": 127
	},
	{
	"epoch": 0.2048,
	"grad_norm": 1.8351131677627563,
	"learning_rate": 0.0004782007972262471,
	"loss": 5.606479644775391,
	"step": 128
	},
	{
	"epoch": 0.2064,
	"grad_norm": 1.759033441543579,
	"learning_rate": 0.0004776395567467353,
	"loss": 5.892756462097168,
	"step": 129
	},
	{
	"epoch": 0.208,
	"grad_norm": 1.9948967695236206,
	"learning_rate": 0.00047707152093480097,
	"loss": 5.802677631378174,
	"step": 130
	},
	{
	"epoch": 0.2096,
	"grad_norm": 1.7873433828353882,
	"learning_rate": 0.0004764967067470409,
	"loss": 5.694087505340576,
	"step": 131
	},
	{
	"epoch": 0.2112,
	"grad_norm": 2.129274606704712,
	"learning_rate": 0.00047591513134239506,
	"loss": 6.053646087646484,
	"step": 132
	},
	{
	"epoch": 0.2128,
	"grad_norm": 1.815743327140808,
	"learning_rate": 0.0004753268120816344,
	"loss": 5.840423107147217,
	"step": 133
	},
	{
	"epoch": 0.2144,
	"grad_norm": 1.6211766004562378,
	"learning_rate": 0.0004747317665268427,
	"loss": 5.866158962249756,
	"step": 134
	},
	{
	"epoch": 0.216,
	"grad_norm": 1.5764577388763428,
	"learning_rate": 0.000474130012440892,
	"loss": 5.642172813415527,
	"step": 135
	},
	{
	"epoch": 0.2176,
	"grad_norm": 1.6282553672790527,
	"learning_rate": 0.0004735215677869128,
	"loss": 5.813696384429932,
	"step": 136
	},
	{
	"epoch": 0.2192,
	"grad_norm": 1.587697148323059,
	"learning_rate": 0.0004729064507277576,
	"loss": 5.456190586090088,
	"step": 137
	},
	{
	"epoch": 0.2208,
	"grad_norm": 2.2339489459991455,
	"learning_rate": 0.0004722846796254586,
	"loss": 5.826436996459961,
	"step": 138
	},
	{
	"epoch": 0.2224,
	"grad_norm": 1.6775805950164795,
	"learning_rate": 0.00047165627304068,
	"loss": 5.307504653930664,
	"step": 139
	},
	{
	"epoch": 0.224,
	"grad_norm": 1.7358742952346802,
	"learning_rate": 0.0004710212497321633,
	"loss": 5.858373641967773,
	"step": 140
	},
	{
	"epoch": 0.2256,
	"grad_norm": 1.7377792596817017,
	"learning_rate": 0.0004703796286561679,
	"loss": 5.746421813964844,
	"step": 141
	},
	{
	"epoch": 0.2272,
	"grad_norm": 1.7279226779937744,
	"learning_rate": 0.00046973142896590504,
	"loss": 5.818030834197998,
	"step": 142
	},
	{
	"epoch": 0.2288,
	"grad_norm": 1.896462321281433,
	"learning_rate": 0.0004690766700109659,
	"loss": 5.706021308898926,
	"step": 143
	},
	{
	"epoch": 0.2304,
	"grad_norm": 1.599483609199524,
	"learning_rate": 0.00046841537133674414,
	"loss": 5.414737701416016,
	"step": 144
	},
	{
	"epoch": 0.232,
	"grad_norm": 2.0782713890075684,
	"learning_rate": 0.00046774755268385253,
	"loss": 6.040131092071533,
	"step": 145
	},
	{
	"epoch": 0.2336,
	"grad_norm": 1.5299904346466064,
	"learning_rate": 0.00046707323398753343,
	"loss": 5.940986633300781,
	"step": 146
	},
	{
	"epoch": 0.2352,
	"grad_norm": 1.7263022661209106,
	"learning_rate": 0.00046639243537706387,
	"loss": 5.658965587615967,
	"step": 147
	},
	{
	"epoch": 0.2368,
	"grad_norm": 1.9568145275115967,
	"learning_rate": 0.0004657051771751546,
	"loss": 5.630545139312744,
	"step": 148
	},
	{
	"epoch": 0.2384,
	"grad_norm": 1.7731075286865234,
	"learning_rate": 0.0004650114798973434,
	"loss": 5.288701057434082,
	"step": 149
	},
	{
	"epoch": 0.24,
	"grad_norm": 1.5925266742706299,
	"learning_rate": 0.000464311364251383,
	"loss": 5.936962127685547,
	"step": 150
	},
	{
	"epoch": 0.2416,
	"grad_norm": 1.6020593643188477,
	"learning_rate": 0.0004636048511366222,
	"loss": 5.519335746765137,
	"step": 151
	},
	{
	"epoch": 0.2432,
	"grad_norm": 1.5809364318847656,
	"learning_rate": 0.0004628919616433827,
	"loss": 5.557144641876221,
	"step": 152
	},
	{
	"epoch": 0.2448,
	"grad_norm": 1.8422110080718994,
	"learning_rate": 0.0004621727170523293,
	"loss": 5.852574348449707,
	"step": 153
	},
	{
	"epoch": 0.2464,
	"grad_norm": 1.6175079345703125,
	"learning_rate": 0.0004614471388338346,
	"loss": 5.70945405960083,
	"step": 154
	},
	{
	"epoch": 0.248,
	"grad_norm": 1.7624582052230835,
	"learning_rate": 0.00046071524864733796,
	"loss": 5.58186149597168,
	"step": 155
	},
	{
	"epoch": 0.2496,
	"grad_norm": 1.5593520402908325,
	"learning_rate": 0.0004599770683406991,
	"loss": 5.716488361358643,
	"step": 156
	},
	{
	"epoch": 0.2512,
	"grad_norm": 1.9119805097579956,
	"learning_rate": 0.0004592326199495461,
	"loss": 5.6072845458984375,
	"step": 157
	},
	{
	"epoch": 0.2528,
	"grad_norm": 1.7177708148956299,
	"learning_rate": 0.0004584819256966171,
	"loss": 5.845829010009766,
	"step": 158
	},
	{
	"epoch": 0.2544,
	"grad_norm": 2.197434663772583,
	"learning_rate": 0.0004577250079910973,
	"loss": 5.7057013511657715,
	"step": 159
	},
	{
	"epoch": 0.256,
	"grad_norm": 2.089193344116211,
	"learning_rate": 0.00045696188942795005,
	"loss": 5.745038986206055,
	"step": 160
	},
	{
	"epoch": 0.2576,
	"grad_norm": 2.2623579502105713,
	"learning_rate": 0.0004561925927872421,
	"loss": 5.437371253967285,
	"step": 161
	},
	{
	"epoch": 0.2592,
	"grad_norm": 1.5014855861663818,
	"learning_rate": 0.000455417141033464,
	"loss": 5.617335796356201,
	"step": 162
	},
	{
	"epoch": 0.2608,
	"grad_norm": 1.6091152429580688,
	"learning_rate": 0.00045463555731484396,
	"loss": 5.750364303588867,
	"step": 163
	},
	{
	"epoch": 0.2624,
	"grad_norm": 1.7927204370498657,
	"learning_rate": 0.0004538478649626574,
	"loss": 6.134846210479736,
	"step": 164
	},
	{
	"epoch": 0.264,
	"grad_norm": 1.5488578081130981,
	"learning_rate": 0.00045305408749053016,
	"loss": 5.881228923797607,
	"step": 165
	},
	{
	"epoch": 0.2656,
	"grad_norm": 1.6964894533157349,
	"learning_rate": 0.0004522542485937369,
	"loss": 5.726894855499268,
	"step": 166
	},
	{
	"epoch": 0.2672,
	"grad_norm": 1.640055775642395,
	"learning_rate": 0.0004514483721484933,
	"loss": 5.594513893127441,
	"step": 167
	},
	{
	"epoch": 0.2688,
	"grad_norm": 1.622751235961914,
	"learning_rate": 0.0004506364822112439,
	"loss": 5.518566131591797,
	"step": 168
	},
	{
	"epoch": 0.2704,
	"grad_norm": 1.5396101474761963,
	"learning_rate": 0.00044981860301794335,
	"loss": 5.589843273162842,
	"step": 169
	},
	{
	"epoch": 0.272,
	"grad_norm": 1.4792349338531494,
	"learning_rate": 0.0004489947589833336,
	"loss": 5.4407501220703125,
	"step": 170
	},
	{
	"epoch": 0.2736,
	"grad_norm": 1.678307056427002,
	"learning_rate": 0.00044816497470021456,
	"loss": 5.557910919189453,
	"step": 171
	},
	{
	"epoch": 0.2752,
	"grad_norm": 1.7133512496948242,
	"learning_rate": 0.0004473292749387102,
	"loss": 5.618350982666016,
	"step": 172
	},
	{
	"epoch": 0.2768,
	"grad_norm": 1.4833654165267944,
	"learning_rate": 0.00044648768464552904,
	"loss": 5.650544166564941,
	"step": 173
	},
	{
	"epoch": 0.2784,
	"grad_norm": 1.787833571434021,
	"learning_rate": 0.00044564022894321966,
	"loss": 5.516573429107666,
	"step": 174
	},
	{
	"epoch": 0.28,
	"grad_norm": 2.016937255859375,
	"learning_rate": 0.00044478693312942054,
	"loss": 5.867213249206543,
	"step": 175
	},
	{
	"epoch": 0.2816,
	"grad_norm": 1.6533347368240356,
	"learning_rate": 0.00044392782267610497,
	"loss": 5.728193283081055,
	"step": 176
	},
	{
	"epoch": 0.2832,
	"grad_norm": 1.545316457748413,
	"learning_rate": 0.00044306292322882063,
	"loss": 5.591842174530029,
	"step": 177
	},
	{
	"epoch": 0.2848,
	"grad_norm": 1.8199504613876343,
	"learning_rate": 0.00044219226060592415,
	"loss": 5.673701763153076,
	"step": 178
	},
	{
	"epoch": 0.2864,
	"grad_norm": 1.597760558128357,
	"learning_rate": 0.0004413158607978104,
	"loss": 5.541760444641113,
	"step": 179
	},
	{
	"epoch": 0.288,
	"grad_norm": 1.8495144844055176,
	"learning_rate": 0.0004404337499661364,
	"loss": 5.602829456329346,
	"step": 180
	},
	{
	"epoch": 0.2896,
	"grad_norm": 1.8567280769348145,
	"learning_rate": 0.00043954595444304067,
	"loss": 5.71918249130249,
	"step": 181
	},
	{
	"epoch": 0.2912,
	"grad_norm": 1.8808255195617676,
	"learning_rate": 0.0004386525007303571,
	"loss": 5.545975208282471,
	"step": 182
	},
	{
	"epoch": 0.2928,
	"grad_norm": 1.7914137840270996,
	"learning_rate": 0.00043775341549882364,
	"loss": 5.760030269622803,
	"step": 183
	},
	{
	"epoch": 0.2944,
	"grad_norm": 1.5386247634887695,
	"learning_rate": 0.00043684872558728637,
	"loss": 5.41167688369751,
	"step": 184
	},
	{
	"epoch": 0.296,
	"grad_norm": 1.7406638860702515,
	"learning_rate": 0.00043593845800189826,
	"loss": 5.6405463218688965,
	"step": 185
	},
	{
	"epoch": 0.2976,
	"grad_norm": 1.7136033773422241,
	"learning_rate": 0.000435022639915313,
	"loss": 5.921665191650391,
	"step": 186
	},
	{
	"epoch": 0.2992,
	"grad_norm": 1.6137181520462036,
	"learning_rate": 0.00043410129866587377,
	"loss": 5.523682117462158,
	"step": 187
	},
	{
	"epoch": 0.3008,
	"grad_norm": 1.4593943357467651,
	"learning_rate": 0.00043317446175679733,
	"loss": 5.579282283782959,
	"step": 188
	},
	{
	"epoch": 0.3024,
	"grad_norm": 1.498769760131836,
	"learning_rate": 0.00043224215685535287,
	"loss": 5.65568733215332,
	"step": 189
	},
	{
	"epoch": 0.304,
	"grad_norm": 1.4099656343460083,
	"learning_rate": 0.00043130441179203626,
	"loss": 5.450364589691162,
	"step": 190
	},
	{
	"epoch": 0.3056,
	"grad_norm": 1.762242317199707,
	"learning_rate": 0.00043036125455973894,
	"loss": 5.701364517211914,
	"step": 191
	},
	{
	"epoch": 0.3072,
	"grad_norm": 1.9644355773925781,
	"learning_rate": 0.00042941271331291275,
	"loss": 5.515183448791504,
	"step": 192
	},
	{
	"epoch": 0.3088,
	"grad_norm": 1.9126542806625366,
	"learning_rate": 0.0004284588163667292,
	"loss": 5.794773578643799,
	"step": 193
	},
	{
	"epoch": 0.3104,
	"grad_norm": 1.8638148307800293,
	"learning_rate": 0.0004274995921962343,
	"loss": 5.806097030639648,
	"step": 194
	},
	{
	"epoch": 0.312,
	"grad_norm": 1.701051115989685,
	"learning_rate": 0.00042653506943549844,
	"loss": 5.101565361022949,
	"step": 195
	},
	{
	"epoch": 0.3136,
	"grad_norm": 2.270686626434326,
	"learning_rate": 0.00042556527687676184,
	"loss": 5.6310319900512695,
	"step": 196
	},
	{
	"epoch": 0.3152,
	"grad_norm": 1.8609226942062378,
	"learning_rate": 0.00042459024346957477,
	"loss": 5.535915851593018,
	"step": 197
	},
	{
	"epoch": 0.3168,
	"grad_norm": 2.0503954887390137,
	"learning_rate": 0.0004236099983199338,
	"loss": 5.734372138977051,
	"step": 198
	},
	{
	"epoch": 0.3184,
	"grad_norm": 1.6068768501281738,
	"learning_rate": 0.00042262457068941247,
	"loss": 5.578657150268555,
	"step": 199
	},
	{
	"epoch": 0.32,
	"grad_norm": 1.602341651916504,
	"learning_rate": 0.000421633989994288,
	"loss": 5.451129913330078,
	"step": 200
	},
	{
	"epoch": 0.3216,
	"grad_norm": 1.4740185737609863,
	"learning_rate": 0.00042063828580466355,
	"loss": 5.597467422485352,
	"step": 201
	},
	{
	"epoch": 0.3232,
	"grad_norm": 1.6884571313858032,
	"learning_rate": 0.0004196374878435846,
	"loss": 5.773179054260254,
	"step": 202
	},
	{
	"epoch": 0.3248,
	"grad_norm": 3.2064454555511475,
	"learning_rate": 0.00041863162598615265,
	"loss": 5.903354167938232,
	"step": 203
	},
	{
	"epoch": 0.3264,
	"grad_norm": 2.3717195987701416,
	"learning_rate": 0.0004176207302586329,
	"loss": 5.43741512298584,
	"step": 204
	},
	{
	"epoch": 0.328,
	"grad_norm": 1.7029227018356323,
	"learning_rate": 0.0004166048308375578,
	"loss": 5.542079925537109,
	"step": 205
	},
	{
	"epoch": 0.3296,
	"grad_norm": 1.4132956266403198,
	"learning_rate": 0.0004155839580488269,
	"loss": 5.548293590545654,
	"step": 206
	},
	{
	"epoch": 0.3312,
	"grad_norm": 1.7507219314575195,
	"learning_rate": 0.0004145581423668008,
	"loss": 5.625497817993164,
	"step": 207
	},
	{
	"epoch": 0.3328,
	"grad_norm": 1.7790549993515015,
	"learning_rate": 0.00041352741441339175,
	"loss": 5.523196220397949,
	"step": 208
	},
	{
	"epoch": 0.3344,
	"grad_norm": 1.6135910749435425,
	"learning_rate": 0.0004124918049571499,
	"loss": 5.497952461242676,
	"step": 209
	},
	{
	"epoch": 0.336,
	"grad_norm": 1.700406789779663,
	"learning_rate": 0.00041145134491234425,
	"loss": 5.513679027557373,
	"step": 210
	},
	{
	"epoch": 0.3376,
	"grad_norm": 1.5768215656280518,
	"learning_rate": 0.00041040606533804025,
	"loss": 5.65580940246582,
	"step": 211
	},
	{
	"epoch": 0.3392,
	"grad_norm": 1.5992205142974854,
	"learning_rate": 0.00040935599743717243,
	"loss": 5.415986061096191,
	"step": 212
	},
	{
	"epoch": 0.3408,
	"grad_norm": 2.1629347801208496,
	"learning_rate": 0.00040830117255561294,
	"loss": 5.394900321960449,
	"step": 213
	},
	{
	"epoch": 0.3424,
	"grad_norm": 1.5803372859954834,
	"learning_rate": 0.000407241622181236,
	"loss": 5.085600852966309,
	"step": 214
	},
	{
	"epoch": 0.344,
	"grad_norm": 1.4815354347229004,
	"learning_rate": 0.0004061773779429776,
	"loss": 5.647576332092285,
	"step": 215
	},
	{
	"epoch": 0.3456,
	"grad_norm": 1.5663725137710571,
	"learning_rate": 0.00040510847160989203,
	"loss": 5.418036460876465,
	"step": 216
	},
	{
	"epoch": 0.3472,
	"grad_norm": 1.7371917963027954,
	"learning_rate": 0.00040403493509020275,
	"loss": 5.280213356018066,
	"step": 217
	},
	{
	"epoch": 0.3488,
	"grad_norm": 1.4984663724899292,
	"learning_rate": 0.0004029568004303501,
	"loss": 5.509110927581787,
	"step": 218
	},
	{
	"epoch": 0.3504,
	"grad_norm": 1.5602787733078003,
	"learning_rate": 0.0004018740998140352,
	"loss": 5.608109951019287,
	"step": 219
	},
	{
	"epoch": 0.352,
	"grad_norm": 1.6253869533538818,
	"learning_rate": 0.0004007868655612586,
	"loss": 5.198980331420898,
	"step": 220
	},
	{
	"epoch": 0.3536,
	"grad_norm": 2.013225555419922,
	"learning_rate": 0.00039969513012735566,
	"loss": 5.129229545593262,
	"step": 221
	},
	{
	"epoch": 0.3552,
	"grad_norm": 1.4294469356536865,
	"learning_rate": 0.00039859892610202786,
	"loss": 5.616961479187012,
	"step": 222
	},
	{
	"epoch": 0.3568,
	"grad_norm": 1.7147184610366821,
	"learning_rate": 0.0003974982862083697,
	"loss": 5.369600772857666,
	"step": 223
	},
	{
	"epoch": 0.3584,
	"grad_norm": 1.6554255485534668,
	"learning_rate": 0.00039639324330189234,
	"loss": 5.445437431335449,
	"step": 224
	},
	{
	"epoch": 0.36,
	"grad_norm": 2.799031972885132,
	"learning_rate": 0.00039528383036954224,
	"loss": 5.5256500244140625,
	"step": 225
	},
	{
	"epoch": 0.3616,
	"grad_norm": 1.364023208618164,
	"learning_rate": 0.00039417008052871684,
	"loss": 5.256645202636719,
	"step": 226
	},
	{
	"epoch": 0.3632,
	"grad_norm": 1.6340276002883911,
	"learning_rate": 0.0003930520270262757,
	"loss": 5.542902946472168,
	"step": 227
	},
	{
	"epoch": 0.3648,
	"grad_norm": 1.289225459098816,
	"learning_rate": 0.0003919297032375485,
	"loss": 5.363834381103516,
	"step": 228
	},
	{
	"epoch": 0.3664,
	"grad_norm": 1.7022228240966797,
	"learning_rate": 0.00039080314266533826,
	"loss": 5.533950328826904,
	"step": 229
	},
	{
	"epoch": 0.368,
	"grad_norm": 1.5650995969772339,
	"learning_rate": 0.00038967237893892134,
	"loss": 5.173304557800293,
	"step": 230
	},
	{
	"epoch": 0.3696,
	"grad_norm": 1.7082035541534424,
	"learning_rate": 0.00038853744581304376,
	"loss": 5.347742080688477,
	"step": 231
	},
	{
	"epoch": 0.3712,
	"grad_norm": 1.5300484895706177,
	"learning_rate": 0.00038739837716691327,
	"loss": 5.307585716247559,
	"step": 232
	},
	{
	"epoch": 0.3728,
	"grad_norm": 1.4221162796020508,
	"learning_rate": 0.0003862552070031886,
	"loss": 5.390194892883301,
	"step": 233
	},
	{
	"epoch": 0.3744,
	"grad_norm": 1.5934863090515137,
	"learning_rate": 0.00038510796944696355,
	"loss": 5.698745250701904,
	"step": 234
	},
	{
	"epoch": 0.376,
	"grad_norm": 1.574376106262207,
	"learning_rate": 0.00038395669874474915,
	"loss": 5.695178508758545,
	"step": 235
	},
	{
	"epoch": 0.3776,
	"grad_norm": 1.4545917510986328,
	"learning_rate": 0.00038280142926345084,
	"loss": 5.21755313873291,
	"step": 236
	},
	{
	"epoch": 0.3792,
	"grad_norm": 1.6824661493301392,
	"learning_rate": 0.0003816421954893428,
	"loss": 5.816608428955078,
	"step": 237
	},
	{
	"epoch": 0.3808,
	"grad_norm": 1.943800449371338,
	"learning_rate": 0.0003804790320270384,
	"loss": 5.530592441558838,
	"step": 238
	},
	{
	"epoch": 0.3824,
	"grad_norm": 1.4291504621505737,
	"learning_rate": 0.00037931197359845713,
	"loss": 5.4604811668396,
	"step": 239
	},
	{
	"epoch": 0.384,
	"grad_norm": 1.450872778892517,
	"learning_rate": 0.00037814105504178853,
	"loss": 5.420169353485107,
	"step": 240
	},
	{
	"epoch": 0.3856,
	"grad_norm": 1.431982159614563,
	"learning_rate": 0.00037696631131045155,
	"loss": 5.437797546386719,
	"step": 241
	},
	{
	"epoch": 0.3872,
	"grad_norm": 1.5654010772705078,
	"learning_rate": 0.00037578777747205173,
	"loss": 5.542431354522705,
	"step": 242
	},
	{
	"epoch": 0.3888,
	"grad_norm": 1.4680758714675903,
	"learning_rate": 0.000374605488707334,
	"loss": 5.8609299659729,
	"step": 243
	},
	{
	"epoch": 0.3904,
	"grad_norm": 1.484171748161316,
	"learning_rate": 0.0003734194803091329,
	"loss": 5.2261762619018555,
	"step": 244
	},
	{
	"epoch": 0.392,
	"grad_norm": 1.378163456916809,
	"learning_rate": 0.00037222978768131857,
	"loss": 5.523834228515625,
	"step": 245
	},
	{
	"epoch": 0.3936,
	"grad_norm": 1.8471333980560303,
	"learning_rate": 0.00037103644633774014,
	"loss": 5.406384468078613,
	"step": 246
	},
	{
	"epoch": 0.3952,
	"grad_norm": 1.4139055013656616,
	"learning_rate": 0.00036983949190116575,
	"loss": 5.400781631469727,
	"step": 247
	},
	{
	"epoch": 0.3968,
	"grad_norm": 1.2311971187591553,
	"learning_rate": 0.0003686389601022188,
	"loss": 5.407512664794922,
	"step": 248
	},
	{
	"epoch": 0.3984,
	"grad_norm": 1.7283658981323242,
	"learning_rate": 0.0003674348867783115,
	"loss": 5.575046062469482,
	"step": 249
	},
	{
	"epoch": 0.4,
	"grad_norm": 1.3995170593261719,
	"learning_rate": 0.0003662273078725754,
	"loss": 5.523738384246826,
	"step": 250
	},
	{
	"epoch": 0.4016,
	"grad_norm": 1.3066350221633911,
	"learning_rate": 0.00036501625943278804,
	"loss": 5.64078426361084,
	"step": 251
	},
	{
	"epoch": 0.4032,
	"grad_norm": 1.3789863586425781,
	"learning_rate": 0.0003638017776102968,
	"loss": 5.428204536437988,
	"step": 252
	},
	{
	"epoch": 0.4048,
	"grad_norm": 1.721011757850647,
	"learning_rate": 0.00036258389865894027,
	"loss": 5.646852016448975,
	"step": 253
	},
	{
	"epoch": 0.4064,
	"grad_norm": 1.7198848724365234,
	"learning_rate": 0.0003613626589339652,
	"loss": 5.864961624145508,
	"step": 254
	},
	{
	"epoch": 0.408,
	"grad_norm": 1.8125197887420654,
	"learning_rate": 0.00036013809489094246,
	"loss": 5.502827167510986,
	"step": 255
	},
	{
	"epoch": 0.4096,
	"grad_norm": 1.5398613214492798,
	"learning_rate": 0.00035891024308467727,
	"loss": 5.422593116760254,
	"step": 256
	},
	{
	"epoch": 0.4112,
	"grad_norm": 1.2854444980621338,
	"learning_rate": 0.0003576791401681194,
	"loss": 5.769440650939941,
	"step": 257
	},
	{
	"epoch": 0.4128,
	"grad_norm": 1.302415370941162,
	"learning_rate": 0.0003564448228912682,
	"loss": 5.568209171295166,
	"step": 258
	},
	{
	"epoch": 0.4144,
	"grad_norm": 1.4718657732009888,
	"learning_rate": 0.00035520732810007566,
	"loss": 5.543675422668457,
	"step": 259
	},
	{
	"epoch": 0.416,
	"grad_norm": 1.6336448192596436,
	"learning_rate": 0.0003539666927353469,
	"loss": 5.599291801452637,
	"step": 260
	},
	{
	"epoch": 0.4176,
	"grad_norm": 1.7621365785598755,
	"learning_rate": 0.00035272295383163713,
	"loss": 5.4962263107299805,
	"step": 261
	},
	{
	"epoch": 0.4192,
	"grad_norm": 1.6452198028564453,
	"learning_rate": 0.00035147614851614587,
	"loss": 5.347473621368408,
	"step": 262
	},
	{
	"epoch": 0.4208,
	"grad_norm": 1.3223097324371338,
	"learning_rate": 0.00035022631400760944,
	"loss": 5.4395928382873535,
	"step": 263
	},
	{
	"epoch": 0.4224,
	"grad_norm": 1.178402304649353,
	"learning_rate": 0.0003489734876151891,
	"loss": 5.452559471130371,
	"step": 264
	},
	{
	"epoch": 0.424,
	"grad_norm": 1.493491530418396,
	"learning_rate": 0.0003477177067373579,
	"loss": 5.549748420715332,
	"step": 265
	},
	{
	"epoch": 0.4256,
	"grad_norm": 1.2983075380325317,
	"learning_rate": 0.0003464590088607839,
	"loss": 5.593997478485107,
	"step": 266
	},
	{
	"epoch": 0.4272,
	"grad_norm": 1.4325454235076904,
	"learning_rate": 0.00034519743155921127,
	"loss": 5.567399978637695,
	"step": 267
	},
	{
	"epoch": 0.4288,
	"grad_norm": 1.3392157554626465,
	"learning_rate": 0.00034393301249233897,
	"loss": 5.392118453979492,
	"step": 268
	},
	{
	"epoch": 0.4304,
	"grad_norm": 1.543241262435913,
	"learning_rate": 0.000342665789404696,
	"loss": 5.2302565574646,
	"step": 269
	},
	{
	"epoch": 0.432,
	"grad_norm": 1.5115416049957275,
	"learning_rate": 0.00034139580012451523,
	"loss": 5.704424858093262,
	"step": 270
	},
	{
	"epoch": 0.4336,
	"grad_norm": 1.3637906312942505,
	"learning_rate": 0.0003401230825626037,
	"loss": 5.522019863128662,
	"step": 271
	},
	{
	"epoch": 0.4352,
	"grad_norm": 1.5312447547912598,
	"learning_rate": 0.00033884767471121125,
	"loss": 5.600247859954834,
	"step": 272
	},
	{
	"epoch": 0.4368,
	"grad_norm": 1.467431664466858,
	"learning_rate": 0.00033756961464289633,
	"loss": 5.204289436340332,
	"step": 273
	},
	{
	"epoch": 0.4384,
	"grad_norm": 1.352095603942871,
	"learning_rate": 0.0003362889405093894,
	"loss": 5.327722549438477,
	"step": 274
	},
	{
	"epoch": 0.44,
	"grad_norm": 1.3652808666229248,
	"learning_rate": 0.0003350056905404543,
	"loss": 5.118766784667969,
	"step": 275
	},
	{
	"epoch": 0.4416,
	"grad_norm": 1.6171950101852417,
	"learning_rate": 0.00033371990304274655,
	"loss": 5.259974479675293,
	"step": 276
	},
	{
	"epoch": 0.4432,
	"grad_norm": 1.6351940631866455,
	"learning_rate": 0.0003324316163986704,
	"loss": 5.432730197906494,
	"step": 277
	},
	{
	"epoch": 0.4448,
	"grad_norm": 1.6966768503189087,
	"learning_rate": 0.00033114086906523265,
	"loss": 5.381967544555664,
	"step": 278
	},
	{
	"epoch": 0.4464,
	"grad_norm": 1.3781499862670898,
	"learning_rate": 0.00032984769957289503,
	"loss": 5.303073883056641,
	"step": 279
	},
	{
	"epoch": 0.448,
	"grad_norm": 1.5721884965896606,
	"learning_rate": 0.0003285521465244237,
	"loss": 5.291014671325684,
	"step": 280
	},
	{
	"epoch": 0.4496,
	"grad_norm": 1.1372907161712646,
	"learning_rate": 0.00032725424859373687,
	"loss": 5.211060523986816,
	"step": 281
	},
	{
	"epoch": 0.4512,
	"grad_norm": 1.293617844581604,
	"learning_rate": 0.00032595404452475085,
	"loss": 5.443847179412842,
	"step": 282
	},
	{
	"epoch": 0.4528,
	"grad_norm": 2.1258699893951416,
	"learning_rate": 0.0003246515731302228,
	"loss": 5.064897537231445,
	"step": 283
	},
	{
	"epoch": 0.4544,
	"grad_norm": 1.418958067893982,
	"learning_rate": 0.00032334687329059264,
	"loss": 5.420772552490234,
	"step": 284
	},
	{
	"epoch": 0.456,
	"grad_norm": 1.2100834846496582,
	"learning_rate": 0.0003220399839528222,
	"loss": 5.425792217254639,
	"step": 285
	},
	{
	"epoch": 0.4576,
	"grad_norm": 1.2931607961654663,
	"learning_rate": 0.0003207309441292325,
	"loss": 5.330716609954834,
	"step": 286
	},
	{
	"epoch": 0.4592,
	"grad_norm": 1.4552083015441895,
	"learning_rate": 0.0003194197928963396,
	"loss": 5.734864234924316,
	"step": 287
	},
	{
	"epoch": 0.4608,
	"grad_norm": 1.377821683883667,
	"learning_rate": 0.00031810656939368744,
	"loss": 5.4975361824035645,
	"step": 288
	},
	{
	"epoch": 0.4624,
	"grad_norm": 1.3547130823135376,
	"learning_rate": 0.0003167913128226803,
	"loss": 5.421193599700928,
	"step": 289
	},
	{
	"epoch": 0.464,
	"grad_norm": 1.4445191621780396,
	"learning_rate": 0.0003154740624454118,
	"loss": 5.138959884643555,
	"step": 290
	},
	{
	"epoch": 0.4656,
	"grad_norm": 1.3757892847061157,
	"learning_rate": 0.00031415485758349345,
	"loss": 5.1781840324401855,
	"step": 291
	},
	{
	"epoch": 0.4672,
	"grad_norm": 1.2458899021148682,
	"learning_rate": 0.0003128337376168805,
	"loss": 4.89755916595459,
	"step": 292
	},
	{
	"epoch": 0.4688,
	"grad_norm": 1.581918478012085,
	"learning_rate": 0.00031151074198269656,
	"loss": 5.327348709106445,
	"step": 293
	},
	{
	"epoch": 0.4704,
	"grad_norm": 1.5751845836639404,
	"learning_rate": 0.00031018591017405644,
	"loss": 5.386034965515137,
	"step": 294
	},
	{
	"epoch": 0.472,
	"grad_norm": 1.6921762228012085,
	"learning_rate": 0.0003088592817388869,
	"loss": 5.158099174499512,
	"step": 295
	},
	{
	"epoch": 0.4736,
	"grad_norm": 1.62604820728302,
	"learning_rate": 0.0003075308962787466,
	"loss": 5.450359344482422,
	"step": 296
	},
	{
	"epoch": 0.4752,
	"grad_norm": 1.2735328674316406,
	"learning_rate": 0.00030620079344764327,
	"loss": 5.264720439910889,
	"step": 297
	},
	{
	"epoch": 0.4768,
	"grad_norm": 1.6045722961425781,
	"learning_rate": 0.00030486901295085066,
	"loss": 5.421563625335693,
	"step": 298
	},
	{
	"epoch": 0.4784,
	"grad_norm": 1.4631224870681763,
	"learning_rate": 0.0003035355945437228,
	"loss": 5.549293041229248,
	"step": 299
	},
	{
	"epoch": 0.48,
	"grad_norm": 1.34758460521698,
	"learning_rate": 0.00030220057803050765,
	"loss": 5.213095664978027,
	"step": 300
	},
	{
	"epoch": 0.4816,
	"grad_norm": 1.659041404724121,
	"learning_rate": 0.0003008640032631585,
	"loss": 5.40679931640625,
	"step": 301
	},
	{
	"epoch": 0.4832,
	"grad_norm": 1.3234513998031616,
	"learning_rate": 0.00029952591014014454,
	"loss": 5.249087333679199,
	"step": 302
	},
	{
	"epoch": 0.4848,
	"grad_norm": 1.2783095836639404,
	"learning_rate": 0.0002981863386052599,
	"loss": 5.571717262268066,
	"step": 303
	},
	{
	"epoch": 0.4864,
	"grad_norm": 1.2698612213134766,
	"learning_rate": 0.0002968453286464312,
	"loss": 5.460443019866943,
	"step": 304
	},
	{
	"epoch": 0.488,
	"grad_norm": 1.411340594291687,
	"learning_rate": 0.00029550292029452375,
	"loss": 5.521218776702881,
	"step": 305
	},
	{
	"epoch": 0.4896,
	"grad_norm": 1.2482413053512573,
	"learning_rate": 0.0002941591536221469,
	"loss": 5.2962646484375,
	"step": 306
	},
	{
	"epoch": 0.4912,
	"grad_norm": 1.3746726512908936,
	"learning_rate": 0.0002928140687424573,
	"loss": 5.614439964294434,
	"step": 307
	},
	{
	"epoch": 0.4928,
	"grad_norm": 1.5684117078781128,
	"learning_rate": 0.00029146770580796205,
	"loss": 5.34489107131958,
	"step": 308
	},
	{
	"epoch": 0.4944,
	"grad_norm": 1.8253686428070068,
	"learning_rate": 0.00029012010500931965,
	"loss": 5.56744384765625,
	"step": 309
	},
	{
	"epoch": 0.496,
	"grad_norm": 1.4048644304275513,
	"learning_rate": 0.00028877130657414054,
	"loss": 5.361034393310547,
	"step": 310
	},
	{
	"epoch": 0.4976,
	"grad_norm": 1.3948677778244019,
	"learning_rate": 0.0002874213507657861,
	"loss": 5.47017240524292,
	"step": 311
	},
	{
	"epoch": 0.4992,
	"grad_norm": 1.4963343143463135,
	"learning_rate": 0.00028607027788216674,
	"loss": 5.397054672241211,
	"step": 312
	},
	{
	"epoch": 0.5008,
	"grad_norm": 1.3787459135055542,
	"learning_rate": 0.00028471812825453914,
	"loss": 5.223832607269287,
	"step": 313
	},
	{
	"epoch": 0.5024,
	"grad_norm": 1.6353243589401245,
	"learning_rate": 0.0002833649422463019,
	"loss": 5.2796525955200195,
	"step": 314
	},
	{
	"epoch": 0.504,
	"grad_norm": 1.3684626817703247,
	"learning_rate": 0.0002820107602517913,
	"loss": 5.421512126922607,
	"step": 315
	},
	{
	"epoch": 0.5056,
	"grad_norm": 1.2275117635726929,
	"learning_rate": 0.0002806556226950746,
	"loss": 5.282046318054199,
	"step": 316
	},
	{
	"epoch": 0.5072,
	"grad_norm": 1.5556248426437378,
	"learning_rate": 0.00027929957002874436,
	"loss": 5.28046178817749,
	"step": 317
	},
	{
	"epoch": 0.5088,
	"grad_norm": 1.5862129926681519,
	"learning_rate": 0.00027794264273270987,
	"loss": 5.368446350097656,
	"step": 318
	},
	{
	"epoch": 0.5104,
	"grad_norm": 1.4724379777908325,
	"learning_rate": 0.00027658488131298946,
	"loss": 5.535717010498047,
	"step": 319
	},
	{
	"epoch": 0.512,
	"grad_norm": 1.257763147354126,
	"learning_rate": 0.00027522632630050116,
	"loss": 5.145805835723877,
	"step": 320
	},
	{
	"epoch": 0.5136,
	"grad_norm": 1.2067614793777466,
	"learning_rate": 0.00027386701824985254,
	"loss": 5.230715274810791,
	"step": 321
	},
	{
	"epoch": 0.5152,
	"grad_norm": 1.3885655403137207,
	"learning_rate": 0.00027250699773813066,
	"loss": 5.397106170654297,
	"step": 322
	},
	{
	"epoch": 0.5168,
	"grad_norm": 1.3261369466781616,
	"learning_rate": 0.00027114630536369,
	"loss": 5.118717193603516,
	"step": 323
	},
	{
	"epoch": 0.5184,
	"grad_norm": 1.3677432537078857,
	"learning_rate": 0.0002697849817449415,
	"loss": 5.1717400550842285,
	"step": 324
	},
	{
	"epoch": 0.52,
	"grad_norm": 1.476125955581665,
	"learning_rate": 0.00026842306751913926,
	"loss": 5.247461318969727,
	"step": 325
	},
	{
	"epoch": 0.5216,
	"grad_norm": 1.4229127168655396,
	"learning_rate": 0.0002670606033411678,
	"loss": 5.157002925872803,
	"step": 326
	},
	{
	"epoch": 0.5232,
	"grad_norm": 1.4474886655807495,
	"learning_rate": 0.0002656976298823284,
	"loss": 5.441634178161621,
	"step": 327
	},
	{
	"epoch": 0.5248,
	"grad_norm": 1.4530051946640015,
	"learning_rate": 0.00026433418782912505,
	"loss": 5.526297569274902,
	"step": 328
	},
	{
	"epoch": 0.5264,
	"grad_norm": 1.1628731489181519,
	"learning_rate": 0.00026297031788205,
	"loss": 5.242552280426025,
	"step": 329
	},
	{
	"epoch": 0.528,
	"grad_norm": 1.245635747909546,
	"learning_rate": 0.00026160606075436844,
	"loss": 5.074901103973389,
	"step": 330
	},
	{
	"epoch": 0.5296,
	"grad_norm": 1.2995966672897339,
	"learning_rate": 0.0002602414571709036,
	"loss": 5.35468864440918,
	"step": 331
	},
	{
	"epoch": 0.5312,
	"grad_norm": 1.1434332132339478,
	"learning_rate": 0.00025887654786682076,
	"loss": 5.233968257904053,
	"step": 332
	},
	{
	"epoch": 0.5328,
	"grad_norm": 1.8108292818069458,
	"learning_rate": 0.0002575113735864114,
	"loss": 5.389377593994141,
	"step": 333
	},
	{
	"epoch": 0.5344,
	"grad_norm": 1.7074164152145386,
	"learning_rate": 0.0002561459750818769,
	"loss": 5.581827163696289,
	"step": 334
	},
	{
	"epoch": 0.536,
	"grad_norm": 1.5946106910705566,
	"learning_rate": 0.0002547803931121119,
	"loss": 5.279594898223877,
	"step": 335
	},
	{
	"epoch": 0.5376,
	"grad_norm": 1.6184440851211548,
	"learning_rate": 0.00025341466844148775,
	"loss": 5.198509693145752,
	"step": 336
	},
	{
	"epoch": 0.5392,
	"grad_norm": 1.2537761926651,
	"learning_rate": 0.0002520488418386358,
	"loss": 5.231502056121826,
	"step": 337
	},
	{
	"epoch": 0.5408,
	"grad_norm": 1.4233760833740234,
	"learning_rate": 0.00025068295407523,
	"loss": 5.152407646179199,
	"step": 338
	},
	{
	"epoch": 0.5424,
	"grad_norm": 1.2714813947677612,
	"learning_rate": 0.00024931704592477,
	"loss": 5.5605878829956055,
	"step": 339
	},
	{
	"epoch": 0.544,
	"grad_norm": 1.2656306028366089,
	"learning_rate": 0.0002479511581613642,
	"loss": 5.457594394683838,
	"step": 340
	},
	{
	"epoch": 0.5456,
	"grad_norm": 1.1355462074279785,
	"learning_rate": 0.00024658533155851227,
	"loss": 5.645468711853027,
	"step": 341
	},
	{
	"epoch": 0.5472,
	"grad_norm": 1.564833641052246,
	"learning_rate": 0.0002452196068878881,
	"loss": 5.560579299926758,
	"step": 342
	},
	{
	"epoch": 0.5488,
	"grad_norm": 1.2560124397277832,
	"learning_rate": 0.00024385402491812317,
	"loss": 5.102597236633301,
	"step": 343
	},
	{
	"epoch": 0.5504,
	"grad_norm": 1.47645103931427,
	"learning_rate": 0.00024248862641358866,
	"loss": 5.347832679748535,
	"step": 344
	},
	{
	"epoch": 0.552,
	"grad_norm": 1.634925127029419,
	"learning_rate": 0.00024112345213317933,
	"loss": 5.229283332824707,
	"step": 345
	},
	{
	"epoch": 0.5536,
	"grad_norm": 1.3205620050430298,
	"learning_rate": 0.00023975854282909641,
	"loss": 5.406874179840088,
	"step": 346
	},
	{
	"epoch": 0.5552,
	"grad_norm": 1.5099257230758667,
	"learning_rate": 0.00023839393924563162,
	"loss": 5.050958156585693,
	"step": 347
	},
	{
	"epoch": 0.5568,
	"grad_norm": 1.2842683792114258,
	"learning_rate": 0.0002370296821179501,
	"loss": 5.189534664154053,
	"step": 348
	},
	{
	"epoch": 0.5584,
	"grad_norm": 1.1710087060928345,
	"learning_rate": 0.00023566581217087493,
	"loss": 5.227584362030029,
	"step": 349
	},
	{
	"epoch": 0.56,
	"grad_norm": 1.3577237129211426,
	"learning_rate": 0.00023430237011767165,
	"loss": 5.079989433288574,
	"step": 350
	},
	{
	"epoch": 0.5616,
	"grad_norm": 1.2834707498550415,
	"learning_rate": 0.00023293939665883229,
	"loss": 5.309730052947998,
	"step": 351
	},
	{
	"epoch": 0.5632,
	"grad_norm": 1.4233572483062744,
	"learning_rate": 0.0002315769324808608,
	"loss": 5.27959680557251,
	"step": 352
	},
	{
	"epoch": 0.5648,
	"grad_norm": 1.7741755247116089,
	"learning_rate": 0.00023021501825505847,
	"loss": 5.245169162750244,
	"step": 353
	},
	{
	"epoch": 0.5664,
	"grad_norm": 1.743356466293335,
	"learning_rate": 0.00022885369463631,
	"loss": 5.384469985961914,
	"step": 354
	},
	{
	"epoch": 0.568,
	"grad_norm": 1.3255281448364258,
	"learning_rate": 0.00022749300226186948,
	"loss": 5.170154094696045,
	"step": 355
	},
	{
	"epoch": 0.5696,
	"grad_norm": 1.3135267496109009,
	"learning_rate": 0.0002261329817501475,
	"loss": 5.177214622497559,
	"step": 356
	},
	{
	"epoch": 0.5712,
	"grad_norm": 1.334771990776062,
	"learning_rate": 0.00022477367369949885,
	"loss": 5.129632472991943,
	"step": 357
	},
	{
	"epoch": 0.5728,
	"grad_norm": 1.5144758224487305,
	"learning_rate": 0.00022341511868701055,
	"loss": 4.999809741973877,
	"step": 358
	},
	{
	"epoch": 0.5744,
	"grad_norm": 1.2315837144851685,
	"learning_rate": 0.0002220573572672902,
	"loss": 5.348094940185547,
	"step": 359
	},
	{
	"epoch": 0.576,
	"grad_norm": 1.4335271120071411,
	"learning_rate": 0.00022070042997125567,
	"loss": 5.095552444458008,
	"step": 360
	},
	{
	"epoch": 0.5776,
	"grad_norm": 1.6949377059936523,
	"learning_rate": 0.00021934437730492543,
	"loss": 5.0214924812316895,
	"step": 361
	},
	{
	"epoch": 0.5792,
	"grad_norm": 1.3676100969314575,
	"learning_rate": 0.00021798923974820884,
	"loss": 5.584174633026123,
	"step": 362
	},
	{
	"epoch": 0.5808,
	"grad_norm": 1.3218090534210205,
	"learning_rate": 0.0002166350577536981,
	"loss": 5.239519119262695,
	"step": 363
	},
	{
	"epoch": 0.5824,
	"grad_norm": 1.3069649934768677,
	"learning_rate": 0.00021528187174546092,
	"loss": 5.372768402099609,
	"step": 364
	},
	{
	"epoch": 0.584,
	"grad_norm": 1.3426185846328735,
	"learning_rate": 0.00021392972211783332,
	"loss": 5.219846248626709,
	"step": 365
	},
	{
	"epoch": 0.5856,
	"grad_norm": 1.3411294221878052,
	"learning_rate": 0.00021257864923421402,
	"loss": 4.874852180480957,
	"step": 366
	},
	{
	"epoch": 0.5872,
	"grad_norm": 1.4060436487197876,
	"learning_rate": 0.00021122869342585948,
	"loss": 5.2531046867370605,
	"step": 367
	},
	{
	"epoch": 0.5888,
	"grad_norm": 1.192141056060791,
	"learning_rate": 0.00020987989499068042,
	"loss": 5.342706203460693,
	"step": 368
	},
	{
	"epoch": 0.5904,
	"grad_norm": 1.3001792430877686,
	"learning_rate": 0.00020853229419203807,
	"loss": 5.323460578918457,
	"step": 369
	},
	{
	"epoch": 0.592,
	"grad_norm": 1.4926820993423462,
	"learning_rate": 0.0002071859312575427,
	"loss": 5.296498775482178,
	"step": 370
	},
	{
	"epoch": 0.5936,
	"grad_norm": 1.434384822845459,
	"learning_rate": 0.00020584084637785316,
	"loss": 5.084543228149414,
	"step": 371
	},
	{
	"epoch": 0.5952,
	"grad_norm": 2.288747787475586,
	"learning_rate": 0.00020449707970547629,
	"loss": 5.0905585289001465,
	"step": 372
	},
	{
	"epoch": 0.5968,
	"grad_norm": 1.4251408576965332,
	"learning_rate": 0.0002031546713535688,
	"loss": 5.365981101989746,
	"step": 373
	},
	{
	"epoch": 0.5984,
	"grad_norm": 1.317584753036499,
	"learning_rate": 0.00020181366139474012,
	"loss": 5.608163356781006,
	"step": 374
	},
	{
	"epoch": 0.6,
	"grad_norm": 1.187654733657837,
	"learning_rate": 0.00020047408985985552,
	"loss": 4.876247406005859,
	"step": 375
	},
	{
	"epoch": 0.6016,
	"grad_norm": 2.2563083171844482,
	"learning_rate": 0.0001991359967368416,
	"loss": 5.187510013580322,
	"step": 376
	},
	{
	"epoch": 0.6032,
	"grad_norm": 1.282902479171753,
	"learning_rate": 0.00019779942196949238,
	"loss": 5.240813255310059,
	"step": 377
	},
	{
	"epoch": 0.6048,
	"grad_norm": 1.345765471458435,
	"learning_rate": 0.00019646440545627723,
	"loss": 5.2197957038879395,
	"step": 378
	},
	{
	"epoch": 0.6064,
	"grad_norm": 1.2917436361312866,
	"learning_rate": 0.0001951309870491494,
	"loss": 5.324549674987793,
	"step": 379
	},
	{
	"epoch": 0.608,
	"grad_norm": 1.2900662422180176,
	"learning_rate": 0.0001937992065523567,
	"loss": 5.294788360595703,
	"step": 380
	},
	{
	"epoch": 0.6096,
	"grad_norm": 1.5021880865097046,
	"learning_rate": 0.00019246910372125342,
	"loss": 5.409048080444336,
	"step": 381
	},
	{
	"epoch": 0.6112,
	"grad_norm": 1.6828486919403076,
	"learning_rate": 0.0001911407182611131,
	"loss": 5.392390251159668,
	"step": 382
	},
	{
	"epoch": 0.6128,
	"grad_norm": 1.5416451692581177,
	"learning_rate": 0.00018981408982594365,
	"loss": 5.151852130889893,
	"step": 383
	},
	{
	"epoch": 0.6144,
	"grad_norm": 1.2479101419448853,
	"learning_rate": 0.00018848925801730342,
	"loss": 5.193958759307861,
	"step": 384
	},
	{
	"epoch": 0.616,
	"grad_norm": 1.471063256263733,
	"learning_rate": 0.00018716626238311958,
	"loss": 4.912611961364746,
	"step": 385
	},
	{
	"epoch": 0.6176,
	"grad_norm": 1.285828948020935,
	"learning_rate": 0.00018584514241650667,
	"loss": 4.898399829864502,
	"step": 386
	},
	{
	"epoch": 0.6192,
	"grad_norm": 1.8733534812927246,
	"learning_rate": 0.0001845259375545882,
	"loss": 4.954188346862793,
	"step": 387
	},
	{
	"epoch": 0.6208,
	"grad_norm": 1.55088472366333,
	"learning_rate": 0.00018320868717731977,
	"loss": 5.39755916595459,
	"step": 388
	},
	{
	"epoch": 0.6224,
	"grad_norm": 1.876209020614624,
	"learning_rate": 0.00018189343060631257,
	"loss": 5.461378574371338,
	"step": 389
	},
	{
	"epoch": 0.624,
	"grad_norm": 1.192241907119751,
	"learning_rate": 0.0001805802071036605,
	"loss": 4.95612096786499,
	"step": 390
	},
	{
	"epoch": 0.6256,
	"grad_norm": 1.3008099794387817,
	"learning_rate": 0.00017926905587076748,
	"loss": 5.485091209411621,
	"step": 391
	},
	{
	"epoch": 0.6272,
	"grad_norm": 1.7544057369232178,
	"learning_rate": 0.00017796001604717787,
	"loss": 4.80226993560791,
	"step": 392
	},
	{
	"epoch": 0.6288,
	"grad_norm": 1.2537293434143066,
	"learning_rate": 0.00017665312670940743,
	"loss": 5.096302509307861,
	"step": 393
	},
	{
	"epoch": 0.6304,
	"grad_norm": 1.1589773893356323,
	"learning_rate": 0.0001753484268697772,
	"loss": 5.296406269073486,
	"step": 394
	},
	{
	"epoch": 0.632,
	"grad_norm": 1.2438563108444214,
	"learning_rate": 0.0001740459554752492,
	"loss": 5.258586406707764,
	"step": 395
	},
	{
	"epoch": 0.6336,
	"grad_norm": 1.2174347639083862,
	"learning_rate": 0.00017274575140626317,
	"loss": 5.269428253173828,
	"step": 396
	},
	{
	"epoch": 0.6352,
	"grad_norm": 1.4118070602416992,
	"learning_rate": 0.00017144785347557643,
	"loss": 4.895862579345703,
	"step": 397
	},
	{
	"epoch": 0.6368,
	"grad_norm": 1.2514833211898804,
	"learning_rate": 0.000170152300427105,
	"loss": 5.026675701141357,
	"step": 398
	},
	{
	"epoch": 0.6384,
	"grad_norm": 1.2788375616073608,
	"learning_rate": 0.0001688591309347674,
	"loss": 5.225519180297852,
	"step": 399
	},
	{
	"epoch": 0.64,
	"grad_norm": 2.105532646179199,
	"learning_rate": 0.00016756838360132968,
	"loss": 4.846694469451904,
	"step": 400
	},
	{
	"epoch": 0.6416,
	"grad_norm": 1.5078997611999512,
	"learning_rate": 0.00016628009695725346,
	"loss": 5.365673065185547,
	"step": 401
	},
	{
	"epoch": 0.6432,
	"grad_norm": 1.2744578123092651,
	"learning_rate": 0.00016499430945954576,
	"loss": 5.406460285186768,
	"step": 402
	},
	{
	"epoch": 0.6448,
	"grad_norm": 1.494751214981079,
	"learning_rate": 0.0001637110594906106,
	"loss": 5.130960464477539,
	"step": 403
	},
	{
	"epoch": 0.6464,
	"grad_norm": 1.4280880689620972,
	"learning_rate": 0.00016243038535710365,
	"loss": 5.194888114929199,
	"step": 404
	},
	{
	"epoch": 0.648,
	"grad_norm": 1.2241549491882324,
	"learning_rate": 0.00016115232528878876,
	"loss": 4.969592571258545,
	"step": 405
	},
	{
	"epoch": 0.6496,
	"grad_norm": 1.2147563695907593,
	"learning_rate": 0.00015987691743739636,
	"loss": 5.176176071166992,
	"step": 406
	},
	{
	"epoch": 0.6512,
	"grad_norm": 1.1825661659240723,
	"learning_rate": 0.00015860419987548486,
	"loss": 5.012125015258789,
	"step": 407
	},
	{
	"epoch": 0.6528,
	"grad_norm": 1.3765822649002075,
	"learning_rate": 0.00015733421059530397,
	"loss": 5.192166328430176,
	"step": 408
	},
	{
	"epoch": 0.6544,
	"grad_norm": 1.455336332321167,
	"learning_rate": 0.00015606698750766107,
	"loss": 5.153839111328125,
	"step": 409
	},
	{
	"epoch": 0.656,
	"grad_norm": 1.2426291704177856,
	"learning_rate": 0.00015480256844078877,
	"loss": 5.300335884094238,
	"step": 410
	},
	{
	"epoch": 0.6576,
	"grad_norm": 1.2273467779159546,
	"learning_rate": 0.00015354099113921613,
	"loss": 5.370866775512695,
	"step": 411
	},
	{
	"epoch": 0.6592,
	"grad_norm": 1.3272308111190796,
	"learning_rate": 0.0001522822932626421,
	"loss": 5.237664699554443,
	"step": 412
	},
	{
	"epoch": 0.6608,
	"grad_norm": 1.486881136894226,
	"learning_rate": 0.00015102651238481092,
	"loss": 5.199460029602051,
	"step": 413
	},
	{
	"epoch": 0.6624,
	"grad_norm": 1.225791096687317,
	"learning_rate": 0.0001497736859923906,
	"loss": 5.001354217529297,
	"step": 414
	},
	{
	"epoch": 0.664,
	"grad_norm": 1.1577017307281494,
	"learning_rate": 0.00014852385148385412,
	"loss": 4.978085517883301,
	"step": 415
	},
	{
	"epoch": 0.6656,
	"grad_norm": 1.1296128034591675,
	"learning_rate": 0.00014727704616836296,
	"loss": 5.08205509185791,
	"step": 416
	},
	{
	"epoch": 0.6672,
	"grad_norm": 1.450363278388977,
	"learning_rate": 0.00014603330726465315,
	"loss": 5.209231853485107,
	"step": 417
	},
	{
	"epoch": 0.6688,
	"grad_norm": 1.1756222248077393,
	"learning_rate": 0.00014479267189992435,
	"loss": 5.059493064880371,
	"step": 418
	},
	{
	"epoch": 0.6704,
	"grad_norm": 1.3998825550079346,
	"learning_rate": 0.00014355517710873183,
	"loss": 4.99937629699707,
	"step": 419
	},
	{
	"epoch": 0.672,
	"grad_norm": 1.3438893556594849,
	"learning_rate": 0.00014232085983188064,
	"loss": 5.317448616027832,
	"step": 420
	},
	{
	"epoch": 0.6736,
	"grad_norm": 1.080320119857788,
	"learning_rate": 0.00014108975691532271,
	"loss": 5.1715264320373535,
	"step": 421
	},
	{
	"epoch": 0.6752,
	"grad_norm": 1.2611881494522095,
	"learning_rate": 0.00013986190510905758,
	"loss": 4.58638858795166,
	"step": 422
	},
	{
	"epoch": 0.6768,
	"grad_norm": 1.2457435131072998,
	"learning_rate": 0.0001386373410660347,
	"loss": 4.950125217437744,
	"step": 423
	},
	{
	"epoch": 0.6784,
	"grad_norm": 1.7552827596664429,
	"learning_rate": 0.00013741610134105983,
	"loss": 5.444072723388672,
	"step": 424
	},
	{
	"epoch": 0.68,
	"grad_norm": 1.21152925491333,
	"learning_rate": 0.0001361982223897032,
	"loss": 5.073456287384033,
	"step": 425
	},
	{
	"epoch": 0.6816,
	"grad_norm": 1.5059016942977905,
	"learning_rate": 0.00013498374056721197,
	"loss": 5.584665298461914,
	"step": 426
	},
	{
	"epoch": 0.6832,
	"grad_norm": 1.4177290201187134,
	"learning_rate": 0.00013377269212742457,
	"loss": 5.289451599121094,
	"step": 427
	},
	{
	"epoch": 0.6848,
	"grad_norm": 1.4181674718856812,
	"learning_rate": 0.0001325651132216886,
	"loss": 4.7561540603637695,
	"step": 428
	},
	{
	"epoch": 0.6864,
	"grad_norm": 1.1193443536758423,
	"learning_rate": 0.00013136103989778137,
	"loss": 5.055768013000488,
	"step": 429
	},
	{
	"epoch": 0.688,
	"grad_norm": 1.1662368774414062,
	"learning_rate": 0.00013016050809883434,
	"loss": 4.925864219665527,
	"step": 430
	},
	{
	"epoch": 0.6896,
	"grad_norm": 1.188244104385376,
	"learning_rate": 0.00012896355366225998,
	"loss": 4.825364589691162,
	"step": 431
	},
	{
	"epoch": 0.6912,
	"grad_norm": 1.4330700635910034,
	"learning_rate": 0.00012777021231868144,
	"loss": 5.1424055099487305,
	"step": 432
	},
	{
	"epoch": 0.6928,
	"grad_norm": 1.5289138555526733,
	"learning_rate": 0.00012658051969086713,
	"loss": 5.1443772315979,
	"step": 433
	},
	{
	"epoch": 0.6944,
	"grad_norm": 1.455989122390747,
	"learning_rate": 0.00012539451129266603,
	"loss": 4.967620849609375,
	"step": 434
	},
	{
	"epoch": 0.696,
	"grad_norm": 1.36936354637146,
	"learning_rate": 0.00012421222252794833,
	"loss": 5.1624908447265625,
	"step": 435
	},
	{
	"epoch": 0.6976,
	"grad_norm": 1.3274517059326172,
	"learning_rate": 0.0001230336886895485,
	"loss": 5.160506725311279,
	"step": 436
	},
	{
	"epoch": 0.6992,
	"grad_norm": 1.3301618099212646,
	"learning_rate": 0.0001218589449582116,
	"loss": 4.8344645500183105,
	"step": 437
	},
	{
	"epoch": 0.7008,
	"grad_norm": 1.4845178127288818,
	"learning_rate": 0.00012068802640154292,
	"loss": 4.987344264984131,
	"step": 438
	},
	{
	"epoch": 0.7024,
	"grad_norm": 1.2381513118743896,
	"learning_rate": 0.00011952096797296167,
	"loss": 4.904998779296875,
	"step": 439
	},
	{
	"epoch": 0.704,
	"grad_norm": 1.395328402519226,
	"learning_rate": 0.00011835780451065722,
	"loss": 4.8166656494140625,
	"step": 440
	},
	{
	"epoch": 0.7056,
	"grad_norm": 1.9488160610198975,
	"learning_rate": 0.00011719857073654922,
	"loss": 5.329633712768555,
	"step": 441
	},
	{
	"epoch": 0.7072,
	"grad_norm": 1.4535843133926392,
	"learning_rate": 0.00011604330125525078,
	"loss": 4.918258190155029,
	"step": 442
	},
	{
	"epoch": 0.7088,
	"grad_norm": 1.4393301010131836,
	"learning_rate": 0.00011489203055303646,
	"loss": 5.293149471282959,
	"step": 443
	},
	{
	"epoch": 0.7104,
	"grad_norm": 1.5147560834884644,
	"learning_rate": 0.00011374479299681142,
	"loss": 5.193087100982666,
	"step": 444
	},
	{
	"epoch": 0.712,
	"grad_norm": 1.9008417129516602,
	"learning_rate": 0.00011260162283308678,
	"loss": 5.060847282409668,
	"step": 445
	},
	{
	"epoch": 0.7136,
	"grad_norm": 1.42693030834198,
	"learning_rate": 0.00011146255418695633,
	"loss": 5.017470836639404,
	"step": 446
	},
	{
	"epoch": 0.7152,
	"grad_norm": 1.3155730962753296,
	"learning_rate": 0.00011032762106107872,
	"loss": 5.276302337646484,
	"step": 447
	},
	{
	"epoch": 0.7168,
	"grad_norm": 1.414832592010498,
	"learning_rate": 0.00010919685733466175,
	"loss": 5.105321884155273,
	"step": 448
	},
	{
	"epoch": 0.7184,
	"grad_norm": 1.4331352710723877,
	"learning_rate": 0.00010807029676245145,
	"loss": 5.178823471069336,
	"step": 449
	},
	{
	"epoch": 0.72,
	"grad_norm": 2.958193302154541,
	"learning_rate": 0.00010694797297372433,
	"loss": 5.053134918212891,
	"step": 450
	},
	{
	"epoch": 0.7216,
	"grad_norm": 1.4789056777954102,
	"learning_rate": 0.00010582991947128323,
	"loss": 5.253017425537109,
	"step": 451
	},
	{
	"epoch": 0.7232,
	"grad_norm": 1.4438488483428955,
	"learning_rate": 0.00010471616963045788,
	"loss": 4.795893669128418,
	"step": 452
	},
	{
	"epoch": 0.7248,
	"grad_norm": 1.0840559005737305,
	"learning_rate": 0.00010360675669810765,
	"loss": 4.984047889709473,
	"step": 453
	},
	{
	"epoch": 0.7264,
	"grad_norm": 1.0405324697494507,
	"learning_rate": 0.00010250171379163034,
	"loss": 5.2449116706848145,
	"step": 454
	},
	{
	"epoch": 0.728,
	"grad_norm": 1.5884569883346558,
	"learning_rate": 0.00010140107389797223,
	"loss": 4.744875907897949,
	"step": 455
	},
	{
	"epoch": 0.7296,
	"grad_norm": 1.3832892179489136,
	"learning_rate": 0.00010030486987264437,
	"loss": 5.204304218292236,
	"step": 456
	},
	{
	"epoch": 0.7312,
	"grad_norm": 1.5350919961929321,
	"learning_rate": 9.921313443874142e-05,
	"loss": 4.8627400398254395,
	"step": 457
	},
	{
	"epoch": 0.7328,
	"grad_norm": 1.3951729536056519,
	"learning_rate": 9.812590018596485e-05,
	"loss": 4.816617488861084,
	"step": 458
	},
	{
	"epoch": 0.7344,
	"grad_norm": 1.4187312126159668,
	"learning_rate": 9.704319956964996e-05,
	"loss": 5.244232654571533,
	"step": 459
	},
	{
	"epoch": 0.736,
	"grad_norm": 1.9965143203735352,
	"learning_rate": 9.596506490979737e-05,
	"loss": 5.668506145477295,
	"step": 460
	},
	{
	"epoch": 0.7376,
	"grad_norm": 1.6400834321975708,
	"learning_rate": 9.489152839010798e-05,
	"loss": 5.365629196166992,
	"step": 461
	},
	{
	"epoch": 0.7392,
	"grad_norm": 1.442253828048706,
	"learning_rate": 9.382262205702247e-05,
	"loss": 5.322830677032471,
	"step": 462
	},
	{
	"epoch": 0.7408,
	"grad_norm": 1.1397078037261963,
	"learning_rate": 9.275837781876404e-05,
	"loss": 5.002555847167969,
	"step": 463
	},
	{
	"epoch": 0.7424,
	"grad_norm": 1.4520896673202515,
	"learning_rate": 9.16988274443871e-05,
	"loss": 5.138970375061035,
	"step": 464
	},
	{
	"epoch": 0.744,
	"grad_norm": 1.3373026847839355,
	"learning_rate": 9.064400256282756e-05,
	"loss": 5.060115814208984,
	"step": 465
	},
	{
	"epoch": 0.7456,
	"grad_norm": 1.3698216676712036,
	"learning_rate": 8.959393466195972e-05,
	"loss": 5.160407066345215,
	"step": 466
	},
	{
	"epoch": 0.7472,
	"grad_norm": 1.45284104347229,
	"learning_rate": 8.854865508765577e-05,
	"loss": 4.794371604919434,
	"step": 467
	},
	{
	"epoch": 0.7488,
	"grad_norm": 1.2445486783981323,
	"learning_rate": 8.750819504285015e-05,
	"loss": 4.926098823547363,
	"step": 468
	},
	{
	"epoch": 0.7504,
	"grad_norm": 1.5558010339736938,
	"learning_rate": 8.647258558660828e-05,
	"loss": 5.0971245765686035,
	"step": 469
	},
	{
	"epoch": 0.752,
	"grad_norm": 1.5887895822525024,
	"learning_rate": 8.544185763319925e-05,
	"loss": 5.4126152992248535,
	"step": 470
	},
	{
	"epoch": 0.7536,
	"grad_norm": 1.1927727460861206,
	"learning_rate": 8.441604195117314e-05,
	"loss": 4.76765251159668,
	"step": 471
	},
	{
	"epoch": 0.7552,
	"grad_norm": 1.1783281564712524,
	"learning_rate": 8.339516916244216e-05,
	"loss": 5.2575907707214355,
	"step": 472
	},
	{
	"epoch": 0.7568,
	"grad_norm": 1.4256731271743774,
	"learning_rate": 8.237926974136715e-05,
	"loss": 4.811319351196289,
	"step": 473
	},
	{
	"epoch": 0.7584,
	"grad_norm": 1.1950210332870483,
	"learning_rate": 8.136837401384733e-05,
	"loss": 5.229648590087891,
	"step": 474
	},
	{
	"epoch": 0.76,
	"grad_norm": 1.409590721130371,
	"learning_rate": 8.036251215641546e-05,
	"loss": 5.007275104522705,
	"step": 475
	},
	{
	"epoch": 0.7616,
	"grad_norm": 1.3664684295654297,
	"learning_rate": 7.936171419533653e-05,
	"loss": 5.1865339279174805,
	"step": 476
	},
	{
	"epoch": 0.7632,
	"grad_norm": 1.272782564163208,
	"learning_rate": 7.836601000571197e-05,
	"loss": 5.0746636390686035,
	"step": 477
	},
	{
	"epoch": 0.7648,
	"grad_norm": 1.430291771888733,
	"learning_rate": 7.737542931058755e-05,
	"loss": 5.309817790985107,
	"step": 478
	},
	{
	"epoch": 0.7664,
	"grad_norm": 1.391274094581604,
	"learning_rate": 7.63900016800663e-05,
	"loss": 4.913700103759766,
	"step": 479
	},
	{
	"epoch": 0.768,
	"grad_norm": 1.8367639780044556,
	"learning_rate": 7.54097565304252e-05,
	"loss": 4.870950222015381,
	"step": 480
	},
	{
	"epoch": 0.7696,
	"grad_norm": 1.5375534296035767,
	"learning_rate": 7.443472312323824e-05,
	"loss": 5.078888893127441,
	"step": 481
	},
	{
	"epoch": 0.7712,
	"grad_norm": 1.3212310075759888,
	"learning_rate": 7.346493056450157e-05,
	"loss": 4.916213512420654,
	"step": 482
	},
	{
	"epoch": 0.7728,
	"grad_norm": 1.4506617784500122,
	"learning_rate": 7.250040780376577e-05,
	"loss": 4.79956579208374,
	"step": 483
	},
	{
	"epoch": 0.7744,
	"grad_norm": 1.269956350326538,
	"learning_rate": 7.154118363327075e-05,
	"loss": 5.207999229431152,
	"step": 484
	},
	{
	"epoch": 0.776,
	"grad_norm": 1.386398196220398,
	"learning_rate": 7.058728668708727e-05,
	"loss": 4.866647720336914,
	"step": 485
	},
	{
	"epoch": 0.7776,
	"grad_norm": 1.2891589403152466,
	"learning_rate": 6.963874544026109e-05,
	"loss": 5.038686752319336,
	"step": 486
	},
	{
	"epoch": 0.7792,
	"grad_norm": 1.2647722959518433,
	"learning_rate": 6.869558820796376e-05,
	"loss": 5.102810859680176,
	"step": 487
	},
	{
	"epoch": 0.7808,
	"grad_norm": 1.2693649530410767,
	"learning_rate": 6.775784314464717e-05,
	"loss": 4.887539863586426,
	"step": 488
	},
	{
	"epoch": 0.7824,
	"grad_norm": 1.6362860202789307,
	"learning_rate": 6.68255382432027e-05,
	"loss": 4.774933338165283,
	"step": 489
	},
	{
	"epoch": 0.784,
	"grad_norm": 1.5527857542037964,
	"learning_rate": 6.589870133412626e-05,
	"loss": 5.0828680992126465,
	"step": 490
	},
	{
	"epoch": 0.7856,
	"grad_norm": 1.6107929944992065,
	"learning_rate": 6.497736008468701e-05,
	"loss": 4.6461639404296875,
	"step": 491
	},
	{
	"epoch": 0.7872,
	"grad_norm": 1.12363862991333,
	"learning_rate": 6.406154199810179e-05,
	"loss": 5.033900260925293,
	"step": 492
	},
	{
	"epoch": 0.7888,
	"grad_norm": 1.1499987840652466,
	"learning_rate": 6.315127441271368e-05,
	"loss": 4.9476094245910645,
	"step": 493
	},
	{
	"epoch": 0.7904,
	"grad_norm": 1.5613439083099365,
	"learning_rate": 6.224658450117637e-05,
	"loss": 5.146108150482178,
	"step": 494
	},
	{
	"epoch": 0.792,
	"grad_norm": 1.2324504852294922,
	"learning_rate": 6.134749926964289e-05,
	"loss": 4.819706916809082,
	"step": 495
	},
	{
	"epoch": 0.7936,
	"grad_norm": 1.1125681400299072,
	"learning_rate": 6.0454045556959356e-05,
	"loss": 4.930054664611816,
	"step": 496
	},
	{
	"epoch": 0.7952,
	"grad_norm": 1.6992604732513428,
	"learning_rate": 5.9566250033863567e-05,
	"loss": 5.198884963989258,
	"step": 497
	},
	{
	"epoch": 0.7968,
	"grad_norm": 1.920567512512207,
	"learning_rate": 5.8684139202189654e-05,
	"loss": 5.21380615234375,
	"step": 498
	},
	{
	"epoch": 0.7984,
	"grad_norm": 1.3954874277114868,
	"learning_rate": 5.780773939407585e-05,
	"loss": 4.928266525268555,
	"step": 499
	},
	{
	"epoch": 0.8,
	"grad_norm": 1.4884490966796875,
	"learning_rate": 5.693707677117943e-05,
	"loss": 5.14831018447876,
	"step": 500
	},
	{
	"epoch": 0.8016,
	"grad_norm": 1.7664364576339722,
	"learning_rate": 5.607217732389502e-05,
	"loss": 5.231863975524902,
	"step": 501
	},
	{
	"epoch": 0.8032,
	"grad_norm": 1.1272830963134766,
	"learning_rate": 5.5213066870579476e-05,
	"loss": 5.004734039306641,
	"step": 502
	},
	{
	"epoch": 0.8048,
	"grad_norm": 1.2964353561401367,
	"learning_rate": 5.4359771056780333e-05,
	"loss": 4.362703323364258,
	"step": 503
	},
	{
	"epoch": 0.8064,
	"grad_norm": 1.3352986574172974,
	"learning_rate": 5.3512315354470956e-05,
	"loss": 4.99576473236084,
	"step": 504
	},
	{
	"epoch": 0.808,
	"grad_norm": 1.4980597496032715,
	"learning_rate": 5.267072506128981e-05,
	"loss": 5.139542579650879,
	"step": 505
	},
	{
	"epoch": 0.8096,
	"grad_norm": 1.1959021091461182,
	"learning_rate": 5.183502529978548e-05,
	"loss": 5.123270034790039,
	"step": 506
	},
	{
	"epoch": 0.8112,
	"grad_norm": 1.3239198923110962,
	"learning_rate": 5.10052410166664e-05,
	"loss": 5.379024028778076,
	"step": 507
	},
	{
	"epoch": 0.8128,
	"grad_norm": 1.204946756362915,
	"learning_rate": 5.018139698205665e-05,
	"loss": 5.012156963348389,
	"step": 508
	},
	{
	"epoch": 0.8144,
	"grad_norm": 1.5109254121780396,
	"learning_rate": 4.9363517788756195e-05,
	"loss": 4.902032852172852,
	"step": 509
	},
	{
	"epoch": 0.816,
	"grad_norm": 1.1028631925582886,
	"learning_rate": 4.855162785150674e-05,
	"loss": 5.165895938873291,
	"step": 510
	},
	{
	"epoch": 0.8176,
	"grad_norm": 1.042698860168457,
	"learning_rate": 4.7745751406263163e-05,
	"loss": 4.897646427154541,
	"step": 511
	},
	{
	"epoch": 0.8192,
	"grad_norm": 1.2713276147842407,
	"learning_rate": 4.694591250946983e-05,
	"loss": 4.820833206176758,
	"step": 512
	},
	{
	"epoch": 0.8208,
	"grad_norm": 1.1189286708831787,
	"learning_rate": 4.615213503734267e-05,
	"loss": 4.981866836547852,
	"step": 513
	},
	{
	"epoch": 0.8224,
	"grad_norm": 1.3545044660568237,
	"learning_rate": 4.536444268515608e-05,
	"loss": 4.901456832885742,
	"step": 514
	},
	{
	"epoch": 0.824,
	"grad_norm": 1.3025493621826172,
	"learning_rate": 4.458285896653602e-05,
	"loss": 5.010705947875977,
	"step": 515
	},
	{
	"epoch": 0.8256,
	"grad_norm": 1.5655075311660767,
	"learning_rate": 4.380740721275786e-05,
	"loss": 5.438045501708984,
	"step": 516
	},
	{
	"epoch": 0.8272,
	"grad_norm": 1.4804078340530396,
	"learning_rate": 4.303811057205007e-05,
	"loss": 4.864298343658447,
	"step": 517
	},
	{
	"epoch": 0.8288,
	"grad_norm": 1.3067195415496826,
	"learning_rate": 4.227499200890275e-05,
	"loss": 5.399082183837891,
	"step": 518
	},
	{
	"epoch": 0.8304,
	"grad_norm": 1.3728652000427246,
	"learning_rate": 4.1518074303383004e-05,
	"loss": 4.861635684967041,
	"step": 519
	},
	{
	"epoch": 0.832,
	"grad_norm": 1.0616425275802612,
	"learning_rate": 4.076738005045394e-05,
	"loss": 5.093954563140869,
	"step": 520
	},
	{
	"epoch": 0.8336,
	"grad_norm": 1.2632859945297241,
	"learning_rate": 4.002293165930088e-05,
	"loss": 5.069172382354736,
	"step": 521
	},
	{
	"epoch": 0.8352,
	"grad_norm": 1.54668390750885,
	"learning_rate": 3.9284751352662045e-05,
	"loss": 5.132449150085449,
	"step": 522
	},
	{
	"epoch": 0.8368,
	"grad_norm": 1.4716906547546387,
	"learning_rate": 3.855286116616541e-05,
	"loss": 4.952608585357666,
	"step": 523
	},
	{
	"epoch": 0.8384,
	"grad_norm": 1.315252423286438,
	"learning_rate": 3.782728294767068e-05,
	"loss": 4.983213424682617,
	"step": 524
	},
	{
	"epoch": 0.84,
	"grad_norm": 1.4445892572402954,
	"learning_rate": 3.7108038356617305e-05,
	"loss": 5.154409885406494,
	"step": 525
	},
	{
	"epoch": 0.8416,
	"grad_norm": 1.3014910221099854,
	"learning_rate": 3.6395148863377855e-05,
	"loss": 4.867927551269531,
	"step": 526
	},
	{
	"epoch": 0.8432,
	"grad_norm": 1.1832693815231323,
	"learning_rate": 3.568863574861708e-05,
	"loss": 4.7219462394714355,
	"step": 527
	},
	{
	"epoch": 0.8448,
	"grad_norm": 1.38213312625885,
	"learning_rate": 3.49885201026566e-05,
	"loss": 4.771894931793213,
	"step": 528
	},
	{
	"epoch": 0.8464,
	"grad_norm": 1.2693217992782593,
	"learning_rate": 3.4294822824845444e-05,
	"loss": 4.964877128601074,
	"step": 529
	},
	{
	"epoch": 0.848,
	"grad_norm": 1.170465350151062,
	"learning_rate": 3.3607564622936207e-05,
	"loss": 4.916166305541992,
	"step": 530
	},
	{
	"epoch": 0.8496,
	"grad_norm": 1.267838716506958,
	"learning_rate": 3.292676601246661e-05,
	"loss": 5.243579387664795,
	"step": 531
	},
	{
	"epoch": 0.8512,
	"grad_norm": 1.3622010946273804,
	"learning_rate": 3.2252447316147456e-05,
	"loss": 4.598936080932617,
	"step": 532
	},
	{
	"epoch": 0.8528,
	"grad_norm": 1.5820192098617554,
	"learning_rate": 3.1584628663255847e-05,
	"loss": 5.2594170570373535,
	"step": 533
	},
	{
	"epoch": 0.8544,
	"grad_norm": 1.5312021970748901,
	"learning_rate": 3.092332998903416e-05,
	"loss": 5.157290935516357,
	"step": 534
	},
	{
	"epoch": 0.856,
	"grad_norm": 1.4027749300003052,
	"learning_rate": 3.0268571034094944e-05,
	"loss": 5.125532150268555,
	"step": 535
	},
	{
	"epoch": 0.8576,
	"grad_norm": 1.1611146926879883,
	"learning_rate": 2.962037134383211e-05,
	"loss": 5.000718593597412,
	"step": 536
	},
	{
	"epoch": 0.8592,
	"grad_norm": 1.3523814678192139,
	"learning_rate": 2.8978750267836752e-05,
	"loss": 4.671696662902832,
	"step": 537
	},
	{
	"epoch": 0.8608,
	"grad_norm": 1.2509510517120361,
	"learning_rate": 2.8343726959320082e-05,
	"loss": 5.075153350830078,
	"step": 538
	},
	{
	"epoch": 0.8624,
	"grad_norm": 1.3108588457107544,
	"learning_rate": 2.7715320374541357e-05,
	"loss": 4.994152545928955,
	"step": 539
	},
	{
	"epoch": 0.864,
	"grad_norm": 1.1837953329086304,
	"learning_rate": 2.7093549272242445e-05,
	"loss": 5.121654510498047,
	"step": 540
	},
	{
	"epoch": 0.8656,
	"grad_norm": 1.5410609245300293,
	"learning_rate": 2.6478432213087213e-05,
	"loss": 4.955600738525391,
	"step": 541
	},
	{
	"epoch": 0.8672,
	"grad_norm": 1.0305265188217163,
	"learning_rate": 2.5869987559107992e-05,
	"loss": 5.132237911224365,
	"step": 542
	},
	{
	"epoch": 0.8688,
	"grad_norm": 1.219406247138977,
	"learning_rate": 2.5268233473157294e-05,
	"loss": 4.905612468719482,
	"step": 543
	},
	{
	"epoch": 0.8704,
	"grad_norm": 1.5246868133544922,
	"learning_rate": 2.467318791836559e-05,
	"loss": 5.272589206695557,
	"step": 544
	},
	{
	"epoch": 0.872,
	"grad_norm": 1.2425482273101807,
	"learning_rate": 2.408486865760495e-05,
	"loss": 5.108579158782959,
	"step": 545
	},
	{
	"epoch": 0.8736,
	"grad_norm": 1.1925750970840454,
	"learning_rate": 2.3503293252959136e-05,
	"loss": 5.024507522583008,
	"step": 546
	},
	{
	"epoch": 0.8752,
	"grad_norm": 1.2723841667175293,
	"learning_rate": 2.2928479065199072e-05,
	"loss": 5.255931377410889,
	"step": 547
	},
	{
	"epoch": 0.8768,
	"grad_norm": 1.620451807975769,
	"learning_rate": 2.2360443253264777e-05,
	"loss": 5.196926593780518,
	"step": 548
	},
	{
	"epoch": 0.8784,
	"grad_norm": 1.1335077285766602,
	"learning_rate": 2.179920277375294e-05,
	"loss": 4.717995643615723,
	"step": 549
	},
	{
	"epoch": 0.88,
	"grad_norm": 1.1418888568878174,
	"learning_rate": 2.1244774380410976e-05,
	"loss": 5.335053443908691,
	"step": 550
	},
	{
	"epoch": 0.8816,
	"grad_norm": 1.3852171897888184,
	"learning_rate": 2.0697174623636794e-05,
	"loss": 5.047591209411621,
	"step": 551
	},
	{
	"epoch": 0.8832,
	"grad_norm": 1.2350728511810303,
	"learning_rate": 2.015641984998459e-05,
	"loss": 4.715671062469482,
	"step": 552
	},
	{
	"epoch": 0.8848,
	"grad_norm": 1.115648865699768,
	"learning_rate": 1.9622526201677344e-05,
	"loss": 5.0985612869262695,
	"step": 553
	},
	{
	"epoch": 0.8864,
	"grad_norm": 1.7186869382858276,
	"learning_rate": 1.9095509616124385e-05,
	"loss": 4.931835651397705,
	"step": 554
	},
	{
	"epoch": 0.888,
	"grad_norm": 1.2360730171203613,
	"learning_rate": 1.85753858254461e-05,
	"loss": 4.8929924964904785,
	"step": 555
	},
	{
	"epoch": 0.8896,
	"grad_norm": 1.146570086479187,
	"learning_rate": 1.8062170356003854e-05,
	"loss": 5.117987632751465,
	"step": 556
	},
	{
	"epoch": 0.8912,
	"grad_norm": 1.1873035430908203,
	"learning_rate": 1.7555878527937163e-05,
	"loss": 4.8101091384887695,
	"step": 557
	},
	{
	"epoch": 0.8928,
	"grad_norm": 1.1898494958877563,
	"learning_rate": 1.7056525454705623e-05,
	"loss": 5.127380847930908,
	"step": 558
	},
	{
	"epoch": 0.8944,
	"grad_norm": 1.431149959564209,
	"learning_rate": 1.656412604263824e-05,
	"loss": 5.338906764984131,
	"step": 559
	},
	{
	"epoch": 0.896,
	"grad_norm": 1.1228066682815552,
	"learning_rate": 1.607869499048839e-05,
	"loss": 4.9782185554504395,
	"step": 560
	},
	{
	"epoch": 0.8976,
	"grad_norm": 1.3961535692214966,
	"learning_rate": 1.5600246788994937e-05,
	"loss": 4.974421501159668,
	"step": 561
	},
	{
	"epoch": 0.8992,
	"grad_norm": 1.281671166419983,
	"learning_rate": 1.5128795720449617e-05,
	"loss": 4.919782638549805,
	"step": 562
	},
	{
	"epoch": 0.9008,
	"grad_norm": 1.220367670059204,
	"learning_rate": 1.4664355858270862e-05,
	"loss": 4.936645030975342,
	"step": 563
	},
	{
	"epoch": 0.9024,
	"grad_norm": 1.0977709293365479,
	"learning_rate": 1.4206941066583629e-05,
	"loss": 4.759374618530273,
	"step": 564
	},
	{
	"epoch": 0.904,
	"grad_norm": 1.2086211442947388,
	"learning_rate": 1.3756564999805515e-05,
	"loss": 5.17381477355957,
	"step": 565
	},
	{
	"epoch": 0.9056,
	"grad_norm": 1.172023892402649,
	"learning_rate": 1.3313241102239054e-05,
	"loss": 4.950685977935791,
	"step": 566
	},
	{
	"epoch": 0.9072,
	"grad_norm": 1.210207462310791,
	"learning_rate": 1.2876982607670674e-05,
	"loss": 5.04666805267334,
	"step": 567
	},
	{
	"epoch": 0.9088,
	"grad_norm": 1.0206573009490967,
	"learning_rate": 1.2447802538975345e-05,
	"loss": 5.030869483947754,
	"step": 568
	},
	{
	"epoch": 0.9104,
	"grad_norm": 1.2772059440612793,
	"learning_rate": 1.2025713707727953e-05,
	"loss": 5.230049133300781,
	"step": 569
	},
	{
	"epoch": 0.912,
	"grad_norm": 1.1435636281967163,
	"learning_rate": 1.1610728713820906e-05,
	"loss": 5.214902400970459,
	"step": 570
	},
	{
	"epoch": 0.9136,
	"grad_norm": 1.430433988571167,
	"learning_rate": 1.120285994508799e-05,
	"loss": 4.8903584480285645,
	"step": 571
	},
	{
	"epoch": 0.9152,
	"grad_norm": 1.2580111026763916,
	"learning_rate": 1.08021195769345e-05,
	"loss": 5.1730055809021,
	"step": 572
	},
	{
	"epoch": 0.9168,
	"grad_norm": 1.3038173913955688,
	"learning_rate": 1.0408519571973806e-05,
	"loss": 5.069331169128418,
	"step": 573
	},
	{
	"epoch": 0.9184,
	"grad_norm": 1.4082874059677124,
	"learning_rate": 1.0022071679670425e-05,
	"loss": 5.165510177612305,
	"step": 574
	},
	{
	"epoch": 0.92,
	"grad_norm": 1.3335379362106323,
	"learning_rate": 9.642787435989008e-06,
	"loss": 4.859002113342285,
	"step": 575
	},
	{
	"epoch": 0.9216,
	"grad_norm": 1.1995774507522583,
	"learning_rate": 9.270678163050216e-06,
	"loss": 5.164345741271973,
	"step": 576
	},
	{
	"epoch": 0.9232,
	"grad_norm": 1.0635286569595337,
	"learning_rate": 8.90575496879248e-06,
	"loss": 4.728398323059082,
	"step": 577
	},
	{
	"epoch": 0.9248,
	"grad_norm": 1.1882269382476807,
	"learning_rate": 8.548028746640846e-06,
	"loss": 4.7602972984313965,
	"step": 578
	},
	{
	"epoch": 0.9264,
	"grad_norm": 1.389762282371521,
	"learning_rate": 8.197510175181277e-06,
	"loss": 5.069275856018066,
	"step": 579
	},
	{
	"epoch": 0.928,
	"grad_norm": 1.1334697008132935,
	"learning_rate": 7.854209717842232e-06,
	"loss": 5.110383033752441,
	"step": 580
	},
	{
	"epoch": 0.9296,
	"grad_norm": 1.244832992553711,
	"learning_rate": 7.518137622582188e-06,
	"loss": 5.184660911560059,
	"step": 581
	},
	{
	"epoch": 0.9312,
	"grad_norm": 1.1092815399169922,
	"learning_rate": 7.1893039215838175e-06,
	"loss": 4.963058948516846,
	"step": 582
	},
	{
	"epoch": 0.9328,
	"grad_norm": 1.6420494318008423,
	"learning_rate": 6.867718430954351e-06,
	"loss": 4.9267964363098145,
	"step": 583
	},
	{
	"epoch": 0.9344,
	"grad_norm": 1.49501371383667,
	"learning_rate": 6.553390750432708e-06,
	"loss": 4.730033874511719,
	"step": 584
	},
	{
	"epoch": 0.936,
	"grad_norm": 1.2878178358078003,
	"learning_rate": 6.246330263102895e-06,
	"loss": 5.060173034667969,
	"step": 585
	},
	{
	"epoch": 0.9376,
	"grad_norm": 1.2040040493011475,
	"learning_rate": 5.9465461351138615e-06,
	"loss": 5.053962707519531,
	"step": 586
	},
	{
	"epoch": 0.9392,
	"grad_norm": 1.1503539085388184,
	"learning_rate": 5.654047315405892e-06,
	"loss": 4.980835437774658,
	"step": 587
	},
	{
	"epoch": 0.9408,
	"grad_norm": 0.9667116403579712,
	"learning_rate": 5.368842535443508e-06,
	"loss": 5.023655414581299,
	"step": 588
	},
	{
	"epoch": 0.9424,
	"grad_norm": 1.2056710720062256,
	"learning_rate": 5.09094030895485e-06,
	"loss": 4.959043979644775,
	"step": 589
	},
	{
	"epoch": 0.944,
	"grad_norm": 1.0608792304992676,
	"learning_rate": 4.8203489316773485e-06,
	"loss": 5.312167644500732,
	"step": 590
	},
	{
	"epoch": 0.9456,
	"grad_norm": 1.4500396251678467,
	"learning_rate": 4.557076481110367e-06,
	"loss": 4.965682029724121,
	"step": 591
	},
	{
	"epoch": 0.9472,
	"grad_norm": 1.118233561515808,
	"learning_rate": 4.301130816273813e-06,
	"loss": 4.988546848297119,
	"step": 592
	},
	{
	"epoch": 0.9488,
	"grad_norm": 1.2060961723327637,
	"learning_rate": 4.05251957747374e-06,
	"loss": 5.0205888748168945,
	"step": 593
	},
	{
	"epoch": 0.9504,
	"grad_norm": 1.270868182182312,
	"learning_rate": 3.811250186074089e-06,
	"loss": 5.278676509857178,
	"step": 594
	},
	{
	"epoch": 0.952,
	"grad_norm": 1.4645127058029175,
	"learning_rate": 3.5773298442753898e-06,
	"loss": 4.93894100189209,
	"step": 595
	},
	{
	"epoch": 0.9536,
	"grad_norm": 1.21164870262146,
	"learning_rate": 3.3507655348995192e-06,
	"loss": 5.321264266967773,
	"step": 596
	},
	{
	"epoch": 0.9552,
	"grad_norm": 1.2144756317138672,
	"learning_rate": 3.131564021181338e-06,
	"loss": 4.879669666290283,
	"step": 597
	},
	{
	"epoch": 0.9568,
	"grad_norm": 1.7862255573272705,
	"learning_rate": 2.9197318465669364e-06,
	"loss": 5.113965034484863,
	"step": 598
	},
	{
	"epoch": 0.9584,
	"grad_norm": 1.427722692489624,
	"learning_rate": 2.7152753345181247e-06,
	"loss": 4.928999423980713,
	"step": 599
	},
	{
	"epoch": 0.96,
	"grad_norm": 1.3544409275054932,
	"learning_rate": 2.518200588323666e-06,
	"loss": 5.407461166381836,
	"step": 600
	},
	{
	"epoch": 0.9616,
	"grad_norm": 1.8953897953033447,
	"learning_rate": 2.328513490917311e-06,
	"loss": 4.892749309539795,
	"step": 601
	},
	{
	"epoch": 0.9632,
	"grad_norm": 1.3621735572814941,
	"learning_rate": 2.1462197047019127e-06,
	"loss": 5.107844352722168,
	"step": 602
	},
	{
	"epoch": 0.9648,
	"grad_norm": 1.19562566280365,
	"learning_rate": 1.9713246713805587e-06,
	"loss": 5.338631629943848,
	"step": 603
	},
	{
	"epoch": 0.9664,
	"grad_norm": 1.0211833715438843,
	"learning_rate": 1.803833611794037e-06,
	"loss": 4.848773002624512,
	"step": 604
	},
	{
	"epoch": 0.968,
	"grad_norm": 1.4424593448638916,
	"learning_rate": 1.643751525765097e-06,
	"loss": 5.272921562194824,
	"step": 605
	},
	{
	"epoch": 0.9696,
	"grad_norm": 1.2189918756484985,
	"learning_rate": 1.4910831919490997e-06,
	"loss": 4.7630157470703125,
	"step": 606
	},
	{
	"epoch": 0.9712,
	"grad_norm": 1.1489924192428589,
	"learning_rate": 1.345833167691407e-06,
	"loss": 5.053176403045654,
	"step": 607
	},
	{
	"epoch": 0.9728,
	"grad_norm": 1.102137804031372,
	"learning_rate": 1.2080057888913253e-06,
	"loss": 5.1648359298706055,
	"step": 608
	},
	{
	"epoch": 0.9744,
	"grad_norm": 1.193506121635437,
	"learning_rate": 1.0776051698727362e-06,
	"loss": 4.978764533996582,
	"step": 609
	},
	{
	"epoch": 0.976,
	"grad_norm": 1.3150538206100464,
	"learning_rate": 9.546352032611395e-07,
	"loss": 5.2356038093566895,
	"step": 610
	},
	{
	"epoch": 0.9776,
	"grad_norm": 1.2881925106048584,
	"learning_rate": 8.390995598676066e-07,
	"loss": 5.024952411651611,
	"step": 611
	},
	{
	"epoch": 0.9792,
	"grad_norm": 1.2736302614212036,
	"learning_rate": 7.310016885791471e-07,
	"loss": 5.065498352050781,
	"step": 612
	},
	{
	"epoch": 0.9808,
	"grad_norm": 1.3327683210372925,
	"learning_rate": 6.303448162556791e-07,
	"loss": 5.073752403259277,
	"step": 613
	},
	{
	"epoch": 0.9824,
	"grad_norm": 1.3384580612182617,
	"learning_rate": 5.371319476338288e-07,
	"loss": 5.055788993835449,
	"step": 614
	},
	{
	"epoch": 0.984,
	"grad_norm": 1.3576717376708984,
	"learning_rate": 4.513658652371133e-07,
	"loss": 5.128819465637207,
	"step": 615
	},
	{
	"epoch": 0.9856,
	"grad_norm": 1.2477798461914062,
	"learning_rate": 3.7304912929300716e-07,
	"loss": 4.873608112335205,
	"step": 616
	},
	{
	"epoch": 0.9872,
	"grad_norm": 1.2135578393936157,
	"learning_rate": 3.0218407765642e-07,
	"loss": 5.116058349609375,
	"step": 617
	},
	{
	"epoch": 0.9888,
	"grad_norm": 1.3859200477600098,
	"learning_rate": 2.387728257399191e-07,
	"loss": 4.957461357116699,
	"step": 618
	},
	{
	"epoch": 0.9904,
	"grad_norm": 1.2815113067626953,
	"learning_rate": 1.8281726645061335e-07,
	"loss": 4.715893745422363,
	"step": 619
	},
	{
	"epoch": 0.992,
	"grad_norm": 1.275434136390686,
	"learning_rate": 1.343190701336705e-07,
	"loss": 4.888550281524658,
	"step": 620
	},
	{
	"epoch": 0.9936,
	"grad_norm": 1.0546596050262451,
	"learning_rate": 9.327968452232938e-08,
	"loss": 4.995277404785156,
	"step": 621
	},
	{
	"epoch": 0.9952,
	"grad_norm": 1.248382568359375,
	"learning_rate": 5.970033469490655e-08,
	"loss": 5.184177398681641,
	"step": 622
	},
	{
	"epoch": 0.9968,
	"grad_norm": 1.3588132858276367,
	"learning_rate": 3.3582023037964645e-08,
	"loss": 4.7490763664245605,
	"step": 623
	},
	{
	"epoch": 0.9984,
	"grad_norm": 1.121005654335022,
	"learning_rate": 1.492552921655843e-08,
	"loss": 4.857783317565918,
	"step": 624
	},
	{
	"epoch": 1.0,
	"grad_norm": 1.4019795656204224,
	"learning_rate": 3.731410150975556e-09,
	"loss": 5.065018177032471,
	"step": 625
	}
	],
	"logging_steps": 1,
	"max_steps": 625,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 5.933484093429535e+17,
	"train_batch_size": 32,
	"trial_name": null,
	"trial_params": null
	}