nemo_49b_lora / trainer_state.json

Upload folder using huggingface_hub

2e6c992 verified 6 months ago

120 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.997830802603037,
	"eval_steps": 500,
	"global_step": 691,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0028922631959508315,
	"grad_norm": 48.71332931518555,
	"learning_rate": 0.0,
	"loss": 3.3684,
	"step": 1
	},
	{
	"epoch": 0.005784526391901663,
	"grad_norm": 45.838565826416016,
	"learning_rate": 1.4285714285714286e-06,
	"loss": 3.2845,
	"step": 2
	},
	{
	"epoch": 0.008676789587852495,
	"grad_norm": 56.195335388183594,
	"learning_rate": 2.8571428571428573e-06,
	"loss": 3.5006,
	"step": 3
	},
	{
	"epoch": 0.011569052783803326,
	"grad_norm": 21.180103302001953,
	"learning_rate": 4.285714285714286e-06,
	"loss": 3.0654,
	"step": 4
	},
	{
	"epoch": 0.014461315979754157,
	"grad_norm": 21.839435577392578,
	"learning_rate": 5.7142857142857145e-06,
	"loss": 2.9674,
	"step": 5
	},
	{
	"epoch": 0.01735357917570499,
	"grad_norm": 9.650607109069824,
	"learning_rate": 7.142857142857143e-06,
	"loss": 2.9594,
	"step": 6
	},
	{
	"epoch": 0.02024584237165582,
	"grad_norm": 6.312131881713867,
	"learning_rate": 8.571428571428573e-06,
	"loss": 2.8589,
	"step": 7
	},
	{
	"epoch": 0.023138105567606652,
	"grad_norm": 6.745247840881348,
	"learning_rate": 1e-05,
	"loss": 2.6967,
	"step": 8
	},
	{
	"epoch": 0.026030368763557483,
	"grad_norm": 5.504076957702637,
	"learning_rate": 1.1428571428571429e-05,
	"loss": 2.446,
	"step": 9
	},
	{
	"epoch": 0.028922631959508314,
	"grad_norm": 4.069777011871338,
	"learning_rate": 1.2857142857142857e-05,
	"loss": 2.4143,
	"step": 10
	},
	{
	"epoch": 0.03181489515545915,
	"grad_norm": 3.7189438343048096,
	"learning_rate": 1.4285714285714285e-05,
	"loss": 2.1749,
	"step": 11
	},
	{
	"epoch": 0.03470715835140998,
	"grad_norm": 4.501105308532715,
	"learning_rate": 1.5714285714285715e-05,
	"loss": 2.1738,
	"step": 12
	},
	{
	"epoch": 0.03759942154736081,
	"grad_norm": 5.211763858795166,
	"learning_rate": 1.7142857142857145e-05,
	"loss": 2.0335,
	"step": 13
	},
	{
	"epoch": 0.04049168474331164,
	"grad_norm": 2.67036509513855,
	"learning_rate": 1.8571428571428572e-05,
	"loss": 1.9522,
	"step": 14
	},
	{
	"epoch": 0.04338394793926247,
	"grad_norm": 2.7940988540649414,
	"learning_rate": 2e-05,
	"loss": 1.9142,
	"step": 15
	},
	{
	"epoch": 0.046276211135213303,
	"grad_norm": 3.4890847206115723,
	"learning_rate": 2.1428571428571428e-05,
	"loss": 1.8412,
	"step": 16
	},
	{
	"epoch": 0.049168474331164135,
	"grad_norm": 5.002918720245361,
	"learning_rate": 2.2857142857142858e-05,
	"loss": 1.8031,
	"step": 17
	},
	{
	"epoch": 0.052060737527114966,
	"grad_norm": 4.0725226402282715,
	"learning_rate": 2.4285714285714288e-05,
	"loss": 1.8587,
	"step": 18
	},
	{
	"epoch": 0.0549530007230658,
	"grad_norm": 2.988891124725342,
	"learning_rate": 2.5714285714285714e-05,
	"loss": 1.6742,
	"step": 19
	},
	{
	"epoch": 0.05784526391901663,
	"grad_norm": 2.679062843322754,
	"learning_rate": 2.714285714285714e-05,
	"loss": 1.563,
	"step": 20
	},
	{
	"epoch": 0.06073752711496746,
	"grad_norm": 1.9652676582336426,
	"learning_rate": 2.857142857142857e-05,
	"loss": 1.6146,
	"step": 21
	},
	{
	"epoch": 0.0636297903109183,
	"grad_norm": 3.5487523078918457,
	"learning_rate": 3e-05,
	"loss": 1.6091,
	"step": 22
	},
	{
	"epoch": 0.06652205350686913,
	"grad_norm": 3.5734827518463135,
	"learning_rate": 3.142857142857143e-05,
	"loss": 1.5872,
	"step": 23
	},
	{
	"epoch": 0.06941431670281996,
	"grad_norm": 2.6711552143096924,
	"learning_rate": 3.285714285714286e-05,
	"loss": 1.5964,
	"step": 24
	},
	{
	"epoch": 0.07230657989877079,
	"grad_norm": 2.6824355125427246,
	"learning_rate": 3.428571428571429e-05,
	"loss": 1.6661,
	"step": 25
	},
	{
	"epoch": 0.07519884309472162,
	"grad_norm": 2.8385238647460938,
	"learning_rate": 3.571428571428572e-05,
	"loss": 1.6069,
	"step": 26
	},
	{
	"epoch": 0.07809110629067245,
	"grad_norm": 2.863154172897339,
	"learning_rate": 3.7142857142857143e-05,
	"loss": 1.6074,
	"step": 27
	},
	{
	"epoch": 0.08098336948662328,
	"grad_norm": 2.5264947414398193,
	"learning_rate": 3.857142857142858e-05,
	"loss": 1.5442,
	"step": 28
	},
	{
	"epoch": 0.08387563268257411,
	"grad_norm": 2.4073829650878906,
	"learning_rate": 4e-05,
	"loss": 1.4696,
	"step": 29
	},
	{
	"epoch": 0.08676789587852494,
	"grad_norm": 1.2896760702133179,
	"learning_rate": 4.1428571428571437e-05,
	"loss": 1.4876,
	"step": 30
	},
	{
	"epoch": 0.08966015907447578,
	"grad_norm": 1.3128914833068848,
	"learning_rate": 4.2857142857142856e-05,
	"loss": 1.5028,
	"step": 31
	},
	{
	"epoch": 0.09255242227042661,
	"grad_norm": 1.6972280740737915,
	"learning_rate": 4.428571428571428e-05,
	"loss": 1.5156,
	"step": 32
	},
	{
	"epoch": 0.09544468546637744,
	"grad_norm": 1.735119104385376,
	"learning_rate": 4.5714285714285716e-05,
	"loss": 1.3899,
	"step": 33
	},
	{
	"epoch": 0.09833694866232827,
	"grad_norm": 1.6684017181396484,
	"learning_rate": 4.714285714285714e-05,
	"loss": 1.4309,
	"step": 34
	},
	{
	"epoch": 0.1012292118582791,
	"grad_norm": 1.60593581199646,
	"learning_rate": 4.8571428571428576e-05,
	"loss": 1.4821,
	"step": 35
	},
	{
	"epoch": 0.10412147505422993,
	"grad_norm": 1.369852066040039,
	"learning_rate": 5e-05,
	"loss": 1.4606,
	"step": 36
	},
	{
	"epoch": 0.10701373825018076,
	"grad_norm": 1.0815776586532593,
	"learning_rate": 4.992378048780488e-05,
	"loss": 1.3166,
	"step": 37
	},
	{
	"epoch": 0.1099060014461316,
	"grad_norm": 1.1393859386444092,
	"learning_rate": 4.984756097560976e-05,
	"loss": 1.3596,
	"step": 38
	},
	{
	"epoch": 0.11279826464208242,
	"grad_norm": 1.293410062789917,
	"learning_rate": 4.977134146341464e-05,
	"loss": 1.4997,
	"step": 39
	},
	{
	"epoch": 0.11569052783803326,
	"grad_norm": 1.5961534976959229,
	"learning_rate": 4.969512195121951e-05,
	"loss": 1.3908,
	"step": 40
	},
	{
	"epoch": 0.11858279103398409,
	"grad_norm": 1.6708180904388428,
	"learning_rate": 4.961890243902439e-05,
	"loss": 1.4434,
	"step": 41
	},
	{
	"epoch": 0.12147505422993492,
	"grad_norm": 1.3898653984069824,
	"learning_rate": 4.954268292682927e-05,
	"loss": 1.3746,
	"step": 42
	},
	{
	"epoch": 0.12436731742588576,
	"grad_norm": 1.1497617959976196,
	"learning_rate": 4.946646341463415e-05,
	"loss": 1.3683,
	"step": 43
	},
	{
	"epoch": 0.1272595806218366,
	"grad_norm": 0.9966000318527222,
	"learning_rate": 4.9390243902439024e-05,
	"loss": 1.4588,
	"step": 44
	},
	{
	"epoch": 0.1301518438177874,
	"grad_norm": 1.0601434707641602,
	"learning_rate": 4.931402439024391e-05,
	"loss": 1.3757,
	"step": 45
	},
	{
	"epoch": 0.13304410701373826,
	"grad_norm": 1.2142244577407837,
	"learning_rate": 4.923780487804878e-05,
	"loss": 1.419,
	"step": 46
	},
	{
	"epoch": 0.13593637020968907,
	"grad_norm": 1.2789775133132935,
	"learning_rate": 4.916158536585366e-05,
	"loss": 1.3221,
	"step": 47
	},
	{
	"epoch": 0.13882863340563992,
	"grad_norm": 1.2200745344161987,
	"learning_rate": 4.908536585365854e-05,
	"loss": 1.4087,
	"step": 48
	},
	{
	"epoch": 0.14172089660159073,
	"grad_norm": 1.0769251585006714,
	"learning_rate": 4.900914634146342e-05,
	"loss": 1.3794,
	"step": 49
	},
	{
	"epoch": 0.14461315979754158,
	"grad_norm": 0.9566358923912048,
	"learning_rate": 4.893292682926829e-05,
	"loss": 1.3159,
	"step": 50
	},
	{
	"epoch": 0.1475054229934924,
	"grad_norm": 1.0282989740371704,
	"learning_rate": 4.885670731707317e-05,
	"loss": 1.3803,
	"step": 51
	},
	{
	"epoch": 0.15039768618944324,
	"grad_norm": 1.0863200426101685,
	"learning_rate": 4.878048780487805e-05,
	"loss": 1.3548,
	"step": 52
	},
	{
	"epoch": 0.15328994938539406,
	"grad_norm": 1.0302592515945435,
	"learning_rate": 4.870426829268293e-05,
	"loss": 1.4204,
	"step": 53
	},
	{
	"epoch": 0.1561822125813449,
	"grad_norm": 1.0147430896759033,
	"learning_rate": 4.86280487804878e-05,
	"loss": 1.4,
	"step": 54
	},
	{
	"epoch": 0.15907447577729572,
	"grad_norm": 0.9125880599021912,
	"learning_rate": 4.855182926829269e-05,
	"loss": 1.3568,
	"step": 55
	},
	{
	"epoch": 0.16196673897324657,
	"grad_norm": 0.8917691707611084,
	"learning_rate": 4.847560975609756e-05,
	"loss": 1.3547,
	"step": 56
	},
	{
	"epoch": 0.1648590021691974,
	"grad_norm": 1.03391432762146,
	"learning_rate": 4.839939024390244e-05,
	"loss": 1.2731,
	"step": 57
	},
	{
	"epoch": 0.16775126536514823,
	"grad_norm": 1.0735812187194824,
	"learning_rate": 4.832317073170732e-05,
	"loss": 1.2944,
	"step": 58
	},
	{
	"epoch": 0.17064352856109907,
	"grad_norm": 1.028361439704895,
	"learning_rate": 4.82469512195122e-05,
	"loss": 1.2617,
	"step": 59
	},
	{
	"epoch": 0.1735357917570499,
	"grad_norm": 0.9899557828903198,
	"learning_rate": 4.817073170731707e-05,
	"loss": 1.3891,
	"step": 60
	},
	{
	"epoch": 0.17642805495300073,
	"grad_norm": 6.040285110473633,
	"learning_rate": 4.809451219512195e-05,
	"loss": 1.3886,
	"step": 61
	},
	{
	"epoch": 0.17932031814895155,
	"grad_norm": 1.1661717891693115,
	"learning_rate": 4.801829268292683e-05,
	"loss": 1.2352,
	"step": 62
	},
	{
	"epoch": 0.1822125813449024,
	"grad_norm": 3.124387502670288,
	"learning_rate": 4.794207317073171e-05,
	"loss": 1.2965,
	"step": 63
	},
	{
	"epoch": 0.18510484454085321,
	"grad_norm": 1.1827131509780884,
	"learning_rate": 4.786585365853658e-05,
	"loss": 1.349,
	"step": 64
	},
	{
	"epoch": 0.18799710773680406,
	"grad_norm": 1.027674674987793,
	"learning_rate": 4.778963414634147e-05,
	"loss": 1.2165,
	"step": 65
	},
	{
	"epoch": 0.19088937093275488,
	"grad_norm": 0.9438247084617615,
	"learning_rate": 4.771341463414634e-05,
	"loss": 1.2538,
	"step": 66
	},
	{
	"epoch": 0.19378163412870572,
	"grad_norm": 0.9163101315498352,
	"learning_rate": 4.763719512195122e-05,
	"loss": 1.2914,
	"step": 67
	},
	{
	"epoch": 0.19667389732465654,
	"grad_norm": 0.9787700176239014,
	"learning_rate": 4.75609756097561e-05,
	"loss": 1.2013,
	"step": 68
	},
	{
	"epoch": 0.19956616052060738,
	"grad_norm": 0.9685674905776978,
	"learning_rate": 4.748475609756098e-05,
	"loss": 1.2933,
	"step": 69
	},
	{
	"epoch": 0.2024584237165582,
	"grad_norm": 0.8412639498710632,
	"learning_rate": 4.740853658536585e-05,
	"loss": 1.262,
	"step": 70
	},
	{
	"epoch": 0.20535068691250905,
	"grad_norm": 0.9766181707382202,
	"learning_rate": 4.733231707317073e-05,
	"loss": 1.225,
	"step": 71
	},
	{
	"epoch": 0.20824295010845986,
	"grad_norm": 0.990614116191864,
	"learning_rate": 4.725609756097561e-05,
	"loss": 1.192,
	"step": 72
	},
	{
	"epoch": 0.2111352133044107,
	"grad_norm": 0.8069394826889038,
	"learning_rate": 4.717987804878049e-05,
	"loss": 1.2127,
	"step": 73
	},
	{
	"epoch": 0.21402747650036152,
	"grad_norm": 1.022425889968872,
	"learning_rate": 4.710365853658536e-05,
	"loss": 1.1593,
	"step": 74
	},
	{
	"epoch": 0.21691973969631237,
	"grad_norm": 0.9153020977973938,
	"learning_rate": 4.702743902439025e-05,
	"loss": 1.1794,
	"step": 75
	},
	{
	"epoch": 0.2198120028922632,
	"grad_norm": 0.7978305816650391,
	"learning_rate": 4.695121951219512e-05,
	"loss": 1.2791,
	"step": 76
	},
	{
	"epoch": 0.22270426608821403,
	"grad_norm": 0.8948712348937988,
	"learning_rate": 4.6875e-05,
	"loss": 1.2227,
	"step": 77
	},
	{
	"epoch": 0.22559652928416485,
	"grad_norm": 0.9704264998435974,
	"learning_rate": 4.679878048780488e-05,
	"loss": 1.186,
	"step": 78
	},
	{
	"epoch": 0.2284887924801157,
	"grad_norm": 0.8205945491790771,
	"learning_rate": 4.672256097560976e-05,
	"loss": 1.1719,
	"step": 79
	},
	{
	"epoch": 0.2313810556760665,
	"grad_norm": 0.9167234897613525,
	"learning_rate": 4.664634146341464e-05,
	"loss": 1.2479,
	"step": 80
	},
	{
	"epoch": 0.23427331887201736,
	"grad_norm": 0.8766996264457703,
	"learning_rate": 4.657012195121951e-05,
	"loss": 1.2073,
	"step": 81
	},
	{
	"epoch": 0.23716558206796817,
	"grad_norm": 0.8327258229255676,
	"learning_rate": 4.64939024390244e-05,
	"loss": 1.2963,
	"step": 82
	},
	{
	"epoch": 0.24005784526391902,
	"grad_norm": 0.9994452595710754,
	"learning_rate": 4.641768292682927e-05,
	"loss": 1.1831,
	"step": 83
	},
	{
	"epoch": 0.24295010845986983,
	"grad_norm": 0.7853651642799377,
	"learning_rate": 4.634146341463415e-05,
	"loss": 1.2727,
	"step": 84
	},
	{
	"epoch": 0.24584237165582068,
	"grad_norm": 0.783089816570282,
	"learning_rate": 4.626524390243903e-05,
	"loss": 1.2149,
	"step": 85
	},
	{
	"epoch": 0.24873463485177152,
	"grad_norm": 0.9224200248718262,
	"learning_rate": 4.618902439024391e-05,
	"loss": 1.1902,
	"step": 86
	},
	{
	"epoch": 0.25162689804772237,
	"grad_norm": 0.7504012584686279,
	"learning_rate": 4.611280487804878e-05,
	"loss": 1.2568,
	"step": 87
	},
	{
	"epoch": 0.2545191612436732,
	"grad_norm": 0.8345561027526855,
	"learning_rate": 4.603658536585366e-05,
	"loss": 1.1642,
	"step": 88
	},
	{
	"epoch": 0.257411424439624,
	"grad_norm": 0.8287318348884583,
	"learning_rate": 4.596036585365854e-05,
	"loss": 1.2115,
	"step": 89
	},
	{
	"epoch": 0.2603036876355748,
	"grad_norm": 0.7950981259346008,
	"learning_rate": 4.588414634146342e-05,
	"loss": 1.1439,
	"step": 90
	},
	{
	"epoch": 0.2631959508315257,
	"grad_norm": 0.8269981741905212,
	"learning_rate": 4.580792682926829e-05,
	"loss": 1.226,
	"step": 91
	},
	{
	"epoch": 0.2660882140274765,
	"grad_norm": 0.7990830540657043,
	"learning_rate": 4.573170731707318e-05,
	"loss": 1.2059,
	"step": 92
	},
	{
	"epoch": 0.26898047722342733,
	"grad_norm": 0.746702253818512,
	"learning_rate": 4.565548780487805e-05,
	"loss": 1.272,
	"step": 93
	},
	{
	"epoch": 0.27187274041937814,
	"grad_norm": 0.7808762192726135,
	"learning_rate": 4.557926829268293e-05,
	"loss": 1.2135,
	"step": 94
	},
	{
	"epoch": 0.274765003615329,
	"grad_norm": 0.8141624331474304,
	"learning_rate": 4.550304878048781e-05,
	"loss": 1.1549,
	"step": 95
	},
	{
	"epoch": 0.27765726681127983,
	"grad_norm": 0.7702810168266296,
	"learning_rate": 4.542682926829269e-05,
	"loss": 1.1471,
	"step": 96
	},
	{
	"epoch": 0.28054953000723065,
	"grad_norm": 0.7874007821083069,
	"learning_rate": 4.535060975609756e-05,
	"loss": 1.2672,
	"step": 97
	},
	{
	"epoch": 0.28344179320318147,
	"grad_norm": 0.7983161211013794,
	"learning_rate": 4.527439024390244e-05,
	"loss": 1.099,
	"step": 98
	},
	{
	"epoch": 0.28633405639913234,
	"grad_norm": 0.8033881783485413,
	"learning_rate": 4.519817073170732e-05,
	"loss": 1.1549,
	"step": 99
	},
	{
	"epoch": 0.28922631959508316,
	"grad_norm": 0.8222156167030334,
	"learning_rate": 4.51219512195122e-05,
	"loss": 1.1527,
	"step": 100
	},
	{
	"epoch": 0.292118582791034,
	"grad_norm": 0.7592807412147522,
	"learning_rate": 4.504573170731707e-05,
	"loss": 1.2142,
	"step": 101
	},
	{
	"epoch": 0.2950108459869848,
	"grad_norm": 0.7466637492179871,
	"learning_rate": 4.496951219512196e-05,
	"loss": 1.2232,
	"step": 102
	},
	{
	"epoch": 0.29790310918293567,
	"grad_norm": 0.7532088756561279,
	"learning_rate": 4.489329268292683e-05,
	"loss": 1.1717,
	"step": 103
	},
	{
	"epoch": 0.3007953723788865,
	"grad_norm": 0.766828715801239,
	"learning_rate": 4.481707317073171e-05,
	"loss": 1.2218,
	"step": 104
	},
	{
	"epoch": 0.3036876355748373,
	"grad_norm": 0.6948519349098206,
	"learning_rate": 4.474085365853659e-05,
	"loss": 1.1116,
	"step": 105
	},
	{
	"epoch": 0.3065798987707881,
	"grad_norm": 0.7532397508621216,
	"learning_rate": 4.466463414634147e-05,
	"loss": 1.1451,
	"step": 106
	},
	{
	"epoch": 0.309472161966739,
	"grad_norm": 0.7384987473487854,
	"learning_rate": 4.458841463414634e-05,
	"loss": 1.2043,
	"step": 107
	},
	{
	"epoch": 0.3123644251626898,
	"grad_norm": 0.7876350283622742,
	"learning_rate": 4.451219512195122e-05,
	"loss": 1.3315,
	"step": 108
	},
	{
	"epoch": 0.3152566883586406,
	"grad_norm": 0.7799772024154663,
	"learning_rate": 4.44359756097561e-05,
	"loss": 1.2367,
	"step": 109
	},
	{
	"epoch": 0.31814895155459144,
	"grad_norm": 0.802836537361145,
	"learning_rate": 4.435975609756098e-05,
	"loss": 1.1859,
	"step": 110
	},
	{
	"epoch": 0.3210412147505423,
	"grad_norm": 0.7658648490905762,
	"learning_rate": 4.428353658536585e-05,
	"loss": 1.1554,
	"step": 111
	},
	{
	"epoch": 0.32393347794649313,
	"grad_norm": 0.7552660703659058,
	"learning_rate": 4.420731707317074e-05,
	"loss": 1.1773,
	"step": 112
	},
	{
	"epoch": 0.32682574114244395,
	"grad_norm": 0.7944100499153137,
	"learning_rate": 4.413109756097561e-05,
	"loss": 1.1369,
	"step": 113
	},
	{
	"epoch": 0.3297180043383948,
	"grad_norm": 0.79727703332901,
	"learning_rate": 4.405487804878049e-05,
	"loss": 1.1515,
	"step": 114
	},
	{
	"epoch": 0.33261026753434564,
	"grad_norm": 0.7767285704612732,
	"learning_rate": 4.397865853658537e-05,
	"loss": 1.2823,
	"step": 115
	},
	{
	"epoch": 0.33550253073029646,
	"grad_norm": 0.8018892407417297,
	"learning_rate": 4.390243902439025e-05,
	"loss": 1.1792,
	"step": 116
	},
	{
	"epoch": 0.3383947939262473,
	"grad_norm": 0.7893505692481995,
	"learning_rate": 4.382621951219512e-05,
	"loss": 1.2078,
	"step": 117
	},
	{
	"epoch": 0.34128705712219815,
	"grad_norm": 0.7643678784370422,
	"learning_rate": 4.375e-05,
	"loss": 1.1172,
	"step": 118
	},
	{
	"epoch": 0.34417932031814896,
	"grad_norm": 0.7227766513824463,
	"learning_rate": 4.3673780487804886e-05,
	"loss": 1.2424,
	"step": 119
	},
	{
	"epoch": 0.3470715835140998,
	"grad_norm": 0.7557047009468079,
	"learning_rate": 4.359756097560976e-05,
	"loss": 1.1996,
	"step": 120
	},
	{
	"epoch": 0.3499638467100506,
	"grad_norm": 0.75395667552948,
	"learning_rate": 4.352134146341464e-05,
	"loss": 1.2023,
	"step": 121
	},
	{
	"epoch": 0.35285610990600147,
	"grad_norm": 0.7078515291213989,
	"learning_rate": 4.344512195121952e-05,
	"loss": 1.2086,
	"step": 122
	},
	{
	"epoch": 0.3557483731019523,
	"grad_norm": 0.7395102381706238,
	"learning_rate": 4.3368902439024396e-05,
	"loss": 1.1106,
	"step": 123
	},
	{
	"epoch": 0.3586406362979031,
	"grad_norm": 0.819173276424408,
	"learning_rate": 4.329268292682927e-05,
	"loss": 1.1037,
	"step": 124
	},
	{
	"epoch": 0.3615328994938539,
	"grad_norm": 0.7435188889503479,
	"learning_rate": 4.321646341463415e-05,
	"loss": 1.1914,
	"step": 125
	},
	{
	"epoch": 0.3644251626898048,
	"grad_norm": 0.8237520456314087,
	"learning_rate": 4.314024390243903e-05,
	"loss": 1.1724,
	"step": 126
	},
	{
	"epoch": 0.3673174258857556,
	"grad_norm": 0.7931056022644043,
	"learning_rate": 4.306402439024391e-05,
	"loss": 1.1706,
	"step": 127
	},
	{
	"epoch": 0.37020968908170643,
	"grad_norm": 0.7253796458244324,
	"learning_rate": 4.298780487804878e-05,
	"loss": 1.1297,
	"step": 128
	},
	{
	"epoch": 0.37310195227765725,
	"grad_norm": 0.7788090705871582,
	"learning_rate": 4.2911585365853665e-05,
	"loss": 1.1685,
	"step": 129
	},
	{
	"epoch": 0.3759942154736081,
	"grad_norm": 0.7236787676811218,
	"learning_rate": 4.283536585365854e-05,
	"loss": 1.2329,
	"step": 130
	},
	{
	"epoch": 0.37888647866955893,
	"grad_norm": 0.7436123490333557,
	"learning_rate": 4.275914634146342e-05,
	"loss": 1.0825,
	"step": 131
	},
	{
	"epoch": 0.38177874186550975,
	"grad_norm": 0.7631476521492004,
	"learning_rate": 4.26829268292683e-05,
	"loss": 1.1648,
	"step": 132
	},
	{
	"epoch": 0.38467100506146057,
	"grad_norm": 0.7813283801078796,
	"learning_rate": 4.2606707317073176e-05,
	"loss": 1.1475,
	"step": 133
	},
	{
	"epoch": 0.38756326825741144,
	"grad_norm": 0.7633726000785828,
	"learning_rate": 4.253048780487805e-05,
	"loss": 1.1771,
	"step": 134
	},
	{
	"epoch": 0.39045553145336226,
	"grad_norm": 0.7443217039108276,
	"learning_rate": 4.245426829268293e-05,
	"loss": 1.0879,
	"step": 135
	},
	{
	"epoch": 0.3933477946493131,
	"grad_norm": 0.7620945572853088,
	"learning_rate": 4.237804878048781e-05,
	"loss": 1.1515,
	"step": 136
	},
	{
	"epoch": 0.3962400578452639,
	"grad_norm": 0.7569906711578369,
	"learning_rate": 4.230182926829269e-05,
	"loss": 1.1857,
	"step": 137
	},
	{
	"epoch": 0.39913232104121477,
	"grad_norm": 0.754265546798706,
	"learning_rate": 4.222560975609756e-05,
	"loss": 1.2235,
	"step": 138
	},
	{
	"epoch": 0.4020245842371656,
	"grad_norm": 0.8115909695625305,
	"learning_rate": 4.2149390243902445e-05,
	"loss": 1.1533,
	"step": 139
	},
	{
	"epoch": 0.4049168474331164,
	"grad_norm": 0.7119144201278687,
	"learning_rate": 4.207317073170732e-05,
	"loss": 1.0566,
	"step": 140
	},
	{
	"epoch": 0.4078091106290672,
	"grad_norm": 0.745745062828064,
	"learning_rate": 4.19969512195122e-05,
	"loss": 1.1801,
	"step": 141
	},
	{
	"epoch": 0.4107013738250181,
	"grad_norm": 0.7318696975708008,
	"learning_rate": 4.1920731707317077e-05,
	"loss": 1.0448,
	"step": 142
	},
	{
	"epoch": 0.4135936370209689,
	"grad_norm": 0.691558837890625,
	"learning_rate": 4.1844512195121956e-05,
	"loss": 1.118,
	"step": 143
	},
	{
	"epoch": 0.4164859002169197,
	"grad_norm": 0.7404938340187073,
	"learning_rate": 4.176829268292683e-05,
	"loss": 1.0795,
	"step": 144
	},
	{
	"epoch": 0.4193781634128706,
	"grad_norm": 0.7128071188926697,
	"learning_rate": 4.169207317073171e-05,
	"loss": 1.1663,
	"step": 145
	},
	{
	"epoch": 0.4222704266088214,
	"grad_norm": 0.8010504245758057,
	"learning_rate": 4.161585365853659e-05,
	"loss": 1.2375,
	"step": 146
	},
	{
	"epoch": 0.42516268980477223,
	"grad_norm": 0.7428746819496155,
	"learning_rate": 4.1539634146341466e-05,
	"loss": 1.0991,
	"step": 147
	},
	{
	"epoch": 0.42805495300072305,
	"grad_norm": 0.7510153651237488,
	"learning_rate": 4.146341463414634e-05,
	"loss": 1.1386,
	"step": 148
	},
	{
	"epoch": 0.4309472161966739,
	"grad_norm": 0.7697402834892273,
	"learning_rate": 4.1387195121951225e-05,
	"loss": 1.06,
	"step": 149
	},
	{
	"epoch": 0.43383947939262474,
	"grad_norm": 0.7100762128829956,
	"learning_rate": 4.13109756097561e-05,
	"loss": 1.1578,
	"step": 150
	},
	{
	"epoch": 0.43673174258857556,
	"grad_norm": 0.7327350974082947,
	"learning_rate": 4.123475609756098e-05,
	"loss": 1.1994,
	"step": 151
	},
	{
	"epoch": 0.4396240057845264,
	"grad_norm": 0.7481423020362854,
	"learning_rate": 4.1158536585365856e-05,
	"loss": 1.1554,
	"step": 152
	},
	{
	"epoch": 0.44251626898047725,
	"grad_norm": 0.7060924768447876,
	"learning_rate": 4.1082317073170736e-05,
	"loss": 1.1712,
	"step": 153
	},
	{
	"epoch": 0.44540853217642806,
	"grad_norm": 0.7289426326751709,
	"learning_rate": 4.100609756097561e-05,
	"loss": 1.0854,
	"step": 154
	},
	{
	"epoch": 0.4483007953723789,
	"grad_norm": 0.7729988694190979,
	"learning_rate": 4.092987804878049e-05,
	"loss": 1.1535,
	"step": 155
	},
	{
	"epoch": 0.4511930585683297,
	"grad_norm": 0.7460820078849792,
	"learning_rate": 4.085365853658537e-05,
	"loss": 1.1083,
	"step": 156
	},
	{
	"epoch": 0.45408532176428057,
	"grad_norm": 0.7617100477218628,
	"learning_rate": 4.0777439024390246e-05,
	"loss": 1.0703,
	"step": 157
	},
	{
	"epoch": 0.4569775849602314,
	"grad_norm": 0.7420201897621155,
	"learning_rate": 4.070121951219512e-05,
	"loss": 1.1499,
	"step": 158
	},
	{
	"epoch": 0.4598698481561822,
	"grad_norm": 0.7645936608314514,
	"learning_rate": 4.0625000000000005e-05,
	"loss": 1.1024,
	"step": 159
	},
	{
	"epoch": 0.462762111352133,
	"grad_norm": 0.7603924870491028,
	"learning_rate": 4.0548780487804884e-05,
	"loss": 1.0113,
	"step": 160
	},
	{
	"epoch": 0.4656543745480839,
	"grad_norm": 0.7942943572998047,
	"learning_rate": 4.047256097560976e-05,
	"loss": 1.1814,
	"step": 161
	},
	{
	"epoch": 0.4685466377440347,
	"grad_norm": 0.7691872715950012,
	"learning_rate": 4.0396341463414636e-05,
	"loss": 1.1274,
	"step": 162
	},
	{
	"epoch": 0.47143890093998553,
	"grad_norm": 0.7765952348709106,
	"learning_rate": 4.0320121951219515e-05,
	"loss": 1.1215,
	"step": 163
	},
	{
	"epoch": 0.47433116413593635,
	"grad_norm": 0.7291862368583679,
	"learning_rate": 4.0243902439024395e-05,
	"loss": 1.0973,
	"step": 164
	},
	{
	"epoch": 0.4772234273318872,
	"grad_norm": 0.7589432597160339,
	"learning_rate": 4.016768292682927e-05,
	"loss": 1.1347,
	"step": 165
	},
	{
	"epoch": 0.48011569052783803,
	"grad_norm": 0.7447579503059387,
	"learning_rate": 4.0091463414634153e-05,
	"loss": 1.2361,
	"step": 166
	},
	{
	"epoch": 0.48300795372378885,
	"grad_norm": 0.7255765199661255,
	"learning_rate": 4.0015243902439026e-05,
	"loss": 1.1495,
	"step": 167
	},
	{
	"epoch": 0.48590021691973967,
	"grad_norm": 0.7621276378631592,
	"learning_rate": 3.9939024390243905e-05,
	"loss": 1.1568,
	"step": 168
	},
	{
	"epoch": 0.48879248011569054,
	"grad_norm": 0.7537471055984497,
	"learning_rate": 3.9862804878048785e-05,
	"loss": 1.1004,
	"step": 169
	},
	{
	"epoch": 0.49168474331164136,
	"grad_norm": 0.7859211564064026,
	"learning_rate": 3.9786585365853664e-05,
	"loss": 1.1401,
	"step": 170
	},
	{
	"epoch": 0.4945770065075922,
	"grad_norm": 0.7351391911506653,
	"learning_rate": 3.971036585365854e-05,
	"loss": 1.1076,
	"step": 171
	},
	{
	"epoch": 0.49746926970354305,
	"grad_norm": 0.7664011716842651,
	"learning_rate": 3.9634146341463416e-05,
	"loss": 1.0421,
	"step": 172
	},
	{
	"epoch": 0.5003615328994938,
	"grad_norm": 0.7682709693908691,
	"learning_rate": 3.9557926829268295e-05,
	"loss": 1.1002,
	"step": 173
	},
	{
	"epoch": 0.5032537960954447,
	"grad_norm": 0.7599637508392334,
	"learning_rate": 3.9481707317073175e-05,
	"loss": 1.1453,
	"step": 174
	},
	{
	"epoch": 0.5061460592913956,
	"grad_norm": 0.8105545043945312,
	"learning_rate": 3.940548780487805e-05,
	"loss": 1.1733,
	"step": 175
	},
	{
	"epoch": 0.5090383224873464,
	"grad_norm": 0.7692773938179016,
	"learning_rate": 3.932926829268293e-05,
	"loss": 1.1658,
	"step": 176
	},
	{
	"epoch": 0.5119305856832972,
	"grad_norm": 0.7400121092796326,
	"learning_rate": 3.9253048780487806e-05,
	"loss": 1.1037,
	"step": 177
	},
	{
	"epoch": 0.514822848879248,
	"grad_norm": 0.7246294021606445,
	"learning_rate": 3.9176829268292685e-05,
	"loss": 1.1829,
	"step": 178
	},
	{
	"epoch": 0.5177151120751988,
	"grad_norm": 0.7318651676177979,
	"learning_rate": 3.9100609756097565e-05,
	"loss": 0.9872,
	"step": 179
	},
	{
	"epoch": 0.5206073752711496,
	"grad_norm": 0.7589302659034729,
	"learning_rate": 3.9024390243902444e-05,
	"loss": 1.1624,
	"step": 180
	},
	{
	"epoch": 0.5234996384671005,
	"grad_norm": 0.7625978589057922,
	"learning_rate": 3.8948170731707316e-05,
	"loss": 1.1147,
	"step": 181
	},
	{
	"epoch": 0.5263919016630514,
	"grad_norm": 0.7786478400230408,
	"learning_rate": 3.8871951219512196e-05,
	"loss": 1.0524,
	"step": 182
	},
	{
	"epoch": 0.5292841648590022,
	"grad_norm": 0.7591277956962585,
	"learning_rate": 3.8795731707317075e-05,
	"loss": 1.0672,
	"step": 183
	},
	{
	"epoch": 0.532176428054953,
	"grad_norm": 0.806042492389679,
	"learning_rate": 3.8719512195121954e-05,
	"loss": 1.0742,
	"step": 184
	},
	{
	"epoch": 0.5350686912509038,
	"grad_norm": 0.7718027830123901,
	"learning_rate": 3.864329268292683e-05,
	"loss": 1.1326,
	"step": 185
	},
	{
	"epoch": 0.5379609544468547,
	"grad_norm": 0.7538328766822815,
	"learning_rate": 3.856707317073171e-05,
	"loss": 1.15,
	"step": 186
	},
	{
	"epoch": 0.5408532176428055,
	"grad_norm": 0.7316940426826477,
	"learning_rate": 3.8490853658536586e-05,
	"loss": 1.0463,
	"step": 187
	},
	{
	"epoch": 0.5437454808387563,
	"grad_norm": 0.7699999809265137,
	"learning_rate": 3.8414634146341465e-05,
	"loss": 1.183,
	"step": 188
	},
	{
	"epoch": 0.5466377440347071,
	"grad_norm": 0.7050356268882751,
	"learning_rate": 3.8338414634146344e-05,
	"loss": 1.1208,
	"step": 189
	},
	{
	"epoch": 0.549530007230658,
	"grad_norm": 0.7819121479988098,
	"learning_rate": 3.8262195121951224e-05,
	"loss": 1.1622,
	"step": 190
	},
	{
	"epoch": 0.5524222704266089,
	"grad_norm": 0.700554370880127,
	"learning_rate": 3.8185975609756096e-05,
	"loss": 1.1104,
	"step": 191
	},
	{
	"epoch": 0.5553145336225597,
	"grad_norm": 0.7335946559906006,
	"learning_rate": 3.8109756097560976e-05,
	"loss": 1.0856,
	"step": 192
	},
	{
	"epoch": 0.5582067968185105,
	"grad_norm": 0.7291987538337708,
	"learning_rate": 3.8033536585365855e-05,
	"loss": 1.1158,
	"step": 193
	},
	{
	"epoch": 0.5610990600144613,
	"grad_norm": 0.7313510775566101,
	"learning_rate": 3.7957317073170734e-05,
	"loss": 1.1907,
	"step": 194
	},
	{
	"epoch": 0.5639913232104121,
	"grad_norm": 0.7727324366569519,
	"learning_rate": 3.788109756097561e-05,
	"loss": 1.1681,
	"step": 195
	},
	{
	"epoch": 0.5668835864063629,
	"grad_norm": 0.7505455613136292,
	"learning_rate": 3.780487804878049e-05,
	"loss": 1.0712,
	"step": 196
	},
	{
	"epoch": 0.5697758496023138,
	"grad_norm": 0.7288169860839844,
	"learning_rate": 3.7728658536585365e-05,
	"loss": 1.113,
	"step": 197
	},
	{
	"epoch": 0.5726681127982647,
	"grad_norm": 0.8041896820068359,
	"learning_rate": 3.7652439024390245e-05,
	"loss": 1.056,
	"step": 198
	},
	{
	"epoch": 0.5755603759942155,
	"grad_norm": 0.7612701058387756,
	"learning_rate": 3.7576219512195124e-05,
	"loss": 1.0862,
	"step": 199
	},
	{
	"epoch": 0.5784526391901663,
	"grad_norm": 0.7867717742919922,
	"learning_rate": 3.7500000000000003e-05,
	"loss": 1.1025,
	"step": 200
	},
	{
	"epoch": 0.5813449023861171,
	"grad_norm": 0.7869510054588318,
	"learning_rate": 3.742378048780488e-05,
	"loss": 1.1034,
	"step": 201
	},
	{
	"epoch": 0.584237165582068,
	"grad_norm": 0.7608320713043213,
	"learning_rate": 3.7347560975609755e-05,
	"loss": 1.1001,
	"step": 202
	},
	{
	"epoch": 0.5871294287780188,
	"grad_norm": 0.7015742063522339,
	"learning_rate": 3.727134146341464e-05,
	"loss": 1.1404,
	"step": 203
	},
	{
	"epoch": 0.5900216919739696,
	"grad_norm": 0.7741048336029053,
	"learning_rate": 3.7195121951219514e-05,
	"loss": 1.1069,
	"step": 204
	},
	{
	"epoch": 0.5929139551699205,
	"grad_norm": 0.7461472749710083,
	"learning_rate": 3.7118902439024393e-05,
	"loss": 1.1364,
	"step": 205
	},
	{
	"epoch": 0.5958062183658713,
	"grad_norm": 0.7453926205635071,
	"learning_rate": 3.704268292682927e-05,
	"loss": 1.1352,
	"step": 206
	},
	{
	"epoch": 0.5986984815618221,
	"grad_norm": 0.7385006546974182,
	"learning_rate": 3.696646341463415e-05,
	"loss": 1.1277,
	"step": 207
	},
	{
	"epoch": 0.601590744757773,
	"grad_norm": 0.755822479724884,
	"learning_rate": 3.6890243902439025e-05,
	"loss": 1.2321,
	"step": 208
	},
	{
	"epoch": 0.6044830079537238,
	"grad_norm": 0.7634955048561096,
	"learning_rate": 3.6814024390243904e-05,
	"loss": 1.0884,
	"step": 209
	},
	{
	"epoch": 0.6073752711496746,
	"grad_norm": 0.739771842956543,
	"learning_rate": 3.673780487804878e-05,
	"loss": 1.0753,
	"step": 210
	},
	{
	"epoch": 0.6102675343456254,
	"grad_norm": 0.7629417777061462,
	"learning_rate": 3.666158536585366e-05,
	"loss": 1.1352,
	"step": 211
	},
	{
	"epoch": 0.6131597975415762,
	"grad_norm": 0.7024405002593994,
	"learning_rate": 3.6585365853658535e-05,
	"loss": 1.0872,
	"step": 212
	},
	{
	"epoch": 0.6160520607375272,
	"grad_norm": 0.778109610080719,
	"learning_rate": 3.650914634146342e-05,
	"loss": 1.1214,
	"step": 213
	},
	{
	"epoch": 0.618944323933478,
	"grad_norm": 0.8042979836463928,
	"learning_rate": 3.6432926829268294e-05,
	"loss": 1.0782,
	"step": 214
	},
	{
	"epoch": 0.6218365871294288,
	"grad_norm": 0.7753491997718811,
	"learning_rate": 3.635670731707317e-05,
	"loss": 1.1299,
	"step": 215
	},
	{
	"epoch": 0.6247288503253796,
	"grad_norm": 0.7622751593589783,
	"learning_rate": 3.628048780487805e-05,
	"loss": 1.1382,
	"step": 216
	},
	{
	"epoch": 0.6276211135213304,
	"grad_norm": 0.7174673080444336,
	"learning_rate": 3.620426829268293e-05,
	"loss": 1.0331,
	"step": 217
	},
	{
	"epoch": 0.6305133767172812,
	"grad_norm": 0.7472246885299683,
	"learning_rate": 3.6128048780487804e-05,
	"loss": 1.1305,
	"step": 218
	},
	{
	"epoch": 0.6334056399132321,
	"grad_norm": 0.7711846232414246,
	"learning_rate": 3.6051829268292684e-05,
	"loss": 1.0612,
	"step": 219
	},
	{
	"epoch": 0.6362979031091829,
	"grad_norm": 0.6961559653282166,
	"learning_rate": 3.597560975609756e-05,
	"loss": 1.1416,
	"step": 220
	},
	{
	"epoch": 0.6391901663051338,
	"grad_norm": 0.7391098141670227,
	"learning_rate": 3.589939024390244e-05,
	"loss": 1.1794,
	"step": 221
	},
	{
	"epoch": 0.6420824295010846,
	"grad_norm": 0.7802613973617554,
	"learning_rate": 3.5823170731707315e-05,
	"loss": 1.1799,
	"step": 222
	},
	{
	"epoch": 0.6449746926970354,
	"grad_norm": 0.7498157620429993,
	"learning_rate": 3.57469512195122e-05,
	"loss": 1.0472,
	"step": 223
	},
	{
	"epoch": 0.6478669558929863,
	"grad_norm": 0.7516718506813049,
	"learning_rate": 3.5670731707317074e-05,
	"loss": 1.1124,
	"step": 224
	},
	{
	"epoch": 0.6507592190889371,
	"grad_norm": 0.7159478068351746,
	"learning_rate": 3.559451219512195e-05,
	"loss": 1.1552,
	"step": 225
	},
	{
	"epoch": 0.6536514822848879,
	"grad_norm": 0.7362671494483948,
	"learning_rate": 3.551829268292683e-05,
	"loss": 1.0227,
	"step": 226
	},
	{
	"epoch": 0.6565437454808387,
	"grad_norm": 0.7803052663803101,
	"learning_rate": 3.544207317073171e-05,
	"loss": 1.0371,
	"step": 227
	},
	{
	"epoch": 0.6594360086767896,
	"grad_norm": 0.7725502252578735,
	"learning_rate": 3.5365853658536584e-05,
	"loss": 1.0399,
	"step": 228
	},
	{
	"epoch": 0.6623282718727405,
	"grad_norm": 0.7670521140098572,
	"learning_rate": 3.5289634146341464e-05,
	"loss": 1.1018,
	"step": 229
	},
	{
	"epoch": 0.6652205350686913,
	"grad_norm": 0.8205684423446655,
	"learning_rate": 3.521341463414634e-05,
	"loss": 1.0543,
	"step": 230
	},
	{
	"epoch": 0.6681127982646421,
	"grad_norm": 0.7324901223182678,
	"learning_rate": 3.513719512195122e-05,
	"loss": 1.036,
	"step": 231
	},
	{
	"epoch": 0.6710050614605929,
	"grad_norm": 0.7967138886451721,
	"learning_rate": 3.5060975609756095e-05,
	"loss": 1.1261,
	"step": 232
	},
	{
	"epoch": 0.6738973246565437,
	"grad_norm": 0.7588431239128113,
	"learning_rate": 3.498475609756098e-05,
	"loss": 1.14,
	"step": 233
	},
	{
	"epoch": 0.6767895878524945,
	"grad_norm": 0.778581440448761,
	"learning_rate": 3.4908536585365853e-05,
	"loss": 1.1164,
	"step": 234
	},
	{
	"epoch": 0.6796818510484454,
	"grad_norm": 0.7511733174324036,
	"learning_rate": 3.483231707317073e-05,
	"loss": 1.0948,
	"step": 235
	},
	{
	"epoch": 0.6825741142443963,
	"grad_norm": 0.7637711763381958,
	"learning_rate": 3.475609756097561e-05,
	"loss": 1.0335,
	"step": 236
	},
	{
	"epoch": 0.6854663774403471,
	"grad_norm": 0.7194728851318359,
	"learning_rate": 3.467987804878049e-05,
	"loss": 1.1091,
	"step": 237
	},
	{
	"epoch": 0.6883586406362979,
	"grad_norm": 1.0010840892791748,
	"learning_rate": 3.4603658536585364e-05,
	"loss": 1.1292,
	"step": 238
	},
	{
	"epoch": 0.6912509038322487,
	"grad_norm": 0.767515242099762,
	"learning_rate": 3.4527439024390243e-05,
	"loss": 1.0865,
	"step": 239
	},
	{
	"epoch": 0.6941431670281996,
	"grad_norm": 0.7898090481758118,
	"learning_rate": 3.445121951219512e-05,
	"loss": 1.0899,
	"step": 240
	},
	{
	"epoch": 0.6970354302241504,
	"grad_norm": 0.7335265874862671,
	"learning_rate": 3.4375e-05,
	"loss": 1.033,
	"step": 241
	},
	{
	"epoch": 0.6999276934201012,
	"grad_norm": 0.8223006129264832,
	"learning_rate": 3.429878048780488e-05,
	"loss": 1.195,
	"step": 242
	},
	{
	"epoch": 0.702819956616052,
	"grad_norm": 0.8035436868667603,
	"learning_rate": 3.422256097560976e-05,
	"loss": 1.0006,
	"step": 243
	},
	{
	"epoch": 0.7057122198120029,
	"grad_norm": 0.7428767681121826,
	"learning_rate": 3.414634146341464e-05,
	"loss": 1.092,
	"step": 244
	},
	{
	"epoch": 0.7086044830079538,
	"grad_norm": 0.7584668397903442,
	"learning_rate": 3.407012195121951e-05,
	"loss": 1.1246,
	"step": 245
	},
	{
	"epoch": 0.7114967462039046,
	"grad_norm": 0.7379582524299622,
	"learning_rate": 3.399390243902439e-05,
	"loss": 1.1107,
	"step": 246
	},
	{
	"epoch": 0.7143890093998554,
	"grad_norm": 0.7565631866455078,
	"learning_rate": 3.391768292682927e-05,
	"loss": 1.1014,
	"step": 247
	},
	{
	"epoch": 0.7172812725958062,
	"grad_norm": 0.78312748670578,
	"learning_rate": 3.384146341463415e-05,
	"loss": 1.0298,
	"step": 248
	},
	{
	"epoch": 0.720173535791757,
	"grad_norm": 0.7658934593200684,
	"learning_rate": 3.376524390243902e-05,
	"loss": 1.0314,
	"step": 249
	},
	{
	"epoch": 0.7230657989877078,
	"grad_norm": 0.7525564432144165,
	"learning_rate": 3.368902439024391e-05,
	"loss": 1.0405,
	"step": 250
	},
	{
	"epoch": 0.7259580621836587,
	"grad_norm": 0.7480136752128601,
	"learning_rate": 3.361280487804878e-05,
	"loss": 1.0912,
	"step": 251
	},
	{
	"epoch": 0.7288503253796096,
	"grad_norm": 0.7331277132034302,
	"learning_rate": 3.353658536585366e-05,
	"loss": 1.102,
	"step": 252
	},
	{
	"epoch": 0.7317425885755604,
	"grad_norm": 0.7302331924438477,
	"learning_rate": 3.346036585365854e-05,
	"loss": 1.0178,
	"step": 253
	},
	{
	"epoch": 0.7346348517715112,
	"grad_norm": 0.7028475999832153,
	"learning_rate": 3.338414634146342e-05,
	"loss": 0.997,
	"step": 254
	},
	{
	"epoch": 0.737527114967462,
	"grad_norm": 0.7154017090797424,
	"learning_rate": 3.330792682926829e-05,
	"loss": 1.0404,
	"step": 255
	},
	{
	"epoch": 0.7404193781634129,
	"grad_norm": 0.7640696167945862,
	"learning_rate": 3.323170731707317e-05,
	"loss": 1.1071,
	"step": 256
	},
	{
	"epoch": 0.7433116413593637,
	"grad_norm": 0.7853246331214905,
	"learning_rate": 3.315548780487805e-05,
	"loss": 1.0511,
	"step": 257
	},
	{
	"epoch": 0.7462039045553145,
	"grad_norm": 0.7854739427566528,
	"learning_rate": 3.307926829268293e-05,
	"loss": 1.0859,
	"step": 258
	},
	{
	"epoch": 0.7490961677512654,
	"grad_norm": 0.7378141283988953,
	"learning_rate": 3.30030487804878e-05,
	"loss": 1.0932,
	"step": 259
	},
	{
	"epoch": 0.7519884309472162,
	"grad_norm": 0.7881212830543518,
	"learning_rate": 3.292682926829269e-05,
	"loss": 1.0923,
	"step": 260
	},
	{
	"epoch": 0.754880694143167,
	"grad_norm": 0.7434545755386353,
	"learning_rate": 3.285060975609756e-05,
	"loss": 1.0612,
	"step": 261
	},
	{
	"epoch": 0.7577729573391179,
	"grad_norm": 0.7590733766555786,
	"learning_rate": 3.277439024390244e-05,
	"loss": 1.099,
	"step": 262
	},
	{
	"epoch": 0.7606652205350687,
	"grad_norm": 0.809688925743103,
	"learning_rate": 3.269817073170732e-05,
	"loss": 1.1674,
	"step": 263
	},
	{
	"epoch": 0.7635574837310195,
	"grad_norm": 0.7180957198143005,
	"learning_rate": 3.26219512195122e-05,
	"loss": 1.1196,
	"step": 264
	},
	{
	"epoch": 0.7664497469269703,
	"grad_norm": 0.7526130676269531,
	"learning_rate": 3.254573170731707e-05,
	"loss": 0.9961,
	"step": 265
	},
	{
	"epoch": 0.7693420101229211,
	"grad_norm": 0.8099539279937744,
	"learning_rate": 3.246951219512195e-05,
	"loss": 1.0742,
	"step": 266
	},
	{
	"epoch": 0.7722342733188721,
	"grad_norm": 0.7374089360237122,
	"learning_rate": 3.239329268292683e-05,
	"loss": 1.0845,
	"step": 267
	},
	{
	"epoch": 0.7751265365148229,
	"grad_norm": 0.6704961061477661,
	"learning_rate": 3.231707317073171e-05,
	"loss": 0.9631,
	"step": 268
	},
	{
	"epoch": 0.7780187997107737,
	"grad_norm": 0.7654604315757751,
	"learning_rate": 3.224085365853658e-05,
	"loss": 1.0663,
	"step": 269
	},
	{
	"epoch": 0.7809110629067245,
	"grad_norm": 0.7672616243362427,
	"learning_rate": 3.216463414634147e-05,
	"loss": 1.0802,
	"step": 270
	},
	{
	"epoch": 0.7838033261026753,
	"grad_norm": 0.7247093915939331,
	"learning_rate": 3.208841463414634e-05,
	"loss": 1.0921,
	"step": 271
	},
	{
	"epoch": 0.7866955892986262,
	"grad_norm": 0.75218266248703,
	"learning_rate": 3.201219512195122e-05,
	"loss": 1.1062,
	"step": 272
	},
	{
	"epoch": 0.789587852494577,
	"grad_norm": 0.7745797038078308,
	"learning_rate": 3.19359756097561e-05,
	"loss": 1.1105,
	"step": 273
	},
	{
	"epoch": 0.7924801156905278,
	"grad_norm": 0.7872446179389954,
	"learning_rate": 3.185975609756098e-05,
	"loss": 1.0644,
	"step": 274
	},
	{
	"epoch": 0.7953723788864787,
	"grad_norm": 0.8333762884140015,
	"learning_rate": 3.178353658536585e-05,
	"loss": 1.065,
	"step": 275
	},
	{
	"epoch": 0.7982646420824295,
	"grad_norm": 0.7147220969200134,
	"learning_rate": 3.170731707317073e-05,
	"loss": 1.1217,
	"step": 276
	},
	{
	"epoch": 0.8011569052783803,
	"grad_norm": 0.7681723237037659,
	"learning_rate": 3.163109756097561e-05,
	"loss": 1.0033,
	"step": 277
	},
	{
	"epoch": 0.8040491684743312,
	"grad_norm": 0.7502139210700989,
	"learning_rate": 3.155487804878049e-05,
	"loss": 1.0245,
	"step": 278
	},
	{
	"epoch": 0.806941431670282,
	"grad_norm": 0.7371497750282288,
	"learning_rate": 3.147865853658536e-05,
	"loss": 0.9599,
	"step": 279
	},
	{
	"epoch": 0.8098336948662328,
	"grad_norm": 0.7861061692237854,
	"learning_rate": 3.140243902439025e-05,
	"loss": 1.0698,
	"step": 280
	},
	{
	"epoch": 0.8127259580621836,
	"grad_norm": 0.7982838749885559,
	"learning_rate": 3.132621951219512e-05,
	"loss": 1.093,
	"step": 281
	},
	{
	"epoch": 0.8156182212581344,
	"grad_norm": 0.7698132991790771,
	"learning_rate": 3.125e-05,
	"loss": 0.9996,
	"step": 282
	},
	{
	"epoch": 0.8185104844540854,
	"grad_norm": 0.7293528914451599,
	"learning_rate": 3.117378048780488e-05,
	"loss": 1.0981,
	"step": 283
	},
	{
	"epoch": 0.8214027476500362,
	"grad_norm": 0.7758128643035889,
	"learning_rate": 3.109756097560976e-05,
	"loss": 1.1089,
	"step": 284
	},
	{
	"epoch": 0.824295010845987,
	"grad_norm": 0.7410516738891602,
	"learning_rate": 3.102134146341464e-05,
	"loss": 1.0829,
	"step": 285
	},
	{
	"epoch": 0.8271872740419378,
	"grad_norm": 0.7614254355430603,
	"learning_rate": 3.094512195121951e-05,
	"loss": 1.0397,
	"step": 286
	},
	{
	"epoch": 0.8300795372378886,
	"grad_norm": 0.7554497718811035,
	"learning_rate": 3.08689024390244e-05,
	"loss": 1.0749,
	"step": 287
	},
	{
	"epoch": 0.8329718004338394,
	"grad_norm": 0.7554106116294861,
	"learning_rate": 3.079268292682927e-05,
	"loss": 1.0298,
	"step": 288
	},
	{
	"epoch": 0.8358640636297903,
	"grad_norm": 0.7850284576416016,
	"learning_rate": 3.071646341463415e-05,
	"loss": 1.0809,
	"step": 289
	},
	{
	"epoch": 0.8387563268257412,
	"grad_norm": 0.7142320275306702,
	"learning_rate": 3.064024390243903e-05,
	"loss": 1.0664,
	"step": 290
	},
	{
	"epoch": 0.841648590021692,
	"grad_norm": 0.7595747113227844,
	"learning_rate": 3.056402439024391e-05,
	"loss": 1.0581,
	"step": 291
	},
	{
	"epoch": 0.8445408532176428,
	"grad_norm": 0.8003636598587036,
	"learning_rate": 3.048780487804878e-05,
	"loss": 1.0977,
	"step": 292
	},
	{
	"epoch": 0.8474331164135936,
	"grad_norm": 0.7981911301612854,
	"learning_rate": 3.0411585365853663e-05,
	"loss": 1.0425,
	"step": 293
	},
	{
	"epoch": 0.8503253796095445,
	"grad_norm": 0.7293020486831665,
	"learning_rate": 3.0335365853658536e-05,
	"loss": 1.086,
	"step": 294
	},
	{
	"epoch": 0.8532176428054953,
	"grad_norm": 0.7135725617408752,
	"learning_rate": 3.025914634146342e-05,
	"loss": 1.1027,
	"step": 295
	},
	{
	"epoch": 0.8561099060014461,
	"grad_norm": 0.7151292562484741,
	"learning_rate": 3.0182926829268294e-05,
	"loss": 1.1234,
	"step": 296
	},
	{
	"epoch": 0.8590021691973969,
	"grad_norm": 0.7805321216583252,
	"learning_rate": 3.0106707317073174e-05,
	"loss": 1.0833,
	"step": 297
	},
	{
	"epoch": 0.8618944323933478,
	"grad_norm": 0.7318261861801147,
	"learning_rate": 3.003048780487805e-05,
	"loss": 1.0742,
	"step": 298
	},
	{
	"epoch": 0.8647866955892987,
	"grad_norm": 0.7618130445480347,
	"learning_rate": 2.995426829268293e-05,
	"loss": 1.0974,
	"step": 299
	},
	{
	"epoch": 0.8676789587852495,
	"grad_norm": 0.7759801745414734,
	"learning_rate": 2.9878048780487805e-05,
	"loss": 1.0236,
	"step": 300
	},
	{
	"epoch": 0.8705712219812003,
	"grad_norm": 0.7935881614685059,
	"learning_rate": 2.9801829268292684e-05,
	"loss": 1.0511,
	"step": 301
	},
	{
	"epoch": 0.8734634851771511,
	"grad_norm": 0.7859032154083252,
	"learning_rate": 2.972560975609756e-05,
	"loss": 1.0469,
	"step": 302
	},
	{
	"epoch": 0.8763557483731019,
	"grad_norm": 0.7812406420707703,
	"learning_rate": 2.9649390243902443e-05,
	"loss": 1.0289,
	"step": 303
	},
	{
	"epoch": 0.8792480115690527,
	"grad_norm": 0.7637215256690979,
	"learning_rate": 2.9573170731707316e-05,
	"loss": 0.9902,
	"step": 304
	},
	{
	"epoch": 0.8821402747650036,
	"grad_norm": 0.7497740983963013,
	"learning_rate": 2.9496951219512198e-05,
	"loss": 1.0487,
	"step": 305
	},
	{
	"epoch": 0.8850325379609545,
	"grad_norm": 0.7327484488487244,
	"learning_rate": 2.9420731707317074e-05,
	"loss": 1.1966,
	"step": 306
	},
	{
	"epoch": 0.8879248011569053,
	"grad_norm": 0.7829355597496033,
	"learning_rate": 2.9344512195121954e-05,
	"loss": 1.0982,
	"step": 307
	},
	{
	"epoch": 0.8908170643528561,
	"grad_norm": 0.7765836119651794,
	"learning_rate": 2.926829268292683e-05,
	"loss": 0.9476,
	"step": 308
	},
	{
	"epoch": 0.8937093275488069,
	"grad_norm": 0.7646698951721191,
	"learning_rate": 2.919207317073171e-05,
	"loss": 1.1214,
	"step": 309
	},
	{
	"epoch": 0.8966015907447578,
	"grad_norm": 0.7531141638755798,
	"learning_rate": 2.9115853658536585e-05,
	"loss": 1.0438,
	"step": 310
	},
	{
	"epoch": 0.8994938539407086,
	"grad_norm": 0.7788392305374146,
	"learning_rate": 2.9039634146341464e-05,
	"loss": 1.0591,
	"step": 311
	},
	{
	"epoch": 0.9023861171366594,
	"grad_norm": 0.7006287574768066,
	"learning_rate": 2.896341463414634e-05,
	"loss": 1.0351,
	"step": 312
	},
	{
	"epoch": 0.9052783803326103,
	"grad_norm": 0.8054205775260925,
	"learning_rate": 2.8887195121951223e-05,
	"loss": 1.1357,
	"step": 313
	},
	{
	"epoch": 0.9081706435285611,
	"grad_norm": 0.7643339037895203,
	"learning_rate": 2.8810975609756095e-05,
	"loss": 1.073,
	"step": 314
	},
	{
	"epoch": 0.911062906724512,
	"grad_norm": 0.7552357316017151,
	"learning_rate": 2.8734756097560978e-05,
	"loss": 1.0199,
	"step": 315
	},
	{
	"epoch": 0.9139551699204628,
	"grad_norm": 0.7398456931114197,
	"learning_rate": 2.8658536585365854e-05,
	"loss": 1.0532,
	"step": 316
	},
	{
	"epoch": 0.9168474331164136,
	"grad_norm": 0.7522266507148743,
	"learning_rate": 2.8582317073170733e-05,
	"loss": 1.0824,
	"step": 317
	},
	{
	"epoch": 0.9197396963123644,
	"grad_norm": 0.7729273438453674,
	"learning_rate": 2.850609756097561e-05,
	"loss": 1.0282,
	"step": 318
	},
	{
	"epoch": 0.9226319595083152,
	"grad_norm": 0.7700569033622742,
	"learning_rate": 2.842987804878049e-05,
	"loss": 1.0654,
	"step": 319
	},
	{
	"epoch": 0.925524222704266,
	"grad_norm": 0.7540171146392822,
	"learning_rate": 2.8353658536585365e-05,
	"loss": 1.0615,
	"step": 320
	},
	{
	"epoch": 0.928416485900217,
	"grad_norm": 0.7484927773475647,
	"learning_rate": 2.8277439024390244e-05,
	"loss": 1.0276,
	"step": 321
	},
	{
	"epoch": 0.9313087490961678,
	"grad_norm": 0.793731153011322,
	"learning_rate": 2.820121951219512e-05,
	"loss": 1.0536,
	"step": 322
	},
	{
	"epoch": 0.9342010122921186,
	"grad_norm": 0.7182806134223938,
	"learning_rate": 2.8125000000000003e-05,
	"loss": 1.0135,
	"step": 323
	},
	{
	"epoch": 0.9370932754880694,
	"grad_norm": 0.7177212834358215,
	"learning_rate": 2.8048780487804882e-05,
	"loss": 1.02,
	"step": 324
	},
	{
	"epoch": 0.9399855386840202,
	"grad_norm": 0.7477127909660339,
	"learning_rate": 2.7972560975609758e-05,
	"loss": 1.09,
	"step": 325
	},
	{
	"epoch": 0.9428778018799711,
	"grad_norm": 0.7824453115463257,
	"learning_rate": 2.7896341463414637e-05,
	"loss": 0.9806,
	"step": 326
	},
	{
	"epoch": 0.9457700650759219,
	"grad_norm": 0.7952285408973694,
	"learning_rate": 2.7820121951219513e-05,
	"loss": 1.0417,
	"step": 327
	},
	{
	"epoch": 0.9486623282718727,
	"grad_norm": 0.8422231674194336,
	"learning_rate": 2.7743902439024393e-05,
	"loss": 1.0552,
	"step": 328
	},
	{
	"epoch": 0.9515545914678236,
	"grad_norm": 0.8023759722709656,
	"learning_rate": 2.766768292682927e-05,
	"loss": 1.0695,
	"step": 329
	},
	{
	"epoch": 0.9544468546637744,
	"grad_norm": 0.7767244577407837,
	"learning_rate": 2.759146341463415e-05,
	"loss": 1.1414,
	"step": 330
	},
	{
	"epoch": 0.9573391178597253,
	"grad_norm": 0.7687296271324158,
	"learning_rate": 2.7515243902439024e-05,
	"loss": 1.0518,
	"step": 331
	},
	{
	"epoch": 0.9602313810556761,
	"grad_norm": 0.76921147108078,
	"learning_rate": 2.7439024390243906e-05,
	"loss": 1.0616,
	"step": 332
	},
	{
	"epoch": 0.9631236442516269,
	"grad_norm": 0.7176332473754883,
	"learning_rate": 2.7362804878048782e-05,
	"loss": 1.0969,
	"step": 333
	},
	{
	"epoch": 0.9660159074475777,
	"grad_norm": 0.7853028774261475,
	"learning_rate": 2.7286585365853662e-05,
	"loss": 1.0375,
	"step": 334
	},
	{
	"epoch": 0.9689081706435285,
	"grad_norm": 0.7683706879615784,
	"learning_rate": 2.7210365853658538e-05,
	"loss": 0.9734,
	"step": 335
	},
	{
	"epoch": 0.9718004338394793,
	"grad_norm": 0.8103812336921692,
	"learning_rate": 2.7134146341463417e-05,
	"loss": 1.0579,
	"step": 336
	},
	{
	"epoch": 0.9746926970354303,
	"grad_norm": 0.7865802049636841,
	"learning_rate": 2.7057926829268293e-05,
	"loss": 1.019,
	"step": 337
	},
	{
	"epoch": 0.9775849602313811,
	"grad_norm": 0.7285350561141968,
	"learning_rate": 2.6981707317073172e-05,
	"loss": 1.0886,
	"step": 338
	},
	{
	"epoch": 0.9804772234273319,
	"grad_norm": 0.7790278196334839,
	"learning_rate": 2.6905487804878048e-05,
	"loss": 1.03,
	"step": 339
	},
	{
	"epoch": 0.9833694866232827,
	"grad_norm": 0.8020289540290833,
	"learning_rate": 2.682926829268293e-05,
	"loss": 1.0997,
	"step": 340
	},
	{
	"epoch": 0.9862617498192335,
	"grad_norm": 0.7671722173690796,
	"learning_rate": 2.6753048780487804e-05,
	"loss": 1.1381,
	"step": 341
	},
	{
	"epoch": 0.9891540130151844,
	"grad_norm": 0.8592469096183777,
	"learning_rate": 2.6676829268292686e-05,
	"loss": 1.0825,
	"step": 342
	},
	{
	"epoch": 0.9920462762111352,
	"grad_norm": 0.7508606910705566,
	"learning_rate": 2.6600609756097562e-05,
	"loss": 1.0808,
	"step": 343
	},
	{
	"epoch": 0.9949385394070861,
	"grad_norm": 0.7976868152618408,
	"learning_rate": 2.652439024390244e-05,
	"loss": 1.0345,
	"step": 344
	},
	{
	"epoch": 0.9978308026030369,
	"grad_norm": 0.7527894973754883,
	"learning_rate": 2.6448170731707318e-05,
	"loss": 0.9788,
	"step": 345
	},
	{
	"epoch": 1.0,
	"grad_norm": 0.7162013053894043,
	"learning_rate": 2.6371951219512197e-05,
	"loss": 0.6875,
	"step": 346
	},
	{
	"epoch": 1.002892263195951,
	"grad_norm": 0.7367959022521973,
	"learning_rate": 2.6295731707317073e-05,
	"loss": 0.8764,
	"step": 347
	},
	{
	"epoch": 1.0057845263919016,
	"grad_norm": 0.7669069170951843,
	"learning_rate": 2.6219512195121952e-05,
	"loss": 0.8188,
	"step": 348
	},
	{
	"epoch": 1.0086767895878526,
	"grad_norm": 0.7791001200675964,
	"learning_rate": 2.6143292682926828e-05,
	"loss": 0.9138,
	"step": 349
	},
	{
	"epoch": 1.0115690527838033,
	"grad_norm": 0.7576078772544861,
	"learning_rate": 2.606707317073171e-05,
	"loss": 0.7908,
	"step": 350
	},
	{
	"epoch": 1.0144613159797542,
	"grad_norm": 0.7850218415260315,
	"learning_rate": 2.5990853658536583e-05,
	"loss": 0.9152,
	"step": 351
	},
	{
	"epoch": 1.017353579175705,
	"grad_norm": 0.9033083319664001,
	"learning_rate": 2.5914634146341466e-05,
	"loss": 0.8214,
	"step": 352
	},
	{
	"epoch": 1.0202458423716558,
	"grad_norm": 0.91056889295578,
	"learning_rate": 2.5838414634146342e-05,
	"loss": 0.873,
	"step": 353
	},
	{
	"epoch": 1.0231381055676068,
	"grad_norm": 0.9178743958473206,
	"learning_rate": 2.576219512195122e-05,
	"loss": 0.8357,
	"step": 354
	},
	{
	"epoch": 1.0260303687635575,
	"grad_norm": 0.9112760424613953,
	"learning_rate": 2.5685975609756097e-05,
	"loss": 0.8381,
	"step": 355
	},
	{
	"epoch": 1.0289226319595084,
	"grad_norm": 0.874699056148529,
	"learning_rate": 2.5609756097560977e-05,
	"loss": 0.8443,
	"step": 356
	},
	{
	"epoch": 1.031814895155459,
	"grad_norm": 0.866185188293457,
	"learning_rate": 2.5533536585365853e-05,
	"loss": 0.8651,
	"step": 357
	},
	{
	"epoch": 1.03470715835141,
	"grad_norm": 0.8335126042366028,
	"learning_rate": 2.5457317073170732e-05,
	"loss": 0.7468,
	"step": 358
	},
	{
	"epoch": 1.0375994215473607,
	"grad_norm": 0.8364746570587158,
	"learning_rate": 2.5381097560975608e-05,
	"loss": 0.8368,
	"step": 359
	},
	{
	"epoch": 1.0404916847433117,
	"grad_norm": 0.887727677822113,
	"learning_rate": 2.530487804878049e-05,
	"loss": 0.8161,
	"step": 360
	},
	{
	"epoch": 1.0433839479392624,
	"grad_norm": 0.8570895791053772,
	"learning_rate": 2.5228658536585363e-05,
	"loss": 0.7743,
	"step": 361
	},
	{
	"epoch": 1.0462762111352133,
	"grad_norm": 0.8758525252342224,
	"learning_rate": 2.5152439024390246e-05,
	"loss": 0.7668,
	"step": 362
	},
	{
	"epoch": 1.0491684743311642,
	"grad_norm": 0.9433422088623047,
	"learning_rate": 2.5076219512195122e-05,
	"loss": 0.8556,
	"step": 363
	},
	{
	"epoch": 1.052060737527115,
	"grad_norm": 0.957084596157074,
	"learning_rate": 2.5e-05,
	"loss": 0.859,
	"step": 364
	},
	{
	"epoch": 1.0549530007230659,
	"grad_norm": 0.9015299677848816,
	"learning_rate": 2.492378048780488e-05,
	"loss": 0.7513,
	"step": 365
	},
	{
	"epoch": 1.0578452639190166,
	"grad_norm": 0.8645225763320923,
	"learning_rate": 2.4847560975609756e-05,
	"loss": 0.7758,
	"step": 366
	},
	{
	"epoch": 1.0607375271149675,
	"grad_norm": 0.8781758546829224,
	"learning_rate": 2.4771341463414636e-05,
	"loss": 0.7608,
	"step": 367
	},
	{
	"epoch": 1.0636297903109182,
	"grad_norm": 0.9088943600654602,
	"learning_rate": 2.4695121951219512e-05,
	"loss": 0.8187,
	"step": 368
	},
	{
	"epoch": 1.0665220535068691,
	"grad_norm": 0.8699431419372559,
	"learning_rate": 2.461890243902439e-05,
	"loss": 0.885,
	"step": 369
	},
	{
	"epoch": 1.06941431670282,
	"grad_norm": 0.8766498565673828,
	"learning_rate": 2.454268292682927e-05,
	"loss": 0.8439,
	"step": 370
	},
	{
	"epoch": 1.0723065798987708,
	"grad_norm": 0.9093021154403687,
	"learning_rate": 2.4466463414634146e-05,
	"loss": 0.8731,
	"step": 371
	},
	{
	"epoch": 1.0751988430947217,
	"grad_norm": 0.9020785689353943,
	"learning_rate": 2.4390243902439026e-05,
	"loss": 0.8291,
	"step": 372
	},
	{
	"epoch": 1.0780911062906724,
	"grad_norm": 0.8650471568107605,
	"learning_rate": 2.43140243902439e-05,
	"loss": 0.8439,
	"step": 373
	},
	{
	"epoch": 1.0809833694866233,
	"grad_norm": 0.9382796883583069,
	"learning_rate": 2.423780487804878e-05,
	"loss": 0.8312,
	"step": 374
	},
	{
	"epoch": 1.083875632682574,
	"grad_norm": 0.8890308737754822,
	"learning_rate": 2.416158536585366e-05,
	"loss": 0.8552,
	"step": 375
	},
	{
	"epoch": 1.086767895878525,
	"grad_norm": 0.9097614884376526,
	"learning_rate": 2.4085365853658536e-05,
	"loss": 0.8513,
	"step": 376
	},
	{
	"epoch": 1.0896601590744757,
	"grad_norm": 0.9238763451576233,
	"learning_rate": 2.4009146341463416e-05,
	"loss": 0.7782,
	"step": 377
	},
	{
	"epoch": 1.0925524222704266,
	"grad_norm": 0.917517364025116,
	"learning_rate": 2.393292682926829e-05,
	"loss": 0.7853,
	"step": 378
	},
	{
	"epoch": 1.0954446854663775,
	"grad_norm": 0.954457700252533,
	"learning_rate": 2.385670731707317e-05,
	"loss": 0.8102,
	"step": 379
	},
	{
	"epoch": 1.0983369486623282,
	"grad_norm": 0.9540069699287415,
	"learning_rate": 2.378048780487805e-05,
	"loss": 0.8117,
	"step": 380
	},
	{
	"epoch": 1.1012292118582792,
	"grad_norm": 0.8629953265190125,
	"learning_rate": 2.3704268292682926e-05,
	"loss": 0.8483,
	"step": 381
	},
	{
	"epoch": 1.1041214750542299,
	"grad_norm": 0.9152767658233643,
	"learning_rate": 2.3628048780487806e-05,
	"loss": 0.7391,
	"step": 382
	},
	{
	"epoch": 1.1070137382501808,
	"grad_norm": 0.9119929671287537,
	"learning_rate": 2.355182926829268e-05,
	"loss": 0.8084,
	"step": 383
	},
	{
	"epoch": 1.1099060014461315,
	"grad_norm": 0.9688836932182312,
	"learning_rate": 2.347560975609756e-05,
	"loss": 0.8794,
	"step": 384
	},
	{
	"epoch": 1.1127982646420824,
	"grad_norm": 0.8734216094017029,
	"learning_rate": 2.339939024390244e-05,
	"loss": 0.771,
	"step": 385
	},
	{
	"epoch": 1.1156905278380334,
	"grad_norm": 0.936385452747345,
	"learning_rate": 2.332317073170732e-05,
	"loss": 0.843,
	"step": 386
	},
	{
	"epoch": 1.118582791033984,
	"grad_norm": 0.8708637356758118,
	"learning_rate": 2.32469512195122e-05,
	"loss": 0.8005,
	"step": 387
	},
	{
	"epoch": 1.121475054229935,
	"grad_norm": 0.9174913167953491,
	"learning_rate": 2.3170731707317075e-05,
	"loss": 0.7858,
	"step": 388
	},
	{
	"epoch": 1.1243673174258857,
	"grad_norm": 0.8793891668319702,
	"learning_rate": 2.3094512195121954e-05,
	"loss": 0.7827,
	"step": 389
	},
	{
	"epoch": 1.1272595806218366,
	"grad_norm": 0.9375653266906738,
	"learning_rate": 2.301829268292683e-05,
	"loss": 0.8587,
	"step": 390
	},
	{
	"epoch": 1.1301518438177873,
	"grad_norm": 0.9476063251495361,
	"learning_rate": 2.294207317073171e-05,
	"loss": 0.8222,
	"step": 391
	},
	{
	"epoch": 1.1330441070137383,
	"grad_norm": 0.8776272535324097,
	"learning_rate": 2.286585365853659e-05,
	"loss": 0.8089,
	"step": 392
	},
	{
	"epoch": 1.1359363702096892,
	"grad_norm": 0.8908610343933105,
	"learning_rate": 2.2789634146341465e-05,
	"loss": 0.8531,
	"step": 393
	},
	{
	"epoch": 1.13882863340564,
	"grad_norm": 0.9270078539848328,
	"learning_rate": 2.2713414634146344e-05,
	"loss": 0.8842,
	"step": 394
	},
	{
	"epoch": 1.1417208966015908,
	"grad_norm": 0.9019871354103088,
	"learning_rate": 2.263719512195122e-05,
	"loss": 0.7006,
	"step": 395
	},
	{
	"epoch": 1.1446131597975415,
	"grad_norm": 0.9170034527778625,
	"learning_rate": 2.25609756097561e-05,
	"loss": 0.8055,
	"step": 396
	},
	{
	"epoch": 1.1475054229934925,
	"grad_norm": 0.9285536408424377,
	"learning_rate": 2.248475609756098e-05,
	"loss": 0.8192,
	"step": 397
	},
	{
	"epoch": 1.1503976861894432,
	"grad_norm": 0.9291247725486755,
	"learning_rate": 2.2408536585365855e-05,
	"loss": 0.7733,
	"step": 398
	},
	{
	"epoch": 1.153289949385394,
	"grad_norm": 0.893548846244812,
	"learning_rate": 2.2332317073170734e-05,
	"loss": 0.8112,
	"step": 399
	},
	{
	"epoch": 1.1561822125813448,
	"grad_norm": 0.933894693851471,
	"learning_rate": 2.225609756097561e-05,
	"loss": 0.8244,
	"step": 400
	},
	{
	"epoch": 1.1590744757772957,
	"grad_norm": 0.8933086395263672,
	"learning_rate": 2.217987804878049e-05,
	"loss": 0.799,
	"step": 401
	},
	{
	"epoch": 1.1619667389732466,
	"grad_norm": 0.8862596750259399,
	"learning_rate": 2.210365853658537e-05,
	"loss": 0.7522,
	"step": 402
	},
	{
	"epoch": 1.1648590021691974,
	"grad_norm": 0.9892849922180176,
	"learning_rate": 2.2027439024390244e-05,
	"loss": 0.8144,
	"step": 403
	},
	{
	"epoch": 1.1677512653651483,
	"grad_norm": 0.8950841426849365,
	"learning_rate": 2.1951219512195124e-05,
	"loss": 0.8498,
	"step": 404
	},
	{
	"epoch": 1.170643528561099,
	"grad_norm": 0.9264621734619141,
	"learning_rate": 2.1875e-05,
	"loss": 0.8619,
	"step": 405
	},
	{
	"epoch": 1.17353579175705,
	"grad_norm": 0.9350318908691406,
	"learning_rate": 2.179878048780488e-05,
	"loss": 0.901,
	"step": 406
	},
	{
	"epoch": 1.1764280549530008,
	"grad_norm": 0.8909422755241394,
	"learning_rate": 2.172256097560976e-05,
	"loss": 0.7969,
	"step": 407
	},
	{
	"epoch": 1.1793203181489516,
	"grad_norm": 0.9076801538467407,
	"learning_rate": 2.1646341463414634e-05,
	"loss": 0.8102,
	"step": 408
	},
	{
	"epoch": 1.1822125813449025,
	"grad_norm": 0.9365906715393066,
	"learning_rate": 2.1570121951219514e-05,
	"loss": 0.8216,
	"step": 409
	},
	{
	"epoch": 1.1851048445408532,
	"grad_norm": 0.9423839449882507,
	"learning_rate": 2.149390243902439e-05,
	"loss": 0.8007,
	"step": 410
	},
	{
	"epoch": 1.1879971077368041,
	"grad_norm": 0.9760177135467529,
	"learning_rate": 2.141768292682927e-05,
	"loss": 0.7394,
	"step": 411
	},
	{
	"epoch": 1.1908893709327548,
	"grad_norm": 0.9895643591880798,
	"learning_rate": 2.134146341463415e-05,
	"loss": 0.8613,
	"step": 412
	},
	{
	"epoch": 1.1937816341287057,
	"grad_norm": 0.9074323177337646,
	"learning_rate": 2.1265243902439024e-05,
	"loss": 0.7996,
	"step": 413
	},
	{
	"epoch": 1.1966738973246565,
	"grad_norm": 0.9774613380432129,
	"learning_rate": 2.1189024390243904e-05,
	"loss": 0.7982,
	"step": 414
	},
	{
	"epoch": 1.1995661605206074,
	"grad_norm": 0.9536191821098328,
	"learning_rate": 2.111280487804878e-05,
	"loss": 0.8498,
	"step": 415
	},
	{
	"epoch": 1.2024584237165583,
	"grad_norm": 0.9640031456947327,
	"learning_rate": 2.103658536585366e-05,
	"loss": 0.7995,
	"step": 416
	},
	{
	"epoch": 1.205350686912509,
	"grad_norm": 0.9486613869667053,
	"learning_rate": 2.0960365853658538e-05,
	"loss": 0.8277,
	"step": 417
	},
	{
	"epoch": 1.20824295010846,
	"grad_norm": 0.9539316296577454,
	"learning_rate": 2.0884146341463414e-05,
	"loss": 0.8163,
	"step": 418
	},
	{
	"epoch": 1.2111352133044107,
	"grad_norm": 0.9421859383583069,
	"learning_rate": 2.0807926829268294e-05,
	"loss": 0.8645,
	"step": 419
	},
	{
	"epoch": 1.2140274765003616,
	"grad_norm": 0.9420467615127563,
	"learning_rate": 2.073170731707317e-05,
	"loss": 0.7646,
	"step": 420
	},
	{
	"epoch": 1.2169197396963123,
	"grad_norm": 0.8715965151786804,
	"learning_rate": 2.065548780487805e-05,
	"loss": 0.819,
	"step": 421
	},
	{
	"epoch": 1.2198120028922632,
	"grad_norm": 0.8634954690933228,
	"learning_rate": 2.0579268292682928e-05,
	"loss": 0.8478,
	"step": 422
	},
	{
	"epoch": 1.222704266088214,
	"grad_norm": 0.9214886426925659,
	"learning_rate": 2.0503048780487804e-05,
	"loss": 0.8249,
	"step": 423
	},
	{
	"epoch": 1.2255965292841648,
	"grad_norm": 0.9319393634796143,
	"learning_rate": 2.0426829268292683e-05,
	"loss": 0.8251,
	"step": 424
	},
	{
	"epoch": 1.2284887924801158,
	"grad_norm": 0.9580456018447876,
	"learning_rate": 2.035060975609756e-05,
	"loss": 0.8139,
	"step": 425
	},
	{
	"epoch": 1.2313810556760665,
	"grad_norm": 0.9004295468330383,
	"learning_rate": 2.0274390243902442e-05,
	"loss": 0.7768,
	"step": 426
	},
	{
	"epoch": 1.2342733188720174,
	"grad_norm": 0.9250595569610596,
	"learning_rate": 2.0198170731707318e-05,
	"loss": 0.7709,
	"step": 427
	},
	{
	"epoch": 1.2371655820679681,
	"grad_norm": 0.9740453362464905,
	"learning_rate": 2.0121951219512197e-05,
	"loss": 0.8407,
	"step": 428
	},
	{
	"epoch": 1.240057845263919,
	"grad_norm": 0.9681423306465149,
	"learning_rate": 2.0045731707317077e-05,
	"loss": 0.7929,
	"step": 429
	},
	{
	"epoch": 1.2429501084598698,
	"grad_norm": 0.9964022040367126,
	"learning_rate": 1.9969512195121953e-05,
	"loss": 0.7823,
	"step": 430
	},
	{
	"epoch": 1.2458423716558207,
	"grad_norm": 1.0318474769592285,
	"learning_rate": 1.9893292682926832e-05,
	"loss": 0.8579,
	"step": 431
	},
	{
	"epoch": 1.2487346348517716,
	"grad_norm": 0.9292550086975098,
	"learning_rate": 1.9817073170731708e-05,
	"loss": 0.815,
	"step": 432
	},
	{
	"epoch": 1.2516268980477223,
	"grad_norm": 0.9619131088256836,
	"learning_rate": 1.9740853658536587e-05,
	"loss": 0.8136,
	"step": 433
	},
	{
	"epoch": 1.2545191612436732,
	"grad_norm": 0.9113368391990662,
	"learning_rate": 1.9664634146341467e-05,
	"loss": 0.7857,
	"step": 434
	},
	{
	"epoch": 1.257411424439624,
	"grad_norm": 0.9458669424057007,
	"learning_rate": 1.9588414634146343e-05,
	"loss": 0.8051,
	"step": 435
	},
	{
	"epoch": 1.2603036876355749,
	"grad_norm": 0.9174255132675171,
	"learning_rate": 1.9512195121951222e-05,
	"loss": 0.8014,
	"step": 436
	},
	{
	"epoch": 1.2631959508315256,
	"grad_norm": 0.961124837398529,
	"learning_rate": 1.9435975609756098e-05,
	"loss": 0.8441,
	"step": 437
	},
	{
	"epoch": 1.2660882140274765,
	"grad_norm": 1.0305391550064087,
	"learning_rate": 1.9359756097560977e-05,
	"loss": 0.8183,
	"step": 438
	},
	{
	"epoch": 1.2689804772234274,
	"grad_norm": 0.939954936504364,
	"learning_rate": 1.9283536585365857e-05,
	"loss": 0.7894,
	"step": 439
	},
	{
	"epoch": 1.2718727404193781,
	"grad_norm": 0.921103835105896,
	"learning_rate": 1.9207317073170733e-05,
	"loss": 0.7405,
	"step": 440
	},
	{
	"epoch": 1.274765003615329,
	"grad_norm": 0.926176130771637,
	"learning_rate": 1.9131097560975612e-05,
	"loss": 0.7853,
	"step": 441
	},
	{
	"epoch": 1.2776572668112798,
	"grad_norm": 0.9235204458236694,
	"learning_rate": 1.9054878048780488e-05,
	"loss": 0.8532,
	"step": 442
	},
	{
	"epoch": 1.2805495300072307,
	"grad_norm": 0.9539816975593567,
	"learning_rate": 1.8978658536585367e-05,
	"loss": 0.7904,
	"step": 443
	},
	{
	"epoch": 1.2834417932031814,
	"grad_norm": 0.9811721444129944,
	"learning_rate": 1.8902439024390246e-05,
	"loss": 0.824,
	"step": 444
	},
	{
	"epoch": 1.2863340563991323,
	"grad_norm": 0.900104284286499,
	"learning_rate": 1.8826219512195122e-05,
	"loss": 0.762,
	"step": 445
	},
	{
	"epoch": 1.289226319595083,
	"grad_norm": 0.9972739815711975,
	"learning_rate": 1.8750000000000002e-05,
	"loss": 0.8043,
	"step": 446
	},
	{
	"epoch": 1.292118582791034,
	"grad_norm": 0.9787886738777161,
	"learning_rate": 1.8673780487804878e-05,
	"loss": 0.8379,
	"step": 447
	},
	{
	"epoch": 1.295010845986985,
	"grad_norm": 1.0129365921020508,
	"learning_rate": 1.8597560975609757e-05,
	"loss": 0.8211,
	"step": 448
	},
	{
	"epoch": 1.2979031091829356,
	"grad_norm": 0.9614445567131042,
	"learning_rate": 1.8521341463414636e-05,
	"loss": 0.811,
	"step": 449
	},
	{
	"epoch": 1.3007953723788865,
	"grad_norm": 0.9432827830314636,
	"learning_rate": 1.8445121951219512e-05,
	"loss": 0.8049,
	"step": 450
	},
	{
	"epoch": 1.3036876355748372,
	"grad_norm": 0.9323035478591919,
	"learning_rate": 1.836890243902439e-05,
	"loss": 0.8285,
	"step": 451
	},
	{
	"epoch": 1.3065798987707882,
	"grad_norm": 0.979387640953064,
	"learning_rate": 1.8292682926829268e-05,
	"loss": 0.833,
	"step": 452
	},
	{
	"epoch": 1.309472161966739,
	"grad_norm": 0.9406694173812866,
	"learning_rate": 1.8216463414634147e-05,
	"loss": 0.823,
	"step": 453
	},
	{
	"epoch": 1.3123644251626898,
	"grad_norm": 0.9428540468215942,
	"learning_rate": 1.8140243902439026e-05,
	"loss": 0.7691,
	"step": 454
	},
	{
	"epoch": 1.3152566883586405,
	"grad_norm": 0.9734871983528137,
	"learning_rate": 1.8064024390243902e-05,
	"loss": 0.7952,
	"step": 455
	},
	{
	"epoch": 1.3181489515545914,
	"grad_norm": 0.9358460307121277,
	"learning_rate": 1.798780487804878e-05,
	"loss": 0.7799,
	"step": 456
	},
	{
	"epoch": 1.3210412147505424,
	"grad_norm": 0.9847381711006165,
	"learning_rate": 1.7911585365853658e-05,
	"loss": 0.8272,
	"step": 457
	},
	{
	"epoch": 1.323933477946493,
	"grad_norm": 1.0185282230377197,
	"learning_rate": 1.7835365853658537e-05,
	"loss": 0.7397,
	"step": 458
	},
	{
	"epoch": 1.326825741142444,
	"grad_norm": 1.019514560699463,
	"learning_rate": 1.7759146341463416e-05,
	"loss": 0.8922,
	"step": 459
	},
	{
	"epoch": 1.3297180043383947,
	"grad_norm": 1.0088555812835693,
	"learning_rate": 1.7682926829268292e-05,
	"loss": 0.8657,
	"step": 460
	},
	{
	"epoch": 1.3326102675343456,
	"grad_norm": 0.9719268679618835,
	"learning_rate": 1.760670731707317e-05,
	"loss": 0.8074,
	"step": 461
	},
	{
	"epoch": 1.3355025307302966,
	"grad_norm": 0.9707063436508179,
	"learning_rate": 1.7530487804878047e-05,
	"loss": 0.7983,
	"step": 462
	},
	{
	"epoch": 1.3383947939262473,
	"grad_norm": 1.0087740421295166,
	"learning_rate": 1.7454268292682927e-05,
	"loss": 0.8205,
	"step": 463
	},
	{
	"epoch": 1.3412870571221982,
	"grad_norm": 0.957075297832489,
	"learning_rate": 1.7378048780487806e-05,
	"loss": 0.8248,
	"step": 464
	},
	{
	"epoch": 1.344179320318149,
	"grad_norm": 0.9987917542457581,
	"learning_rate": 1.7301829268292682e-05,
	"loss": 0.8194,
	"step": 465
	},
	{
	"epoch": 1.3470715835140998,
	"grad_norm": 0.959826648235321,
	"learning_rate": 1.722560975609756e-05,
	"loss": 0.754,
	"step": 466
	},
	{
	"epoch": 1.3499638467100505,
	"grad_norm": 0.9746386408805847,
	"learning_rate": 1.714939024390244e-05,
	"loss": 0.7998,
	"step": 467
	},
	{
	"epoch": 1.3528561099060015,
	"grad_norm": 0.9507508873939514,
	"learning_rate": 1.707317073170732e-05,
	"loss": 0.7447,
	"step": 468
	},
	{
	"epoch": 1.3557483731019522,
	"grad_norm": 1.0092105865478516,
	"learning_rate": 1.6996951219512196e-05,
	"loss": 0.8063,
	"step": 469
	},
	{
	"epoch": 1.358640636297903,
	"grad_norm": 0.973320484161377,
	"learning_rate": 1.6920731707317075e-05,
	"loss": 0.7818,
	"step": 470
	},
	{
	"epoch": 1.361532899493854,
	"grad_norm": 0.9913963675498962,
	"learning_rate": 1.6844512195121955e-05,
	"loss": 0.8006,
	"step": 471
	},
	{
	"epoch": 1.3644251626898047,
	"grad_norm": 1.0580593347549438,
	"learning_rate": 1.676829268292683e-05,
	"loss": 0.8488,
	"step": 472
	},
	{
	"epoch": 1.3673174258857557,
	"grad_norm": 0.9785270094871521,
	"learning_rate": 1.669207317073171e-05,
	"loss": 0.8249,
	"step": 473
	},
	{
	"epoch": 1.3702096890817064,
	"grad_norm": 0.981171727180481,
	"learning_rate": 1.6615853658536586e-05,
	"loss": 0.7762,
	"step": 474
	},
	{
	"epoch": 1.3731019522776573,
	"grad_norm": 1.0523923635482788,
	"learning_rate": 1.6539634146341465e-05,
	"loss": 0.7582,
	"step": 475
	},
	{
	"epoch": 1.3759942154736082,
	"grad_norm": 1.0290507078170776,
	"learning_rate": 1.6463414634146345e-05,
	"loss": 0.7927,
	"step": 476
	},
	{
	"epoch": 1.378886478669559,
	"grad_norm": 0.9900729060173035,
	"learning_rate": 1.638719512195122e-05,
	"loss": 0.7436,
	"step": 477
	},
	{
	"epoch": 1.3817787418655096,
	"grad_norm": 0.9794175028800964,
	"learning_rate": 1.63109756097561e-05,
	"loss": 0.7744,
	"step": 478
	},
	{
	"epoch": 1.3846710050614606,
	"grad_norm": 1.0114864110946655,
	"learning_rate": 1.6234756097560976e-05,
	"loss": 0.8683,
	"step": 479
	},
	{
	"epoch": 1.3875632682574115,
	"grad_norm": 1.026435375213623,
	"learning_rate": 1.6158536585365855e-05,
	"loss": 0.8049,
	"step": 480
	},
	{
	"epoch": 1.3904555314533622,
	"grad_norm": 1.0069879293441772,
	"learning_rate": 1.6082317073170734e-05,
	"loss": 0.9052,
	"step": 481
	},
	{
	"epoch": 1.3933477946493131,
	"grad_norm": 0.9856945276260376,
	"learning_rate": 1.600609756097561e-05,
	"loss": 0.8129,
	"step": 482
	},
	{
	"epoch": 1.3962400578452638,
	"grad_norm": 0.9632019400596619,
	"learning_rate": 1.592987804878049e-05,
	"loss": 0.7651,
	"step": 483
	},
	{
	"epoch": 1.3991323210412148,
	"grad_norm": 0.9180967807769775,
	"learning_rate": 1.5853658536585366e-05,
	"loss": 0.7798,
	"step": 484
	},
	{
	"epoch": 1.4020245842371657,
	"grad_norm": 0.9854956269264221,
	"learning_rate": 1.5777439024390245e-05,
	"loss": 0.7869,
	"step": 485
	},
	{
	"epoch": 1.4049168474331164,
	"grad_norm": 0.9699094891548157,
	"learning_rate": 1.5701219512195124e-05,
	"loss": 0.7424,
	"step": 486
	},
	{
	"epoch": 1.407809110629067,
	"grad_norm": 1.0167737007141113,
	"learning_rate": 1.5625e-05,
	"loss": 0.8369,
	"step": 487
	},
	{
	"epoch": 1.410701373825018,
	"grad_norm": 0.9676855802536011,
	"learning_rate": 1.554878048780488e-05,
	"loss": 0.8397,
	"step": 488
	},
	{
	"epoch": 1.413593637020969,
	"grad_norm": 0.974721372127533,
	"learning_rate": 1.5472560975609756e-05,
	"loss": 0.7772,
	"step": 489
	},
	{
	"epoch": 1.4164859002169197,
	"grad_norm": 0.981971800327301,
	"learning_rate": 1.5396341463414635e-05,
	"loss": 0.8626,
	"step": 490
	},
	{
	"epoch": 1.4193781634128706,
	"grad_norm": 1.004634976387024,
	"learning_rate": 1.5320121951219514e-05,
	"loss": 0.7482,
	"step": 491
	},
	{
	"epoch": 1.4222704266088213,
	"grad_norm": 0.995227575302124,
	"learning_rate": 1.524390243902439e-05,
	"loss": 0.7898,
	"step": 492
	},
	{
	"epoch": 1.4251626898047722,
	"grad_norm": 0.9808421730995178,
	"learning_rate": 1.5167682926829268e-05,
	"loss": 0.7677,
	"step": 493
	},
	{
	"epoch": 1.4280549530007232,
	"grad_norm": 0.9480452537536621,
	"learning_rate": 1.5091463414634147e-05,
	"loss": 0.7852,
	"step": 494
	},
	{
	"epoch": 1.4309472161966739,
	"grad_norm": 0.9107538461685181,
	"learning_rate": 1.5015243902439025e-05,
	"loss": 0.8798,
	"step": 495
	},
	{
	"epoch": 1.4338394793926248,
	"grad_norm": 0.9696621894836426,
	"learning_rate": 1.4939024390243902e-05,
	"loss": 0.8056,
	"step": 496
	},
	{
	"epoch": 1.4367317425885755,
	"grad_norm": 1.025511384010315,
	"learning_rate": 1.486280487804878e-05,
	"loss": 0.8319,
	"step": 497
	},
	{
	"epoch": 1.4396240057845264,
	"grad_norm": 0.9872826337814331,
	"learning_rate": 1.4786585365853658e-05,
	"loss": 0.7518,
	"step": 498
	},
	{
	"epoch": 1.4425162689804774,
	"grad_norm": 0.9867232441902161,
	"learning_rate": 1.4710365853658537e-05,
	"loss": 0.7372,
	"step": 499
	},
	{
	"epoch": 1.445408532176428,
	"grad_norm": 1.0221909284591675,
	"learning_rate": 1.4634146341463415e-05,
	"loss": 0.764,
	"step": 500
	},
	{
	"epoch": 1.4483007953723788,
	"grad_norm": 0.9744577407836914,
	"learning_rate": 1.4557926829268292e-05,
	"loss": 0.7816,
	"step": 501
	},
	{
	"epoch": 1.4511930585683297,
	"grad_norm": 0.9650794267654419,
	"learning_rate": 1.448170731707317e-05,
	"loss": 0.7687,
	"step": 502
	},
	{
	"epoch": 1.4540853217642806,
	"grad_norm": 1.067771077156067,
	"learning_rate": 1.4405487804878048e-05,
	"loss": 0.7803,
	"step": 503
	},
	{
	"epoch": 1.4569775849602313,
	"grad_norm": 1.0217148065567017,
	"learning_rate": 1.4329268292682927e-05,
	"loss": 0.8766,
	"step": 504
	},
	{
	"epoch": 1.4598698481561823,
	"grad_norm": 0.9869562983512878,
	"learning_rate": 1.4253048780487805e-05,
	"loss": 0.7447,
	"step": 505
	},
	{
	"epoch": 1.462762111352133,
	"grad_norm": 1.004603385925293,
	"learning_rate": 1.4176829268292682e-05,
	"loss": 0.7725,
	"step": 506
	},
	{
	"epoch": 1.465654374548084,
	"grad_norm": 1.0009071826934814,
	"learning_rate": 1.410060975609756e-05,
	"loss": 0.8871,
	"step": 507
	},
	{
	"epoch": 1.4685466377440348,
	"grad_norm": 1.0561660528182983,
	"learning_rate": 1.4024390243902441e-05,
	"loss": 0.7484,
	"step": 508
	},
	{
	"epoch": 1.4714389009399855,
	"grad_norm": 0.9575408101081848,
	"learning_rate": 1.3948170731707319e-05,
	"loss": 0.7578,
	"step": 509
	},
	{
	"epoch": 1.4743311641359362,
	"grad_norm": 1.0391199588775635,
	"learning_rate": 1.3871951219512196e-05,
	"loss": 0.8065,
	"step": 510
	},
	{
	"epoch": 1.4772234273318872,
	"grad_norm": 1.00908625125885,
	"learning_rate": 1.3795731707317076e-05,
	"loss": 0.7456,
	"step": 511
	},
	{
	"epoch": 1.480115690527838,
	"grad_norm": 0.9751247763633728,
	"learning_rate": 1.3719512195121953e-05,
	"loss": 0.6815,
	"step": 512
	},
	{
	"epoch": 1.4830079537237888,
	"grad_norm": 1.007405161857605,
	"learning_rate": 1.3643292682926831e-05,
	"loss": 0.7728,
	"step": 513
	},
	{
	"epoch": 1.4859002169197397,
	"grad_norm": 0.9923568964004517,
	"learning_rate": 1.3567073170731709e-05,
	"loss": 0.7887,
	"step": 514
	},
	{
	"epoch": 1.4887924801156904,
	"grad_norm": 0.9783514142036438,
	"learning_rate": 1.3490853658536586e-05,
	"loss": 0.8677,
	"step": 515
	},
	{
	"epoch": 1.4916847433116414,
	"grad_norm": 0.9877396821975708,
	"learning_rate": 1.3414634146341466e-05,
	"loss": 0.8264,
	"step": 516
	},
	{
	"epoch": 1.4945770065075923,
	"grad_norm": 0.973827600479126,
	"learning_rate": 1.3338414634146343e-05,
	"loss": 0.8344,
	"step": 517
	},
	{
	"epoch": 1.497469269703543,
	"grad_norm": 0.9245984554290771,
	"learning_rate": 1.326219512195122e-05,
	"loss": 0.7671,
	"step": 518
	},
	{
	"epoch": 1.5003615328994937,
	"grad_norm": 1.0020720958709717,
	"learning_rate": 1.3185975609756098e-05,
	"loss": 0.794,
	"step": 519
	},
	{
	"epoch": 1.5032537960954446,
	"grad_norm": 0.9446883797645569,
	"learning_rate": 1.3109756097560976e-05,
	"loss": 0.7783,
	"step": 520
	},
	{
	"epoch": 1.5061460592913956,
	"grad_norm": 0.9875244498252869,
	"learning_rate": 1.3033536585365855e-05,
	"loss": 0.8469,
	"step": 521
	},
	{
	"epoch": 1.5090383224873465,
	"grad_norm": 1.0033190250396729,
	"learning_rate": 1.2957317073170733e-05,
	"loss": 0.8749,
	"step": 522
	},
	{
	"epoch": 1.5119305856832972,
	"grad_norm": 0.9534813165664673,
	"learning_rate": 1.288109756097561e-05,
	"loss": 0.8684,
	"step": 523
	},
	{
	"epoch": 1.514822848879248,
	"grad_norm": 0.9435486793518066,
	"learning_rate": 1.2804878048780488e-05,
	"loss": 0.8012,
	"step": 524
	},
	{
	"epoch": 1.5177151120751988,
	"grad_norm": 1.0029319524765015,
	"learning_rate": 1.2728658536585366e-05,
	"loss": 0.762,
	"step": 525
	},
	{
	"epoch": 1.5206073752711498,
	"grad_norm": 1.0000132322311401,
	"learning_rate": 1.2652439024390245e-05,
	"loss": 0.7812,
	"step": 526
	},
	{
	"epoch": 1.5234996384671005,
	"grad_norm": 0.9410236477851868,
	"learning_rate": 1.2576219512195123e-05,
	"loss": 0.775,
	"step": 527
	},
	{
	"epoch": 1.5263919016630514,
	"grad_norm": 0.9614347815513611,
	"learning_rate": 1.25e-05,
	"loss": 0.7783,
	"step": 528
	},
	{
	"epoch": 1.529284164859002,
	"grad_norm": 0.9015387296676636,
	"learning_rate": 1.2423780487804878e-05,
	"loss": 0.7767,
	"step": 529
	},
	{
	"epoch": 1.532176428054953,
	"grad_norm": 0.9506531357765198,
	"learning_rate": 1.2347560975609756e-05,
	"loss": 0.7928,
	"step": 530
	},
	{
	"epoch": 1.535068691250904,
	"grad_norm": 1.0034101009368896,
	"learning_rate": 1.2271341463414635e-05,
	"loss": 0.794,
	"step": 531
	},
	{
	"epoch": 1.5379609544468547,
	"grad_norm": 1.0089356899261475,
	"learning_rate": 1.2195121951219513e-05,
	"loss": 0.7306,
	"step": 532
	},
	{
	"epoch": 1.5408532176428054,
	"grad_norm": 1.0234556198120117,
	"learning_rate": 1.211890243902439e-05,
	"loss": 0.7613,
	"step": 533
	},
	{
	"epoch": 1.5437454808387563,
	"grad_norm": 0.9771298170089722,
	"learning_rate": 1.2042682926829268e-05,
	"loss": 0.7869,
	"step": 534
	},
	{
	"epoch": 1.5466377440347072,
	"grad_norm": 1.019014835357666,
	"learning_rate": 1.1966463414634146e-05,
	"loss": 0.8096,
	"step": 535
	},
	{
	"epoch": 1.5495300072306581,
	"grad_norm": 0.95261150598526,
	"learning_rate": 1.1890243902439025e-05,
	"loss": 0.843,
	"step": 536
	},
	{
	"epoch": 1.5524222704266089,
	"grad_norm": 0.9801099300384521,
	"learning_rate": 1.1814024390243903e-05,
	"loss": 0.7219,
	"step": 537
	},
	{
	"epoch": 1.5553145336225596,
	"grad_norm": 1.0174713134765625,
	"learning_rate": 1.173780487804878e-05,
	"loss": 0.787,
	"step": 538
	},
	{
	"epoch": 1.5582067968185105,
	"grad_norm": 1.119850754737854,
	"learning_rate": 1.166158536585366e-05,
	"loss": 0.8341,
	"step": 539
	},
	{
	"epoch": 1.5610990600144614,
	"grad_norm": 0.996792733669281,
	"learning_rate": 1.1585365853658537e-05,
	"loss": 0.8291,
	"step": 540
	},
	{
	"epoch": 1.5639913232104121,
	"grad_norm": 1.0276952981948853,
	"learning_rate": 1.1509146341463415e-05,
	"loss": 0.7911,
	"step": 541
	},
	{
	"epoch": 1.5668835864063628,
	"grad_norm": 0.9893227815628052,
	"learning_rate": 1.1432926829268294e-05,
	"loss": 0.8017,
	"step": 542
	},
	{
	"epoch": 1.5697758496023138,
	"grad_norm": 1.0083463191986084,
	"learning_rate": 1.1356707317073172e-05,
	"loss": 0.8681,
	"step": 543
	},
	{
	"epoch": 1.5726681127982647,
	"grad_norm": 1.0352839231491089,
	"learning_rate": 1.128048780487805e-05,
	"loss": 0.7451,
	"step": 544
	},
	{
	"epoch": 1.5755603759942156,
	"grad_norm": 1.0231815576553345,
	"learning_rate": 1.1204268292682927e-05,
	"loss": 0.7971,
	"step": 545
	},
	{
	"epoch": 1.5784526391901663,
	"grad_norm": 0.9740004539489746,
	"learning_rate": 1.1128048780487805e-05,
	"loss": 0.7174,
	"step": 546
	},
	{
	"epoch": 1.581344902386117,
	"grad_norm": 0.9921448826789856,
	"learning_rate": 1.1051829268292684e-05,
	"loss": 0.7669,
	"step": 547
	},
	{
	"epoch": 1.584237165582068,
	"grad_norm": 0.9635536670684814,
	"learning_rate": 1.0975609756097562e-05,
	"loss": 0.7851,
	"step": 548
	},
	{
	"epoch": 1.5871294287780189,
	"grad_norm": 0.9930370450019836,
	"learning_rate": 1.089939024390244e-05,
	"loss": 0.749,
	"step": 549
	},
	{
	"epoch": 1.5900216919739696,
	"grad_norm": 1.0188409090042114,
	"learning_rate": 1.0823170731707317e-05,
	"loss": 0.8287,
	"step": 550
	},
	{
	"epoch": 1.5929139551699205,
	"grad_norm": 0.9855648875236511,
	"learning_rate": 1.0746951219512195e-05,
	"loss": 0.7985,
	"step": 551
	},
	{
	"epoch": 1.5958062183658712,
	"grad_norm": 1.0312644243240356,
	"learning_rate": 1.0670731707317074e-05,
	"loss": 0.824,
	"step": 552
	},
	{
	"epoch": 1.5986984815618221,
	"grad_norm": 0.9914786219596863,
	"learning_rate": 1.0594512195121952e-05,
	"loss": 0.8491,
	"step": 553
	},
	{
	"epoch": 1.601590744757773,
	"grad_norm": 1.0038225650787354,
	"learning_rate": 1.051829268292683e-05,
	"loss": 0.8882,
	"step": 554
	},
	{
	"epoch": 1.6044830079537238,
	"grad_norm": 1.0336111783981323,
	"learning_rate": 1.0442073170731707e-05,
	"loss": 0.7973,
	"step": 555
	},
	{
	"epoch": 1.6073752711496745,
	"grad_norm": 0.9833325743675232,
	"learning_rate": 1.0365853658536585e-05,
	"loss": 0.7918,
	"step": 556
	},
	{
	"epoch": 1.6102675343456254,
	"grad_norm": 1.0113708972930908,
	"learning_rate": 1.0289634146341464e-05,
	"loss": 0.803,
	"step": 557
	},
	{
	"epoch": 1.6131597975415763,
	"grad_norm": 1.0248537063598633,
	"learning_rate": 1.0213414634146342e-05,
	"loss": 0.8015,
	"step": 558
	},
	{
	"epoch": 1.6160520607375273,
	"grad_norm": 0.9835037589073181,
	"learning_rate": 1.0137195121951221e-05,
	"loss": 0.7493,
	"step": 559
	},
	{
	"epoch": 1.618944323933478,
	"grad_norm": 0.9587700963020325,
	"learning_rate": 1.0060975609756099e-05,
	"loss": 0.7041,
	"step": 560
	},
	{
	"epoch": 1.6218365871294287,
	"grad_norm": 1.0020424127578735,
	"learning_rate": 9.984756097560976e-06,
	"loss": 0.7743,
	"step": 561
	},
	{
	"epoch": 1.6247288503253796,
	"grad_norm": 1.0215778350830078,
	"learning_rate": 9.908536585365854e-06,
	"loss": 0.9143,
	"step": 562
	},
	{
	"epoch": 1.6276211135213305,
	"grad_norm": 1.05181086063385,
	"learning_rate": 9.832317073170733e-06,
	"loss": 0.7612,
	"step": 563
	},
	{
	"epoch": 1.6305133767172812,
	"grad_norm": 0.9703447222709656,
	"learning_rate": 9.756097560975611e-06,
	"loss": 0.7819,
	"step": 564
	},
	{
	"epoch": 1.633405639913232,
	"grad_norm": 1.0287517309188843,
	"learning_rate": 9.679878048780489e-06,
	"loss": 0.8443,
	"step": 565
	},
	{
	"epoch": 1.6362979031091829,
	"grad_norm": 1.0159296989440918,
	"learning_rate": 9.603658536585366e-06,
	"loss": 0.7781,
	"step": 566
	},
	{
	"epoch": 1.6391901663051338,
	"grad_norm": 1.0067027807235718,
	"learning_rate": 9.527439024390244e-06,
	"loss": 0.7417,
	"step": 567
	},
	{
	"epoch": 1.6420824295010847,
	"grad_norm": 1.067325472831726,
	"learning_rate": 9.451219512195123e-06,
	"loss": 0.856,
	"step": 568
	},
	{
	"epoch": 1.6449746926970354,
	"grad_norm": 1.0160930156707764,
	"learning_rate": 9.375000000000001e-06,
	"loss": 0.856,
	"step": 569
	},
	{
	"epoch": 1.6478669558929862,
	"grad_norm": 0.9937707781791687,
	"learning_rate": 9.298780487804879e-06,
	"loss": 0.7341,
	"step": 570
	},
	{
	"epoch": 1.650759219088937,
	"grad_norm": 1.0597978830337524,
	"learning_rate": 9.222560975609756e-06,
	"loss": 0.7363,
	"step": 571
	},
	{
	"epoch": 1.653651482284888,
	"grad_norm": 1.0080229043960571,
	"learning_rate": 9.146341463414634e-06,
	"loss": 0.7734,
	"step": 572
	},
	{
	"epoch": 1.6565437454808387,
	"grad_norm": 1.0394561290740967,
	"learning_rate": 9.070121951219513e-06,
	"loss": 0.8179,
	"step": 573
	},
	{
	"epoch": 1.6594360086767896,
	"grad_norm": 1.0613329410552979,
	"learning_rate": 8.99390243902439e-06,
	"loss": 0.8376,
	"step": 574
	},
	{
	"epoch": 1.6623282718727403,
	"grad_norm": 1.0188164710998535,
	"learning_rate": 8.917682926829268e-06,
	"loss": 0.7931,
	"step": 575
	},
	{
	"epoch": 1.6652205350686913,
	"grad_norm": 0.9689257740974426,
	"learning_rate": 8.841463414634146e-06,
	"loss": 0.8066,
	"step": 576
	},
	{
	"epoch": 1.6681127982646422,
	"grad_norm": 0.9878205060958862,
	"learning_rate": 8.765243902439024e-06,
	"loss": 0.7386,
	"step": 577
	},
	{
	"epoch": 1.671005061460593,
	"grad_norm": 0.9607040286064148,
	"learning_rate": 8.689024390243903e-06,
	"loss": 0.7762,
	"step": 578
	},
	{
	"epoch": 1.6738973246565436,
	"grad_norm": 0.934492290019989,
	"learning_rate": 8.61280487804878e-06,
	"loss": 0.8317,
	"step": 579
	},
	{
	"epoch": 1.6767895878524945,
	"grad_norm": 1.0009124279022217,
	"learning_rate": 8.53658536585366e-06,
	"loss": 0.7755,
	"step": 580
	},
	{
	"epoch": 1.6796818510484455,
	"grad_norm": 0.9868451952934265,
	"learning_rate": 8.460365853658538e-06,
	"loss": 0.7688,
	"step": 581
	},
	{
	"epoch": 1.6825741142443964,
	"grad_norm": 1.0356996059417725,
	"learning_rate": 8.384146341463415e-06,
	"loss": 0.7601,
	"step": 582
	},
	{
	"epoch": 1.685466377440347,
	"grad_norm": 1.0577391386032104,
	"learning_rate": 8.307926829268293e-06,
	"loss": 0.7847,
	"step": 583
	},
	{
	"epoch": 1.6883586406362978,
	"grad_norm": 1.0306715965270996,
	"learning_rate": 8.231707317073172e-06,
	"loss": 0.8193,
	"step": 584
	},
	{
	"epoch": 1.6912509038322487,
	"grad_norm": 1.04917311668396,
	"learning_rate": 8.15548780487805e-06,
	"loss": 0.7714,
	"step": 585
	},
	{
	"epoch": 1.6941431670281997,
	"grad_norm": 0.9596878290176392,
	"learning_rate": 8.079268292682928e-06,
	"loss": 0.8267,
	"step": 586
	},
	{
	"epoch": 1.6970354302241504,
	"grad_norm": 1.041686773300171,
	"learning_rate": 8.003048780487805e-06,
	"loss": 0.7706,
	"step": 587
	},
	{
	"epoch": 1.699927693420101,
	"grad_norm": 1.0023382902145386,
	"learning_rate": 7.926829268292683e-06,
	"loss": 0.8456,
	"step": 588
	},
	{
	"epoch": 1.702819956616052,
	"grad_norm": 1.009926438331604,
	"learning_rate": 7.850609756097562e-06,
	"loss": 0.7796,
	"step": 589
	},
	{
	"epoch": 1.705712219812003,
	"grad_norm": 1.0054479837417603,
	"learning_rate": 7.77439024390244e-06,
	"loss": 0.7221,
	"step": 590
	},
	{
	"epoch": 1.7086044830079539,
	"grad_norm": 0.9531407952308655,
	"learning_rate": 7.698170731707317e-06,
	"loss": 0.7801,
	"step": 591
	},
	{
	"epoch": 1.7114967462039046,
	"grad_norm": 1.0707489252090454,
	"learning_rate": 7.621951219512195e-06,
	"loss": 0.8474,
	"step": 592
	},
	{
	"epoch": 1.7143890093998553,
	"grad_norm": 1.0391806364059448,
	"learning_rate": 7.545731707317074e-06,
	"loss": 0.8122,
	"step": 593
	},
	{
	"epoch": 1.7172812725958062,
	"grad_norm": 0.9896015524864197,
	"learning_rate": 7.469512195121951e-06,
	"loss": 0.8505,
	"step": 594
	},
	{
	"epoch": 1.7201735357917571,
	"grad_norm": 1.122521162033081,
	"learning_rate": 7.393292682926829e-06,
	"loss": 0.878,
	"step": 595
	},
	{
	"epoch": 1.7230657989877078,
	"grad_norm": 1.0091516971588135,
	"learning_rate": 7.317073170731707e-06,
	"loss": 0.7846,
	"step": 596
	},
	{
	"epoch": 1.7259580621836585,
	"grad_norm": 0.9725529551506042,
	"learning_rate": 7.240853658536585e-06,
	"loss": 0.8274,
	"step": 597
	},
	{
	"epoch": 1.7288503253796095,
	"grad_norm": 1.0169364213943481,
	"learning_rate": 7.1646341463414635e-06,
	"loss": 0.9092,
	"step": 598
	},
	{
	"epoch": 1.7317425885755604,
	"grad_norm": 0.9752337336540222,
	"learning_rate": 7.088414634146341e-06,
	"loss": 0.7489,
	"step": 599
	},
	{
	"epoch": 1.7346348517715113,
	"grad_norm": 1.0482772588729858,
	"learning_rate": 7.0121951219512205e-06,
	"loss": 0.7379,
	"step": 600
	},
	{
	"epoch": 1.737527114967462,
	"grad_norm": 0.9847067594528198,
	"learning_rate": 6.935975609756098e-06,
	"loss": 0.7102,
	"step": 601
	},
	{
	"epoch": 1.7404193781634127,
	"grad_norm": 0.9766717553138733,
	"learning_rate": 6.859756097560977e-06,
	"loss": 0.8012,
	"step": 602
	},
	{
	"epoch": 1.7433116413593637,
	"grad_norm": 0.9498171806335449,
	"learning_rate": 6.783536585365854e-06,
	"loss": 0.7409,
	"step": 603
	},
	{
	"epoch": 1.7462039045553146,
	"grad_norm": 1.0003339052200317,
	"learning_rate": 6.707317073170733e-06,
	"loss": 0.7585,
	"step": 604
	},
	{
	"epoch": 1.7490961677512655,
	"grad_norm": 1.0416187047958374,
	"learning_rate": 6.63109756097561e-06,
	"loss": 0.7591,
	"step": 605
	},
	{
	"epoch": 1.7519884309472162,
	"grad_norm": 0.9981351494789124,
	"learning_rate": 6.554878048780488e-06,
	"loss": 0.741,
	"step": 606
	},
	{
	"epoch": 1.754880694143167,
	"grad_norm": 0.998756468296051,
	"learning_rate": 6.4786585365853665e-06,
	"loss": 0.8408,
	"step": 607
	},
	{
	"epoch": 1.7577729573391179,
	"grad_norm": 1.0053471326828003,
	"learning_rate": 6.402439024390244e-06,
	"loss": 0.7636,
	"step": 608
	},
	{
	"epoch": 1.7606652205350688,
	"grad_norm": 1.0228371620178223,
	"learning_rate": 6.326219512195123e-06,
	"loss": 0.7811,
	"step": 609
	},
	{
	"epoch": 1.7635574837310195,
	"grad_norm": 1.0302461385726929,
	"learning_rate": 6.25e-06,
	"loss": 0.7339,
	"step": 610
	},
	{
	"epoch": 1.7664497469269702,
	"grad_norm": 1.0541510581970215,
	"learning_rate": 6.173780487804878e-06,
	"loss": 0.7718,
	"step": 611
	},
	{
	"epoch": 1.7693420101229211,
	"grad_norm": 0.9746615290641785,
	"learning_rate": 6.0975609756097564e-06,
	"loss": 0.849,
	"step": 612
	},
	{
	"epoch": 1.772234273318872,
	"grad_norm": 0.9652546048164368,
	"learning_rate": 6.021341463414634e-06,
	"loss": 0.8287,
	"step": 613
	},
	{
	"epoch": 1.775126536514823,
	"grad_norm": 1.0296525955200195,
	"learning_rate": 5.9451219512195126e-06,
	"loss": 0.7493,
	"step": 614
	},
	{
	"epoch": 1.7780187997107737,
	"grad_norm": 1.045018196105957,
	"learning_rate": 5.86890243902439e-06,
	"loss": 0.7284,
	"step": 615
	},
	{
	"epoch": 1.7809110629067244,
	"grad_norm": 1.0308400392532349,
	"learning_rate": 5.792682926829269e-06,
	"loss": 0.8641,
	"step": 616
	},
	{
	"epoch": 1.7838033261026753,
	"grad_norm": 1.0580596923828125,
	"learning_rate": 5.716463414634147e-06,
	"loss": 0.8282,
	"step": 617
	},
	{
	"epoch": 1.7866955892986263,
	"grad_norm": 1.0240721702575684,
	"learning_rate": 5.640243902439025e-06,
	"loss": 0.765,
	"step": 618
	},
	{
	"epoch": 1.789587852494577,
	"grad_norm": 1.0127959251403809,
	"learning_rate": 5.5640243902439025e-06,
	"loss": 0.7923,
	"step": 619
	},
	{
	"epoch": 1.7924801156905277,
	"grad_norm": 1.1011825799942017,
	"learning_rate": 5.487804878048781e-06,
	"loss": 0.7251,
	"step": 620
	},
	{
	"epoch": 1.7953723788864786,
	"grad_norm": 1.0520384311676025,
	"learning_rate": 5.411585365853659e-06,
	"loss": 0.7217,
	"step": 621
	},
	{
	"epoch": 1.7982646420824295,
	"grad_norm": 1.0805737972259521,
	"learning_rate": 5.335365853658537e-06,
	"loss": 0.8411,
	"step": 622
	},
	{
	"epoch": 1.8011569052783805,
	"grad_norm": 1.0442290306091309,
	"learning_rate": 5.259146341463415e-06,
	"loss": 0.7386,
	"step": 623
	},
	{
	"epoch": 1.8040491684743312,
	"grad_norm": 1.0919840335845947,
	"learning_rate": 5.182926829268292e-06,
	"loss": 0.7858,
	"step": 624
	},
	{
	"epoch": 1.8069414316702819,
	"grad_norm": 0.9759023785591125,
	"learning_rate": 5.106707317073171e-06,
	"loss": 0.697,
	"step": 625
	},
	{
	"epoch": 1.8098336948662328,
	"grad_norm": 1.017999291419983,
	"learning_rate": 5.030487804878049e-06,
	"loss": 0.8095,
	"step": 626
	},
	{
	"epoch": 1.8127259580621837,
	"grad_norm": 1.0746080875396729,
	"learning_rate": 4.954268292682927e-06,
	"loss": 0.7828,
	"step": 627
	},
	{
	"epoch": 1.8156182212581344,
	"grad_norm": 1.0229034423828125,
	"learning_rate": 4.8780487804878055e-06,
	"loss": 0.8028,
	"step": 628
	},
	{
	"epoch": 1.8185104844540854,
	"grad_norm": 1.0520620346069336,
	"learning_rate": 4.801829268292683e-06,
	"loss": 0.7629,
	"step": 629
	},
	{
	"epoch": 1.821402747650036,
	"grad_norm": 1.0495305061340332,
	"learning_rate": 4.725609756097562e-06,
	"loss": 0.7609,
	"step": 630
	},
	{
	"epoch": 1.824295010845987,
	"grad_norm": 0.9548224806785583,
	"learning_rate": 4.649390243902439e-06,
	"loss": 0.752,
	"step": 631
	},
	{
	"epoch": 1.827187274041938,
	"grad_norm": 1.0313746929168701,
	"learning_rate": 4.573170731707317e-06,
	"loss": 0.8528,
	"step": 632
	},
	{
	"epoch": 1.8300795372378886,
	"grad_norm": 1.0014350414276123,
	"learning_rate": 4.496951219512195e-06,
	"loss": 0.7587,
	"step": 633
	},
	{
	"epoch": 1.8329718004338393,
	"grad_norm": 1.069353461265564,
	"learning_rate": 4.420731707317073e-06,
	"loss": 0.8193,
	"step": 634
	},
	{
	"epoch": 1.8358640636297903,
	"grad_norm": 1.085693120956421,
	"learning_rate": 4.3445121951219515e-06,
	"loss": 0.799,
	"step": 635
	},
	{
	"epoch": 1.8387563268257412,
	"grad_norm": 0.97664475440979,
	"learning_rate": 4.26829268292683e-06,
	"loss": 0.7018,
	"step": 636
	},
	{
	"epoch": 1.8416485900216921,
	"grad_norm": 1.0830881595611572,
	"learning_rate": 4.192073170731708e-06,
	"loss": 0.7851,
	"step": 637
	},
	{
	"epoch": 1.8445408532176428,
	"grad_norm": 0.9672832489013672,
	"learning_rate": 4.115853658536586e-06,
	"loss": 0.7542,
	"step": 638
	},
	{
	"epoch": 1.8474331164135935,
	"grad_norm": 1.0837608575820923,
	"learning_rate": 4.039634146341464e-06,
	"loss": 0.8329,
	"step": 639
	},
	{
	"epoch": 1.8503253796095445,
	"grad_norm": 1.0772196054458618,
	"learning_rate": 3.9634146341463414e-06,
	"loss": 0.7884,
	"step": 640
	},
	{
	"epoch": 1.8532176428054954,
	"grad_norm": 1.1313399076461792,
	"learning_rate": 3.88719512195122e-06,
	"loss": 0.7771,
	"step": 641
	},
	{
	"epoch": 1.856109906001446,
	"grad_norm": 1.0799105167388916,
	"learning_rate": 3.8109756097560976e-06,
	"loss": 0.8173,
	"step": 642
	},
	{
	"epoch": 1.8590021691973968,
	"grad_norm": 1.035786509513855,
	"learning_rate": 3.7347560975609756e-06,
	"loss": 0.7445,
	"step": 643
	},
	{
	"epoch": 1.8618944323933477,
	"grad_norm": 1.0022109746932983,
	"learning_rate": 3.6585365853658537e-06,
	"loss": 0.7441,
	"step": 644
	},
	{
	"epoch": 1.8647866955892987,
	"grad_norm": 1.0012871026992798,
	"learning_rate": 3.5823170731707318e-06,
	"loss": 0.7731,
	"step": 645
	},
	{
	"epoch": 1.8676789587852496,
	"grad_norm": 1.0303922891616821,
	"learning_rate": 3.5060975609756102e-06,
	"loss": 0.7432,
	"step": 646
	},
	{
	"epoch": 1.8705712219812003,
	"grad_norm": 0.9990852475166321,
	"learning_rate": 3.4298780487804883e-06,
	"loss": 0.7346,
	"step": 647
	},
	{
	"epoch": 1.873463485177151,
	"grad_norm": 1.0499917268753052,
	"learning_rate": 3.3536585365853664e-06,
	"loss": 0.8286,
	"step": 648
	},
	{
	"epoch": 1.876355748373102,
	"grad_norm": 0.9858948588371277,
	"learning_rate": 3.277439024390244e-06,
	"loss": 0.7513,
	"step": 649
	},
	{
	"epoch": 1.8792480115690529,
	"grad_norm": 1.020816445350647,
	"learning_rate": 3.201219512195122e-06,
	"loss": 0.7283,
	"step": 650
	},
	{
	"epoch": 1.8821402747650036,
	"grad_norm": 1.0142725706100464,
	"learning_rate": 3.125e-06,
	"loss": 0.8384,
	"step": 651
	},
	{
	"epoch": 1.8850325379609545,
	"grad_norm": 1.0734213590621948,
	"learning_rate": 3.0487804878048782e-06,
	"loss": 0.7657,
	"step": 652
	},
	{
	"epoch": 1.8879248011569052,
	"grad_norm": 0.9841848611831665,
	"learning_rate": 2.9725609756097563e-06,
	"loss": 0.7097,
	"step": 653
	},
	{
	"epoch": 1.8908170643528561,
	"grad_norm": 1.4696120023727417,
	"learning_rate": 2.8963414634146343e-06,
	"loss": 0.6966,
	"step": 654
	},
	{
	"epoch": 1.893709327548807,
	"grad_norm": 1.0753856897354126,
	"learning_rate": 2.8201219512195124e-06,
	"loss": 0.7836,
	"step": 655
	},
	{
	"epoch": 1.8966015907447578,
	"grad_norm": 1.058305025100708,
	"learning_rate": 2.7439024390243905e-06,
	"loss": 0.7982,
	"step": 656
	},
	{
	"epoch": 1.8994938539407085,
	"grad_norm": 1.0660943984985352,
	"learning_rate": 2.6676829268292685e-06,
	"loss": 0.7404,
	"step": 657
	},
	{
	"epoch": 1.9023861171366594,
	"grad_norm": 1.0167231559753418,
	"learning_rate": 2.591463414634146e-06,
	"loss": 0.6959,
	"step": 658
	},
	{
	"epoch": 1.9052783803326103,
	"grad_norm": 0.9782930016517639,
	"learning_rate": 2.5152439024390247e-06,
	"loss": 0.7038,
	"step": 659
	},
	{
	"epoch": 1.9081706435285612,
	"grad_norm": 1.0442514419555664,
	"learning_rate": 2.4390243902439027e-06,
	"loss": 0.8573,
	"step": 660
	},
	{
	"epoch": 1.911062906724512,
	"grad_norm": 1.0171256065368652,
	"learning_rate": 2.362804878048781e-06,
	"loss": 0.7684,
	"step": 661
	},
	{
	"epoch": 1.9139551699204627,
	"grad_norm": 1.020768165588379,
	"learning_rate": 2.2865853658536584e-06,
	"loss": 0.8061,
	"step": 662
	},
	{
	"epoch": 1.9168474331164136,
	"grad_norm": 0.9942306876182556,
	"learning_rate": 2.2103658536585365e-06,
	"loss": 0.7691,
	"step": 663
	},
	{
	"epoch": 1.9197396963123645,
	"grad_norm": 0.9986061453819275,
	"learning_rate": 2.134146341463415e-06,
	"loss": 0.7012,
	"step": 664
	},
	{
	"epoch": 1.9226319595083152,
	"grad_norm": 1.0474562644958496,
	"learning_rate": 2.057926829268293e-06,
	"loss": 0.728,
	"step": 665
	},
	{
	"epoch": 1.925524222704266,
	"grad_norm": 1.0567129850387573,
	"learning_rate": 1.9817073170731707e-06,
	"loss": 0.7762,
	"step": 666
	},
	{
	"epoch": 1.9284164859002169,
	"grad_norm": 1.0257785320281982,
	"learning_rate": 1.9054878048780488e-06,
	"loss": 0.7986,
	"step": 667
	},
	{
	"epoch": 1.9313087490961678,
	"grad_norm": 0.9999968409538269,
	"learning_rate": 1.8292682926829268e-06,
	"loss": 0.7539,
	"step": 668
	},
	{
	"epoch": 1.9342010122921187,
	"grad_norm": 1.082047462463379,
	"learning_rate": 1.7530487804878051e-06,
	"loss": 0.7971,
	"step": 669
	},
	{
	"epoch": 1.9370932754880694,
	"grad_norm": 0.994654655456543,
	"learning_rate": 1.6768292682926832e-06,
	"loss": 0.7363,
	"step": 670
	},
	{
	"epoch": 1.9399855386840201,
	"grad_norm": 1.0056068897247314,
	"learning_rate": 1.600609756097561e-06,
	"loss": 0.7643,
	"step": 671
	},
	{
	"epoch": 1.942877801879971,
	"grad_norm": 1.015271782875061,
	"learning_rate": 1.5243902439024391e-06,
	"loss": 0.7108,
	"step": 672
	},
	{
	"epoch": 1.945770065075922,
	"grad_norm": 0.9946292042732239,
	"learning_rate": 1.4481707317073172e-06,
	"loss": 0.8213,
	"step": 673
	},
	{
	"epoch": 1.9486623282718727,
	"grad_norm": 0.9914453625679016,
	"learning_rate": 1.3719512195121952e-06,
	"loss": 0.7917,
	"step": 674
	},
	{
	"epoch": 1.9515545914678236,
	"grad_norm": 1.062779426574707,
	"learning_rate": 1.295731707317073e-06,
	"loss": 0.725,
	"step": 675
	},
	{
	"epoch": 1.9544468546637743,
	"grad_norm": 1.0502513647079468,
	"learning_rate": 1.2195121951219514e-06,
	"loss": 0.7978,
	"step": 676
	},
	{
	"epoch": 1.9573391178597253,
	"grad_norm": 1.0494405031204224,
	"learning_rate": 1.1432926829268292e-06,
	"loss": 0.7927,
	"step": 677
	},
	{
	"epoch": 1.9602313810556762,
	"grad_norm": 1.054677128791809,
	"learning_rate": 1.0670731707317075e-06,
	"loss": 0.7595,
	"step": 678
	},
	{
	"epoch": 1.9631236442516269,
	"grad_norm": 1.0292917490005493,
	"learning_rate": 9.908536585365854e-07,
	"loss": 0.8302,
	"step": 679
	},
	{
	"epoch": 1.9660159074475776,
	"grad_norm": 1.1083894968032837,
	"learning_rate": 9.146341463414634e-07,
	"loss": 0.8153,
	"step": 680
	},
	{
	"epoch": 1.9689081706435285,
	"grad_norm": 1.086378574371338,
	"learning_rate": 8.384146341463416e-07,
	"loss": 0.7676,
	"step": 681
	},
	{
	"epoch": 1.9718004338394794,
	"grad_norm": 1.0098559856414795,
	"learning_rate": 7.621951219512196e-07,
	"loss": 0.7764,
	"step": 682
	},
	{
	"epoch": 1.9746926970354304,
	"grad_norm": 1.0091646909713745,
	"learning_rate": 6.859756097560976e-07,
	"loss": 0.8242,
	"step": 683
	},
	{
	"epoch": 1.977584960231381,
	"grad_norm": 1.0496336221694946,
	"learning_rate": 6.097560975609757e-07,
	"loss": 0.7758,
	"step": 684
	},
	{
	"epoch": 1.9804772234273318,
	"grad_norm": 1.0282728672027588,
	"learning_rate": 5.335365853658538e-07,
	"loss": 0.7421,
	"step": 685
	},
	{
	"epoch": 1.9833694866232827,
	"grad_norm": 1.0808695554733276,
	"learning_rate": 4.573170731707317e-07,
	"loss": 0.7813,
	"step": 686
	},
	{
	"epoch": 1.9862617498192336,
	"grad_norm": 1.0309821367263794,
	"learning_rate": 3.810975609756098e-07,
	"loss": 0.7839,
	"step": 687
	},
	{
	"epoch": 1.9891540130151844,
	"grad_norm": 1.0294197797775269,
	"learning_rate": 3.0487804878048784e-07,
	"loss": 0.697,
	"step": 688
	},
	{
	"epoch": 1.992046276211135,
	"grad_norm": 1.0775706768035889,
	"learning_rate": 2.2865853658536586e-07,
	"loss": 0.7508,
	"step": 689
	},
	{
	"epoch": 1.994938539407086,
	"grad_norm": 1.0518558025360107,
	"learning_rate": 1.5243902439024392e-07,
	"loss": 0.7384,
	"step": 690
	},
	{
	"epoch": 1.997830802603037,
	"grad_norm": 1.0389012098312378,
	"learning_rate": 7.621951219512196e-08,
	"loss": 0.7942,
	"step": 691
	}
	],
	"logging_steps": 1,
	"max_steps": 691,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 2,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 4.687294393884475e+18,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}