multitracks-lp / trainer_state.json

Upload 13 files

f8214ed verified 7 months ago

300 kB

Invalid JSON:Unexpected token 'N', ..."ad_norm": NaN, "... is not valid JSON

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 29.12,
	"eval_steps": 100,
	"global_step": 182000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.016,
	"grad_norm": 1.1145988702774048,
	"learning_rate": 5.94e-05,
	"loss": 129.2138,
	"step": 100
	},
	{
	"epoch": 0.032,
	"grad_norm": 0.3314463794231415,
	"learning_rate": 0.0001194,
	"loss": 147.1265,
	"step": 200
	},
	{
	"epoch": 0.048,
	"grad_norm": 0.30200499296188354,
	"learning_rate": 0.00017939999999999997,
	"loss": 147.1375,
	"step": 300
	},
	{
	"epoch": 0.064,
	"grad_norm": 0.20890414714813232,
	"learning_rate": 0.0002394,
	"loss": 141.107,
	"step": 400
	},
	{
	"epoch": 0.08,
	"grad_norm": 0.19977182149887085,
	"learning_rate": 0.00029939999999999996,
	"loss": 130.2311,
	"step": 500
	},
	{
	"epoch": 0.096,
	"grad_norm": 0.1718936711549759,
	"learning_rate": 0.00029999762390495616,
	"loss": 116.9488,
	"step": 600
	},
	{
	"epoch": 0.112,
	"grad_norm": 0.21659506857395172,
	"learning_rate": 0.00029999522380895233,
	"loss": 106.3702,
	"step": 700
	},
	{
	"epoch": 0.128,
	"grad_norm": 0.19612713158130646,
	"learning_rate": 0.0002999928237129485,
	"loss": 98.8033,
	"step": 800
	},
	{
	"epoch": 0.144,
	"grad_norm": 0.18958421051502228,
	"learning_rate": 0.00029999042361694467,
	"loss": 94.6761,
	"step": 900
	},
	{
	"epoch": 0.16,
	"grad_norm": 0.25341877341270447,
	"learning_rate": 0.00029998802352094084,
	"loss": 88.2629,
	"step": 1000
	},
	{
	"epoch": 0.176,
	"grad_norm": 0.1762186735868454,
	"learning_rate": 0.000299985623424937,
	"loss": 87.4362,
	"step": 1100
	},
	{
	"epoch": 0.192,
	"grad_norm": 0.23407000303268433,
	"learning_rate": 0.0002999832233289331,
	"loss": 85.7211,
	"step": 1200
	},
	{
	"epoch": 0.208,
	"grad_norm": 0.23202084004878998,
	"learning_rate": 0.0002999808232329293,
	"loss": 81.4749,
	"step": 1300
	},
	{
	"epoch": 0.224,
	"grad_norm": 0.1819111853837967,
	"learning_rate": 0.00029997842313692546,
	"loss": 80.3999,
	"step": 1400
	},
	{
	"epoch": 0.24,
	"grad_norm": 0.16154050827026367,
	"learning_rate": 0.00029997602304092163,
	"loss": 80.5113,
	"step": 1500
	},
	{
	"epoch": 0.256,
	"grad_norm": 0.20147816836833954,
	"learning_rate": 0.0002999736229449178,
	"loss": 77.4306,
	"step": 1600
	},
	{
	"epoch": 0.272,
	"grad_norm": 0.2032860815525055,
	"learning_rate": 0.0002999712228489139,
	"loss": 76.3299,
	"step": 1700
	},
	{
	"epoch": 0.288,
	"grad_norm": 0.20103086531162262,
	"learning_rate": 0.0002999688227529101,
	"loss": 77.0755,
	"step": 1800
	},
	{
	"epoch": 0.304,
	"grad_norm": 0.1930929720401764,
	"learning_rate": 0.00029996642265690625,
	"loss": 74.2643,
	"step": 1900
	},
	{
	"epoch": 0.32,
	"grad_norm": 0.21013671159744263,
	"learning_rate": 0.0002999640225609024,
	"loss": 75.9168,
	"step": 2000
	},
	{
	"epoch": 0.336,
	"grad_norm": 0.2554585635662079,
	"learning_rate": 0.0002999616224648986,
	"loss": 75.2005,
	"step": 2100
	},
	{
	"epoch": 0.352,
	"grad_norm": 0.21000510454177856,
	"learning_rate": 0.00029995922236889476,
	"loss": 74.1565,
	"step": 2200
	},
	{
	"epoch": 0.368,
	"grad_norm": 0.2096049040555954,
	"learning_rate": 0.0002999568222728909,
	"loss": 73.3684,
	"step": 2300
	},
	{
	"epoch": 0.384,
	"grad_norm": 0.2806188464164734,
	"learning_rate": 0.00029995442217688705,
	"loss": 73.9772,
	"step": 2400
	},
	{
	"epoch": 0.4,
	"grad_norm": 0.17476481199264526,
	"learning_rate": 0.0002999520220808832,
	"loss": 73.7125,
	"step": 2500
	},
	{
	"epoch": 0.416,
	"grad_norm": 0.26867198944091797,
	"learning_rate": 0.0002999496219848794,
	"loss": 72.5119,
	"step": 2600
	},
	{
	"epoch": 0.432,
	"grad_norm": 0.1896703690290451,
	"learning_rate": 0.00029994722188887555,
	"loss": 72.6918,
	"step": 2700
	},
	{
	"epoch": 0.448,
	"grad_norm": 0.2521280348300934,
	"learning_rate": 0.00029994482179287167,
	"loss": 72.1229,
	"step": 2800
	},
	{
	"epoch": 0.464,
	"grad_norm": 0.20409554243087769,
	"learning_rate": 0.00029994242169686784,
	"loss": 72.3524,
	"step": 2900
	},
	{
	"epoch": 0.48,
	"grad_norm": 0.1911861002445221,
	"learning_rate": 0.000299940021600864,
	"loss": 70.9714,
	"step": 3000
	},
	{
	"epoch": 0.496,
	"grad_norm": 0.21338903903961182,
	"learning_rate": 0.0002999376215048602,
	"loss": 69.5716,
	"step": 3100
	},
	{
	"epoch": 0.512,
	"grad_norm": 0.20922720432281494,
	"learning_rate": 0.00029993522140885634,
	"loss": 70.1812,
	"step": 3200
	},
	{
	"epoch": 0.528,
	"grad_norm": 0.2678331434726715,
	"learning_rate": 0.0002999328213128525,
	"loss": 68.8041,
	"step": 3300
	},
	{
	"epoch": 0.544,
	"grad_norm": 0.25610026717185974,
	"learning_rate": 0.00029993042121684863,
	"loss": 71.186,
	"step": 3400
	},
	{
	"epoch": 0.56,
	"grad_norm": 0.23267875611782074,
	"learning_rate": 0.0002999280211208448,
	"loss": 68.9921,
	"step": 3500
	},
	{
	"epoch": 0.576,
	"grad_norm": 0.23876765370368958,
	"learning_rate": 0.00029992562102484097,
	"loss": 69.738,
	"step": 3600
	},
	{
	"epoch": 0.592,
	"grad_norm": 0.1865028291940689,
	"learning_rate": 0.00029992322092883714,
	"loss": 68.9813,
	"step": 3700
	},
	{
	"epoch": 0.608,
	"grad_norm": 0.21735595166683197,
	"learning_rate": 0.0002999208208328333,
	"loss": 67.5755,
	"step": 3800
	},
	{
	"epoch": 0.624,
	"grad_norm": 0.16909943521022797,
	"learning_rate": 0.0002999184207368294,
	"loss": 66.3015,
	"step": 3900
	},
	{
	"epoch": 0.64,
	"grad_norm": 0.19918648898601532,
	"learning_rate": 0.0002999160206408256,
	"loss": 67.3844,
	"step": 4000
	},
	{
	"epoch": 0.656,
	"grad_norm": 0.22282840311527252,
	"learning_rate": 0.00029991362054482176,
	"loss": 66.0008,
	"step": 4100
	},
	{
	"epoch": 0.672,
	"grad_norm": 0.19900047779083252,
	"learning_rate": 0.00029991122044881793,
	"loss": 66.029,
	"step": 4200
	},
	{
	"epoch": 0.688,
	"grad_norm": 0.2067142128944397,
	"learning_rate": 0.0002999088203528141,
	"loss": 65.7196,
	"step": 4300
	},
	{
	"epoch": 0.704,
	"grad_norm": 0.24062038958072662,
	"learning_rate": 0.00029990642025681027,
	"loss": 66.7571,
	"step": 4400
	},
	{
	"epoch": 0.72,
	"grad_norm": 0.2454902082681656,
	"learning_rate": 0.0002999040201608064,
	"loss": 65.7736,
	"step": 4500
	},
	{
	"epoch": 0.736,
	"grad_norm": 0.24499955773353577,
	"learning_rate": 0.00029990162006480255,
	"loss": 65.498,
	"step": 4600
	},
	{
	"epoch": 0.752,
	"grad_norm": 0.2421354055404663,
	"learning_rate": 0.0002998992199687987,
	"loss": 65.9207,
	"step": 4700
	},
	{
	"epoch": 0.768,
	"grad_norm": 0.1900254338979721,
	"learning_rate": 0.0002998968198727949,
	"loss": 63.4017,
	"step": 4800
	},
	{
	"epoch": 0.784,
	"grad_norm": 0.21995197236537933,
	"learning_rate": 0.00029989441977679106,
	"loss": 65.4319,
	"step": 4900
	},
	{
	"epoch": 0.8,
	"grad_norm": 0.2170778065919876,
	"learning_rate": 0.00029989201968078717,
	"loss": 64.1503,
	"step": 5000
	},
	{
	"epoch": 0.816,
	"grad_norm": 0.29141783714294434,
	"learning_rate": 0.00029988961958478334,
	"loss": 63.4509,
	"step": 5100
	},
	{
	"epoch": 0.832,
	"grad_norm": 0.2149534821510315,
	"learning_rate": 0.0002998872194887795,
	"loss": 63.8549,
	"step": 5200
	},
	{
	"epoch": 0.848,
	"grad_norm": 0.2090325504541397,
	"learning_rate": 0.0002998848193927757,
	"loss": 62.5135,
	"step": 5300
	},
	{
	"epoch": 0.864,
	"grad_norm": 0.19093327224254608,
	"learning_rate": 0.00029988241929677185,
	"loss": 64.1856,
	"step": 5400
	},
	{
	"epoch": 0.88,
	"grad_norm": 0.24676312506198883,
	"learning_rate": 0.000299880019200768,
	"loss": 62.8992,
	"step": 5500
	},
	{
	"epoch": 0.896,
	"grad_norm": 0.2047237902879715,
	"learning_rate": 0.00029987761910476413,
	"loss": 63.5,
	"step": 5600
	},
	{
	"epoch": 0.912,
	"grad_norm": 0.2169736623764038,
	"learning_rate": 0.0002998752190087603,
	"loss": 63.2706,
	"step": 5700
	},
	{
	"epoch": 0.928,
	"grad_norm": 0.2212333083152771,
	"learning_rate": 0.00029987281891275647,
	"loss": 62.8563,
	"step": 5800
	},
	{
	"epoch": 0.944,
	"grad_norm": 0.22105100750923157,
	"learning_rate": 0.00029987041881675264,
	"loss": 61.4049,
	"step": 5900
	},
	{
	"epoch": 0.96,
	"grad_norm": 0.21934692561626434,
	"learning_rate": 0.0002998680187207488,
	"loss": 61.2102,
	"step": 6000
	},
	{
	"epoch": 0.976,
	"grad_norm": 0.231471449136734,
	"learning_rate": 0.0002998656186247449,
	"loss": 61.161,
	"step": 6100
	},
	{
	"epoch": 0.992,
	"grad_norm": 0.20244845747947693,
	"learning_rate": 0.0002998632185287411,
	"loss": 61.5284,
	"step": 6200
	},
	{
	"epoch": 1.008,
	"grad_norm": 0.31659385561943054,
	"learning_rate": 0.00029986081843273726,
	"loss": 59.6197,
	"step": 6300
	},
	{
	"epoch": 1.024,
	"grad_norm": 0.22351042926311493,
	"learning_rate": 0.00029985841833673343,
	"loss": 60.8731,
	"step": 6400
	},
	{
	"epoch": 1.04,
	"grad_norm": 0.20470276474952698,
	"learning_rate": 0.0002998560182407296,
	"loss": 60.5648,
	"step": 6500
	},
	{
	"epoch": 1.056,
	"grad_norm": 0.17768125236034393,
	"learning_rate": 0.00029985361814472577,
	"loss": 59.2689,
	"step": 6600
	},
	{
	"epoch": 1.072,
	"grad_norm": 0.20775848627090454,
	"learning_rate": 0.0002998512180487219,
	"loss": 58.2776,
	"step": 6700
	},
	{
	"epoch": 1.088,
	"grad_norm": 0.2682810127735138,
	"learning_rate": 0.00029984881795271806,
	"loss": 60.5164,
	"step": 6800
	},
	{
	"epoch": 1.104,
	"grad_norm": 0.22458679974079132,
	"learning_rate": 0.0002998464178567142,
	"loss": 60.1217,
	"step": 6900
	},
	{
	"epoch": 1.12,
	"grad_norm": 0.22781415283679962,
	"learning_rate": 0.0002998440177607104,
	"loss": 58.191,
	"step": 7000
	},
	{
	"epoch": 1.1360000000000001,
	"grad_norm": 0.2532273232936859,
	"learning_rate": 0.00029984161766470656,
	"loss": 58.8972,
	"step": 7100
	},
	{
	"epoch": 1.152,
	"grad_norm": 0.2014983743429184,
	"learning_rate": 0.00029983921756870273,
	"loss": 58.7748,
	"step": 7200
	},
	{
	"epoch": 1.168,
	"grad_norm": 0.19773030281066895,
	"learning_rate": 0.0002998368174726989,
	"loss": 57.9689,
	"step": 7300
	},
	{
	"epoch": 1.184,
	"grad_norm": 0.245356023311615,
	"learning_rate": 0.00029983441737669507,
	"loss": 57.855,
	"step": 7400
	},
	{
	"epoch": 1.2,
	"grad_norm": 0.2565186023712158,
	"learning_rate": 0.00029983201728069124,
	"loss": 56.8152,
	"step": 7500
	},
	{
	"epoch": 1.216,
	"grad_norm": 0.17781591415405273,
	"learning_rate": 0.00029982961718468735,
	"loss": 55.2139,
	"step": 7600
	},
	{
	"epoch": 1.232,
	"grad_norm": 0.21849973499774933,
	"learning_rate": 0.0002998272170886835,
	"loss": 55.9843,
	"step": 7700
	},
	{
	"epoch": 1.248,
	"grad_norm": 0.17623578011989594,
	"learning_rate": 0.0002998248169926797,
	"loss": 57.3084,
	"step": 7800
	},
	{
	"epoch": 1.264,
	"grad_norm": 0.22286267578601837,
	"learning_rate": 0.00029982241689667586,
	"loss": 56.4191,
	"step": 7900
	},
	{
	"epoch": 1.28,
	"grad_norm": 0.20891787111759186,
	"learning_rate": 0.00029982001680067203,
	"loss": 56.4775,
	"step": 8000
	},
	{
	"epoch": 1.296,
	"grad_norm": 0.19925983250141144,
	"learning_rate": 0.00029981761670466815,
	"loss": 55.0521,
	"step": 8100
	},
	{
	"epoch": 1.312,
	"grad_norm": 0.22015956044197083,
	"learning_rate": 0.0002998152166086643,
	"loss": 55.6771,
	"step": 8200
	},
	{
	"epoch": 1.328,
	"grad_norm": 0.24997876584529877,
	"learning_rate": 0.0002998128165126605,
	"loss": 53.8931,
	"step": 8300
	},
	{
	"epoch": 1.3439999999999999,
	"grad_norm": 0.2933981418609619,
	"learning_rate": 0.00029981041641665665,
	"loss": 56.6028,
	"step": 8400
	},
	{
	"epoch": 1.3599999999999999,
	"grad_norm": 0.1963578313589096,
	"learning_rate": 0.0002998080163206528,
	"loss": 54.5404,
	"step": 8500
	},
	{
	"epoch": 1.376,
	"grad_norm": 0.21487855911254883,
	"learning_rate": 0.000299805616224649,
	"loss": 54.2586,
	"step": 8600
	},
	{
	"epoch": 1.392,
	"grad_norm": 0.21776583790779114,
	"learning_rate": 0.0002998032161286451,
	"loss": 53.9896,
	"step": 8700
	},
	{
	"epoch": 1.408,
	"grad_norm": 0.2172229140996933,
	"learning_rate": 0.0002998008160326413,
	"loss": 53.8424,
	"step": 8800
	},
	{
	"epoch": 1.424,
	"grad_norm": 0.23105138540267944,
	"learning_rate": 0.00029979841593663745,
	"loss": 54.1874,
	"step": 8900
	},
	{
	"epoch": 1.44,
	"grad_norm": 0.18797878921031952,
	"learning_rate": 0.0002997960158406336,
	"loss": 53.3869,
	"step": 9000
	},
	{
	"epoch": 1.456,
	"grad_norm": 0.20597319304943085,
	"learning_rate": 0.0002997936157446298,
	"loss": 53.7132,
	"step": 9100
	},
	{
	"epoch": 1.472,
	"grad_norm": 0.21674391627311707,
	"learning_rate": 0.00029979121564862595,
	"loss": 52.2728,
	"step": 9200
	},
	{
	"epoch": 1.488,
	"grad_norm": 0.2250959277153015,
	"learning_rate": 0.00029978881555262207,
	"loss": 53.3457,
	"step": 9300
	},
	{
	"epoch": 1.504,
	"grad_norm": 0.19289842247962952,
	"learning_rate": 0.00029978641545661824,
	"loss": 52.898,
	"step": 9400
	},
	{
	"epoch": 1.52,
	"grad_norm": 0.2215307652950287,
	"learning_rate": 0.0002997840153606144,
	"loss": 52.8446,
	"step": 9500
	},
	{
	"epoch": 1.536,
	"grad_norm": 0.19949446618556976,
	"learning_rate": 0.0002997816152646106,
	"loss": 51.9649,
	"step": 9600
	},
	{
	"epoch": 1.552,
	"grad_norm": 0.1753661036491394,
	"learning_rate": 0.00029977921516860675,
	"loss": 51.5562,
	"step": 9700
	},
	{
	"epoch": 1.568,
	"grad_norm": 0.22938130795955658,
	"learning_rate": 0.00029977681507260286,
	"loss": 52.4538,
	"step": 9800
	},
	{
	"epoch": 1.584,
	"grad_norm": 0.255227655172348,
	"learning_rate": 0.00029977441497659903,
	"loss": 50.8902,
	"step": 9900
	},
	{
	"epoch": 1.6,
	"grad_norm": 0.24369871616363525,
	"learning_rate": 0.0002997720148805952,
	"loss": 50.8092,
	"step": 10000
	},
	{
	"epoch": 1.616,
	"grad_norm": 0.22126376628875732,
	"learning_rate": 0.0002997696387855514,
	"loss": 51.0513,
	"step": 10100
	},
	{
	"epoch": 1.6320000000000001,
	"grad_norm": 0.199215367436409,
	"learning_rate": 0.00029976723868954756,
	"loss": 49.6234,
	"step": 10200
	},
	{
	"epoch": 1.6480000000000001,
	"grad_norm": 0.22058773040771484,
	"learning_rate": 0.0002997648385935437,
	"loss": 51.2333,
	"step": 10300
	},
	{
	"epoch": 1.6640000000000001,
	"grad_norm": 0.26106688380241394,
	"learning_rate": 0.0002997624384975399,
	"loss": 49.6582,
	"step": 10400
	},
	{
	"epoch": 1.6800000000000002,
	"grad_norm": 0.23437049984931946,
	"learning_rate": 0.00029976003840153606,
	"loss": 49.6097,
	"step": 10500
	},
	{
	"epoch": 1.696,
	"grad_norm": 0.1709340363740921,
	"learning_rate": 0.00029975763830553223,
	"loss": 49.9149,
	"step": 10600
	},
	{
	"epoch": 1.712,
	"grad_norm": 0.2278878539800644,
	"learning_rate": 0.00029975523820952835,
	"loss": 50.2495,
	"step": 10700
	},
	{
	"epoch": 1.728,
	"grad_norm": 0.25324809551239014,
	"learning_rate": 0.0002997528381135245,
	"loss": 48.3701,
	"step": 10800
	},
	{
	"epoch": 1.744,
	"grad_norm": 0.21413564682006836,
	"learning_rate": 0.0002997504380175207,
	"loss": 48.8447,
	"step": 10900
	},
	{
	"epoch": 1.76,
	"grad_norm": 0.2975509464740753,
	"learning_rate": 0.00029974803792151686,
	"loss": 50.0095,
	"step": 11000
	},
	{
	"epoch": 1.776,
	"grad_norm": 0.19792191684246063,
	"learning_rate": 0.00029974566182647304,
	"loss": 49.2986,
	"step": 11100
	},
	{
	"epoch": 1.792,
	"grad_norm": 0.2350345253944397,
	"learning_rate": 0.0002997432617304692,
	"loss": 48.7027,
	"step": 11200
	},
	{
	"epoch": 1.808,
	"grad_norm": 0.19396322965621948,
	"learning_rate": 0.00029974086163446533,
	"loss": 47.9713,
	"step": 11300
	},
	{
	"epoch": 1.8239999999999998,
	"grad_norm": 0.2414630949497223,
	"learning_rate": 0.0002997384615384615,
	"loss": 48.7363,
	"step": 11400
	},
	{
	"epoch": 1.8399999999999999,
	"grad_norm": 0.2678147554397583,
	"learning_rate": 0.00029973606144245767,
	"loss": 48.4818,
	"step": 11500
	},
	{
	"epoch": 1.8559999999999999,
	"grad_norm": 0.19563674926757812,
	"learning_rate": 0.00029973366134645384,
	"loss": 48.2693,
	"step": 11600
	},
	{
	"epoch": 1.8719999999999999,
	"grad_norm": 0.22531713545322418,
	"learning_rate": 0.00029973126125045,
	"loss": 47.758,
	"step": 11700
	},
	{
	"epoch": 1.888,
	"grad_norm": 0.22199738025665283,
	"learning_rate": 0.0002997288611544461,
	"loss": 46.9644,
	"step": 11800
	},
	{
	"epoch": 1.904,
	"grad_norm": 0.253896027803421,
	"learning_rate": 0.0002997264610584423,
	"loss": 46.5968,
	"step": 11900
	},
	{
	"epoch": 1.92,
	"grad_norm": 0.18806882202625275,
	"learning_rate": 0.00029972406096243846,
	"loss": 48.2712,
	"step": 12000
	},
	{
	"epoch": 1.936,
	"grad_norm": 0.22023610770702362,
	"learning_rate": 0.00029972166086643463,
	"loss": 47.2612,
	"step": 12100
	},
	{
	"epoch": 1.952,
	"grad_norm": 0.213795468211174,
	"learning_rate": 0.0002997192607704308,
	"loss": 45.9592,
	"step": 12200
	},
	{
	"epoch": 1.968,
	"grad_norm": 0.19787845015525818,
	"learning_rate": 0.00029971686067442697,
	"loss": 47.5647,
	"step": 12300
	},
	{
	"epoch": 1.984,
	"grad_norm": 0.19648146629333496,
	"learning_rate": 0.0002997144605784231,
	"loss": 46.8397,
	"step": 12400
	},
	{
	"epoch": 2.0,
	"grad_norm": 0.1904546618461609,
	"learning_rate": 0.00029971206048241925,
	"loss": 46.2783,
	"step": 12500
	},
	{
	"epoch": 2.016,
	"grad_norm": 0.23515231907367706,
	"learning_rate": 0.0002997096603864154,
	"loss": 46.5475,
	"step": 12600
	},
	{
	"epoch": 2.032,
	"grad_norm": 0.21483579277992249,
	"learning_rate": 0.0002997072602904116,
	"loss": 44.2442,
	"step": 12700
	},
	{
	"epoch": 2.048,
	"grad_norm": 0.2563657760620117,
	"learning_rate": 0.00029970486019440776,
	"loss": 46.1955,
	"step": 12800
	},
	{
	"epoch": 2.064,
	"grad_norm": 0.20812326669692993,
	"learning_rate": 0.00029970246009840387,
	"loss": 45.5704,
	"step": 12900
	},
	{
	"epoch": 2.08,
	"grad_norm": 0.2190365344285965,
	"learning_rate": 0.00029970006000240004,
	"loss": 45.7909,
	"step": 13000
	},
	{
	"epoch": 2.096,
	"grad_norm": 0.2379041463136673,
	"learning_rate": 0.0002996976599063962,
	"loss": 46.2324,
	"step": 13100
	},
	{
	"epoch": 2.112,
	"grad_norm": 0.2170909345149994,
	"learning_rate": 0.0002996952598103924,
	"loss": 44.766,
	"step": 13200
	},
	{
	"epoch": 2.128,
	"grad_norm": 0.15927261114120483,
	"learning_rate": 0.00029969285971438855,
	"loss": 43.669,
	"step": 13300
	},
	{
	"epoch": 2.144,
	"grad_norm": 0.22271278500556946,
	"learning_rate": 0.0002996904596183847,
	"loss": 45.0739,
	"step": 13400
	},
	{
	"epoch": 2.16,
	"grad_norm": 0.17792785167694092,
	"learning_rate": 0.0002996880595223809,
	"loss": 43.8963,
	"step": 13500
	},
	{
	"epoch": 2.176,
	"grad_norm": 0.28457048535346985,
	"learning_rate": 0.00029968565942637706,
	"loss": 44.6317,
	"step": 13600
	},
	{
	"epoch": 2.192,
	"grad_norm": 0.19491800665855408,
	"learning_rate": 0.0002996832593303732,
	"loss": 43.8541,
	"step": 13700
	},
	{
	"epoch": 2.208,
	"grad_norm": 0.21633195877075195,
	"learning_rate": 0.00029968085923436934,
	"loss": 43.2844,
	"step": 13800
	},
	{
	"epoch": 2.224,
	"grad_norm": 0.2146127074956894,
	"learning_rate": 0.0002996784591383655,
	"loss": 45.0415,
	"step": 13900
	},
	{
	"epoch": 2.24,
	"grad_norm": 0.2204289436340332,
	"learning_rate": 0.0002996760590423617,
	"loss": 44.2757,
	"step": 14000
	},
	{
	"epoch": 2.2560000000000002,
	"grad_norm": 0.3051868677139282,
	"learning_rate": 0.00029967365894635785,
	"loss": 42.7227,
	"step": 14100
	},
	{
	"epoch": 2.2720000000000002,
	"grad_norm": 0.23641665279865265,
	"learning_rate": 0.000299671258850354,
	"loss": 44.0578,
	"step": 14200
	},
	{
	"epoch": 2.288,
	"grad_norm": 0.18554934859275818,
	"learning_rate": 0.0002996688587543502,
	"loss": 42.5159,
	"step": 14300
	},
	{
	"epoch": 2.304,
	"grad_norm": 0.24741467833518982,
	"learning_rate": 0.0002996664586583463,
	"loss": 42.9106,
	"step": 14400
	},
	{
	"epoch": 2.32,
	"grad_norm": 0.18483412265777588,
	"learning_rate": 0.00029966405856234247,
	"loss": 42.2459,
	"step": 14500
	},
	{
	"epoch": 2.336,
	"grad_norm": 0.24359823763370514,
	"learning_rate": 0.00029966165846633864,
	"loss": 42.6733,
	"step": 14600
	},
	{
	"epoch": 2.352,
	"grad_norm": 0.20456752181053162,
	"learning_rate": 0.0002996592583703348,
	"loss": 41.5754,
	"step": 14700
	},
	{
	"epoch": 2.368,
	"grad_norm": 0.24165822565555573,
	"learning_rate": 0.000299656858274331,
	"loss": 43.6988,
	"step": 14800
	},
	{
	"epoch": 2.384,
	"grad_norm": 0.20422741770744324,
	"learning_rate": 0.0002996544581783271,
	"loss": 41.9116,
	"step": 14900
	},
	{
	"epoch": 2.4,
	"grad_norm": 0.2413185089826584,
	"learning_rate": 0.00029965205808232326,
	"loss": 41.8573,
	"step": 15000
	},
	{
	"epoch": 2.416,
	"grad_norm": 0.20443005859851837,
	"learning_rate": 0.00029964968198727945,
	"loss": 42.3368,
	"step": 15100
	},
	{
	"epoch": 2.432,
	"grad_norm": 0.21270470321178436,
	"learning_rate": 0.0002996472818912756,
	"loss": 40.336,
	"step": 15200
	},
	{
	"epoch": 2.448,
	"grad_norm": 0.21689313650131226,
	"learning_rate": 0.0002996448817952718,
	"loss": 40.5125,
	"step": 15300
	},
	{
	"epoch": 2.464,
	"grad_norm": 0.25577059388160706,
	"learning_rate": 0.00029964248169926796,
	"loss": 40.5761,
	"step": 15400
	},
	{
	"epoch": 2.48,
	"grad_norm": 0.2624509930610657,
	"learning_rate": 0.0002996400816032641,
	"loss": 40.3047,
	"step": 15500
	},
	{
	"epoch": 2.496,
	"grad_norm": 0.225455641746521,
	"learning_rate": 0.00029963768150726024,
	"loss": 40.3576,
	"step": 15600
	},
	{
	"epoch": 2.512,
	"grad_norm": 0.18313691020011902,
	"learning_rate": 0.0002996352814112564,
	"loss": 41.113,
	"step": 15700
	},
	{
	"epoch": 2.528,
	"grad_norm": 0.21272344887256622,
	"learning_rate": 0.0002996328813152526,
	"loss": 41.2563,
	"step": 15800
	},
	{
	"epoch": 2.544,
	"grad_norm": 0.23525486886501312,
	"learning_rate": 0.00029963048121924875,
	"loss": 41.2227,
	"step": 15900
	},
	{
	"epoch": 2.56,
	"grad_norm": 0.226985365152359,
	"learning_rate": 0.00029962808112324487,
	"loss": 40.6251,
	"step": 16000
	},
	{
	"epoch": 2.576,
	"grad_norm": 0.20422585308551788,
	"learning_rate": 0.00029962568102724103,
	"loss": 40.6449,
	"step": 16100
	},
	{
	"epoch": 2.592,
	"grad_norm": 0.18906068801879883,
	"learning_rate": 0.0002996232809312372,
	"loss": 39.5927,
	"step": 16200
	},
	{
	"epoch": 2.608,
	"grad_norm": 0.21180450916290283,
	"learning_rate": 0.0002996208808352334,
	"loss": 39.7467,
	"step": 16300
	},
	{
	"epoch": 2.624,
	"grad_norm": 0.2399897575378418,
	"learning_rate": 0.00029961848073922954,
	"loss": 38.9522,
	"step": 16400
	},
	{
	"epoch": 2.64,
	"grad_norm": 0.1941596120595932,
	"learning_rate": 0.0002996160806432257,
	"loss": 39.5798,
	"step": 16500
	},
	{
	"epoch": 2.656,
	"grad_norm": 0.19715790450572968,
	"learning_rate": 0.0002996136805472218,
	"loss": 39.9061,
	"step": 16600
	},
	{
	"epoch": 2.672,
	"grad_norm": 0.22090336680412292,
	"learning_rate": 0.00029961128045121805,
	"loss": 39.6083,
	"step": 16700
	},
	{
	"epoch": 2.6879999999999997,
	"grad_norm": 0.26035964488983154,
	"learning_rate": 0.00029960890435617424,
	"loss": 39.3414,
	"step": 16800
	},
	{
	"epoch": 2.7039999999999997,
	"grad_norm": 0.21888568997383118,
	"learning_rate": 0.00029960650426017035,
	"loss": 38.3817,
	"step": 16900
	},
	{
	"epoch": 2.7199999999999998,
	"grad_norm": 0.29924601316452026,
	"learning_rate": 0.0002996041041641665,
	"loss": 38.3896,
	"step": 17000
	},
	{
	"epoch": 2.7359999999999998,
	"grad_norm": 0.20395514369010925,
	"learning_rate": 0.0002996017040681627,
	"loss": 38.8915,
	"step": 17100
	},
	{
	"epoch": 2.752,
	"grad_norm": 0.20730023086071014,
	"learning_rate": 0.00029959930397215886,
	"loss": 38.9281,
	"step": 17200
	},
	{
	"epoch": 2.768,
	"grad_norm": 0.23472309112548828,
	"learning_rate": 0.00029959690387615503,
	"loss": 39.371,
	"step": 17300
	},
	{
	"epoch": 2.784,
	"grad_norm": 0.2272721529006958,
	"learning_rate": 0.0002995945037801512,
	"loss": 38.7238,
	"step": 17400
	},
	{
	"epoch": 2.8,
	"grad_norm": 0.20280113816261292,
	"learning_rate": 0.0002995921036841473,
	"loss": 38.1639,
	"step": 17500
	},
	{
	"epoch": 2.816,
	"grad_norm": 0.21985846757888794,
	"learning_rate": 0.0002995897035881435,
	"loss": 38.2459,
	"step": 17600
	},
	{
	"epoch": 2.832,
	"grad_norm": 0.22791948914527893,
	"learning_rate": 0.00029958730349213965,
	"loss": 38.365,
	"step": 17700
	},
	{
	"epoch": 2.848,
	"grad_norm": 0.218161940574646,
	"learning_rate": 0.0002995849033961358,
	"loss": 37.7998,
	"step": 17800
	},
	{
	"epoch": 2.864,
	"grad_norm": 0.23389916121959686,
	"learning_rate": 0.000299582503300132,
	"loss": 38.0078,
	"step": 17900
	},
	{
	"epoch": 2.88,
	"grad_norm": 0.20153094828128815,
	"learning_rate": 0.0002995801032041281,
	"loss": 37.1053,
	"step": 18000
	},
	{
	"epoch": 2.896,
	"grad_norm": 0.231399804353714,
	"learning_rate": 0.0002995777031081243,
	"loss": 37.6589,
	"step": 18100
	},
	{
	"epoch": 2.912,
	"grad_norm": 0.19814245402812958,
	"learning_rate": 0.00029957530301212044,
	"loss": 36.8171,
	"step": 18200
	},
	{
	"epoch": 2.928,
	"grad_norm": 0.22390811145305634,
	"learning_rate": 0.0002995729029161166,
	"loss": 36.6616,
	"step": 18300
	},
	{
	"epoch": 2.944,
	"grad_norm": 0.19958479702472687,
	"learning_rate": 0.0002995705028201128,
	"loss": 36.0232,
	"step": 18400
	},
	{
	"epoch": 2.96,
	"grad_norm": 0.1972126066684723,
	"learning_rate": 0.00029956810272410895,
	"loss": 36.5331,
	"step": 18500
	},
	{
	"epoch": 2.976,
	"grad_norm": 0.18196193873882294,
	"learning_rate": 0.00029956570262810507,
	"loss": 36.8888,
	"step": 18600
	},
	{
	"epoch": 2.992,
	"grad_norm": 0.17047256231307983,
	"learning_rate": 0.00029956330253210124,
	"loss": 36.5987,
	"step": 18700
	},
	{
	"epoch": 3.008,
	"grad_norm": 0.22138766944408417,
	"learning_rate": 0.0002995609024360974,
	"loss": 36.2777,
	"step": 18800
	},
	{
	"epoch": 3.024,
	"grad_norm": 0.22713051736354828,
	"learning_rate": 0.0002995585023400936,
	"loss": 35.768,
	"step": 18900
	},
	{
	"epoch": 3.04,
	"grad_norm": 0.1997511237859726,
	"learning_rate": 0.00029955610224408974,
	"loss": 35.872,
	"step": 19000
	},
	{
	"epoch": 3.056,
	"grad_norm": 0.19796296954154968,
	"learning_rate": 0.00029955370214808586,
	"loss": 34.8971,
	"step": 19100
	},
	{
	"epoch": 3.072,
	"grad_norm": 0.1922471821308136,
	"learning_rate": 0.00029955130205208203,
	"loss": 35.4181,
	"step": 19200
	},
	{
	"epoch": 3.088,
	"grad_norm": 0.18493038415908813,
	"learning_rate": 0.0002995489019560782,
	"loss": 36.3712,
	"step": 19300
	},
	{
	"epoch": 3.104,
	"grad_norm": 0.22148194909095764,
	"learning_rate": 0.00029954650186007437,
	"loss": 34.5266,
	"step": 19400
	},
	{
	"epoch": 3.12,
	"grad_norm": 0.19701820611953735,
	"learning_rate": 0.00029954410176407054,
	"loss": 35.2642,
	"step": 19500
	},
	{
	"epoch": 3.136,
	"grad_norm": 0.1763058602809906,
	"learning_rate": 0.0002995417016680667,
	"loss": 36.1582,
	"step": 19600
	},
	{
	"epoch": 3.152,
	"grad_norm": 0.2792583107948303,
	"learning_rate": 0.0002995393015720628,
	"loss": 34.755,
	"step": 19700
	},
	{
	"epoch": 3.168,
	"grad_norm": 0.20418234169483185,
	"learning_rate": 0.00029953690147605904,
	"loss": 34.5373,
	"step": 19800
	},
	{
	"epoch": 3.184,
	"grad_norm": 0.24839259684085846,
	"learning_rate": 0.0002995345013800552,
	"loss": 34.5007,
	"step": 19900
	},
	{
	"epoch": 3.2,
	"grad_norm": 0.22200001776218414,
	"learning_rate": 0.00029953210128405133,
	"loss": 34.8183,
	"step": 20000
	},
	{
	"epoch": 3.216,
	"grad_norm": 0.2371726781129837,
	"learning_rate": 0.0002995297011880475,
	"loss": 34.0164,
	"step": 20100
	},
	{
	"epoch": 3.232,
	"grad_norm": 0.21370230615139008,
	"learning_rate": 0.00029952730109204367,
	"loss": 34.8268,
	"step": 20200
	},
	{
	"epoch": 3.248,
	"grad_norm": 0.20940592885017395,
	"learning_rate": 0.00029952490099603983,
	"loss": 33.8475,
	"step": 20300
	},
	{
	"epoch": 3.2640000000000002,
	"grad_norm": 0.18580414354801178,
	"learning_rate": 0.000299522500900036,
	"loss": 33.8718,
	"step": 20400
	},
	{
	"epoch": 3.2800000000000002,
	"grad_norm": 0.2200319468975067,
	"learning_rate": 0.0002995201008040322,
	"loss": 33.9083,
	"step": 20500
	},
	{
	"epoch": 3.296,
	"grad_norm": 0.18141067028045654,
	"learning_rate": 0.0002995177007080283,
	"loss": 33.2878,
	"step": 20600
	},
	{
	"epoch": 3.312,
	"grad_norm": 0.24104055762290955,
	"learning_rate": 0.00029951530061202446,
	"loss": 34.4549,
	"step": 20700
	},
	{
	"epoch": 3.328,
	"grad_norm": 0.22455894947052002,
	"learning_rate": 0.0002995129005160206,
	"loss": 33.2184,
	"step": 20800
	},
	{
	"epoch": 3.344,
	"grad_norm": 0.19662746787071228,
	"learning_rate": 0.0002995105244209768,
	"loss": 33.836,
	"step": 20900
	},
	{
	"epoch": 3.36,
	"grad_norm": 0.2322922796010971,
	"learning_rate": 0.000299508124324973,
	"loss": 33.1089,
	"step": 21000
	},
	{
	"epoch": 3.376,
	"grad_norm": 0.2140241116285324,
	"learning_rate": 0.0002995057482299292,
	"loss": 32.8205,
	"step": 21100
	},
	{
	"epoch": 3.392,
	"grad_norm": 0.19320878386497498,
	"learning_rate": 0.00029950334813392534,
	"loss": 32.8251,
	"step": 21200
	},
	{
	"epoch": 3.408,
	"grad_norm": 0.18298691511154175,
	"learning_rate": 0.0002995009480379215,
	"loss": 33.2469,
	"step": 21300
	},
	{
	"epoch": 3.424,
	"grad_norm": 0.22385163605213165,
	"learning_rate": 0.0002994985479419177,
	"loss": 32.4997,
	"step": 21400
	},
	{
	"epoch": 3.44,
	"grad_norm": 0.2047736793756485,
	"learning_rate": 0.0002994961478459138,
	"loss": 33.5516,
	"step": 21500
	},
	{
	"epoch": 3.456,
	"grad_norm": 0.242600679397583,
	"learning_rate": 0.00029949374774990996,
	"loss": 33.4754,
	"step": 21600
	},
	{
	"epoch": 3.472,
	"grad_norm": 0.21438950300216675,
	"learning_rate": 0.00029949134765390613,
	"loss": 33.2636,
	"step": 21700
	},
	{
	"epoch": 3.488,
	"grad_norm": 0.16991284489631653,
	"learning_rate": 0.0002994889475579023,
	"loss": 32.2435,
	"step": 21800
	},
	{
	"epoch": 3.504,
	"grad_norm": 0.21854659914970398,
	"learning_rate": 0.00029948654746189847,
	"loss": 32.986,
	"step": 21900
	},
	{
	"epoch": 3.52,
	"grad_norm": 0.22860901057720184,
	"learning_rate": 0.0002994841473658946,
	"loss": 32.1887,
	"step": 22000
	},
	{
	"epoch": 3.536,
	"grad_norm": 0.20433278381824493,
	"learning_rate": 0.00029948174726989076,
	"loss": 32.1502,
	"step": 22100
	},
	{
	"epoch": 3.552,
	"grad_norm": 0.19475246965885162,
	"learning_rate": 0.0002994793471738869,
	"loss": 32.0844,
	"step": 22200
	},
	{
	"epoch": 3.568,
	"grad_norm": 0.20006608963012695,
	"learning_rate": 0.0002994769470778831,
	"loss": 32.5956,
	"step": 22300
	},
	{
	"epoch": 3.584,
	"grad_norm": 0.17535006999969482,
	"learning_rate": 0.00029947454698187926,
	"loss": 32.1812,
	"step": 22400
	},
	{
	"epoch": 3.6,
	"grad_norm": 0.22252418100833893,
	"learning_rate": 0.00029947214688587543,
	"loss": 30.6041,
	"step": 22500
	},
	{
	"epoch": 3.616,
	"grad_norm": 0.18110983073711395,
	"learning_rate": 0.00029946974678987155,
	"loss": 31.7236,
	"step": 22600
	},
	{
	"epoch": 3.632,
	"grad_norm": 0.227754145860672,
	"learning_rate": 0.0002994673466938677,
	"loss": 31.2323,
	"step": 22700
	},
	{
	"epoch": 3.648,
	"grad_norm": 0.19320198893547058,
	"learning_rate": 0.0002994649465978639,
	"loss": 31.4608,
	"step": 22800
	},
	{
	"epoch": 3.664,
	"grad_norm": 0.17932754755020142,
	"learning_rate": 0.00029946254650186006,
	"loss": 31.9613,
	"step": 22900
	},
	{
	"epoch": 3.68,
	"grad_norm": 0.19677236676216125,
	"learning_rate": 0.0002994601464058562,
	"loss": 30.9284,
	"step": 23000
	},
	{
	"epoch": 3.6959999999999997,
	"grad_norm": 0.22562915086746216,
	"learning_rate": 0.00029945774630985234,
	"loss": 30.7692,
	"step": 23100
	},
	{
	"epoch": 3.7119999999999997,
	"grad_norm": 0.19202880561351776,
	"learning_rate": 0.0002994553462138485,
	"loss": 31.2991,
	"step": 23200
	},
	{
	"epoch": 3.7279999999999998,
	"grad_norm": 0.22251880168914795,
	"learning_rate": 0.0002994529461178447,
	"loss": 29.574,
	"step": 23300
	},
	{
	"epoch": 3.7439999999999998,
	"grad_norm": 0.18705110251903534,
	"learning_rate": 0.00029945054602184085,
	"loss": 30.2693,
	"step": 23400
	},
	{
	"epoch": 3.76,
	"grad_norm": 0.18061533570289612,
	"learning_rate": 0.000299448145925837,
	"loss": 30.0086,
	"step": 23500
	},
	{
	"epoch": 3.776,
	"grad_norm": 0.23449186980724335,
	"learning_rate": 0.0002994457458298332,
	"loss": 29.9262,
	"step": 23600
	},
	{
	"epoch": 3.792,
	"grad_norm": 0.20259559154510498,
	"learning_rate": 0.0002994433457338293,
	"loss": 30.0139,
	"step": 23700
	},
	{
	"epoch": 3.808,
	"grad_norm": 0.21019335091114044,
	"learning_rate": 0.00029944094563782547,
	"loss": 30.853,
	"step": 23800
	},
	{
	"epoch": 3.824,
	"grad_norm": 0.17927643656730652,
	"learning_rate": 0.00029943854554182164,
	"loss": 30.7392,
	"step": 23900
	},
	{
	"epoch": 3.84,
	"grad_norm": 0.18862564861774445,
	"learning_rate": 0.0002994361454458178,
	"loss": 29.3096,
	"step": 24000
	},
	{
	"epoch": 3.856,
	"grad_norm": 0.22294782102108002,
	"learning_rate": 0.000299433745349814,
	"loss": 30.2642,
	"step": 24100
	},
	{
	"epoch": 3.872,
	"grad_norm": 0.20843671262264252,
	"learning_rate": 0.0002994313452538101,
	"loss": 29.4115,
	"step": 24200
	},
	{
	"epoch": 3.888,
	"grad_norm": 0.19081708788871765,
	"learning_rate": 0.00029942894515780626,
	"loss": 30.0382,
	"step": 24300
	},
	{
	"epoch": 3.904,
	"grad_norm": 0.18849343061447144,
	"learning_rate": 0.00029942654506180243,
	"loss": 29.6371,
	"step": 24400
	},
	{
	"epoch": 3.92,
	"grad_norm": 0.2084178924560547,
	"learning_rate": 0.0002994241449657986,
	"loss": 29.5353,
	"step": 24500
	},
	{
	"epoch": 3.936,
	"grad_norm": 0.179380401968956,
	"learning_rate": 0.00029942174486979477,
	"loss": 29.1119,
	"step": 24600
	},
	{
	"epoch": 3.952,
	"grad_norm": 0.2312467098236084,
	"learning_rate": 0.00029941934477379094,
	"loss": 29.3352,
	"step": 24700
	},
	{
	"epoch": 3.968,
	"grad_norm": 0.19268761575222015,
	"learning_rate": 0.00029941694467778705,
	"loss": 29.1584,
	"step": 24800
	},
	{
	"epoch": 3.984,
	"grad_norm": 0.19523601233959198,
	"learning_rate": 0.0002994145445817832,
	"loss": 29.3122,
	"step": 24900
	},
	{
	"epoch": 4.0,
	"grad_norm": 0.18007320165634155,
	"learning_rate": 0.0002994121444857794,
	"loss": 29.1468,
	"step": 25000
	},
	{
	"epoch": 4.016,
	"grad_norm": 0.19717352092266083,
	"learning_rate": 0.00029940974438977556,
	"loss": 29.2291,
	"step": 25100
	},
	{
	"epoch": 4.032,
	"grad_norm": 0.18931248784065247,
	"learning_rate": 0.00029940736829473175,
	"loss": 28.4476,
	"step": 25200
	},
	{
	"epoch": 4.048,
	"grad_norm": 0.17574016749858856,
	"learning_rate": 0.0002994049681987279,
	"loss": 27.6189,
	"step": 25300
	},
	{
	"epoch": 4.064,
	"grad_norm": 0.19395378232002258,
	"learning_rate": 0.0002994025681027241,
	"loss": 28.3701,
	"step": 25400
	},
	{
	"epoch": 4.08,
	"grad_norm": 0.1916889250278473,
	"learning_rate": 0.00029940016800672026,
	"loss": 28.3605,
	"step": 25500
	},
	{
	"epoch": 4.096,
	"grad_norm": 0.229524627327919,
	"learning_rate": 0.0002993977679107164,
	"loss": 27.7045,
	"step": 25600
	},
	{
	"epoch": 4.112,
	"grad_norm": 0.191976860165596,
	"learning_rate": 0.00029939536781471254,
	"loss": 27.6015,
	"step": 25700
	},
	{
	"epoch": 4.128,
	"grad_norm": 0.20611730217933655,
	"learning_rate": 0.0002993929917196688,
	"loss": 27.3844,
	"step": 25800
	},
	{
	"epoch": 4.144,
	"grad_norm": 0.21954050660133362,
	"learning_rate": 0.00029939059162366495,
	"loss": 27.6474,
	"step": 25900
	},
	{
	"epoch": 4.16,
	"grad_norm": 0.23369371891021729,
	"learning_rate": 0.00029938819152766107,
	"loss": 27.0846,
	"step": 26000
	},
	{
	"epoch": 4.176,
	"grad_norm": 0.19088931381702423,
	"learning_rate": 0.00029938579143165724,
	"loss": 27.0919,
	"step": 26100
	},
	{
	"epoch": 4.192,
	"grad_norm": 0.16385389864444733,
	"learning_rate": 0.0002993833913356534,
	"loss": 26.7928,
	"step": 26200
	},
	{
	"epoch": 4.208,
	"grad_norm": 0.22816230356693268,
	"learning_rate": 0.0002993809912396496,
	"loss": 26.597,
	"step": 26300
	},
	{
	"epoch": 4.224,
	"grad_norm": 0.22640523314476013,
	"learning_rate": 0.00029937859114364574,
	"loss": 26.6011,
	"step": 26400
	},
	{
	"epoch": 4.24,
	"grad_norm": 0.18119996786117554,
	"learning_rate": 0.0002993761910476419,
	"loss": 26.8414,
	"step": 26500
	},
	{
	"epoch": 4.256,
	"grad_norm": 0.2026926428079605,
	"learning_rate": 0.00029937379095163803,
	"loss": 26.9172,
	"step": 26600
	},
	{
	"epoch": 4.272,
	"grad_norm": 0.20275373756885529,
	"learning_rate": 0.0002993713908556342,
	"loss": 26.6568,
	"step": 26700
	},
	{
	"epoch": 4.288,
	"grad_norm": 0.2261670082807541,
	"learning_rate": 0.00029936899075963037,
	"loss": 27.1839,
	"step": 26800
	},
	{
	"epoch": 4.304,
	"grad_norm": 0.18411505222320557,
	"learning_rate": 0.00029936659066362654,
	"loss": 26.4785,
	"step": 26900
	},
	{
	"epoch": 4.32,
	"grad_norm": 0.2916317582130432,
	"learning_rate": 0.0002993641905676227,
	"loss": 26.5309,
	"step": 27000
	},
	{
	"epoch": 4.336,
	"grad_norm": 0.18537244200706482,
	"learning_rate": 0.0002993617904716188,
	"loss": 27.1665,
	"step": 27100
	},
	{
	"epoch": 4.352,
	"grad_norm": 0.16285920143127441,
	"learning_rate": 0.000299359390375615,
	"loss": 27.2424,
	"step": 27200
	},
	{
	"epoch": 4.368,
	"grad_norm": 0.15773992240428925,
	"learning_rate": 0.00029935699027961116,
	"loss": 26.5359,
	"step": 27300
	},
	{
	"epoch": 4.384,
	"grad_norm": 0.18703384697437286,
	"learning_rate": 0.00029935459018360733,
	"loss": 27.342,
	"step": 27400
	},
	{
	"epoch": 4.4,
	"grad_norm": 0.18335498869419098,
	"learning_rate": 0.0002993521900876035,
	"loss": 27.0257,
	"step": 27500
	},
	{
	"epoch": 4.416,
	"grad_norm": 0.19414934515953064,
	"learning_rate": 0.00029934978999159967,
	"loss": 26.2998,
	"step": 27600
	},
	{
	"epoch": 4.432,
	"grad_norm": 0.20599210262298584,
	"learning_rate": 0.0002993473898955958,
	"loss": 25.9369,
	"step": 27700
	},
	{
	"epoch": 4.448,
	"grad_norm": 0.27044299244880676,
	"learning_rate": 0.00029934498979959195,
	"loss": 26.4132,
	"step": 27800
	},
	{
	"epoch": 4.464,
	"grad_norm": 0.22304300963878632,
	"learning_rate": 0.0002993425897035881,
	"loss": 26.2685,
	"step": 27900
	},
	{
	"epoch": 4.48,
	"grad_norm": 0.20784711837768555,
	"learning_rate": 0.0002993401896075843,
	"loss": 25.336,
	"step": 28000
	},
	{
	"epoch": 4.496,
	"grad_norm": 0.2017608880996704,
	"learning_rate": 0.00029933778951158046,
	"loss": 26.1331,
	"step": 28100
	},
	{
	"epoch": 4.5120000000000005,
	"grad_norm": 0.18563418090343475,
	"learning_rate": 0.0002993353894155766,
	"loss": 25.6813,
	"step": 28200
	},
	{
	"epoch": 4.5280000000000005,
	"grad_norm": 0.21515151858329773,
	"learning_rate": 0.00029933298931957274,
	"loss": 26.2951,
	"step": 28300
	},
	{
	"epoch": 4.5440000000000005,
	"grad_norm": 0.20512834191322327,
	"learning_rate": 0.0002993305892235689,
	"loss": 25.2256,
	"step": 28400
	},
	{
	"epoch": 4.5600000000000005,
	"grad_norm": 0.23129431903362274,
	"learning_rate": 0.0002993281891275651,
	"loss": 25.7071,
	"step": 28500
	},
	{
	"epoch": 4.576,
	"grad_norm": 0.18308007717132568,
	"learning_rate": 0.00029932578903156125,
	"loss": 25.5192,
	"step": 28600
	},
	{
	"epoch": 4.592,
	"grad_norm": 0.217178076505661,
	"learning_rate": 0.0002993233889355574,
	"loss": 25.349,
	"step": 28700
	},
	{
	"epoch": 4.608,
	"grad_norm": 0.18590569496154785,
	"learning_rate": 0.00029932098883955353,
	"loss": 25.2593,
	"step": 28800
	},
	{
	"epoch": 4.624,
	"grad_norm": 0.20052315294742584,
	"learning_rate": 0.0002993185887435497,
	"loss": 24.8334,
	"step": 28900
	},
	{
	"epoch": 4.64,
	"grad_norm": 0.21725590527057648,
	"learning_rate": 0.00029931621264850595,
	"loss": 24.6134,
	"step": 29000
	},
	{
	"epoch": 4.656,
	"grad_norm": 0.23973499238491058,
	"learning_rate": 0.00029931381255250206,
	"loss": 24.8209,
	"step": 29100
	},
	{
	"epoch": 4.672,
	"grad_norm": 0.20804470777511597,
	"learning_rate": 0.00029931141245649823,
	"loss": 25.0912,
	"step": 29200
	},
	{
	"epoch": 4.688,
	"grad_norm": 0.17555804550647736,
	"learning_rate": 0.0002993090363614544,
	"loss": 25.1723,
	"step": 29300
	},
	{
	"epoch": 4.704,
	"grad_norm": 0.17459039390087128,
	"learning_rate": 0.0002993066362654506,
	"loss": 24.5282,
	"step": 29400
	},
	{
	"epoch": 4.72,
	"grad_norm": 0.211078941822052,
	"learning_rate": 0.00029930423616944676,
	"loss": 24.6043,
	"step": 29500
	},
	{
	"epoch": 4.736,
	"grad_norm": 0.16957704722881317,
	"learning_rate": 0.0002993018360734429,
	"loss": 24.7947,
	"step": 29600
	},
	{
	"epoch": 4.752,
	"grad_norm": 0.2855212092399597,
	"learning_rate": 0.00029929943597743904,
	"loss": 24.5785,
	"step": 29700
	},
	{
	"epoch": 4.768,
	"grad_norm": 0.19777260720729828,
	"learning_rate": 0.0002992970358814352,
	"loss": 24.4989,
	"step": 29800
	},
	{
	"epoch": 4.784,
	"grad_norm": 0.17237554490566254,
	"learning_rate": 0.0002992946357854314,
	"loss": 24.6684,
	"step": 29900
	},
	{
	"epoch": 4.8,
	"grad_norm": 0.1824658066034317,
	"learning_rate": 0.00029929223568942755,
	"loss": 24.934,
	"step": 30000
	},
	{
	"epoch": 4.816,
	"grad_norm": 0.19774967432022095,
	"learning_rate": 0.0002992898355934237,
	"loss": 24.4343,
	"step": 30100
	},
	{
	"epoch": 4.832,
	"grad_norm": 0.2127138376235962,
	"learning_rate": 0.00029928743549741983,
	"loss": 24.7444,
	"step": 30200
	},
	{
	"epoch": 4.848,
	"grad_norm": 0.21794643998146057,
	"learning_rate": 0.000299285035401416,
	"loss": 25.2811,
	"step": 30300
	},
	{
	"epoch": 4.864,
	"grad_norm": 0.178062304854393,
	"learning_rate": 0.00029928263530541217,
	"loss": 24.9453,
	"step": 30400
	},
	{
	"epoch": 4.88,
	"grad_norm": 0.22796912491321564,
	"learning_rate": 0.00029928023520940834,
	"loss": 23.9367,
	"step": 30500
	},
	{
	"epoch": 4.896,
	"grad_norm": 0.18951456248760223,
	"learning_rate": 0.0002992778351134045,
	"loss": 23.7658,
	"step": 30600
	},
	{
	"epoch": 4.912,
	"grad_norm": 0.24202126264572144,
	"learning_rate": 0.0002992754350174007,
	"loss": 23.9004,
	"step": 30700
	},
	{
	"epoch": 4.928,
	"grad_norm": 0.19269002974033356,
	"learning_rate": 0.0002992730349213968,
	"loss": 23.2493,
	"step": 30800
	},
	{
	"epoch": 4.944,
	"grad_norm": 0.1657482087612152,
	"learning_rate": 0.00029927063482539296,
	"loss": 23.8883,
	"step": 30900
	},
	{
	"epoch": 4.96,
	"grad_norm": 0.151734858751297,
	"learning_rate": 0.00029926823472938913,
	"loss": 23.7884,
	"step": 31000
	},
	{
	"epoch": 4.976,
	"grad_norm": 0.2854020595550537,
	"learning_rate": 0.0002992658346333853,
	"loss": 24.1054,
	"step": 31100
	},
	{
	"epoch": 4.992,
	"grad_norm": 0.17750577628612518,
	"learning_rate": 0.00029926343453738147,
	"loss": 23.6583,
	"step": 31200
	},
	{
	"epoch": 5.008,
	"grad_norm": 0.17882367968559265,
	"learning_rate": 0.00029926103444137764,
	"loss": 23.4828,
	"step": 31300
	},
	{
	"epoch": 5.024,
	"grad_norm": 0.17182889580726624,
	"learning_rate": 0.0002992586343453738,
	"loss": 22.8774,
	"step": 31400
	},
	{
	"epoch": 5.04,
	"grad_norm": 0.20355378091335297,
	"learning_rate": 0.00029925623424937,
	"loss": 23.3064,
	"step": 31500
	},
	{
	"epoch": 5.056,
	"grad_norm": 0.21614141762256622,
	"learning_rate": 0.00029925383415336615,
	"loss": 22.8978,
	"step": 31600
	},
	{
	"epoch": 5.072,
	"grad_norm": 0.20654118061065674,
	"learning_rate": 0.00029925143405736226,
	"loss": 24.0182,
	"step": 31700
	},
	{
	"epoch": 5.088,
	"grad_norm": 0.17882691323757172,
	"learning_rate": 0.00029924903396135843,
	"loss": 22.8556,
	"step": 31800
	},
	{
	"epoch": 5.104,
	"grad_norm": 0.16477125883102417,
	"learning_rate": 0.0002992466338653546,
	"loss": 22.63,
	"step": 31900
	},
	{
	"epoch": 5.12,
	"grad_norm": 0.15241862833499908,
	"learning_rate": 0.00029924423376935077,
	"loss": 22.9513,
	"step": 32000
	},
	{
	"epoch": 5.136,
	"grad_norm": 0.17560409009456635,
	"learning_rate": 0.00029924183367334694,
	"loss": 22.808,
	"step": 32100
	},
	{
	"epoch": 5.152,
	"grad_norm": 0.18167634308338165,
	"learning_rate": 0.00029923943357734305,
	"loss": 23.0177,
	"step": 32200
	},
	{
	"epoch": 5.168,
	"grad_norm": 0.18328386545181274,
	"learning_rate": 0.0002992370334813392,
	"loss": 22.5144,
	"step": 32300
	},
	{
	"epoch": 5.184,
	"grad_norm": 0.20202048122882843,
	"learning_rate": 0.0002992346333853354,
	"loss": 23.1037,
	"step": 32400
	},
	{
	"epoch": 5.2,
	"grad_norm": 0.20026326179504395,
	"learning_rate": 0.00029923223328933156,
	"loss": 22.3593,
	"step": 32500
	},
	{
	"epoch": 5.216,
	"grad_norm": 0.1727285534143448,
	"learning_rate": 0.00029922983319332773,
	"loss": 22.214,
	"step": 32600
	},
	{
	"epoch": 5.232,
	"grad_norm": 0.1824960708618164,
	"learning_rate": 0.0002992274330973239,
	"loss": 22.2179,
	"step": 32700
	},
	{
	"epoch": 5.248,
	"grad_norm": 0.19371069967746735,
	"learning_rate": 0.00029922503300132,
	"loss": 22.453,
	"step": 32800
	},
	{
	"epoch": 5.264,
	"grad_norm": 0.22930407524108887,
	"learning_rate": 0.0002992226329053162,
	"loss": 22.1665,
	"step": 32900
	},
	{
	"epoch": 5.28,
	"grad_norm": 0.20372043550014496,
	"learning_rate": 0.00029922023280931235,
	"loss": 22.1181,
	"step": 33000
	},
	{
	"epoch": 5.296,
	"grad_norm": 0.20339564979076385,
	"learning_rate": 0.0002992178327133085,
	"loss": 22.5446,
	"step": 33100
	},
	{
	"epoch": 5.312,
	"grad_norm": 0.2182660847902298,
	"learning_rate": 0.0002992154326173047,
	"loss": 22.3062,
	"step": 33200
	},
	{
	"epoch": 5.328,
	"grad_norm": 0.18666419386863708,
	"learning_rate": 0.0002992130325213008,
	"loss": 22.0127,
	"step": 33300
	},
	{
	"epoch": 5.344,
	"grad_norm": 0.2193373292684555,
	"learning_rate": 0.000299210632425297,
	"loss": 22.1167,
	"step": 33400
	},
	{
	"epoch": 5.36,
	"grad_norm": 0.19642606377601624,
	"learning_rate": 0.00029920823232929315,
	"loss": 21.8393,
	"step": 33500
	},
	{
	"epoch": 5.376,
	"grad_norm": 0.24106252193450928,
	"learning_rate": 0.0002992058322332893,
	"loss": 21.7386,
	"step": 33600
	},
	{
	"epoch": 5.392,
	"grad_norm": 0.17611666023731232,
	"learning_rate": 0.0002992034321372855,
	"loss": 22.1787,
	"step": 33700
	},
	{
	"epoch": 5.408,
	"grad_norm": 0.23640978336334229,
	"learning_rate": 0.00029920103204128165,
	"loss": 21.5912,
	"step": 33800
	},
	{
	"epoch": 5.424,
	"grad_norm": 0.19579695165157318,
	"learning_rate": 0.00029919863194527777,
	"loss": 22.1147,
	"step": 33900
	},
	{
	"epoch": 5.44,
	"grad_norm": 0.18251273036003113,
	"learning_rate": 0.00029919623184927394,
	"loss": 21.8284,
	"step": 34000
	},
	{
	"epoch": 5.456,
	"grad_norm": 0.2099759876728058,
	"learning_rate": 0.0002991938317532701,
	"loss": 21.5234,
	"step": 34100
	},
	{
	"epoch": 5.4719999999999995,
	"grad_norm": 0.21391774713993073,
	"learning_rate": 0.0002991914316572663,
	"loss": 21.1876,
	"step": 34200
	},
	{
	"epoch": 5.4879999999999995,
	"grad_norm": 0.17656175792217255,
	"learning_rate": 0.00029918903156126244,
	"loss": 21.7905,
	"step": 34300
	},
	{
	"epoch": 5.504,
	"grad_norm": 0.1752483993768692,
	"learning_rate": 0.00029918663146525856,
	"loss": 20.9481,
	"step": 34400
	},
	{
	"epoch": 5.52,
	"grad_norm": 0.29879820346832275,
	"learning_rate": 0.00029918423136925473,
	"loss": 21.2073,
	"step": 34500
	},
	{
	"epoch": 5.536,
	"grad_norm": 0.1947035789489746,
	"learning_rate": 0.0002991818312732509,
	"loss": 21.0199,
	"step": 34600
	},
	{
	"epoch": 5.552,
	"grad_norm": 0.15402550995349884,
	"learning_rate": 0.00029917943117724707,
	"loss": 21.4862,
	"step": 34700
	},
	{
	"epoch": 5.568,
	"grad_norm": 0.21479055285453796,
	"learning_rate": 0.00029917703108124324,
	"loss": 20.3479,
	"step": 34800
	},
	{
	"epoch": 5.584,
	"grad_norm": 0.15968792140483856,
	"learning_rate": 0.0002991746309852394,
	"loss": 20.8151,
	"step": 34900
	},
	{
	"epoch": 5.6,
	"grad_norm": 0.16876402497291565,
	"learning_rate": 0.0002991722308892355,
	"loss": 21.8482,
	"step": 35000
	},
	{
	"epoch": 5.616,
	"grad_norm": 0.16191044449806213,
	"learning_rate": 0.0002991698307932317,
	"loss": 21.4486,
	"step": 35100
	},
	{
	"epoch": 5.632,
	"grad_norm": 0.20595960319042206,
	"learning_rate": 0.00029916743069722786,
	"loss": 21.7225,
	"step": 35200
	},
	{
	"epoch": 5.648,
	"grad_norm": 0.1939288079738617,
	"learning_rate": 0.00029916503060122403,
	"loss": 21.0107,
	"step": 35300
	},
	{
	"epoch": 5.664,
	"grad_norm": 0.20212168991565704,
	"learning_rate": 0.0002991626305052202,
	"loss": 20.4026,
	"step": 35400
	},
	{
	"epoch": 5.68,
	"grad_norm": 0.1956707388162613,
	"learning_rate": 0.0002991602544101764,
	"loss": 20.9491,
	"step": 35500
	},
	{
	"epoch": 5.696,
	"grad_norm": 0.22702528536319733,
	"learning_rate": 0.00029915785431417256,
	"loss": 21.12,
	"step": 35600
	},
	{
	"epoch": 5.712,
	"grad_norm": 0.19706673920154572,
	"learning_rate": 0.00029915547821912874,
	"loss": 21.5166,
	"step": 35700
	},
	{
	"epoch": 5.728,
	"grad_norm": 0.18108151853084564,
	"learning_rate": 0.0002991530781231249,
	"loss": 20.4059,
	"step": 35800
	},
	{
	"epoch": 5.744,
	"grad_norm": 0.1714268922805786,
	"learning_rate": 0.00029915067802712103,
	"loss": 20.2456,
	"step": 35900
	},
	{
	"epoch": 5.76,
	"grad_norm": 0.1415804773569107,
	"learning_rate": 0.0002991482779311172,
	"loss": 20.3176,
	"step": 36000
	},
	{
	"epoch": 5.776,
	"grad_norm": 0.1928543597459793,
	"learning_rate": 0.00029914587783511337,
	"loss": 20.797,
	"step": 36100
	},
	{
	"epoch": 5.792,
	"grad_norm": 0.17042042315006256,
	"learning_rate": 0.00029914347773910954,
	"loss": 20.2684,
	"step": 36200
	},
	{
	"epoch": 5.808,
	"grad_norm": 0.1929057389497757,
	"learning_rate": 0.0002991410776431057,
	"loss": 19.7169,
	"step": 36300
	},
	{
	"epoch": 5.824,
	"grad_norm": 0.19770380854606628,
	"learning_rate": 0.0002991386775471018,
	"loss": 20.3972,
	"step": 36400
	},
	{
	"epoch": 5.84,
	"grad_norm": 0.19927264750003815,
	"learning_rate": 0.000299136277451098,
	"loss": 20.3105,
	"step": 36500
	},
	{
	"epoch": 5.856,
	"grad_norm": 0.2222350686788559,
	"learning_rate": 0.00029913387735509416,
	"loss": 20.3396,
	"step": 36600
	},
	{
	"epoch": 5.872,
	"grad_norm": 0.15629681944847107,
	"learning_rate": 0.00029913147725909033,
	"loss": 19.7281,
	"step": 36700
	},
	{
	"epoch": 5.888,
	"grad_norm": 0.1714082509279251,
	"learning_rate": 0.0002991290771630865,
	"loss": 20.2121,
	"step": 36800
	},
	{
	"epoch": 5.904,
	"grad_norm": 0.19152860343456268,
	"learning_rate": 0.00029912667706708267,
	"loss": 20.3316,
	"step": 36900
	},
	{
	"epoch": 5.92,
	"grad_norm": 0.18097779154777527,
	"learning_rate": 0.0002991242769710788,
	"loss": 19.9225,
	"step": 37000
	},
	{
	"epoch": 5.936,
	"grad_norm": 0.21503089368343353,
	"learning_rate": 0.00029912187687507495,
	"loss": 20.3151,
	"step": 37100
	},
	{
	"epoch": 5.952,
	"grad_norm": 0.16976934671401978,
	"learning_rate": 0.0002991194767790711,
	"loss": 20.4782,
	"step": 37200
	},
	{
	"epoch": 5.968,
	"grad_norm": 0.1788826435804367,
	"learning_rate": 0.0002991170766830673,
	"loss": 19.616,
	"step": 37300
	},
	{
	"epoch": 5.984,
	"grad_norm": 0.17762643098831177,
	"learning_rate": 0.00029911467658706346,
	"loss": 19.4074,
	"step": 37400
	},
	{
	"epoch": 6.0,
	"grad_norm": 0.19231481850147247,
	"learning_rate": 0.0002991122764910596,
	"loss": 19.3966,
	"step": 37500
	},
	{
	"epoch": 6.016,
	"grad_norm": 0.2067825198173523,
	"learning_rate": 0.0002991098763950558,
	"loss": 19.6924,
	"step": 37600
	},
	{
	"epoch": 6.032,
	"grad_norm": 0.1930302083492279,
	"learning_rate": 0.00029910747629905196,
	"loss": 19.765,
	"step": 37700
	},
	{
	"epoch": 6.048,
	"grad_norm": 0.2076890915632248,
	"learning_rate": 0.00029910507620304813,
	"loss": 19.0516,
	"step": 37800
	},
	{
	"epoch": 6.064,
	"grad_norm": 0.2006111741065979,
	"learning_rate": 0.00029910267610704425,
	"loss": 19.1025,
	"step": 37900
	},
	{
	"epoch": 6.08,
	"grad_norm": 0.1836411952972412,
	"learning_rate": 0.0002991002760110404,
	"loss": 19.3714,
	"step": 38000
	},
	{
	"epoch": 6.096,
	"grad_norm": 0.1817934662103653,
	"learning_rate": 0.0002990978759150366,
	"loss": 19.1752,
	"step": 38100
	},
	{
	"epoch": 6.112,
	"grad_norm": 0.18150608241558075,
	"learning_rate": 0.00029909547581903276,
	"loss": 19.5865,
	"step": 38200
	},
	{
	"epoch": 6.128,
	"grad_norm": 0.3108033835887909,
	"learning_rate": 0.0002990930757230289,
	"loss": 19.3632,
	"step": 38300
	},
	{
	"epoch": 6.144,
	"grad_norm": 0.18861189484596252,
	"learning_rate": 0.00029909067562702504,
	"loss": 19.9617,
	"step": 38400
	},
	{
	"epoch": 6.16,
	"grad_norm": 0.16909874975681305,
	"learning_rate": 0.0002990882755310212,
	"loss": 19.8722,
	"step": 38500
	},
	{
	"epoch": 6.176,
	"grad_norm": 0.16401100158691406,
	"learning_rate": 0.0002990858754350174,
	"loss": 19.3652,
	"step": 38600
	},
	{
	"epoch": 6.192,
	"grad_norm": 0.17053301632404327,
	"learning_rate": 0.00029908347533901355,
	"loss": 19.4264,
	"step": 38700
	},
	{
	"epoch": 6.208,
	"grad_norm": 0.18607936799526215,
	"learning_rate": 0.0002990810752430097,
	"loss": 19.3128,
	"step": 38800
	},
	{
	"epoch": 6.224,
	"grad_norm": 0.2513495087623596,
	"learning_rate": 0.0002990786751470059,
	"loss": 20.1134,
	"step": 38900
	},
	{
	"epoch": 6.24,
	"grad_norm": 0.21938976645469666,
	"learning_rate": 0.000299076275051002,
	"loss": 19.5682,
	"step": 39000
	},
	{
	"epoch": 6.256,
	"grad_norm": 0.21253296732902527,
	"learning_rate": 0.00029907387495499817,
	"loss": 18.7325,
	"step": 39100
	},
	{
	"epoch": 6.272,
	"grad_norm": 0.21298116445541382,
	"learning_rate": 0.00029907147485899434,
	"loss": 19.0698,
	"step": 39200
	},
	{
	"epoch": 6.288,
	"grad_norm": 0.17804065346717834,
	"learning_rate": 0.0002990690747629905,
	"loss": 18.3022,
	"step": 39300
	},
	{
	"epoch": 6.304,
	"grad_norm": 0.31990084052085876,
	"learning_rate": 0.0002990666986679467,
	"loss": 18.9093,
	"step": 39400
	},
	{
	"epoch": 6.32,
	"grad_norm": 0.17742526531219482,
	"learning_rate": 0.0002990642985719428,
	"loss": 18.6614,
	"step": 39500
	},
	{
	"epoch": 6.336,
	"grad_norm": 0.20601534843444824,
	"learning_rate": 0.000299061898475939,
	"loss": 19.6871,
	"step": 39600
	},
	{
	"epoch": 6.352,
	"grad_norm": 0.16021846234798431,
	"learning_rate": 0.00029905949837993515,
	"loss": 18.6417,
	"step": 39700
	},
	{
	"epoch": 6.368,
	"grad_norm": 0.1588086634874344,
	"learning_rate": 0.0002990570982839313,
	"loss": 18.3146,
	"step": 39800
	},
	{
	"epoch": 6.384,
	"grad_norm": 0.21372877061367035,
	"learning_rate": 0.0002990546981879275,
	"loss": 19.0519,
	"step": 39900
	},
	{
	"epoch": 6.4,
	"grad_norm": 0.18066450953483582,
	"learning_rate": 0.00029905229809192366,
	"loss": 19.2848,
	"step": 40000
	},
	{
	"epoch": 6.416,
	"grad_norm": 0.23790153861045837,
	"learning_rate": 0.0002990498979959198,
	"loss": 18.7495,
	"step": 40100
	},
	{
	"epoch": 6.432,
	"grad_norm": 0.21764115989208221,
	"learning_rate": 0.00029904749789991594,
	"loss": 18.5835,
	"step": 40200
	},
	{
	"epoch": 6.448,
	"grad_norm": 0.18615952134132385,
	"learning_rate": 0.0002990450978039121,
	"loss": 17.9751,
	"step": 40300
	},
	{
	"epoch": 6.464,
	"grad_norm": 0.1657874882221222,
	"learning_rate": 0.0002990426977079083,
	"loss": 18.5635,
	"step": 40400
	},
	{
	"epoch": 6.48,
	"grad_norm": 0.3158019185066223,
	"learning_rate": 0.00029904029761190445,
	"loss": 18.6618,
	"step": 40500
	},
	{
	"epoch": 6.496,
	"grad_norm": 0.2320430427789688,
	"learning_rate": 0.0002990378975159006,
	"loss": 18.2968,
	"step": 40600
	},
	{
	"epoch": 6.5120000000000005,
	"grad_norm": 0.20868684351444244,
	"learning_rate": 0.0002990354974198968,
	"loss": 18.595,
	"step": 40700
	},
	{
	"epoch": 6.5280000000000005,
	"grad_norm": 0.2185734063386917,
	"learning_rate": 0.00029903309732389296,
	"loss": 17.9672,
	"step": 40800
	},
	{
	"epoch": 6.5440000000000005,
	"grad_norm": 0.22871826589107513,
	"learning_rate": 0.0002990306972278891,
	"loss": 18.0843,
	"step": 40900
	},
	{
	"epoch": 6.5600000000000005,
	"grad_norm": 0.16801375150680542,
	"learning_rate": 0.00029902829713188524,
	"loss": 18.138,
	"step": 41000
	},
	{
	"epoch": 6.576,
	"grad_norm": 0.17401717603206635,
	"learning_rate": 0.0002990258970358814,
	"loss": 18.7431,
	"step": 41100
	},
	{
	"epoch": 6.592,
	"grad_norm": 0.17664673924446106,
	"learning_rate": 0.0002990234969398776,
	"loss": 17.966,
	"step": 41200
	},
	{
	"epoch": 6.608,
	"grad_norm": 0.2024875283241272,
	"learning_rate": 0.00029902109684387375,
	"loss": 17.9339,
	"step": 41300
	},
	{
	"epoch": 6.624,
	"grad_norm": 0.19322896003723145,
	"learning_rate": 0.0002990186967478699,
	"loss": 18.5554,
	"step": 41400
	},
	{
	"epoch": 6.64,
	"grad_norm": 0.2797154188156128,
	"learning_rate": 0.00029901629665186603,
	"loss": 17.5192,
	"step": 41500
	},
	{
	"epoch": 6.656,
	"grad_norm": 0.2197944074869156,
	"learning_rate": 0.0002990138965558622,
	"loss": 18.4582,
	"step": 41600
	},
	{
	"epoch": 6.672,
	"grad_norm": 0.18805234134197235,
	"learning_rate": 0.00029901149645985837,
	"loss": 17.9245,
	"step": 41700
	},
	{
	"epoch": 6.688,
	"grad_norm": 0.14986388385295868,
	"learning_rate": 0.00029900909636385454,
	"loss": 17.7746,
	"step": 41800
	},
	{
	"epoch": 6.704,
	"grad_norm": 0.26323381066322327,
	"learning_rate": 0.0002990066962678507,
	"loss": 17.6134,
	"step": 41900
	},
	{
	"epoch": 6.72,
	"grad_norm": 0.1791141778230667,
	"learning_rate": 0.0002990042961718469,
	"loss": 17.7648,
	"step": 42000
	},
	{
	"epoch": 6.736,
	"grad_norm": 0.22629794478416443,
	"learning_rate": 0.000299001920076803,
	"loss": 18.2337,
	"step": 42100
	},
	{
	"epoch": 6.752,
	"grad_norm": 0.17983581125736237,
	"learning_rate": 0.0002989995199807992,
	"loss": 17.4193,
	"step": 42200
	},
	{
	"epoch": 6.768,
	"grad_norm": 0.17379482090473175,
	"learning_rate": 0.00029899711988479535,
	"loss": 17.9815,
	"step": 42300
	},
	{
	"epoch": 6.784,
	"grad_norm": 0.2074684351682663,
	"learning_rate": 0.0002989947197887915,
	"loss": 17.898,
	"step": 42400
	},
	{
	"epoch": 6.8,
	"grad_norm": 0.16909289360046387,
	"learning_rate": 0.0002989923196927877,
	"loss": 17.7292,
	"step": 42500
	},
	{
	"epoch": 6.816,
	"grad_norm": 0.184371218085289,
	"learning_rate": 0.00029898991959678386,
	"loss": 18.0706,
	"step": 42600
	},
	{
	"epoch": 6.832,
	"grad_norm": 0.17724382877349854,
	"learning_rate": 0.00029898751950078,
	"loss": 17.9871,
	"step": 42700
	},
	{
	"epoch": 6.848,
	"grad_norm": 0.2286718785762787,
	"learning_rate": 0.00029898511940477614,
	"loss": 17.5911,
	"step": 42800
	},
	{
	"epoch": 6.864,
	"grad_norm": 0.2002006471157074,
	"learning_rate": 0.0002989827193087723,
	"loss": 17.4336,
	"step": 42900
	},
	{
	"epoch": 6.88,
	"grad_norm": 0.20236457884311676,
	"learning_rate": 0.0002989803192127685,
	"loss": 17.0849,
	"step": 43000
	},
	{
	"epoch": 6.896,
	"grad_norm": 0.23483681678771973,
	"learning_rate": 0.00029897791911676465,
	"loss": 17.7893,
	"step": 43100
	},
	{
	"epoch": 6.912,
	"grad_norm": 0.18751464784145355,
	"learning_rate": 0.00029897551902076077,
	"loss": 17.4798,
	"step": 43200
	},
	{
	"epoch": 6.928,
	"grad_norm": 0.17341011762619019,
	"learning_rate": 0.00029897311892475694,
	"loss": 17.7278,
	"step": 43300
	},
	{
	"epoch": 6.944,
	"grad_norm": 0.15160439908504486,
	"learning_rate": 0.0002989707188287531,
	"loss": 17.4948,
	"step": 43400
	},
	{
	"epoch": 6.96,
	"grad_norm": 0.19316324591636658,
	"learning_rate": 0.0002989683187327493,
	"loss": 17.3409,
	"step": 43500
	},
	{
	"epoch": 6.976,
	"grad_norm": 0.1800646036863327,
	"learning_rate": 0.00029896591863674544,
	"loss": 17.5152,
	"step": 43600
	},
	{
	"epoch": 6.992,
	"grad_norm": 0.19359643757343292,
	"learning_rate": 0.0002989635185407416,
	"loss": 17.2701,
	"step": 43700
	},
	{
	"epoch": 7.008,
	"grad_norm": 0.21103709936141968,
	"learning_rate": 0.0002989611184447378,
	"loss": 17.0028,
	"step": 43800
	},
	{
	"epoch": 7.024,
	"grad_norm": 0.18972234427928925,
	"learning_rate": 0.00029895871834873395,
	"loss": 16.8714,
	"step": 43900
	},
	{
	"epoch": 7.04,
	"grad_norm": 0.16335220634937286,
	"learning_rate": 0.0002989563182527301,
	"loss": 17.1409,
	"step": 44000
	},
	{
	"epoch": 7.056,
	"grad_norm": 0.16595561802387238,
	"learning_rate": 0.00029895391815672624,
	"loss": 17.1677,
	"step": 44100
	},
	{
	"epoch": 7.072,
	"grad_norm": 0.1885690540075302,
	"learning_rate": 0.0002989515180607224,
	"loss": 17.1327,
	"step": 44200
	},
	{
	"epoch": 7.088,
	"grad_norm": 0.16525697708129883,
	"learning_rate": 0.0002989491179647186,
	"loss": 17.0265,
	"step": 44300
	},
	{
	"epoch": 7.104,
	"grad_norm": 0.17798613011837006,
	"learning_rate": 0.00029894671786871474,
	"loss": 16.5858,
	"step": 44400
	},
	{
	"epoch": 7.12,
	"grad_norm": 0.17442761361598969,
	"learning_rate": 0.0002989443177727109,
	"loss": 16.7029,
	"step": 44500
	},
	{
	"epoch": 7.136,
	"grad_norm": 0.17014281451702118,
	"learning_rate": 0.0002989419176767071,
	"loss": 16.3283,
	"step": 44600
	},
	{
	"epoch": 7.152,
	"grad_norm": 0.21125547587871552,
	"learning_rate": 0.0002989395175807032,
	"loss": 17.0964,
	"step": 44700
	},
	{
	"epoch": 7.168,
	"grad_norm": 0.15473531186580658,
	"learning_rate": 0.00029893711748469937,
	"loss": 17.2634,
	"step": 44800
	},
	{
	"epoch": 7.184,
	"grad_norm": 0.22423428297042847,
	"learning_rate": 0.00029893471738869553,
	"loss": 16.6492,
	"step": 44900
	},
	{
	"epoch": 7.2,
	"grad_norm": 0.23651999235153198,
	"learning_rate": 0.0002989323172926917,
	"loss": 17.2672,
	"step": 45000
	},
	{
	"epoch": 7.216,
	"grad_norm": 0.18389280140399933,
	"learning_rate": 0.00029892991719668787,
	"loss": 16.3061,
	"step": 45100
	},
	{
	"epoch": 7.232,
	"grad_norm": 0.19786329567432404,
	"learning_rate": 0.000298927517100684,
	"loss": 16.7178,
	"step": 45200
	},
	{
	"epoch": 7.248,
	"grad_norm": 0.1748264580965042,
	"learning_rate": 0.00029892511700468016,
	"loss": 16.8728,
	"step": 45300
	},
	{
	"epoch": 7.264,
	"grad_norm": 0.17337900400161743,
	"learning_rate": 0.0002989227169086763,
	"loss": 16.143,
	"step": 45400
	},
	{
	"epoch": 7.28,
	"grad_norm": 0.1627172827720642,
	"learning_rate": 0.0002989203168126725,
	"loss": 16.677,
	"step": 45500
	},
	{
	"epoch": 7.296,
	"grad_norm": 0.18607047200202942,
	"learning_rate": 0.00029891791671666866,
	"loss": 16.6493,
	"step": 45600
	},
	{
	"epoch": 7.312,
	"grad_norm": 0.17733363807201385,
	"learning_rate": 0.00029891551662066483,
	"loss": 16.8518,
	"step": 45700
	},
	{
	"epoch": 7.328,
	"grad_norm": 0.17257067561149597,
	"learning_rate": 0.00029891311652466095,
	"loss": 16.7963,
	"step": 45800
	},
	{
	"epoch": 7.344,
	"grad_norm": 0.22989864647388458,
	"learning_rate": 0.0002989107164286571,
	"loss": 16.6846,
	"step": 45900
	},
	{
	"epoch": 7.36,
	"grad_norm": 0.1924850195646286,
	"learning_rate": 0.0002989083163326533,
	"loss": 16.7258,
	"step": 46000
	},
	{
	"epoch": 7.376,
	"grad_norm": 0.15162524580955505,
	"learning_rate": 0.00029890591623664946,
	"loss": 16.0529,
	"step": 46100
	},
	{
	"epoch": 7.392,
	"grad_norm": 0.19990018010139465,
	"learning_rate": 0.00029890354014160564,
	"loss": 16.3768,
	"step": 46200
	},
	{
	"epoch": 7.408,
	"grad_norm": 0.1724652647972107,
	"learning_rate": 0.00029890114004560176,
	"loss": 17.0495,
	"step": 46300
	},
	{
	"epoch": 7.424,
	"grad_norm": 0.1920676976442337,
	"learning_rate": 0.00029889873994959793,
	"loss": 16.1202,
	"step": 46400
	},
	{
	"epoch": 7.44,
	"grad_norm": 0.1957552433013916,
	"learning_rate": 0.00029889636385455417,
	"loss": 16.413,
	"step": 46500
	},
	{
	"epoch": 7.456,
	"grad_norm": 0.14071592688560486,
	"learning_rate": 0.00029889396375855034,
	"loss": 15.732,
	"step": 46600
	},
	{
	"epoch": 7.4719999999999995,
	"grad_norm": 0.1833236664533615,
	"learning_rate": 0.00029889156366254646,
	"loss": 16.7192,
	"step": 46700
	},
	{
	"epoch": 7.4879999999999995,
	"grad_norm": 0.2189483791589737,
	"learning_rate": 0.0002988891635665426,
	"loss": 16.0979,
	"step": 46800
	},
	{
	"epoch": 7.504,
	"grad_norm": 0.17360301315784454,
	"learning_rate": 0.0002988867634705388,
	"loss": 15.8968,
	"step": 46900
	},
	{
	"epoch": 7.52,
	"grad_norm": 0.1952562779188156,
	"learning_rate": 0.00029888436337453496,
	"loss": 15.9731,
	"step": 47000
	},
	{
	"epoch": 7.536,
	"grad_norm": 0.1601036638021469,
	"learning_rate": 0.00029888196327853113,
	"loss": 16.392,
	"step": 47100
	},
	{
	"epoch": 7.552,
	"grad_norm": 0.17277076840400696,
	"learning_rate": 0.00029887956318252725,
	"loss": 15.9779,
	"step": 47200
	},
	{
	"epoch": 7.568,
	"grad_norm": 0.1868811696767807,
	"learning_rate": 0.0002988771630865234,
	"loss": 15.5355,
	"step": 47300
	},
	{
	"epoch": 7.584,
	"grad_norm": 0.2078930139541626,
	"learning_rate": 0.00029887478699147966,
	"loss": 15.8833,
	"step": 47400
	},
	{
	"epoch": 7.6,
	"grad_norm": 0.17647911608219147,
	"learning_rate": 0.0002988723868954758,
	"loss": 16.0442,
	"step": 47500
	},
	{
	"epoch": 7.616,
	"grad_norm": 0.20268210768699646,
	"learning_rate": 0.00029886998679947194,
	"loss": 16.1957,
	"step": 47600
	},
	{
	"epoch": 7.632,
	"grad_norm": 0.1820913553237915,
	"learning_rate": 0.0002988675867034681,
	"loss": 15.8208,
	"step": 47700
	},
	{
	"epoch": 7.648,
	"grad_norm": 0.2001231610774994,
	"learning_rate": 0.0002988651866074643,
	"loss": 16.1706,
	"step": 47800
	},
	{
	"epoch": 7.664,
	"grad_norm": 0.18558456003665924,
	"learning_rate": 0.00029886278651146045,
	"loss": 15.9747,
	"step": 47900
	},
	{
	"epoch": 7.68,
	"grad_norm": 0.17034992575645447,
	"learning_rate": 0.0002988603864154566,
	"loss": 16.4537,
	"step": 48000
	},
	{
	"epoch": 7.696,
	"grad_norm": 0.16974206268787384,
	"learning_rate": 0.00029885798631945274,
	"loss": 15.5116,
	"step": 48100
	},
	{
	"epoch": 7.712,
	"grad_norm": 0.1771545112133026,
	"learning_rate": 0.0002988555862234489,
	"loss": 15.8605,
	"step": 48200
	},
	{
	"epoch": 7.728,
	"grad_norm": 0.17756806313991547,
	"learning_rate": 0.0002988531861274451,
	"loss": 15.8965,
	"step": 48300
	},
	{
	"epoch": 7.744,
	"grad_norm": 0.20773237943649292,
	"learning_rate": 0.00029885078603144124,
	"loss": 15.1184,
	"step": 48400
	},
	{
	"epoch": 7.76,
	"grad_norm": 0.18383237719535828,
	"learning_rate": 0.0002988483859354374,
	"loss": 16.0467,
	"step": 48500
	},
	{
	"epoch": 7.776,
	"grad_norm": 0.18748898804187775,
	"learning_rate": 0.0002988459858394336,
	"loss": 15.3286,
	"step": 48600
	},
	{
	"epoch": 7.792,
	"grad_norm": 0.2877133786678314,
	"learning_rate": 0.0002988435857434297,
	"loss": 15.8562,
	"step": 48700
	},
	{
	"epoch": 7.808,
	"grad_norm": 0.168177530169487,
	"learning_rate": 0.00029884118564742587,
	"loss": 15.8613,
	"step": 48800
	},
	{
	"epoch": 7.824,
	"grad_norm": 0.18536759912967682,
	"learning_rate": 0.00029883878555142203,
	"loss": 15.8204,
	"step": 48900
	},
	{
	"epoch": 7.84,
	"grad_norm": 0.15699341893196106,
	"learning_rate": 0.0002988363854554182,
	"loss": 15.6026,
	"step": 49000
	},
	{
	"epoch": 7.856,
	"grad_norm": 0.17730812728405,
	"learning_rate": 0.0002988339853594144,
	"loss": 15.5268,
	"step": 49100
	},
	{
	"epoch": 7.872,
	"grad_norm": 0.16140446066856384,
	"learning_rate": 0.0002988315852634105,
	"loss": 15.3766,
	"step": 49200
	},
	{
	"epoch": 7.888,
	"grad_norm": 0.16114762425422668,
	"learning_rate": 0.00029882918516740666,
	"loss": 15.8614,
	"step": 49300
	},
	{
	"epoch": 7.904,
	"grad_norm": 0.19132892787456512,
	"learning_rate": 0.0002988267850714028,
	"loss": 15.4026,
	"step": 49400
	},
	{
	"epoch": 7.92,
	"grad_norm": 0.190206840634346,
	"learning_rate": 0.000298824384975399,
	"loss": 15.42,
	"step": 49500
	},
	{
	"epoch": 7.936,
	"grad_norm": 0.18264752626419067,
	"learning_rate": 0.00029882198487939516,
	"loss": 15.5455,
	"step": 49600
	},
	{
	"epoch": 7.952,
	"grad_norm": 0.1774350255727768,
	"learning_rate": 0.00029881958478339133,
	"loss": 15.7328,
	"step": 49700
	},
	{
	"epoch": 7.968,
	"grad_norm": 0.1655503213405609,
	"learning_rate": 0.00029881718468738745,
	"loss": 15.5836,
	"step": 49800
	},
	{
	"epoch": 7.984,
	"grad_norm": 0.18890833854675293,
	"learning_rate": 0.0002988147845913836,
	"loss": 15.4838,
	"step": 49900
	},
	{
	"epoch": 8.0,
	"grad_norm": 0.1880652904510498,
	"learning_rate": 0.0002988123844953798,
	"loss": 15.2114,
	"step": 50000
	},
	{
	"epoch": 8.016,
	"grad_norm": 0.18285752832889557,
	"learning_rate": 0.00029880998439937596,
	"loss": 14.9511,
	"step": 50100
	},
	{
	"epoch": 8.032,
	"grad_norm": 0.19436243176460266,
	"learning_rate": 0.0002988075843033721,
	"loss": 15.4968,
	"step": 50200
	},
	{
	"epoch": 8.048,
	"grad_norm": 0.1822815239429474,
	"learning_rate": 0.00029880518420736824,
	"loss": 14.7632,
	"step": 50300
	},
	{
	"epoch": 8.064,
	"grad_norm": 0.16189494729042053,
	"learning_rate": 0.0002988027841113644,
	"loss": 14.937,
	"step": 50400
	},
	{
	"epoch": 8.08,
	"grad_norm": 0.152993842959404,
	"learning_rate": 0.0002988003840153606,
	"loss": 14.676,
	"step": 50500
	},
	{
	"epoch": 8.096,
	"grad_norm": 0.2119678407907486,
	"learning_rate": 0.00029879798391935675,
	"loss": 15.725,
	"step": 50600
	},
	{
	"epoch": 8.112,
	"grad_norm": 0.22487041354179382,
	"learning_rate": 0.0002987955838233529,
	"loss": 15.0505,
	"step": 50700
	},
	{
	"epoch": 8.128,
	"grad_norm": 0.16072215139865875,
	"learning_rate": 0.0002987931837273491,
	"loss": 15.4103,
	"step": 50800
	},
	{
	"epoch": 8.144,
	"grad_norm": 0.16657765209674835,
	"learning_rate": 0.0002987907836313452,
	"loss": 14.7139,
	"step": 50900
	},
	{
	"epoch": 8.16,
	"grad_norm": 0.15327660739421844,
	"learning_rate": 0.00029878838353534137,
	"loss": 14.6325,
	"step": 51000
	},
	{
	"epoch": 8.176,
	"grad_norm": 0.20472773909568787,
	"learning_rate": 0.00029878598343933754,
	"loss": 14.7217,
	"step": 51100
	},
	{
	"epoch": 8.192,
	"grad_norm": 0.214088574051857,
	"learning_rate": 0.0002987835833433337,
	"loss": 14.121,
	"step": 51200
	},
	{
	"epoch": 8.208,
	"grad_norm": 0.20903360843658447,
	"learning_rate": 0.0002987811832473299,
	"loss": 15.1448,
	"step": 51300
	},
	{
	"epoch": 8.224,
	"grad_norm": 0.20621182024478912,
	"learning_rate": 0.000298778783151326,
	"loss": 14.7588,
	"step": 51400
	},
	{
	"epoch": 8.24,
	"grad_norm": 0.18515250086784363,
	"learning_rate": 0.00029877638305532216,
	"loss": 15.3639,
	"step": 51500
	},
	{
	"epoch": 8.256,
	"grad_norm": 0.17146657407283783,
	"learning_rate": 0.00029877398295931833,
	"loss": 14.4964,
	"step": 51600
	},
	{
	"epoch": 8.272,
	"grad_norm": 0.18953190743923187,
	"learning_rate": 0.0002987715828633145,
	"loss": 14.5639,
	"step": 51700
	},
	{
	"epoch": 8.288,
	"grad_norm": 0.17434297502040863,
	"learning_rate": 0.0002987692067682707,
	"loss": 15.2875,
	"step": 51800
	},
	{
	"epoch": 8.304,
	"grad_norm": 0.16686853766441345,
	"learning_rate": 0.00029876680667226686,
	"loss": 14.4679,
	"step": 51900
	},
	{
	"epoch": 8.32,
	"grad_norm": 0.14394892752170563,
	"learning_rate": 0.00029876440657626303,
	"loss": 14.5162,
	"step": 52000
	},
	{
	"epoch": 8.336,
	"grad_norm": 0.20816083252429962,
	"learning_rate": 0.0002987620064802592,
	"loss": 15.2646,
	"step": 52100
	},
	{
	"epoch": 8.352,
	"grad_norm": 0.16660048067569733,
	"learning_rate": 0.00029875960638425537,
	"loss": 15.0214,
	"step": 52200
	},
	{
	"epoch": 8.368,
	"grad_norm": 0.16948403418064117,
	"learning_rate": 0.0002987572062882515,
	"loss": 14.7227,
	"step": 52300
	},
	{
	"epoch": 8.384,
	"grad_norm": 0.15360529720783234,
	"learning_rate": 0.00029875480619224765,
	"loss": 14.8453,
	"step": 52400
	},
	{
	"epoch": 8.4,
	"grad_norm": 0.1730951964855194,
	"learning_rate": 0.0002987524060962438,
	"loss": 14.6784,
	"step": 52500
	},
	{
	"epoch": 8.416,
	"grad_norm": 0.1714763641357422,
	"learning_rate": 0.00029875000600024,
	"loss": 14.3347,
	"step": 52600
	},
	{
	"epoch": 8.432,
	"grad_norm": 0.21991823613643646,
	"learning_rate": 0.00029874760590423616,
	"loss": 14.7373,
	"step": 52700
	},
	{
	"epoch": 8.448,
	"grad_norm": 0.26085495948791504,
	"learning_rate": 0.00029874520580823233,
	"loss": 14.4799,
	"step": 52800
	},
	{
	"epoch": 8.464,
	"grad_norm": 0.15623599290847778,
	"learning_rate": 0.00029874280571222844,
	"loss": 14.9737,
	"step": 52900
	},
	{
	"epoch": 8.48,
	"grad_norm": 0.14685533940792084,
	"learning_rate": 0.0002987404056162246,
	"loss": 14.4126,
	"step": 53000
	},
	{
	"epoch": 8.496,
	"grad_norm": 0.19048573076725006,
	"learning_rate": 0.0002987380055202208,
	"loss": 14.6049,
	"step": 53100
	},
	{
	"epoch": 8.512,
	"grad_norm": 0.15729829668998718,
	"learning_rate": 0.00029873560542421695,
	"loss": 14.8894,
	"step": 53200
	},
	{
	"epoch": 8.528,
	"grad_norm": 0.18257932364940643,
	"learning_rate": 0.0002987332053282131,
	"loss": 14.3249,
	"step": 53300
	},
	{
	"epoch": 8.544,
	"grad_norm": 0.20492464303970337,
	"learning_rate": 0.00029873080523220923,
	"loss": 15.0053,
	"step": 53400
	},
	{
	"epoch": 8.56,
	"grad_norm": 0.22026245296001434,
	"learning_rate": 0.0002987284051362054,
	"loss": 14.1141,
	"step": 53500
	},
	{
	"epoch": 8.576,
	"grad_norm": 0.16078276932239532,
	"learning_rate": 0.00029872600504020157,
	"loss": 14.3822,
	"step": 53600
	},
	{
	"epoch": 8.592,
	"grad_norm": 0.19619469344615936,
	"learning_rate": 0.00029872360494419774,
	"loss": 14.3099,
	"step": 53700
	},
	{
	"epoch": 8.608,
	"grad_norm": 0.15051692724227905,
	"learning_rate": 0.0002987212048481939,
	"loss": 13.7999,
	"step": 53800
	},
	{
	"epoch": 8.624,
	"grad_norm": 0.19525863230228424,
	"learning_rate": 0.0002987188047521901,
	"loss": 14.3567,
	"step": 53900
	},
	{
	"epoch": 8.64,
	"grad_norm": 0.16883693635463715,
	"learning_rate": 0.0002987164046561862,
	"loss": 13.3731,
	"step": 54000
	},
	{
	"epoch": 8.656,
	"grad_norm": 0.1703290492296219,
	"learning_rate": 0.00029871400456018236,
	"loss": 13.8462,
	"step": 54100
	},
	{
	"epoch": 8.672,
	"grad_norm": 0.18907932937145233,
	"learning_rate": 0.00029871160446417853,
	"loss": 14.5297,
	"step": 54200
	},
	{
	"epoch": 8.688,
	"grad_norm": 0.16260308027267456,
	"learning_rate": 0.0002987092043681747,
	"loss": 14.0573,
	"step": 54300
	},
	{
	"epoch": 8.704,
	"grad_norm": 0.1732938140630722,
	"learning_rate": 0.0002987068282731309,
	"loss": 14.1114,
	"step": 54400
	},
	{
	"epoch": 8.72,
	"grad_norm": 0.20591895282268524,
	"learning_rate": 0.00029870442817712706,
	"loss": 13.7101,
	"step": 54500
	},
	{
	"epoch": 8.736,
	"grad_norm": 0.1871296912431717,
	"learning_rate": 0.00029870202808112323,
	"loss": 14.539,
	"step": 54600
	},
	{
	"epoch": 8.752,
	"grad_norm": 0.15711694955825806,
	"learning_rate": 0.0002986996279851194,
	"loss": 14.4353,
	"step": 54700
	},
	{
	"epoch": 8.768,
	"grad_norm": 0.1790015697479248,
	"learning_rate": 0.00029869722788911557,
	"loss": 14.4861,
	"step": 54800
	},
	{
	"epoch": 8.784,
	"grad_norm": 0.1903577744960785,
	"learning_rate": 0.0002986948277931117,
	"loss": 14.2582,
	"step": 54900
	},
	{
	"epoch": 8.8,
	"grad_norm": 0.18150964379310608,
	"learning_rate": 0.00029869242769710785,
	"loss": 13.9522,
	"step": 55000
	},
	{
	"epoch": 8.816,
	"grad_norm": 0.17604489624500275,
	"learning_rate": 0.000298690027601104,
	"loss": 14.4482,
	"step": 55100
	},
	{
	"epoch": 8.832,
	"grad_norm": 0.18487071990966797,
	"learning_rate": 0.0002986876275051002,
	"loss": 13.9656,
	"step": 55200
	},
	{
	"epoch": 8.848,
	"grad_norm": 0.15276212990283966,
	"learning_rate": 0.00029868522740909636,
	"loss": 14.2513,
	"step": 55300
	},
	{
	"epoch": 8.864,
	"grad_norm": 0.19339829683303833,
	"learning_rate": 0.0002986828273130925,
	"loss": 13.7151,
	"step": 55400
	},
	{
	"epoch": 8.88,
	"grad_norm": 0.14462265372276306,
	"learning_rate": 0.00029868042721708864,
	"loss": 13.8859,
	"step": 55500
	},
	{
	"epoch": 8.896,
	"grad_norm": 0.16163522005081177,
	"learning_rate": 0.0002986780271210848,
	"loss": 13.7567,
	"step": 55600
	},
	{
	"epoch": 8.912,
	"grad_norm": 0.15859289467334747,
	"learning_rate": 0.000298675627025081,
	"loss": 14.4693,
	"step": 55700
	},
	{
	"epoch": 8.928,
	"grad_norm": 0.1641652137041092,
	"learning_rate": 0.00029867322692907715,
	"loss": 13.6118,
	"step": 55800
	},
	{
	"epoch": 8.943999999999999,
	"grad_norm": 0.18410654366016388,
	"learning_rate": 0.0002986708268330733,
	"loss": 14.3033,
	"step": 55900
	},
	{
	"epoch": 8.96,
	"grad_norm": 0.18847694993019104,
	"learning_rate": 0.00029866842673706944,
	"loss": 13.2935,
	"step": 56000
	},
	{
	"epoch": 8.975999999999999,
	"grad_norm": 0.15224353969097137,
	"learning_rate": 0.0002986660266410656,
	"loss": 13.6185,
	"step": 56100
	},
	{
	"epoch": 8.992,
	"grad_norm": 0.15307171642780304,
	"learning_rate": 0.0002986636265450618,
	"loss": 13.9229,
	"step": 56200
	},
	{
	"epoch": 9.008,
	"grad_norm": 0.1455143541097641,
	"learning_rate": 0.00029866122644905794,
	"loss": 13.9716,
	"step": 56300
	},
	{
	"epoch": 9.024,
	"grad_norm": 0.18889980018138885,
	"learning_rate": 0.0002986588263530541,
	"loss": 13.8509,
	"step": 56400
	},
	{
	"epoch": 9.04,
	"grad_norm": 0.19757011532783508,
	"learning_rate": 0.0002986564262570502,
	"loss": 14.0519,
	"step": 56500
	},
	{
	"epoch": 9.056,
	"grad_norm": 0.18008406460285187,
	"learning_rate": 0.00029865405016200647,
	"loss": 13.1833,
	"step": 56600
	},
	{
	"epoch": 9.072,
	"grad_norm": 0.1602972447872162,
	"learning_rate": 0.00029865165006600264,
	"loss": 13.2838,
	"step": 56700
	},
	{
	"epoch": 9.088,
	"grad_norm": 0.17582525312900543,
	"learning_rate": 0.0002986492499699988,
	"loss": 13.898,
	"step": 56800
	},
	{
	"epoch": 9.104,
	"grad_norm": 0.15762995183467865,
	"learning_rate": 0.0002986468498739949,
	"loss": 13.5733,
	"step": 56900
	},
	{
	"epoch": 9.12,
	"grad_norm": 0.1670118272304535,
	"learning_rate": 0.0002986444497779911,
	"loss": 13.5845,
	"step": 57000
	},
	{
	"epoch": 9.136,
	"grad_norm": 0.18542303144931793,
	"learning_rate": 0.00029864204968198726,
	"loss": 13.9615,
	"step": 57100
	},
	{
	"epoch": 9.152,
	"grad_norm": 0.18144281208515167,
	"learning_rate": 0.00029863964958598343,
	"loss": 13.0945,
	"step": 57200
	},
	{
	"epoch": 9.168,
	"grad_norm": 0.18359419703483582,
	"learning_rate": 0.0002986372494899796,
	"loss": 13.4529,
	"step": 57300
	},
	{
	"epoch": 9.184,
	"grad_norm": 0.2034582495689392,
	"learning_rate": 0.0002986348493939757,
	"loss": 13.2086,
	"step": 57400
	},
	{
	"epoch": 9.2,
	"grad_norm": 0.1561286300420761,
	"learning_rate": 0.0002986324492979719,
	"loss": 13.5699,
	"step": 57500
	},
	{
	"epoch": 9.216,
	"grad_norm": 0.2128494530916214,
	"learning_rate": 0.00029863004920196805,
	"loss": 13.7906,
	"step": 57600
	},
	{
	"epoch": 9.232,
	"grad_norm": 0.18951255083084106,
	"learning_rate": 0.0002986276491059642,
	"loss": 13.4684,
	"step": 57700
	},
	{
	"epoch": 9.248,
	"grad_norm": 0.14849476516246796,
	"learning_rate": 0.0002986252490099604,
	"loss": 13.6832,
	"step": 57800
	},
	{
	"epoch": 9.264,
	"grad_norm": 0.19169315695762634,
	"learning_rate": 0.00029862284891395656,
	"loss": 12.9751,
	"step": 57900
	},
	{
	"epoch": 9.28,
	"grad_norm": 0.219793900847435,
	"learning_rate": 0.0002986204488179527,
	"loss": 13.4069,
	"step": 58000
	},
	{
	"epoch": 9.296,
	"grad_norm": 0.2139630764722824,
	"learning_rate": 0.00029861804872194884,
	"loss": 12.9185,
	"step": 58100
	},
	{
	"epoch": 9.312,
	"grad_norm": 0.1722664088010788,
	"learning_rate": 0.000298615648625945,
	"loss": 13.4876,
	"step": 58200
	},
	{
	"epoch": 9.328,
	"grad_norm": 0.15841473639011383,
	"learning_rate": 0.0002986132485299412,
	"loss": 13.481,
	"step": 58300
	},
	{
	"epoch": 9.344,
	"grad_norm": 0.17484904825687408,
	"learning_rate": 0.00029861084843393735,
	"loss": 13.5925,
	"step": 58400
	},
	{
	"epoch": 9.36,
	"grad_norm": 0.20388108491897583,
	"learning_rate": 0.00029860844833793347,
	"loss": 13.2549,
	"step": 58500
	},
	{
	"epoch": 9.376,
	"grad_norm": 0.17959387600421906,
	"learning_rate": 0.00029860604824192964,
	"loss": 13.571,
	"step": 58600
	},
	{
	"epoch": 9.392,
	"grad_norm": 0.1830485612154007,
	"learning_rate": 0.0002986036481459258,
	"loss": 13.0808,
	"step": 58700
	},
	{
	"epoch": 9.408,
	"grad_norm": 0.1935325413942337,
	"learning_rate": 0.000298601248049922,
	"loss": 12.9193,
	"step": 58800
	},
	{
	"epoch": 9.424,
	"grad_norm": 0.22928985953330994,
	"learning_rate": 0.00029859884795391814,
	"loss": 12.9233,
	"step": 58900
	},
	{
	"epoch": 9.44,
	"grad_norm": 0.17562927305698395,
	"learning_rate": 0.0002985964478579143,
	"loss": 13.0933,
	"step": 59000
	},
	{
	"epoch": 9.456,
	"grad_norm": 0.21014900505542755,
	"learning_rate": 0.00029859404776191043,
	"loss": 12.9421,
	"step": 59100
	},
	{
	"epoch": 9.472,
	"grad_norm": 0.16698358952999115,
	"learning_rate": 0.0002985916476659066,
	"loss": 13.6465,
	"step": 59200
	},
	{
	"epoch": 9.488,
	"grad_norm": 0.15990376472473145,
	"learning_rate": 0.00029858924756990277,
	"loss": 12.9832,
	"step": 59300
	},
	{
	"epoch": 9.504,
	"grad_norm": 0.21185587346553802,
	"learning_rate": 0.00029858684747389894,
	"loss": 13.3695,
	"step": 59400
	},
	{
	"epoch": 9.52,
	"grad_norm": 0.16105149686336517,
	"learning_rate": 0.0002985844473778951,
	"loss": 13.0733,
	"step": 59500
	},
	{
	"epoch": 9.536,
	"grad_norm": 0.22624213993549347,
	"learning_rate": 0.0002985820472818912,
	"loss": 13.2586,
	"step": 59600
	},
	{
	"epoch": 9.552,
	"grad_norm": 0.1732643097639084,
	"learning_rate": 0.0002985796471858874,
	"loss": 12.9246,
	"step": 59700
	},
	{
	"epoch": 9.568,
	"grad_norm": 0.18406638503074646,
	"learning_rate": 0.00029857724708988356,
	"loss": 13.4556,
	"step": 59800
	},
	{
	"epoch": 9.584,
	"grad_norm": 0.18207241594791412,
	"learning_rate": 0.0002985748709948398,
	"loss": 12.8405,
	"step": 59900
	},
	{
	"epoch": 9.6,
	"grad_norm": 0.14808227121829987,
	"learning_rate": 0.0002985724708988359,
	"loss": 13.0075,
	"step": 60000
	},
	{
	"epoch": 9.616,
	"grad_norm": 0.1976134330034256,
	"learning_rate": 0.0002985700708028321,
	"loss": 12.687,
	"step": 60100
	},
	{
	"epoch": 9.632,
	"grad_norm": 0.1712380349636078,
	"learning_rate": 0.00029856767070682825,
	"loss": 13.003,
	"step": 60200
	},
	{
	"epoch": 9.648,
	"grad_norm": 0.1509382426738739,
	"learning_rate": 0.0002985652706108244,
	"loss": 13.0863,
	"step": 60300
	},
	{
	"epoch": 9.664,
	"grad_norm": 0.1992410570383072,
	"learning_rate": 0.0002985628705148206,
	"loss": 13.1396,
	"step": 60400
	},
	{
	"epoch": 9.68,
	"grad_norm": 0.19914288818836212,
	"learning_rate": 0.0002985604704188167,
	"loss": 13.0716,
	"step": 60500
	},
	{
	"epoch": 9.696,
	"grad_norm": 0.17157557606697083,
	"learning_rate": 0.0002985580703228129,
	"loss": 12.5376,
	"step": 60600
	},
	{
	"epoch": 9.712,
	"grad_norm": 0.14820295572280884,
	"learning_rate": 0.00029855567022680905,
	"loss": 12.9209,
	"step": 60700
	},
	{
	"epoch": 9.728,
	"grad_norm": 0.17262442409992218,
	"learning_rate": 0.0002985532701308052,
	"loss": 13.3595,
	"step": 60800
	},
	{
	"epoch": 9.744,
	"grad_norm": 0.1804870218038559,
	"learning_rate": 0.0002985508700348014,
	"loss": 13.0037,
	"step": 60900
	},
	{
	"epoch": 9.76,
	"grad_norm": 0.1507444977760315,
	"learning_rate": 0.00029854846993879755,
	"loss": 12.5568,
	"step": 61000
	},
	{
	"epoch": 9.776,
	"grad_norm": 0.17809054255485535,
	"learning_rate": 0.00029854606984279367,
	"loss": 12.9826,
	"step": 61100
	},
	{
	"epoch": 9.792,
	"grad_norm": 0.25455987453460693,
	"learning_rate": 0.00029854366974678984,
	"loss": 12.5432,
	"step": 61200
	},
	{
	"epoch": 9.808,
	"grad_norm": 0.15175747871398926,
	"learning_rate": 0.000298541269650786,
	"loss": 12.9513,
	"step": 61300
	},
	{
	"epoch": 9.824,
	"grad_norm": 0.22233819961547852,
	"learning_rate": 0.0002985388695547822,
	"loss": 13.2744,
	"step": 61400
	},
	{
	"epoch": 9.84,
	"grad_norm": 0.1534196138381958,
	"learning_rate": 0.00029853646945877835,
	"loss": 12.4878,
	"step": 61500
	},
	{
	"epoch": 9.856,
	"grad_norm": 0.17612405121326447,
	"learning_rate": 0.00029853406936277446,
	"loss": 12.6281,
	"step": 61600
	},
	{
	"epoch": 9.872,
	"grad_norm": 0.14971201121807098,
	"learning_rate": 0.00029853166926677063,
	"loss": 12.4393,
	"step": 61700
	},
	{
	"epoch": 9.888,
	"grad_norm": 0.15717633068561554,
	"learning_rate": 0.0002985292691707668,
	"loss": 12.6903,
	"step": 61800
	},
	{
	"epoch": 9.904,
	"grad_norm": 0.1695670634508133,
	"learning_rate": 0.00029852686907476297,
	"loss": 12.9557,
	"step": 61900
	},
	{
	"epoch": 9.92,
	"grad_norm": 0.16429013013839722,
	"learning_rate": 0.00029852446897875914,
	"loss": 12.9804,
	"step": 62000
	},
	{
	"epoch": 9.936,
	"grad_norm": 0.1919148713350296,
	"learning_rate": 0.0002985220688827553,
	"loss": 12.8735,
	"step": 62100
	},
	{
	"epoch": 9.952,
	"grad_norm": 0.1977461278438568,
	"learning_rate": 0.0002985196687867514,
	"loss": 12.6665,
	"step": 62200
	},
	{
	"epoch": 9.968,
	"grad_norm": 0.3409396708011627,
	"learning_rate": 0.0002985172686907476,
	"loss": 11.9422,
	"step": 62300
	},
	{
	"epoch": 9.984,
	"grad_norm": 0.1977001428604126,
	"learning_rate": 0.00029851486859474376,
	"loss": 13.392,
	"step": 62400
	},
	{
	"epoch": 10.0,
	"grad_norm": 0.19805894792079926,
	"learning_rate": 0.00029851246849873993,
	"loss": 12.3432,
	"step": 62500
	},
	{
	"epoch": 10.016,
	"grad_norm": 0.1851508915424347,
	"learning_rate": 0.0002985100684027361,
	"loss": 12.8953,
	"step": 62600
	},
	{
	"epoch": 10.032,
	"grad_norm": 0.15137746930122375,
	"learning_rate": 0.0002985076683067322,
	"loss": 12.8256,
	"step": 62700
	},
	{
	"epoch": 10.048,
	"grad_norm": 0.1815025508403778,
	"learning_rate": 0.00029850529221168846,
	"loss": 12.2427,
	"step": 62800
	},
	{
	"epoch": 10.064,
	"grad_norm": 0.282045841217041,
	"learning_rate": 0.0002985028921156846,
	"loss": 12.5777,
	"step": 62900
	},
	{
	"epoch": 10.08,
	"grad_norm": 0.19669105112552643,
	"learning_rate": 0.0002985004920196808,
	"loss": 12.85,
	"step": 63000
	},
	{
	"epoch": 10.096,
	"grad_norm": 0.1557861566543579,
	"learning_rate": 0.0002984980919236769,
	"loss": 12.6325,
	"step": 63100
	},
	{
	"epoch": 10.112,
	"grad_norm": 0.16353458166122437,
	"learning_rate": 0.0002984956918276731,
	"loss": 12.5578,
	"step": 63200
	},
	{
	"epoch": 10.128,
	"grad_norm": 0.19124484062194824,
	"learning_rate": 0.00029849329173166925,
	"loss": 12.8784,
	"step": 63300
	},
	{
	"epoch": 10.144,
	"grad_norm": 0.16097944974899292,
	"learning_rate": 0.0002984908916356654,
	"loss": 11.7994,
	"step": 63400
	},
	{
	"epoch": 10.16,
	"grad_norm": 0.155614972114563,
	"learning_rate": 0.0002984884915396616,
	"loss": 11.9617,
	"step": 63500
	},
	{
	"epoch": 10.176,
	"grad_norm": 0.19013510644435883,
	"learning_rate": 0.0002984860914436577,
	"loss": 12.1663,
	"step": 63600
	},
	{
	"epoch": 10.192,
	"grad_norm": 0.21610714495182037,
	"learning_rate": 0.00029848369134765387,
	"loss": 12.2304,
	"step": 63700
	},
	{
	"epoch": 10.208,
	"grad_norm": 0.15554966032505035,
	"learning_rate": 0.00029848129125165004,
	"loss": 11.9337,
	"step": 63800
	},
	{
	"epoch": 10.224,
	"grad_norm": 0.14373019337654114,
	"learning_rate": 0.0002984788911556462,
	"loss": 12.5049,
	"step": 63900
	},
	{
	"epoch": 10.24,
	"grad_norm": 0.197763592004776,
	"learning_rate": 0.0002984764910596424,
	"loss": 12.2087,
	"step": 64000
	},
	{
	"epoch": 10.256,
	"grad_norm": 0.1522061824798584,
	"learning_rate": 0.00029847409096363855,
	"loss": 12.475,
	"step": 64100
	},
	{
	"epoch": 10.272,
	"grad_norm": 0.15849411487579346,
	"learning_rate": 0.00029847169086763466,
	"loss": 12.1301,
	"step": 64200
	},
	{
	"epoch": 10.288,
	"grad_norm": 0.1680125594139099,
	"learning_rate": 0.00029846929077163083,
	"loss": 12.2041,
	"step": 64300
	},
	{
	"epoch": 10.304,
	"grad_norm": 0.17618972063064575,
	"learning_rate": 0.000298466890675627,
	"loss": 12.1634,
	"step": 64400
	},
	{
	"epoch": 10.32,
	"grad_norm": 0.19345271587371826,
	"learning_rate": 0.00029846449057962317,
	"loss": 12.0509,
	"step": 64500
	},
	{
	"epoch": 10.336,
	"grad_norm": 0.15981802344322205,
	"learning_rate": 0.00029846209048361934,
	"loss": 11.879,
	"step": 64600
	},
	{
	"epoch": 10.352,
	"grad_norm": 0.1640341877937317,
	"learning_rate": 0.00029845969038761545,
	"loss": 12.3471,
	"step": 64700
	},
	{
	"epoch": 10.368,
	"grad_norm": 0.1751720905303955,
	"learning_rate": 0.0002984572902916116,
	"loss": 11.7085,
	"step": 64800
	},
	{
	"epoch": 10.384,
	"grad_norm": 0.15203487873077393,
	"learning_rate": 0.00029845491419656787,
	"loss": 11.9901,
	"step": 64900
	},
	{
	"epoch": 10.4,
	"grad_norm": 0.1836910843849182,
	"learning_rate": 0.00029845251410056403,
	"loss": 11.5864,
	"step": 65000
	},
	{
	"epoch": 10.416,
	"grad_norm": 0.2329769879579544,
	"learning_rate": 0.00029845011400456015,
	"loss": 11.8386,
	"step": 65100
	},
	{
	"epoch": 10.432,
	"grad_norm": 0.25904643535614014,
	"learning_rate": 0.0002984477139085563,
	"loss": 11.6842,
	"step": 65200
	},
	{
	"epoch": 10.448,
	"grad_norm": 0.16373856365680695,
	"learning_rate": 0.0002984453138125525,
	"loss": 11.9861,
	"step": 65300
	},
	{
	"epoch": 10.464,
	"grad_norm": 0.1684304028749466,
	"learning_rate": 0.00029844291371654866,
	"loss": 12.1751,
	"step": 65400
	},
	{
	"epoch": 10.48,
	"grad_norm": 0.1975129395723343,
	"learning_rate": 0.0002984405136205448,
	"loss": 11.9744,
	"step": 65500
	},
	{
	"epoch": 10.496,
	"grad_norm": 0.144730344414711,
	"learning_rate": 0.00029843811352454094,
	"loss": 11.7554,
	"step": 65600
	},
	{
	"epoch": 10.512,
	"grad_norm": 0.21416126191616058,
	"learning_rate": 0.0002984357134285371,
	"loss": 11.7885,
	"step": 65700
	},
	{
	"epoch": 10.528,
	"grad_norm": 0.1401461511850357,
	"learning_rate": 0.0002984333133325333,
	"loss": 12.2278,
	"step": 65800
	},
	{
	"epoch": 10.544,
	"grad_norm": 0.15199688076972961,
	"learning_rate": 0.00029843091323652945,
	"loss": 12.0611,
	"step": 65900
	},
	{
	"epoch": 10.56,
	"grad_norm": 0.16079574823379517,
	"learning_rate": 0.0002984285131405256,
	"loss": 11.3473,
	"step": 66000
	},
	{
	"epoch": 10.576,
	"grad_norm": 0.14441320300102234,
	"learning_rate": 0.0002984261130445218,
	"loss": 11.5284,
	"step": 66100
	},
	{
	"epoch": 10.592,
	"grad_norm": 0.1676328480243683,
	"learning_rate": 0.0002984237129485179,
	"loss": 11.6487,
	"step": 66200
	},
	{
	"epoch": 10.608,
	"grad_norm": 0.13956011831760406,
	"learning_rate": 0.00029842131285251407,
	"loss": 11.772,
	"step": 66300
	},
	{
	"epoch": 10.624,
	"grad_norm": 0.17723798751831055,
	"learning_rate": 0.00029841891275651024,
	"loss": 11.7424,
	"step": 66400
	},
	{
	"epoch": 10.64,
	"grad_norm": 0.18211066722869873,
	"learning_rate": 0.0002984165126605064,
	"loss": 11.9263,
	"step": 66500
	},
	{
	"epoch": 10.656,
	"grad_norm": 0.18465609848499298,
	"learning_rate": 0.0002984141125645026,
	"loss": 12.1533,
	"step": 66600
	},
	{
	"epoch": 10.672,
	"grad_norm": 0.15032535791397095,
	"learning_rate": 0.0002984117124684987,
	"loss": 11.8711,
	"step": 66700
	},
	{
	"epoch": 10.688,
	"grad_norm": 0.25048136711120605,
	"learning_rate": 0.00029840931237249486,
	"loss": 12.1925,
	"step": 66800
	},
	{
	"epoch": 10.704,
	"grad_norm": 0.17632503807544708,
	"learning_rate": 0.00029840691227649103,
	"loss": 12.0652,
	"step": 66900
	},
	{
	"epoch": 10.72,
	"grad_norm": 0.17492571473121643,
	"learning_rate": 0.0002984045121804872,
	"loss": 12.3961,
	"step": 67000
	},
	{
	"epoch": 10.736,
	"grad_norm": 0.17848367989063263,
	"learning_rate": 0.00029840211208448337,
	"loss": 12.0021,
	"step": 67100
	},
	{
	"epoch": 10.752,
	"grad_norm": 0.23175941407680511,
	"learning_rate": 0.00029839971198847954,
	"loss": 11.4583,
	"step": 67200
	},
	{
	"epoch": 10.768,
	"grad_norm": 0.24281519651412964,
	"learning_rate": 0.0002983973358934357,
	"loss": 12.0376,
	"step": 67300
	},
	{
	"epoch": 10.784,
	"grad_norm": 0.18129272758960724,
	"learning_rate": 0.00029839493579743184,
	"loss": 12.1892,
	"step": 67400
	},
	{
	"epoch": 10.8,
	"grad_norm": 0.1454136222600937,
	"learning_rate": 0.000298392535701428,
	"loss": 11.9333,
	"step": 67500
	},
	{
	"epoch": 10.816,
	"grad_norm": 0.12412439286708832,
	"learning_rate": 0.0002983901356054242,
	"loss": 11.0441,
	"step": 67600
	},
	{
	"epoch": 10.832,
	"grad_norm": 0.19814914464950562,
	"learning_rate": 0.00029838773550942035,
	"loss": 11.4348,
	"step": 67700
	},
	{
	"epoch": 10.848,
	"grad_norm": 0.2250308245420456,
	"learning_rate": 0.0002983853354134165,
	"loss": 11.723,
	"step": 67800
	},
	{
	"epoch": 10.864,
	"grad_norm": 0.1328551471233368,
	"learning_rate": 0.0002983829353174127,
	"loss": 11.4324,
	"step": 67900
	},
	{
	"epoch": 10.88,
	"grad_norm": 0.2366170883178711,
	"learning_rate": 0.00029838053522140886,
	"loss": 12.1462,
	"step": 68000
	},
	{
	"epoch": 10.896,
	"grad_norm": 0.20911742746829987,
	"learning_rate": 0.00029837813512540503,
	"loss": 11.6067,
	"step": 68100
	},
	{
	"epoch": 10.912,
	"grad_norm": 0.1770290583372116,
	"learning_rate": 0.00029837573502940114,
	"loss": 11.9299,
	"step": 68200
	},
	{
	"epoch": 10.928,
	"grad_norm": 0.21429571509361267,
	"learning_rate": 0.0002983733349333973,
	"loss": 11.3683,
	"step": 68300
	},
	{
	"epoch": 10.943999999999999,
	"grad_norm": 0.1542270928621292,
	"learning_rate": 0.0002983709348373935,
	"loss": 11.3472,
	"step": 68400
	},
	{
	"epoch": 10.96,
	"grad_norm": 0.2420985847711563,
	"learning_rate": 0.00029836853474138965,
	"loss": 11.5805,
	"step": 68500
	},
	{
	"epoch": 10.975999999999999,
	"grad_norm": 0.17665143311023712,
	"learning_rate": 0.0002983661346453858,
	"loss": 11.7406,
	"step": 68600
	},
	{
	"epoch": 10.992,
	"grad_norm": 0.26210835576057434,
	"learning_rate": 0.00029836373454938193,
	"loss": 11.7457,
	"step": 68700
	},
	{
	"epoch": 11.008,
	"grad_norm": 0.14472606778144836,
	"learning_rate": 0.0002983613344533781,
	"loss": 11.4662,
	"step": 68800
	},
	{
	"epoch": 11.024,
	"grad_norm": 0.17449091374874115,
	"learning_rate": 0.0002983589343573743,
	"loss": 11.0297,
	"step": 68900
	},
	{
	"epoch": 11.04,
	"grad_norm": 0.15488724410533905,
	"learning_rate": 0.00029835653426137044,
	"loss": 11.792,
	"step": 69000
	},
	{
	"epoch": 11.056,
	"grad_norm": 0.1447325348854065,
	"learning_rate": 0.0002983541341653666,
	"loss": 11.4483,
	"step": 69100
	},
	{
	"epoch": 11.072,
	"grad_norm": 0.17111489176750183,
	"learning_rate": 0.0002983517340693628,
	"loss": 11.1499,
	"step": 69200
	},
	{
	"epoch": 11.088,
	"grad_norm": 0.17446951568126678,
	"learning_rate": 0.0002983493339733589,
	"loss": 10.6961,
	"step": 69300
	},
	{
	"epoch": 11.104,
	"grad_norm": 0.1421278566122055,
	"learning_rate": 0.00029834693387735506,
	"loss": 11.4794,
	"step": 69400
	},
	{
	"epoch": 11.12,
	"grad_norm": 0.17439322173595428,
	"learning_rate": 0.00029834455778231125,
	"loss": 11.0965,
	"step": 69500
	},
	{
	"epoch": 11.136,
	"grad_norm": 0.16200323402881622,
	"learning_rate": 0.0002983421576863074,
	"loss": 11.1367,
	"step": 69600
	},
	{
	"epoch": 11.152,
	"grad_norm": 0.3391527831554413,
	"learning_rate": 0.0002983397575903036,
	"loss": 10.7709,
	"step": 69700
	},
	{
	"epoch": 11.168,
	"grad_norm": 0.18793489038944244,
	"learning_rate": 0.0002983373574942997,
	"loss": 11.1479,
	"step": 69800
	},
	{
	"epoch": 11.184,
	"grad_norm": 0.1996636688709259,
	"learning_rate": 0.0002983349573982959,
	"loss": 11.8347,
	"step": 69900
	},
	{
	"epoch": 11.2,
	"grad_norm": 0.166090190410614,
	"learning_rate": 0.00029833255730229205,
	"loss": 10.9514,
	"step": 70000
	},
	{
	"epoch": 11.216,
	"grad_norm": 0.17243006825447083,
	"learning_rate": 0.0002983301572062882,
	"loss": 11.2505,
	"step": 70100
	},
	{
	"epoch": 11.232,
	"grad_norm": 0.17860250174999237,
	"learning_rate": 0.0002983277571102844,
	"loss": 11.023,
	"step": 70200
	},
	{
	"epoch": 11.248,
	"grad_norm": 0.13896320760250092,
	"learning_rate": 0.00029832535701428055,
	"loss": 11.092,
	"step": 70300
	},
	{
	"epoch": 11.264,
	"grad_norm": 0.20008546113967896,
	"learning_rate": 0.00029832295691827667,
	"loss": 11.2161,
	"step": 70400
	},
	{
	"epoch": 11.28,
	"grad_norm": 0.14014984667301178,
	"learning_rate": 0.00029832055682227284,
	"loss": 11.315,
	"step": 70500
	},
	{
	"epoch": 11.296,
	"grad_norm": 0.16158168017864227,
	"learning_rate": 0.000298318156726269,
	"loss": 11.3935,
	"step": 70600
	},
	{
	"epoch": 11.312,
	"grad_norm": 0.15444719791412354,
	"learning_rate": 0.0002983157566302652,
	"loss": 10.9662,
	"step": 70700
	},
	{
	"epoch": 11.328,
	"grad_norm": 0.21788270771503448,
	"learning_rate": 0.00029831335653426134,
	"loss": 11.4848,
	"step": 70800
	},
	{
	"epoch": 11.344,
	"grad_norm": 0.17685194313526154,
	"learning_rate": 0.0002983109564382575,
	"loss": 11.3436,
	"step": 70900
	},
	{
	"epoch": 11.36,
	"grad_norm": 0.15553423762321472,
	"learning_rate": 0.0002983085563422537,
	"loss": 11.1136,
	"step": 71000
	},
	{
	"epoch": 11.376,
	"grad_norm": 0.1547129899263382,
	"learning_rate": 0.00029830615624624985,
	"loss": 10.7924,
	"step": 71100
	},
	{
	"epoch": 11.392,
	"grad_norm": 0.1907842457294464,
	"learning_rate": 0.000298303756150246,
	"loss": 10.9726,
	"step": 71200
	},
	{
	"epoch": 11.408,
	"grad_norm": 0.15053051710128784,
	"learning_rate": 0.00029830135605424214,
	"loss": 12.0626,
	"step": 71300
	},
	{
	"epoch": 11.424,
	"grad_norm": 0.14403216540813446,
	"learning_rate": 0.0002982989559582383,
	"loss": 11.428,
	"step": 71400
	},
	{
	"epoch": 11.44,
	"grad_norm": 0.15850169956684113,
	"learning_rate": 0.0002982965558622345,
	"loss": 11.1033,
	"step": 71500
	},
	{
	"epoch": 11.456,
	"grad_norm": 0.18223829567432404,
	"learning_rate": 0.00029829417976719066,
	"loss": 11.5088,
	"step": 71600
	},
	{
	"epoch": 11.472,
	"grad_norm": 0.18121246993541718,
	"learning_rate": 0.00029829177967118683,
	"loss": 11.0869,
	"step": 71700
	},
	{
	"epoch": 11.488,
	"grad_norm": 0.1591707020998001,
	"learning_rate": 0.00029828937957518295,
	"loss": 10.5898,
	"step": 71800
	},
	{
	"epoch": 11.504,
	"grad_norm": 0.1652923971414566,
	"learning_rate": 0.0002982869794791791,
	"loss": 11.3647,
	"step": 71900
	},
	{
	"epoch": 11.52,
	"grad_norm": 0.1930815577507019,
	"learning_rate": 0.0002982845793831753,
	"loss": 11.4873,
	"step": 72000
	},
	{
	"epoch": 11.536,
	"grad_norm": 0.1646055281162262,
	"learning_rate": 0.00029828217928717145,
	"loss": 11.3799,
	"step": 72100
	},
	{
	"epoch": 11.552,
	"grad_norm": 0.19326475262641907,
	"learning_rate": 0.0002982797791911676,
	"loss": 10.8387,
	"step": 72200
	},
	{
	"epoch": 11.568,
	"grad_norm": 0.23909342288970947,
	"learning_rate": 0.0002982773790951638,
	"loss": 10.757,
	"step": 72300
	},
	{
	"epoch": 11.584,
	"grad_norm": 0.1616702377796173,
	"learning_rate": 0.0002982749789991599,
	"loss": 10.7907,
	"step": 72400
	},
	{
	"epoch": 11.6,
	"grad_norm": 0.16581912338733673,
	"learning_rate": 0.0002982725789031561,
	"loss": 10.8977,
	"step": 72500
	},
	{
	"epoch": 11.616,
	"grad_norm": 0.1478215605020523,
	"learning_rate": 0.00029827017880715225,
	"loss": 10.9325,
	"step": 72600
	},
	{
	"epoch": 11.632,
	"grad_norm": 0.2693212628364563,
	"learning_rate": 0.0002982677787111484,
	"loss": 11.2731,
	"step": 72700
	},
	{
	"epoch": 11.648,
	"grad_norm": 0.15163065493106842,
	"learning_rate": 0.0002982653786151446,
	"loss": 11.0141,
	"step": 72800
	},
	{
	"epoch": 11.664,
	"grad_norm": 0.15364685654640198,
	"learning_rate": 0.00029826297851914075,
	"loss": 10.6781,
	"step": 72900
	},
	{
	"epoch": 11.68,
	"grad_norm": 0.1410771906375885,
	"learning_rate": 0.00029826057842313687,
	"loss": 11.0262,
	"step": 73000
	},
	{
	"epoch": 11.696,
	"grad_norm": 0.2245720773935318,
	"learning_rate": 0.00029825817832713304,
	"loss": 11.51,
	"step": 73100
	},
	{
	"epoch": 11.712,
	"grad_norm": 0.17434003949165344,
	"learning_rate": 0.0002982557782311292,
	"loss": 10.7819,
	"step": 73200
	},
	{
	"epoch": 11.728,
	"grad_norm": 0.13878166675567627,
	"learning_rate": 0.0002982534021360854,
	"loss": 10.8833,
	"step": 73300
	},
	{
	"epoch": 11.744,
	"grad_norm": 0.13650259375572205,
	"learning_rate": 0.00029825100204008157,
	"loss": 11.0158,
	"step": 73400
	},
	{
	"epoch": 11.76,
	"grad_norm": 0.22818398475646973,
	"learning_rate": 0.00029824860194407773,
	"loss": 10.8819,
	"step": 73500
	},
	{
	"epoch": 11.776,
	"grad_norm": 0.14601178467273712,
	"learning_rate": 0.0002982462018480739,
	"loss": 10.0593,
	"step": 73600
	},
	{
	"epoch": 11.792,
	"grad_norm": 0.2245131880044937,
	"learning_rate": 0.00029824380175207007,
	"loss": 10.6634,
	"step": 73700
	},
	{
	"epoch": 11.808,
	"grad_norm": 1.000320553779602,
	"learning_rate": 0.0002982414016560662,
	"loss": 10.961,
	"step": 73800
	},
	{
	"epoch": 11.824,
	"grad_norm": 0.18026384711265564,
	"learning_rate": 0.00029823900156006236,
	"loss": 11.1536,
	"step": 73900
	},
	{
	"epoch": 11.84,
	"grad_norm": 0.15758727490901947,
	"learning_rate": 0.0002982366014640585,
	"loss": 10.6586,
	"step": 74000
	},
	{
	"epoch": 11.856,
	"grad_norm": 0.19163353741168976,
	"learning_rate": 0.0002982342013680547,
	"loss": 11.0334,
	"step": 74100
	},
	{
	"epoch": 11.872,
	"grad_norm": 0.11467296630144119,
	"learning_rate": 0.00029823180127205086,
	"loss": 10.8224,
	"step": 74200
	},
	{
	"epoch": 11.888,
	"grad_norm": 0.15869416296482086,
	"learning_rate": 0.00029822940117604703,
	"loss": 10.4906,
	"step": 74300
	},
	{
	"epoch": 11.904,
	"grad_norm": 0.1966274380683899,
	"learning_rate": 0.00029822700108004315,
	"loss": 10.4152,
	"step": 74400
	},
	{
	"epoch": 11.92,
	"grad_norm": 0.16446225345134735,
	"learning_rate": 0.0002982246009840393,
	"loss": 10.4887,
	"step": 74500
	},
	{
	"epoch": 11.936,
	"grad_norm": 0.16940893232822418,
	"learning_rate": 0.0002982222008880355,
	"loss": 10.39,
	"step": 74600
	},
	{
	"epoch": 11.952,
	"grad_norm": 0.1838199496269226,
	"learning_rate": 0.00029821980079203166,
	"loss": 10.384,
	"step": 74700
	},
	{
	"epoch": 11.968,
	"grad_norm": 0.17523860931396484,
	"learning_rate": 0.0002982174006960278,
	"loss": 10.8568,
	"step": 74800
	},
	{
	"epoch": 11.984,
	"grad_norm": 0.1432792991399765,
	"learning_rate": 0.000298215000600024,
	"loss": 10.3596,
	"step": 74900
	},
	{
	"epoch": 12.0,
	"grad_norm": 0.20020250976085663,
	"learning_rate": 0.0002982126005040201,
	"loss": 10.14,
	"step": 75000
	},
	{
	"epoch": 12.016,
	"grad_norm": 0.19777518510818481,
	"learning_rate": 0.0002982102004080163,
	"loss": 10.9224,
	"step": 75100
	},
	{
	"epoch": 12.032,
	"grad_norm": 0.17126210033893585,
	"learning_rate": 0.00029820780031201245,
	"loss": 10.5306,
	"step": 75200
	},
	{
	"epoch": 12.048,
	"grad_norm": 0.16797253489494324,
	"learning_rate": 0.0002982054002160086,
	"loss": 10.8089,
	"step": 75300
	},
	{
	"epoch": 12.064,
	"grad_norm": 0.20862014591693878,
	"learning_rate": 0.0002982030001200048,
	"loss": 10.4757,
	"step": 75400
	},
	{
	"epoch": 12.08,
	"grad_norm": 0.18397895991802216,
	"learning_rate": 0.0002982006000240009,
	"loss": 9.9135,
	"step": 75500
	},
	{
	"epoch": 12.096,
	"grad_norm": 0.16641663014888763,
	"learning_rate": 0.00029819819992799707,
	"loss": 10.6077,
	"step": 75600
	},
	{
	"epoch": 12.112,
	"grad_norm": 0.16870319843292236,
	"learning_rate": 0.00029819579983199324,
	"loss": 10.5788,
	"step": 75700
	},
	{
	"epoch": 12.128,
	"grad_norm": 0.16674315929412842,
	"learning_rate": 0.0002981933997359894,
	"loss": 10.7791,
	"step": 75800
	},
	{
	"epoch": 12.144,
	"grad_norm": 0.1637590378522873,
	"learning_rate": 0.0002981909996399856,
	"loss": 10.0084,
	"step": 75900
	},
	{
	"epoch": 12.16,
	"grad_norm": 0.16165070235729218,
	"learning_rate": 0.00029818859954398175,
	"loss": 10.7957,
	"step": 76000
	},
	{
	"epoch": 12.176,
	"grad_norm": 0.1414174884557724,
	"learning_rate": 0.00029818619944797786,
	"loss": 9.8668,
	"step": 76100
	},
	{
	"epoch": 12.192,
	"grad_norm": 0.1490393877029419,
	"learning_rate": 0.00029818379935197403,
	"loss": 10.5844,
	"step": 76200
	},
	{
	"epoch": 12.208,
	"grad_norm": 0.15608841180801392,
	"learning_rate": 0.0002981813992559702,
	"loss": 10.7121,
	"step": 76300
	},
	{
	"epoch": 12.224,
	"grad_norm": 0.1658240258693695,
	"learning_rate": 0.00029817899915996637,
	"loss": 10.4018,
	"step": 76400
	},
	{
	"epoch": 12.24,
	"grad_norm": 0.1533997803926468,
	"learning_rate": 0.00029817659906396254,
	"loss": 10.0445,
	"step": 76500
	},
	{
	"epoch": 12.256,
	"grad_norm": 0.14606164395809174,
	"learning_rate": 0.00029817419896795865,
	"loss": 10.8624,
	"step": 76600
	},
	{
	"epoch": 12.272,
	"grad_norm": 0.1926526576280594,
	"learning_rate": 0.0002981717988719548,
	"loss": 9.9639,
	"step": 76700
	},
	{
	"epoch": 12.288,
	"grad_norm": 0.16846922039985657,
	"learning_rate": 0.000298169398775951,
	"loss": 10.4076,
	"step": 76800
	},
	{
	"epoch": 12.304,
	"grad_norm": 0.1497686505317688,
	"learning_rate": 0.00029816699867994716,
	"loss": 10.3741,
	"step": 76900
	},
	{
	"epoch": 12.32,
	"grad_norm": 0.17146418988704681,
	"learning_rate": 0.00029816459858394333,
	"loss": 10.6163,
	"step": 77000
	},
	{
	"epoch": 12.336,
	"grad_norm": 0.169904425740242,
	"learning_rate": 0.0002981621984879395,
	"loss": 10.0631,
	"step": 77100
	},
	{
	"epoch": 12.352,
	"grad_norm": 0.15850874781608582,
	"learning_rate": 0.00029815979839193567,
	"loss": 10.0799,
	"step": 77200
	},
	{
	"epoch": 12.368,
	"grad_norm": 0.15920597314834595,
	"learning_rate": 0.00029815739829593184,
	"loss": 9.6119,
	"step": 77300
	},
	{
	"epoch": 12.384,
	"grad_norm": 0.2246374636888504,
	"learning_rate": 0.000298154998199928,
	"loss": 10.3029,
	"step": 77400
	},
	{
	"epoch": 12.4,
	"grad_norm": 0.168796569108963,
	"learning_rate": 0.0002981525981039241,
	"loss": 10.3374,
	"step": 77500
	},
	{
	"epoch": 12.416,
	"grad_norm": 0.1864066869020462,
	"learning_rate": 0.0002981501980079203,
	"loss": 10.0087,
	"step": 77600
	},
	{
	"epoch": 12.432,
	"grad_norm": 0.14401012659072876,
	"learning_rate": 0.0002981478219128765,
	"loss": 10.1803,
	"step": 77700
	},
	{
	"epoch": 12.448,
	"grad_norm": 0.1375201791524887,
	"learning_rate": 0.00029814542181687265,
	"loss": 9.911,
	"step": 77800
	},
	{
	"epoch": 12.464,
	"grad_norm": 0.1398741900920868,
	"learning_rate": 0.0002981430217208688,
	"loss": 10.261,
	"step": 77900
	},
	{
	"epoch": 12.48,
	"grad_norm": 0.15873165428638458,
	"learning_rate": 0.000298140621624865,
	"loss": 10.7101,
	"step": 78000
	},
	{
	"epoch": 12.496,
	"grad_norm": 0.1714644730091095,
	"learning_rate": 0.0002981382215288611,
	"loss": 10.1714,
	"step": 78100
	},
	{
	"epoch": 12.512,
	"grad_norm": 0.1591562181711197,
	"learning_rate": 0.00029813582143285727,
	"loss": 10.1645,
	"step": 78200
	},
	{
	"epoch": 12.528,
	"grad_norm": 0.18264716863632202,
	"learning_rate": 0.00029813342133685344,
	"loss": 10.3564,
	"step": 78300
	},
	{
	"epoch": 12.544,
	"grad_norm": 0.1514509618282318,
	"learning_rate": 0.0002981310212408496,
	"loss": 10.0476,
	"step": 78400
	},
	{
	"epoch": 12.56,
	"grad_norm": 0.19021818041801453,
	"learning_rate": 0.0002981286211448458,
	"loss": 10.2492,
	"step": 78500
	},
	{
	"epoch": 12.576,
	"grad_norm": 0.21221980452537537,
	"learning_rate": 0.0002981262210488419,
	"loss": 9.7379,
	"step": 78600
	},
	{
	"epoch": 12.592,
	"grad_norm": 0.16575005650520325,
	"learning_rate": 0.00029812382095283806,
	"loss": 10.237,
	"step": 78700
	},
	{
	"epoch": 12.608,
	"grad_norm": 0.12602052092552185,
	"learning_rate": 0.00029812142085683423,
	"loss": 10.0729,
	"step": 78800
	},
	{
	"epoch": 12.624,
	"grad_norm": 0.23105710744857788,
	"learning_rate": 0.0002981190207608304,
	"loss": 9.8609,
	"step": 78900
	},
	{
	"epoch": 12.64,
	"grad_norm": 0.29600638151168823,
	"learning_rate": 0.00029811662066482657,
	"loss": 9.8653,
	"step": 79000
	},
	{
	"epoch": 12.656,
	"grad_norm": 0.19172607362270355,
	"learning_rate": 0.00029811422056882274,
	"loss": 9.8614,
	"step": 79100
	},
	{
	"epoch": 12.672,
	"grad_norm": 0.1930418759584427,
	"learning_rate": 0.00029811182047281886,
	"loss": 10.0208,
	"step": 79200
	},
	{
	"epoch": 12.688,
	"grad_norm": 0.12393278628587723,
	"learning_rate": 0.000298109420376815,
	"loss": 10.349,
	"step": 79300
	},
	{
	"epoch": 12.704,
	"grad_norm": 0.1565830409526825,
	"learning_rate": 0.0002981070202808112,
	"loss": 10.5402,
	"step": 79400
	},
	{
	"epoch": 12.72,
	"grad_norm": 0.13968247175216675,
	"learning_rate": 0.00029810462018480736,
	"loss": 9.9296,
	"step": 79500
	},
	{
	"epoch": 12.736,
	"grad_norm": 0.17765802145004272,
	"learning_rate": 0.00029810222008880353,
	"loss": 9.8002,
	"step": 79600
	},
	{
	"epoch": 12.752,
	"grad_norm": 0.23838719725608826,
	"learning_rate": 0.00029809981999279965,
	"loss": 9.8636,
	"step": 79700
	},
	{
	"epoch": 12.768,
	"grad_norm": 0.23086270689964294,
	"learning_rate": 0.0002980974438977559,
	"loss": 9.9585,
	"step": 79800
	},
	{
	"epoch": 12.784,
	"grad_norm": 0.14923255145549774,
	"learning_rate": 0.00029809504380175206,
	"loss": 9.5379,
	"step": 79900
	},
	{
	"epoch": 12.8,
	"grad_norm": 0.1599462628364563,
	"learning_rate": 0.00029809264370574823,
	"loss": 9.641,
	"step": 80000
	},
	{
	"epoch": 12.816,
	"grad_norm": 0.1716078370809555,
	"learning_rate": 0.00029809024360974434,
	"loss": 9.8697,
	"step": 80100
	},
	{
	"epoch": 12.832,
	"grad_norm": 0.19052661955356598,
	"learning_rate": 0.0002980878435137405,
	"loss": 9.6785,
	"step": 80200
	},
	{
	"epoch": 12.848,
	"grad_norm": 0.15575654804706573,
	"learning_rate": 0.0002980854434177367,
	"loss": 9.9394,
	"step": 80300
	},
	{
	"epoch": 12.864,
	"grad_norm": 0.19439518451690674,
	"learning_rate": 0.00029808304332173285,
	"loss": 9.5522,
	"step": 80400
	},
	{
	"epoch": 12.88,
	"grad_norm": 0.17798827588558197,
	"learning_rate": 0.000298080643225729,
	"loss": 9.9453,
	"step": 80500
	},
	{
	"epoch": 12.896,
	"grad_norm": 0.16586044430732727,
	"learning_rate": 0.00029807824312972513,
	"loss": 9.8505,
	"step": 80600
	},
	{
	"epoch": 12.912,
	"grad_norm": 0.15794214606285095,
	"learning_rate": 0.0002980758430337213,
	"loss": 10.0497,
	"step": 80700
	},
	{
	"epoch": 12.928,
	"grad_norm": 0.1685098111629486,
	"learning_rate": 0.0002980734429377175,
	"loss": 10.2658,
	"step": 80800
	},
	{
	"epoch": 12.943999999999999,
	"grad_norm": 0.16599301993846893,
	"learning_rate": 0.00029807104284171364,
	"loss": 9.837,
	"step": 80900
	},
	{
	"epoch": 12.96,
	"grad_norm": 0.14692434668540955,
	"learning_rate": 0.0002980686427457098,
	"loss": 10.1817,
	"step": 81000
	},
	{
	"epoch": 12.975999999999999,
	"grad_norm": 0.15374502539634705,
	"learning_rate": 0.000298066242649706,
	"loss": 10.1231,
	"step": 81100
	},
	{
	"epoch": 12.992,
	"grad_norm": 0.1369294375181198,
	"learning_rate": 0.0002980638425537021,
	"loss": 9.8245,
	"step": 81200
	},
	{
	"epoch": 13.008,
	"grad_norm": 0.20259645581245422,
	"learning_rate": 0.00029806144245769826,
	"loss": 9.7027,
	"step": 81300
	},
	{
	"epoch": 13.024,
	"grad_norm": 0.1258879452943802,
	"learning_rate": 0.00029805904236169443,
	"loss": 9.8863,
	"step": 81400
	},
	{
	"epoch": 13.04,
	"grad_norm": 0.14773085713386536,
	"learning_rate": 0.0002980566422656906,
	"loss": 9.4255,
	"step": 81500
	},
	{
	"epoch": 13.056,
	"grad_norm": 0.17212265729904175,
	"learning_rate": 0.00029805424216968677,
	"loss": 10.0506,
	"step": 81600
	},
	{
	"epoch": 13.072,
	"grad_norm": 0.179426372051239,
	"learning_rate": 0.0002980518420736829,
	"loss": 9.5137,
	"step": 81700
	},
	{
	"epoch": 13.088,
	"grad_norm": 0.15935377776622772,
	"learning_rate": 0.00029804944197767906,
	"loss": 9.3141,
	"step": 81800
	},
	{
	"epoch": 13.104,
	"grad_norm": 0.17460429668426514,
	"learning_rate": 0.0002980470418816752,
	"loss": 9.8005,
	"step": 81900
	},
	{
	"epoch": 13.12,
	"grad_norm": 0.20005491375923157,
	"learning_rate": 0.0002980446417856714,
	"loss": 9.7239,
	"step": 82000
	},
	{
	"epoch": 13.136,
	"grad_norm": 0.15051016211509705,
	"learning_rate": 0.00029804224168966756,
	"loss": 10.214,
	"step": 82100
	},
	{
	"epoch": 13.152,
	"grad_norm": 0.16659046709537506,
	"learning_rate": 0.00029803984159366373,
	"loss": 9.4695,
	"step": 82200
	},
	{
	"epoch": 13.168,
	"grad_norm": 0.16346730291843414,
	"learning_rate": 0.00029803744149765985,
	"loss": 9.5839,
	"step": 82300
	},
	{
	"epoch": 13.184,
	"grad_norm": 0.16145597398281097,
	"learning_rate": 0.000298035041401656,
	"loss": 9.2663,
	"step": 82400
	},
	{
	"epoch": 13.2,
	"grad_norm": 0.13834603130817413,
	"learning_rate": 0.00029803266530661226,
	"loss": 9.6926,
	"step": 82500
	},
	{
	"epoch": 13.216,
	"grad_norm": 0.17841538786888123,
	"learning_rate": 0.0002980302652106084,
	"loss": 9.4752,
	"step": 82600
	},
	{
	"epoch": 13.232,
	"grad_norm": 0.14639347791671753,
	"learning_rate": 0.00029802786511460454,
	"loss": 9.9606,
	"step": 82700
	},
	{
	"epoch": 13.248,
	"grad_norm": 0.15291540324687958,
	"learning_rate": 0.0002980254650186007,
	"loss": 9.9284,
	"step": 82800
	},
	{
	"epoch": 13.264,
	"grad_norm": 0.15908333659172058,
	"learning_rate": 0.0002980230649225969,
	"loss": 9.5464,
	"step": 82900
	},
	{
	"epoch": 13.28,
	"grad_norm": 0.16768860816955566,
	"learning_rate": 0.00029802066482659305,
	"loss": 10.2164,
	"step": 83000
	},
	{
	"epoch": 13.296,
	"grad_norm": 0.18221326172351837,
	"learning_rate": 0.0002980182647305892,
	"loss": 9.6566,
	"step": 83100
	},
	{
	"epoch": 13.312,
	"grad_norm": 0.13944192230701447,
	"learning_rate": 0.00029801586463458534,
	"loss": 9.4149,
	"step": 83200
	},
	{
	"epoch": 13.328,
	"grad_norm": 0.20090098679065704,
	"learning_rate": 0.0002980134645385815,
	"loss": 9.1968,
	"step": 83300
	},
	{
	"epoch": 13.344,
	"grad_norm": 0.17636704444885254,
	"learning_rate": 0.0002980110644425777,
	"loss": 9.4497,
	"step": 83400
	},
	{
	"epoch": 13.36,
	"grad_norm": 0.19672048091888428,
	"learning_rate": 0.00029800866434657384,
	"loss": 9.3083,
	"step": 83500
	},
	{
	"epoch": 13.376,
	"grad_norm": 0.1991618573665619,
	"learning_rate": 0.00029800626425057,
	"loss": 9.59,
	"step": 83600
	},
	{
	"epoch": 13.392,
	"grad_norm": 0.17260773479938507,
	"learning_rate": 0.00029800386415456613,
	"loss": 9.9553,
	"step": 83700
	},
	{
	"epoch": 13.408,
	"grad_norm": 0.13101576268672943,
	"learning_rate": 0.0002980014640585623,
	"loss": 10.0732,
	"step": 83800
	},
	{
	"epoch": 13.424,
	"grad_norm": 0.16349157691001892,
	"learning_rate": 0.00029799906396255847,
	"loss": 9.8363,
	"step": 83900
	},
	{
	"epoch": 13.44,
	"grad_norm": 0.1792200654745102,
	"learning_rate": 0.00029799666386655464,
	"loss": 9.9456,
	"step": 84000
	},
	{
	"epoch": 13.456,
	"grad_norm": 0.13476693630218506,
	"learning_rate": 0.0002979942637705508,
	"loss": 9.4642,
	"step": 84100
	},
	{
	"epoch": 13.472,
	"grad_norm": 0.17343075573444366,
	"learning_rate": 0.000297991863674547,
	"loss": 9.4041,
	"step": 84200
	},
	{
	"epoch": 13.488,
	"grad_norm": 0.16127794981002808,
	"learning_rate": 0.0002979894635785431,
	"loss": 9.2465,
	"step": 84300
	},
	{
	"epoch": 13.504,
	"grad_norm": 0.14993996918201447,
	"learning_rate": 0.00029798706348253926,
	"loss": 9.5946,
	"step": 84400
	},
	{
	"epoch": 13.52,
	"grad_norm": 0.21931160986423492,
	"learning_rate": 0.0002979846873874955,
	"loss": 9.5796,
	"step": 84500
	},
	{
	"epoch": 13.536,
	"grad_norm": 0.15303994715213776,
	"learning_rate": 0.0002979822872914916,
	"loss": 9.4222,
	"step": 84600
	},
	{
	"epoch": 13.552,
	"grad_norm": 0.1905248612165451,
	"learning_rate": 0.0002979798871954878,
	"loss": 9.4192,
	"step": 84700
	},
	{
	"epoch": 13.568,
	"grad_norm": 0.17656217515468597,
	"learning_rate": 0.00029797748709948395,
	"loss": 9.685,
	"step": 84800
	},
	{
	"epoch": 13.584,
	"grad_norm": 0.31464865803718567,
	"learning_rate": 0.0002979750870034801,
	"loss": 9.4839,
	"step": 84900
	},
	{
	"epoch": 13.6,
	"grad_norm": 0.20140250027179718,
	"learning_rate": 0.0002979726869074763,
	"loss": 9.4393,
	"step": 85000
	},
	{
	"epoch": 13.616,
	"grad_norm": 0.1453031599521637,
	"learning_rate": 0.00029797028681147246,
	"loss": 9.4777,
	"step": 85100
	},
	{
	"epoch": 13.632,
	"grad_norm": 0.15559718012809753,
	"learning_rate": 0.0002979678867154686,
	"loss": 9.7772,
	"step": 85200
	},
	{
	"epoch": 13.648,
	"grad_norm": 0.16849826276302338,
	"learning_rate": 0.00029796548661946475,
	"loss": 9.0954,
	"step": 85300
	},
	{
	"epoch": 13.664,
	"grad_norm": 0.15798023343086243,
	"learning_rate": 0.0002979630865234609,
	"loss": 9.7756,
	"step": 85400
	},
	{
	"epoch": 13.68,
	"grad_norm": 0.0940115824341774,
	"learning_rate": 0.0002979606864274571,
	"loss": 9.9294,
	"step": 85500
	},
	{
	"epoch": 13.696,
	"grad_norm": 0.18608032166957855,
	"learning_rate": 0.00029795828633145325,
	"loss": 9.4524,
	"step": 85600
	},
	{
	"epoch": 13.712,
	"grad_norm": 0.16172797977924347,
	"learning_rate": 0.00029795588623544937,
	"loss": 9.6146,
	"step": 85700
	},
	{
	"epoch": 13.728,
	"grad_norm": 0.1493913233280182,
	"learning_rate": 0.00029795348613944554,
	"loss": 8.8783,
	"step": 85800
	},
	{
	"epoch": 13.744,
	"grad_norm": 0.1365765631198883,
	"learning_rate": 0.0002979510860434417,
	"loss": 9.4707,
	"step": 85900
	},
	{
	"epoch": 13.76,
	"grad_norm": 0.17814397811889648,
	"learning_rate": 0.0002979486859474379,
	"loss": 9.4121,
	"step": 86000
	},
	{
	"epoch": 13.776,
	"grad_norm": 0.16484831273555756,
	"learning_rate": 0.00029794628585143405,
	"loss": 9.0902,
	"step": 86100
	},
	{
	"epoch": 13.792,
	"grad_norm": 0.1435382217168808,
	"learning_rate": 0.0002979438857554302,
	"loss": 9.4565,
	"step": 86200
	},
	{
	"epoch": 13.808,
	"grad_norm": 0.1451929211616516,
	"learning_rate": 0.00029794148565942633,
	"loss": 9.6377,
	"step": 86300
	},
	{
	"epoch": 13.824,
	"grad_norm": 0.1439056396484375,
	"learning_rate": 0.0002979390855634225,
	"loss": 9.2624,
	"step": 86400
	},
	{
	"epoch": 13.84,
	"grad_norm": 0.1712324023246765,
	"learning_rate": 0.00029793668546741867,
	"loss": 9.2021,
	"step": 86500
	},
	{
	"epoch": 13.856,
	"grad_norm": 0.15382009744644165,
	"learning_rate": 0.00029793428537141484,
	"loss": 8.8688,
	"step": 86600
	},
	{
	"epoch": 13.872,
	"grad_norm": 0.14327426254749298,
	"learning_rate": 0.000297931885275411,
	"loss": 9.2336,
	"step": 86700
	},
	{
	"epoch": 13.888,
	"grad_norm": 0.21682417392730713,
	"learning_rate": 0.0002979294851794071,
	"loss": 8.9508,
	"step": 86800
	},
	{
	"epoch": 13.904,
	"grad_norm": 0.18012550473213196,
	"learning_rate": 0.0002979270850834033,
	"loss": 8.8259,
	"step": 86900
	},
	{
	"epoch": 13.92,
	"grad_norm": 0.19224317371845245,
	"learning_rate": 0.00029792468498739946,
	"loss": 9.0594,
	"step": 87000
	},
	{
	"epoch": 13.936,
	"grad_norm": 0.14684438705444336,
	"learning_rate": 0.00029792228489139563,
	"loss": 8.6664,
	"step": 87100
	},
	{
	"epoch": 13.952,
	"grad_norm": 0.15808767080307007,
	"learning_rate": 0.0002979198847953918,
	"loss": 8.8133,
	"step": 87200
	},
	{
	"epoch": 13.968,
	"grad_norm": 0.1466471403837204,
	"learning_rate": 0.00029791748469938797,
	"loss": 9.2512,
	"step": 87300
	},
	{
	"epoch": 13.984,
	"grad_norm": 0.13929226994514465,
	"learning_rate": 0.0002979150846033841,
	"loss": 9.0263,
	"step": 87400
	},
	{
	"epoch": 14.0,
	"grad_norm": 0.1410779356956482,
	"learning_rate": 0.00029791268450738025,
	"loss": 9.0906,
	"step": 87500
	},
	{
	"epoch": 14.016,
	"grad_norm": 0.16633394360542297,
	"learning_rate": 0.0002979102844113764,
	"loss": 8.8764,
	"step": 87600
	},
	{
	"epoch": 14.032,
	"grad_norm": 0.19240239262580872,
	"learning_rate": 0.0002979078843153726,
	"loss": 8.6873,
	"step": 87700
	},
	{
	"epoch": 14.048,
	"grad_norm": 0.2285340428352356,
	"learning_rate": 0.00029790548421936876,
	"loss": 8.7636,
	"step": 87800
	},
	{
	"epoch": 14.064,
	"grad_norm": 0.16399361193180084,
	"learning_rate": 0.0002979030841233649,
	"loss": 9.3241,
	"step": 87900
	},
	{
	"epoch": 14.08,
	"grad_norm": 0.14966578781604767,
	"learning_rate": 0.00029790068402736104,
	"loss": 9.0301,
	"step": 88000
	},
	{
	"epoch": 14.096,
	"grad_norm": 0.17241202294826508,
	"learning_rate": 0.0002978982839313572,
	"loss": 8.9678,
	"step": 88100
	},
	{
	"epoch": 14.112,
	"grad_norm": 0.13520659506320953,
	"learning_rate": 0.0002978958838353534,
	"loss": 9.0678,
	"step": 88200
	},
	{
	"epoch": 14.128,
	"grad_norm": 0.15996631979942322,
	"learning_rate": 0.00029789348373934955,
	"loss": 8.7807,
	"step": 88300
	},
	{
	"epoch": 14.144,
	"grad_norm": 0.14483466744422913,
	"learning_rate": 0.0002978910836433457,
	"loss": 8.6088,
	"step": 88400
	},
	{
	"epoch": 14.16,
	"grad_norm": 0.15150679647922516,
	"learning_rate": 0.00029788868354734183,
	"loss": 9.2128,
	"step": 88500
	},
	{
	"epoch": 14.176,
	"grad_norm": 0.1668185293674469,
	"learning_rate": 0.0002978863074522981,
	"loss": 9.518,
	"step": 88600
	},
	{
	"epoch": 14.192,
	"grad_norm": 0.17209367454051971,
	"learning_rate": 0.00029788393135725427,
	"loss": 8.5952,
	"step": 88700
	},
	{
	"epoch": 14.208,
	"grad_norm": 0.15907296538352966,
	"learning_rate": 0.00029788155526221045,
	"loss": 8.7632,
	"step": 88800
	},
	{
	"epoch": 14.224,
	"grad_norm": 0.18298570811748505,
	"learning_rate": 0.0002978791551662066,
	"loss": 8.8021,
	"step": 88900
	},
	{
	"epoch": 14.24,
	"grad_norm": 0.19813942909240723,
	"learning_rate": 0.0002978767550702028,
	"loss": 9.1381,
	"step": 89000
	},
	{
	"epoch": 14.256,
	"grad_norm": 0.1819518506526947,
	"learning_rate": 0.00029787435497419896,
	"loss": 9.3086,
	"step": 89100
	},
	{
	"epoch": 14.272,
	"grad_norm": 0.1506895273923874,
	"learning_rate": 0.0002978719548781951,
	"loss": 8.7471,
	"step": 89200
	},
	{
	"epoch": 14.288,
	"grad_norm": 0.1686287224292755,
	"learning_rate": 0.00029786955478219125,
	"loss": 8.8441,
	"step": 89300
	},
	{
	"epoch": 14.304,
	"grad_norm": 0.1486745923757553,
	"learning_rate": 0.0002978671546861874,
	"loss": 9.1216,
	"step": 89400
	},
	{
	"epoch": 14.32,
	"grad_norm": 0.18762429058551788,
	"learning_rate": 0.0002978647545901836,
	"loss": 9.402,
	"step": 89500
	},
	{
	"epoch": 14.336,
	"grad_norm": 0.13964596390724182,
	"learning_rate": 0.00029786235449417975,
	"loss": 9.2773,
	"step": 89600
	},
	{
	"epoch": 14.352,
	"grad_norm": 0.2629782557487488,
	"learning_rate": 0.00029785995439817587,
	"loss": 9.05,
	"step": 89700
	},
	{
	"epoch": 14.368,
	"grad_norm": 0.12668898701667786,
	"learning_rate": 0.00029785755430217204,
	"loss": 8.8949,
	"step": 89800
	},
	{
	"epoch": 14.384,
	"grad_norm": 0.14362965524196625,
	"learning_rate": 0.0002978551542061682,
	"loss": 8.6261,
	"step": 89900
	},
	{
	"epoch": 14.4,
	"grad_norm": 0.16700971126556396,
	"learning_rate": 0.0002978527541101644,
	"loss": 8.8621,
	"step": 90000
	},
	{
	"epoch": 14.416,
	"grad_norm": 0.1597680300474167,
	"learning_rate": 0.00029785035401416055,
	"loss": 9.1614,
	"step": 90100
	},
	{
	"epoch": 14.432,
	"grad_norm": 0.16268526017665863,
	"learning_rate": 0.0002978479539181567,
	"loss": 9.2429,
	"step": 90200
	},
	{
	"epoch": 14.448,
	"grad_norm": 0.19829140603542328,
	"learning_rate": 0.00029784555382215283,
	"loss": 8.6337,
	"step": 90300
	},
	{
	"epoch": 14.464,
	"grad_norm": 0.1362706571817398,
	"learning_rate": 0.000297843153726149,
	"loss": 8.5578,
	"step": 90400
	},
	{
	"epoch": 14.48,
	"grad_norm": 0.17475652694702148,
	"learning_rate": 0.00029784075363014517,
	"loss": 9.3407,
	"step": 90500
	},
	{
	"epoch": 14.496,
	"grad_norm": 0.139988973736763,
	"learning_rate": 0.00029783835353414134,
	"loss": 8.9509,
	"step": 90600
	},
	{
	"epoch": 14.512,
	"grad_norm": 0.15270425379276276,
	"learning_rate": 0.0002978359534381375,
	"loss": 8.6833,
	"step": 90700
	},
	{
	"epoch": 14.528,
	"grad_norm": 0.12172385305166245,
	"learning_rate": 0.0002978335533421336,
	"loss": 8.1913,
	"step": 90800
	},
	{
	"epoch": 14.544,
	"grad_norm": 0.18453091382980347,
	"learning_rate": 0.0002978311532461298,
	"loss": 9.0573,
	"step": 90900
	},
	{
	"epoch": 14.56,
	"grad_norm": 0.12650534510612488,
	"learning_rate": 0.00029782875315012596,
	"loss": 8.8951,
	"step": 91000
	},
	{
	"epoch": 14.576,
	"grad_norm": 0.19508056342601776,
	"learning_rate": 0.00029782635305412213,
	"loss": 8.8831,
	"step": 91100
	},
	{
	"epoch": 14.592,
	"grad_norm": 0.12826193869113922,
	"learning_rate": 0.0002978239529581183,
	"loss": 8.7428,
	"step": 91200
	},
	{
	"epoch": 14.608,
	"grad_norm": 0.16497032344341278,
	"learning_rate": 0.00029782155286211447,
	"loss": 9.226,
	"step": 91300
	},
	{
	"epoch": 14.624,
	"grad_norm": 0.1467789113521576,
	"learning_rate": 0.0002978191527661106,
	"loss": 8.56,
	"step": 91400
	},
	{
	"epoch": 14.64,
	"grad_norm": 0.13535846769809723,
	"learning_rate": 0.00029781675267010675,
	"loss": 9.2005,
	"step": 91500
	},
	{
	"epoch": 14.656,
	"grad_norm": 0.2261963039636612,
	"learning_rate": 0.000297814352574103,
	"loss": 8.9913,
	"step": 91600
	},
	{
	"epoch": 14.672,
	"grad_norm": 0.16329319775104523,
	"learning_rate": 0.0002978119524780991,
	"loss": 8.8455,
	"step": 91700
	},
	{
	"epoch": 14.688,
	"grad_norm": 0.14644941687583923,
	"learning_rate": 0.00029780955238209526,
	"loss": 8.8035,
	"step": 91800
	},
	{
	"epoch": 14.704,
	"grad_norm": 0.17719560861587524,
	"learning_rate": 0.00029780715228609143,
	"loss": 8.9548,
	"step": 91900
	},
	{
	"epoch": 14.72,
	"grad_norm": 0.17204242944717407,
	"learning_rate": 0.0002978047521900876,
	"loss": 8.9065,
	"step": 92000
	},
	{
	"epoch": 14.736,
	"grad_norm": 0.15323054790496826,
	"learning_rate": 0.00029780235209408377,
	"loss": 8.642,
	"step": 92100
	},
	{
	"epoch": 14.752,
	"grad_norm": 0.12264496088027954,
	"learning_rate": 0.00029779995199807994,
	"loss": 8.7372,
	"step": 92200
	},
	{
	"epoch": 14.768,
	"grad_norm": 0.13607698678970337,
	"learning_rate": 0.00029779755190207605,
	"loss": 8.649,
	"step": 92300
	},
	{
	"epoch": 14.784,
	"grad_norm": 0.1529749035835266,
	"learning_rate": 0.0002977951518060722,
	"loss": 8.6928,
	"step": 92400
	},
	{
	"epoch": 14.8,
	"grad_norm": 0.14829668402671814,
	"learning_rate": 0.0002977927517100684,
	"loss": 8.2178,
	"step": 92500
	},
	{
	"epoch": 14.816,
	"grad_norm": 0.15614420175552368,
	"learning_rate": 0.00029779035161406456,
	"loss": 8.4939,
	"step": 92600
	},
	{
	"epoch": 14.832,
	"grad_norm": 0.18708457052707672,
	"learning_rate": 0.00029778795151806073,
	"loss": 8.4044,
	"step": 92700
	},
	{
	"epoch": 14.848,
	"grad_norm": 0.1700950413942337,
	"learning_rate": 0.00029778555142205684,
	"loss": 9.142,
	"step": 92800
	},
	{
	"epoch": 14.864,
	"grad_norm": 0.17176997661590576,
	"learning_rate": 0.000297783151326053,
	"loss": 8.3459,
	"step": 92900
	},
	{
	"epoch": 14.88,
	"grad_norm": 0.17668530344963074,
	"learning_rate": 0.0002977807512300492,
	"loss": 8.4129,
	"step": 93000
	},
	{
	"epoch": 14.896,
	"grad_norm": 0.13708771765232086,
	"learning_rate": 0.00029777835113404535,
	"loss": 8.6625,
	"step": 93100
	},
	{
	"epoch": 14.912,
	"grad_norm": 0.2073189914226532,
	"learning_rate": 0.00029777597503900154,
	"loss": 8.8295,
	"step": 93200
	},
	{
	"epoch": 14.928,
	"grad_norm": 0.1584160029888153,
	"learning_rate": 0.0002977735749429977,
	"loss": 8.2892,
	"step": 93300
	},
	{
	"epoch": 14.943999999999999,
	"grad_norm": 0.13419002294540405,
	"learning_rate": 0.0002977711748469938,
	"loss": 8.6564,
	"step": 93400
	},
	{
	"epoch": 14.96,
	"grad_norm": 0.12294425070285797,
	"learning_rate": 0.00029776877475099,
	"loss": 8.6937,
	"step": 93500
	},
	{
	"epoch": 14.975999999999999,
	"grad_norm": 0.12022320926189423,
	"learning_rate": 0.00029776637465498616,
	"loss": 8.6577,
	"step": 93600
	},
	{
	"epoch": 14.992,
	"grad_norm": 0.1635560393333435,
	"learning_rate": 0.00029776397455898233,
	"loss": 8.4075,
	"step": 93700
	},
	{
	"epoch": 15.008,
	"grad_norm": 0.12280473113059998,
	"learning_rate": 0.0002977615744629785,
	"loss": 8.3065,
	"step": 93800
	},
	{
	"epoch": 15.024,
	"grad_norm": 0.14091894030570984,
	"learning_rate": 0.0002977591743669746,
	"loss": 8.3845,
	"step": 93900
	},
	{
	"epoch": 15.04,
	"grad_norm": 0.16942408680915833,
	"learning_rate": 0.0002977567742709708,
	"loss": 8.2751,
	"step": 94000
	},
	{
	"epoch": 15.056,
	"grad_norm": 0.1858222782611847,
	"learning_rate": 0.00029775437417496695,
	"loss": 8.5152,
	"step": 94100
	},
	{
	"epoch": 15.072,
	"grad_norm": 0.15426284074783325,
	"learning_rate": 0.0002977519740789631,
	"loss": 8.2321,
	"step": 94200
	},
	{
	"epoch": 15.088,
	"grad_norm": 0.13960111141204834,
	"learning_rate": 0.0002977495739829593,
	"loss": 8.4343,
	"step": 94300
	},
	{
	"epoch": 15.104,
	"grad_norm": 0.1927483230829239,
	"learning_rate": 0.00029774717388695546,
	"loss": 8.26,
	"step": 94400
	},
	{
	"epoch": 15.12,
	"grad_norm": 0.15174433588981628,
	"learning_rate": 0.0002977447737909516,
	"loss": 8.665,
	"step": 94500
	},
	{
	"epoch": 15.136,
	"grad_norm": 0.14686360955238342,
	"learning_rate": 0.00029774237369494774,
	"loss": 8.0608,
	"step": 94600
	},
	{
	"epoch": 15.152,
	"grad_norm": 0.15865716338157654,
	"learning_rate": 0.00029773997359894397,
	"loss": 8.4204,
	"step": 94700
	},
	{
	"epoch": 15.168,
	"grad_norm": 0.14913444221019745,
	"learning_rate": 0.0002977375735029401,
	"loss": 8.5544,
	"step": 94800
	},
	{
	"epoch": 15.184,
	"grad_norm": 0.12727545201778412,
	"learning_rate": 0.00029773517340693625,
	"loss": 7.9671,
	"step": 94900
	},
	{
	"epoch": 15.2,
	"grad_norm": 0.18612131476402283,
	"learning_rate": 0.0002977327733109324,
	"loss": 8.5797,
	"step": 95000
	},
	{
	"epoch": 15.216,
	"grad_norm": 0.1876545250415802,
	"learning_rate": 0.0002977303732149286,
	"loss": 8.3126,
	"step": 95100
	},
	{
	"epoch": 15.232,
	"grad_norm": 0.45961084961891174,
	"learning_rate": 0.00029772797311892476,
	"loss": 8.772,
	"step": 95200
	},
	{
	"epoch": 15.248,
	"grad_norm": 0.16763293743133545,
	"learning_rate": 0.00029772557302292093,
	"loss": 8.6089,
	"step": 95300
	},
	{
	"epoch": 15.264,
	"grad_norm": 0.17058174312114716,
	"learning_rate": 0.00029772317292691704,
	"loss": 8.5425,
	"step": 95400
	},
	{
	"epoch": 15.28,
	"grad_norm": 0.17006829380989075,
	"learning_rate": 0.0002977207728309132,
	"loss": 8.8057,
	"step": 95500
	},
	{
	"epoch": 15.296,
	"grad_norm": 0.09077399969100952,
	"learning_rate": 0.0002977183727349094,
	"loss": 8.343,
	"step": 95600
	},
	{
	"epoch": 15.312,
	"grad_norm": 0.0950964093208313,
	"learning_rate": 0.00029771599663986557,
	"loss": 8.3518,
	"step": 95700
	},
	{
	"epoch": 15.328,
	"grad_norm": 0.14622962474822998,
	"learning_rate": 0.00029771359654386174,
	"loss": 8.1654,
	"step": 95800
	},
	{
	"epoch": 15.344,
	"grad_norm": 0.16222132742404938,
	"learning_rate": 0.00029771119644785785,
	"loss": 8.6123,
	"step": 95900
	},
	{
	"epoch": 15.36,
	"grad_norm": 0.13185660541057587,
	"learning_rate": 0.000297708796351854,
	"loss": 8.6665,
	"step": 96000
	},
	{
	"epoch": 15.376,
	"grad_norm": 0.1910812258720398,
	"learning_rate": 0.0002977063962558502,
	"loss": 8.2323,
	"step": 96100
	},
	{
	"epoch": 15.392,
	"grad_norm": 0.18493321537971497,
	"learning_rate": 0.00029770399615984636,
	"loss": 8.2076,
	"step": 96200
	},
	{
	"epoch": 15.408,
	"grad_norm": 0.15737323462963104,
	"learning_rate": 0.00029770159606384253,
	"loss": 8.4031,
	"step": 96300
	},
	{
	"epoch": 15.424,
	"grad_norm": 0.1808168590068817,
	"learning_rate": 0.0002976991959678387,
	"loss": 8.0816,
	"step": 96400
	},
	{
	"epoch": 15.44,
	"grad_norm": 0.12530648708343506,
	"learning_rate": 0.0002976967958718348,
	"loss": 8.0609,
	"step": 96500
	},
	{
	"epoch": 15.456,
	"grad_norm": 0.12963543832302094,
	"learning_rate": 0.000297694395775831,
	"loss": 8.092,
	"step": 96600
	},
	{
	"epoch": 15.472,
	"grad_norm": 0.1329260617494583,
	"learning_rate": 0.00029769199567982715,
	"loss": 8.4219,
	"step": 96700
	},
	{
	"epoch": 15.488,
	"grad_norm": 0.1603865921497345,
	"learning_rate": 0.0002976895955838233,
	"loss": 7.8878,
	"step": 96800
	},
	{
	"epoch": 15.504,
	"grad_norm": 0.16902674734592438,
	"learning_rate": 0.0002976871954878195,
	"loss": 8.2197,
	"step": 96900
	},
	{
	"epoch": 15.52,
	"grad_norm": 0.15807543694972992,
	"learning_rate": 0.0002976847953918156,
	"loss": 7.937,
	"step": 97000
	},
	{
	"epoch": 15.536,
	"grad_norm": 0.15132875740528107,
	"learning_rate": 0.0002976823952958118,
	"loss": 8.6177,
	"step": 97100
	},
	{
	"epoch": 15.552,
	"grad_norm": 0.1347590982913971,
	"learning_rate": 0.00029767999519980795,
	"loss": 8.7107,
	"step": 97200
	},
	{
	"epoch": 15.568,
	"grad_norm": 0.16151072084903717,
	"learning_rate": 0.0002976775951038041,
	"loss": 8.4782,
	"step": 97300
	},
	{
	"epoch": 15.584,
	"grad_norm": 0.194889098405838,
	"learning_rate": 0.0002976751950078003,
	"loss": 8.128,
	"step": 97400
	},
	{
	"epoch": 15.6,
	"grad_norm": 0.18148979544639587,
	"learning_rate": 0.00029767279491179645,
	"loss": 8.3591,
	"step": 97500
	},
	{
	"epoch": 15.616,
	"grad_norm": 0.1610337197780609,
	"learning_rate": 0.00029767039481579257,
	"loss": 8.8492,
	"step": 97600
	},
	{
	"epoch": 15.632,
	"grad_norm": 0.15079425275325775,
	"learning_rate": 0.00029766799471978874,
	"loss": 8.2512,
	"step": 97700
	},
	{
	"epoch": 15.648,
	"grad_norm": 0.1274147629737854,
	"learning_rate": 0.0002976655946237849,
	"loss": 8.2239,
	"step": 97800
	},
	{
	"epoch": 15.664,
	"grad_norm": 0.14330662786960602,
	"learning_rate": 0.0002976631945277811,
	"loss": 8.3046,
	"step": 97900
	},
	{
	"epoch": 15.68,
	"grad_norm": 0.17394746840000153,
	"learning_rate": 0.00029766079443177725,
	"loss": 8.2542,
	"step": 98000
	},
	{
	"epoch": 15.696,
	"grad_norm": 0.15639960765838623,
	"learning_rate": 0.0002976583943357734,
	"loss": 8.3993,
	"step": 98100
	},
	{
	"epoch": 15.712,
	"grad_norm": 0.12845559418201447,
	"learning_rate": 0.0002976559942397696,
	"loss": 8.2055,
	"step": 98200
	},
	{
	"epoch": 15.728,
	"grad_norm": 0.1673252284526825,
	"learning_rate": 0.00029765359414376575,
	"loss": 8.2969,
	"step": 98300
	},
	{
	"epoch": 15.744,
	"grad_norm": 0.12345835566520691,
	"learning_rate": 0.0002976511940477619,
	"loss": 8.4381,
	"step": 98400
	},
	{
	"epoch": 15.76,
	"grad_norm": 0.19648896157741547,
	"learning_rate": 0.00029764879395175804,
	"loss": 8.0932,
	"step": 98500
	},
	{
	"epoch": 15.776,
	"grad_norm": 0.14960013329982758,
	"learning_rate": 0.0002976463938557542,
	"loss": 8.4303,
	"step": 98600
	},
	{
	"epoch": 15.792,
	"grad_norm": 0.19554351270198822,
	"learning_rate": 0.0002976439937597504,
	"loss": 8.0159,
	"step": 98700
	},
	{
	"epoch": 15.808,
	"grad_norm": 0.1545807123184204,
	"learning_rate": 0.00029764159366374654,
	"loss": 8.0277,
	"step": 98800
	},
	{
	"epoch": 15.824,
	"grad_norm": 0.11705837398767471,
	"learning_rate": 0.0002976391935677427,
	"loss": 8.2474,
	"step": 98900
	},
	{
	"epoch": 15.84,
	"grad_norm": 0.16222915053367615,
	"learning_rate": 0.00029763679347173883,
	"loss": 7.8129,
	"step": 99000
	},
	{
	"epoch": 15.856,
	"grad_norm": 0.18901053071022034,
	"learning_rate": 0.000297634393375735,
	"loss": 8.3068,
	"step": 99100
	},
	{
	"epoch": 15.872,
	"grad_norm": 0.13031688332557678,
	"learning_rate": 0.00029763199327973117,
	"loss": 8.1526,
	"step": 99200
	},
	{
	"epoch": 15.888,
	"grad_norm": 0.17539045214653015,
	"learning_rate": 0.00029762959318372734,
	"loss": 7.7545,
	"step": 99300
	},
	{
	"epoch": 15.904,
	"grad_norm": NaN,
	"learning_rate": 0.0002976271930877235,
	"loss": 7.8745,
	"step": 99400
	},
	{
	"epoch": 15.92,
	"grad_norm": 0.17992717027664185,
	"learning_rate": 0.0002976248169926797,
	"loss": 7.9663,
	"step": 99500
	},
	{
	"epoch": 15.936,
	"grad_norm": 0.40667879581451416,
	"learning_rate": 0.0002976224168966758,
	"loss": 8.1505,
	"step": 99600
	},
	{
	"epoch": 15.952,
	"grad_norm": 0.15805494785308838,
	"learning_rate": 0.000297620016800672,
	"loss": 8.4417,
	"step": 99700
	},
	{
	"epoch": 15.968,
	"grad_norm": 0.16626039147377014,
	"learning_rate": 0.00029761761670466815,
	"loss": 8.2951,
	"step": 99800
	},
	{
	"epoch": 15.984,
	"grad_norm": 0.14239948987960815,
	"learning_rate": 0.0002976152166086643,
	"loss": 8.3205,
	"step": 99900
	},
	{
	"epoch": 16.0,
	"grad_norm": 0.24553033709526062,
	"learning_rate": 0.0002976128165126605,
	"loss": 8.2056,
	"step": 100000
	},
	{
	"epoch": 16.016,
	"grad_norm": 0.18159309029579163,
	"learning_rate": 0.0002976104164166566,
	"loss": 7.9151,
	"step": 100100
	},
	{
	"epoch": 16.032,
	"grad_norm": 0.16968666017055511,
	"learning_rate": 0.00029760801632065277,
	"loss": 7.8903,
	"step": 100200
	},
	{
	"epoch": 16.048,
	"grad_norm": 0.1661410927772522,
	"learning_rate": 0.00029760561622464894,
	"loss": 8.3051,
	"step": 100300
	},
	{
	"epoch": 16.064,
	"grad_norm": 0.1526879370212555,
	"learning_rate": 0.0002976032161286451,
	"loss": 7.8435,
	"step": 100400
	},
	{
	"epoch": 16.08,
	"grad_norm": 0.14917099475860596,
	"learning_rate": 0.0002976008160326413,
	"loss": 8.0571,
	"step": 100500
	},
	{
	"epoch": 16.096,
	"grad_norm": 0.15157845616340637,
	"learning_rate": 0.00029759841593663745,
	"loss": 8.0002,
	"step": 100600
	},
	{
	"epoch": 16.112,
	"grad_norm": 0.1487221121788025,
	"learning_rate": 0.00029759601584063356,
	"loss": 7.864,
	"step": 100700
	},
	{
	"epoch": 16.128,
	"grad_norm": 0.1397908627986908,
	"learning_rate": 0.00029759361574462973,
	"loss": 8.0639,
	"step": 100800
	},
	{
	"epoch": 16.144,
	"grad_norm": 0.1495772898197174,
	"learning_rate": 0.0002975912156486259,
	"loss": 7.8346,
	"step": 100900
	},
	{
	"epoch": 16.16,
	"grad_norm": 0.17440412938594818,
	"learning_rate": 0.00029758881555262207,
	"loss": 8.1732,
	"step": 101000
	},
	{
	"epoch": 16.176,
	"grad_norm": 0.15802791714668274,
	"learning_rate": 0.00029758641545661824,
	"loss": 7.9528,
	"step": 101100
	},
	{
	"epoch": 16.192,
	"grad_norm": 0.15488143265247345,
	"learning_rate": 0.0002975840153606144,
	"loss": 7.8414,
	"step": 101200
	},
	{
	"epoch": 16.208,
	"grad_norm": 0.1365291178226471,
	"learning_rate": 0.0002975816152646106,
	"loss": 7.9363,
	"step": 101300
	},
	{
	"epoch": 16.224,
	"grad_norm": 0.13933680951595306,
	"learning_rate": 0.00029757921516860675,
	"loss": 7.5429,
	"step": 101400
	},
	{
	"epoch": 16.24,
	"grad_norm": 0.19280196726322174,
	"learning_rate": 0.0002975768150726029,
	"loss": 7.913,
	"step": 101500
	},
	{
	"epoch": 16.256,
	"grad_norm": 0.11700501292943954,
	"learning_rate": 0.00029757441497659903,
	"loss": 8.0237,
	"step": 101600
	},
	{
	"epoch": 16.272,
	"grad_norm": 0.16518530249595642,
	"learning_rate": 0.0002975720388815552,
	"loss": 7.8771,
	"step": 101700
	},
	{
	"epoch": 16.288,
	"grad_norm": 0.14215916395187378,
	"learning_rate": 0.0002975696387855514,
	"loss": 8.2513,
	"step": 101800
	},
	{
	"epoch": 16.304,
	"grad_norm": 0.15119720995426178,
	"learning_rate": 0.00029756723868954756,
	"loss": 8.0416,
	"step": 101900
	},
	{
	"epoch": 16.32,
	"grad_norm": 0.17267923057079315,
	"learning_rate": 0.0002975648385935437,
	"loss": 7.7183,
	"step": 102000
	},
	{
	"epoch": 16.336,
	"grad_norm": 0.13659106194972992,
	"learning_rate": 0.00029756243849753984,
	"loss": 7.6539,
	"step": 102100
	},
	{
	"epoch": 16.352,
	"grad_norm": 0.13859499990940094,
	"learning_rate": 0.000297560038401536,
	"loss": 7.9309,
	"step": 102200
	},
	{
	"epoch": 16.368,
	"grad_norm": 0.16713272035121918,
	"learning_rate": 0.0002975576383055322,
	"loss": 7.7884,
	"step": 102300
	},
	{
	"epoch": 16.384,
	"grad_norm": 0.19469381868839264,
	"learning_rate": 0.00029755523820952835,
	"loss": 7.6944,
	"step": 102400
	},
	{
	"epoch": 16.4,
	"grad_norm": 0.14082291722297668,
	"learning_rate": 0.0002975528381135245,
	"loss": 7.5828,
	"step": 102500
	},
	{
	"epoch": 16.416,
	"grad_norm": 0.12121783196926117,
	"learning_rate": 0.0002975504380175207,
	"loss": 7.813,
	"step": 102600
	},
	{
	"epoch": 16.432,
	"grad_norm": 0.22072196006774902,
	"learning_rate": 0.0002975480379215168,
	"loss": 8.2315,
	"step": 102700
	},
	{
	"epoch": 16.448,
	"grad_norm": 0.1469603329896927,
	"learning_rate": 0.00029754563782551297,
	"loss": 8.0137,
	"step": 102800
	},
	{
	"epoch": 16.464,
	"grad_norm": 0.11437113583087921,
	"learning_rate": 0.00029754323772950914,
	"loss": 7.3291,
	"step": 102900
	},
	{
	"epoch": 16.48,
	"grad_norm": 0.17373935878276825,
	"learning_rate": 0.0002975408376335053,
	"loss": 8.0078,
	"step": 103000
	},
	{
	"epoch": 16.496,
	"grad_norm": 0.12379905581474304,
	"learning_rate": 0.0002975384375375015,
	"loss": 8.0724,
	"step": 103100
	},
	{
	"epoch": 16.512,
	"grad_norm": 0.1540013700723648,
	"learning_rate": 0.00029753603744149765,
	"loss": 7.6953,
	"step": 103200
	},
	{
	"epoch": 16.528,
	"grad_norm": 0.21880146861076355,
	"learning_rate": 0.00029753363734549376,
	"loss": 8.0522,
	"step": 103300
	},
	{
	"epoch": 16.544,
	"grad_norm": 0.14410023391246796,
	"learning_rate": 0.00029753123724948993,
	"loss": 8.191,
	"step": 103400
	},
	{
	"epoch": 16.56,
	"grad_norm": 0.13037148118019104,
	"learning_rate": 0.0002975288371534861,
	"loss": 7.6117,
	"step": 103500
	},
	{
	"epoch": 16.576,
	"grad_norm": 0.16236849129199982,
	"learning_rate": 0.00029752643705748227,
	"loss": 7.9894,
	"step": 103600
	},
	{
	"epoch": 16.592,
	"grad_norm": 0.1502009928226471,
	"learning_rate": 0.00029752403696147844,
	"loss": 7.7302,
	"step": 103700
	},
	{
	"epoch": 16.608,
	"grad_norm": 0.18485447764396667,
	"learning_rate": 0.00029752163686547455,
	"loss": 7.8743,
	"step": 103800
	},
	{
	"epoch": 16.624,
	"grad_norm": 0.12873640656471252,
	"learning_rate": 0.0002975192367694707,
	"loss": 7.6197,
	"step": 103900
	},
	{
	"epoch": 16.64,
	"grad_norm": 0.11517874896526337,
	"learning_rate": 0.0002975168366734669,
	"loss": 7.4887,
	"step": 104000
	},
	{
	"epoch": 16.656,
	"grad_norm": 0.11515144258737564,
	"learning_rate": 0.00029751443657746306,
	"loss": 7.706,
	"step": 104100
	},
	{
	"epoch": 16.672,
	"grad_norm": 0.15465959906578064,
	"learning_rate": 0.00029751203648145923,
	"loss": 7.3052,
	"step": 104200
	},
	{
	"epoch": 16.688,
	"grad_norm": 0.12962587177753448,
	"learning_rate": 0.0002975096603864154,
	"loss": 7.8117,
	"step": 104300
	},
	{
	"epoch": 16.704,
	"grad_norm": 0.18321260809898376,
	"learning_rate": 0.0002975072602904116,
	"loss": 7.4464,
	"step": 104400
	},
	{
	"epoch": 16.72,
	"grad_norm": 0.1769808679819107,
	"learning_rate": 0.00029750486019440776,
	"loss": 7.8639,
	"step": 104500
	},
	{
	"epoch": 16.736,
	"grad_norm": 0.15869227051734924,
	"learning_rate": 0.00029750246009840393,
	"loss": 7.7956,
	"step": 104600
	},
	{
	"epoch": 16.752,
	"grad_norm": 0.12134505808353424,
	"learning_rate": 0.00029750006000240004,
	"loss": 7.5809,
	"step": 104700
	},
	{
	"epoch": 16.768,
	"grad_norm": 0.13986830413341522,
	"learning_rate": 0.0002974976599063962,
	"loss": 7.4372,
	"step": 104800
	},
	{
	"epoch": 16.784,
	"grad_norm": 0.1761140078306198,
	"learning_rate": 0.0002974952598103924,
	"loss": 7.7486,
	"step": 104900
	},
	{
	"epoch": 16.8,
	"grad_norm": 0.13163812458515167,
	"learning_rate": 0.00029749285971438855,
	"loss": 7.834,
	"step": 105000
	},
	{
	"epoch": 16.816,
	"grad_norm": 0.1813841462135315,
	"learning_rate": 0.0002974904596183847,
	"loss": 7.5974,
	"step": 105100
	},
	{
	"epoch": 16.832,
	"grad_norm": 0.15655750036239624,
	"learning_rate": 0.0002974880595223809,
	"loss": 7.4437,
	"step": 105200
	},
	{
	"epoch": 16.848,
	"grad_norm": 0.16123917698860168,
	"learning_rate": 0.000297485659426377,
	"loss": 7.347,
	"step": 105300
	},
	{
	"epoch": 16.864,
	"grad_norm": 0.18692290782928467,
	"learning_rate": 0.00029748325933037317,
	"loss": 7.8658,
	"step": 105400
	},
	{
	"epoch": 16.88,
	"grad_norm": 0.15913629531860352,
	"learning_rate": 0.00029748085923436934,
	"loss": 7.9134,
	"step": 105500
	},
	{
	"epoch": 16.896,
	"grad_norm": 0.1343807876110077,
	"learning_rate": 0.0002974784591383655,
	"loss": 7.5983,
	"step": 105600
	},
	{
	"epoch": 16.912,
	"grad_norm": 0.2009182572364807,
	"learning_rate": 0.0002974760590423617,
	"loss": 7.3442,
	"step": 105700
	},
	{
	"epoch": 16.928,
	"grad_norm": 0.1569000780582428,
	"learning_rate": 0.0002974736589463578,
	"loss": 7.5953,
	"step": 105800
	},
	{
	"epoch": 16.944,
	"grad_norm": 0.1601628214120865,
	"learning_rate": 0.00029747125885035396,
	"loss": 7.5624,
	"step": 105900
	},
	{
	"epoch": 16.96,
	"grad_norm": 0.14143775403499603,
	"learning_rate": 0.00029746885875435013,
	"loss": 7.579,
	"step": 106000
	},
	{
	"epoch": 16.976,
	"grad_norm": 0.2106146216392517,
	"learning_rate": 0.0002974664586583463,
	"loss": 7.5958,
	"step": 106100
	},
	{
	"epoch": 16.992,
	"grad_norm": 0.17329080402851105,
	"learning_rate": 0.00029746405856234247,
	"loss": 8.0935,
	"step": 106200
	},
	{
	"epoch": 17.008,
	"grad_norm": 0.19225256145000458,
	"learning_rate": 0.00029746165846633864,
	"loss": 6.8958,
	"step": 106300
	},
	{
	"epoch": 17.024,
	"grad_norm": 0.17550058662891388,
	"learning_rate": 0.00029745925837033476,
	"loss": 7.4002,
	"step": 106400
	},
	{
	"epoch": 17.04,
	"grad_norm": 0.16778625547885895,
	"learning_rate": 0.0002974568582743309,
	"loss": 7.698,
	"step": 106500
	},
	{
	"epoch": 17.056,
	"grad_norm": 0.14647962152957916,
	"learning_rate": 0.0002974544581783271,
	"loss": 7.5615,
	"step": 106600
	},
	{
	"epoch": 17.072,
	"grad_norm": 0.15024389326572418,
	"learning_rate": 0.00029745205808232326,
	"loss": 7.6671,
	"step": 106700
	},
	{
	"epoch": 17.088,
	"grad_norm": 0.11949127167463303,
	"learning_rate": 0.00029744965798631943,
	"loss": 7.6843,
	"step": 106800
	},
	{
	"epoch": 17.104,
	"grad_norm": 0.15480674803256989,
	"learning_rate": 0.00029744725789031555,
	"loss": 7.9465,
	"step": 106900
	},
	{
	"epoch": 17.12,
	"grad_norm": 0.14191922545433044,
	"learning_rate": 0.0002974448577943117,
	"loss": 7.7372,
	"step": 107000
	},
	{
	"epoch": 17.136,
	"grad_norm": 0.19336700439453125,
	"learning_rate": 0.0002974424576983079,
	"loss": 7.6904,
	"step": 107100
	},
	{
	"epoch": 17.152,
	"grad_norm": 0.17240415513515472,
	"learning_rate": 0.0002974400576023041,
	"loss": 7.4487,
	"step": 107200
	},
	{
	"epoch": 17.168,
	"grad_norm": 0.135718435049057,
	"learning_rate": 0.0002974376575063002,
	"loss": 7.5844,
	"step": 107300
	},
	{
	"epoch": 17.184,
	"grad_norm": 0.13594204187393188,
	"learning_rate": 0.0002974352574102964,
	"loss": 7.1186,
	"step": 107400
	},
	{
	"epoch": 17.2,
	"grad_norm": 0.14997251331806183,
	"learning_rate": 0.00029743285731429256,
	"loss": 7.3525,
	"step": 107500
	},
	{
	"epoch": 17.216,
	"grad_norm": 0.1264813244342804,
	"learning_rate": 0.00029743045721828873,
	"loss": 7.8519,
	"step": 107600
	},
	{
	"epoch": 17.232,
	"grad_norm": 0.16751745343208313,
	"learning_rate": 0.0002974280571222849,
	"loss": 7.346,
	"step": 107700
	},
	{
	"epoch": 17.248,
	"grad_norm": 0.196015402674675,
	"learning_rate": 0.000297425657026281,
	"loss": 7.5401,
	"step": 107800
	},
	{
	"epoch": 17.264,
	"grad_norm": 0.14854785799980164,
	"learning_rate": 0.0002974232569302772,
	"loss": 7.3802,
	"step": 107900
	},
	{
	"epoch": 17.28,
	"grad_norm": 0.1462150365114212,
	"learning_rate": 0.00029742085683427335,
	"loss": 7.56,
	"step": 108000
	},
	{
	"epoch": 17.296,
	"grad_norm": 0.18656545877456665,
	"learning_rate": 0.0002974184567382695,
	"loss": 7.4044,
	"step": 108100
	},
	{
	"epoch": 17.312,
	"grad_norm": 0.15170492231845856,
	"learning_rate": 0.0002974160566422657,
	"loss": 7.1246,
	"step": 108200
	},
	{
	"epoch": 17.328,
	"grad_norm": 0.13659091293811798,
	"learning_rate": 0.00029741365654626186,
	"loss": 7.5455,
	"step": 108300
	},
	{
	"epoch": 17.344,
	"grad_norm": 0.1527138650417328,
	"learning_rate": 0.000297411256450258,
	"loss": 7.5807,
	"step": 108400
	},
	{
	"epoch": 17.36,
	"grad_norm": 0.15352298319339752,
	"learning_rate": 0.00029740885635425415,
	"loss": 7.3586,
	"step": 108500
	},
	{
	"epoch": 17.376,
	"grad_norm": 0.16372795403003693,
	"learning_rate": 0.0002974065042601704,
	"loss": 7.5309,
	"step": 108600
	},
	{
	"epoch": 17.392,
	"grad_norm": 0.14718171954154968,
	"learning_rate": 0.0002974041041641665,
	"loss": 7.7871,
	"step": 108700
	},
	{
	"epoch": 17.408,
	"grad_norm": 0.13745012879371643,
	"learning_rate": 0.0002974017040681627,
	"loss": 7.4228,
	"step": 108800
	},
	{
	"epoch": 17.424,
	"grad_norm": 0.1310426890850067,
	"learning_rate": 0.00029739930397215886,
	"loss": 6.914,
	"step": 108900
	},
	{
	"epoch": 17.44,
	"grad_norm": 0.1291857808828354,
	"learning_rate": 0.00029739690387615503,
	"loss": 7.5163,
	"step": 109000
	},
	{
	"epoch": 17.456,
	"grad_norm": 0.1615869104862213,
	"learning_rate": 0.0002973945037801512,
	"loss": 6.9051,
	"step": 109100
	},
	{
	"epoch": 17.472,
	"grad_norm": 0.11409099400043488,
	"learning_rate": 0.00029739210368414737,
	"loss": 7.4919,
	"step": 109200
	},
	{
	"epoch": 17.488,
	"grad_norm": 0.12527474761009216,
	"learning_rate": 0.0002973897035881435,
	"loss": 7.5104,
	"step": 109300
	},
	{
	"epoch": 17.504,
	"grad_norm": 0.1936863362789154,
	"learning_rate": 0.00029738730349213965,
	"loss": 7.1046,
	"step": 109400
	},
	{
	"epoch": 17.52,
	"grad_norm": 0.12854978442192078,
	"learning_rate": 0.0002973849033961358,
	"loss": 7.4067,
	"step": 109500
	},
	{
	"epoch": 17.536,
	"grad_norm": 0.13116727769374847,
	"learning_rate": 0.000297382503300132,
	"loss": 7.2106,
	"step": 109600
	},
	{
	"epoch": 17.552,
	"grad_norm": 0.16138528287410736,
	"learning_rate": 0.00029738010320412816,
	"loss": 7.263,
	"step": 109700
	},
	{
	"epoch": 17.568,
	"grad_norm": 0.14999186992645264,
	"learning_rate": 0.0002973777031081243,
	"loss": 7.428,
	"step": 109800
	},
	{
	"epoch": 17.584,
	"grad_norm": 0.13564202189445496,
	"learning_rate": 0.00029737530301212045,
	"loss": 7.6592,
	"step": 109900
	},
	{
	"epoch": 17.6,
	"grad_norm": 0.14535826444625854,
	"learning_rate": 0.0002973729029161166,
	"loss": 7.2886,
	"step": 110000
	},
	{
	"epoch": 17.616,
	"grad_norm": 0.13466519117355347,
	"learning_rate": 0.0002973705028201128,
	"loss": 7.4852,
	"step": 110100
	},
	{
	"epoch": 17.632,
	"grad_norm": 0.1622999757528305,
	"learning_rate": 0.00029736810272410895,
	"loss": 7.6437,
	"step": 110200
	},
	{
	"epoch": 17.648,
	"grad_norm": 0.15417474508285522,
	"learning_rate": 0.0002973657026281051,
	"loss": 7.4305,
	"step": 110300
	},
	{
	"epoch": 17.664,
	"grad_norm": 0.1484052836894989,
	"learning_rate": 0.00029736330253210124,
	"loss": 7.5558,
	"step": 110400
	},
	{
	"epoch": 17.68,
	"grad_norm": 0.15688396990299225,
	"learning_rate": 0.0002973609024360974,
	"loss": 7.4349,
	"step": 110500
	},
	{
	"epoch": 17.696,
	"grad_norm": 0.15338055789470673,
	"learning_rate": 0.0002973585023400936,
	"loss": 7.2818,
	"step": 110600
	},
	{
	"epoch": 17.712,
	"grad_norm": 0.1761266142129898,
	"learning_rate": 0.00029735610224408974,
	"loss": 7.2618,
	"step": 110700
	},
	{
	"epoch": 17.728,
	"grad_norm": 0.17337530851364136,
	"learning_rate": 0.0002973537021480859,
	"loss": 7.0263,
	"step": 110800
	},
	{
	"epoch": 17.744,
	"grad_norm": 0.14693669974803925,
	"learning_rate": 0.00029735130205208203,
	"loss": 6.9075,
	"step": 110900
	},
	{
	"epoch": 17.76,
	"grad_norm": 0.14184145629405975,
	"learning_rate": 0.00029734892595703827,
	"loss": 7.1306,
	"step": 111000
	},
	{
	"epoch": 17.776,
	"grad_norm": 0.15281623601913452,
	"learning_rate": 0.00029734652586103444,
	"loss": 6.9965,
	"step": 111100
	},
	{
	"epoch": 17.792,
	"grad_norm": 0.30168259143829346,
	"learning_rate": 0.0002973441257650306,
	"loss": 7.3388,
	"step": 111200
	},
	{
	"epoch": 17.808,
	"grad_norm": 0.15365231037139893,
	"learning_rate": 0.0002973417256690267,
	"loss": 7.2799,
	"step": 111300
	},
	{
	"epoch": 17.824,
	"grad_norm": 0.1704150289297104,
	"learning_rate": 0.0002973393255730229,
	"loss": 7.3031,
	"step": 111400
	},
	{
	"epoch": 17.84,
	"grad_norm": 0.16025039553642273,
	"learning_rate": 0.00029733692547701906,
	"loss": 6.9446,
	"step": 111500
	},
	{
	"epoch": 17.856,
	"grad_norm": 0.14661014080047607,
	"learning_rate": 0.00029733452538101523,
	"loss": 7.4911,
	"step": 111600
	},
	{
	"epoch": 17.872,
	"grad_norm": 0.18997499346733093,
	"learning_rate": 0.0002973321252850114,
	"loss": 7.2489,
	"step": 111700
	},
	{
	"epoch": 17.888,
	"grad_norm": 0.16025018692016602,
	"learning_rate": 0.0002973297251890075,
	"loss": 7.4835,
	"step": 111800
	},
	{
	"epoch": 17.904,
	"grad_norm": 0.19556750357151031,
	"learning_rate": 0.0002973273250930037,
	"loss": 7.5087,
	"step": 111900
	},
	{
	"epoch": 17.92,
	"grad_norm": 0.14444762468338013,
	"learning_rate": 0.00029732492499699986,
	"loss": 7.3942,
	"step": 112000
	},
	{
	"epoch": 17.936,
	"grad_norm": 0.12939786911010742,
	"learning_rate": 0.000297322524900996,
	"loss": 7.0694,
	"step": 112100
	},
	{
	"epoch": 17.951999999999998,
	"grad_norm": 0.1845860481262207,
	"learning_rate": 0.0002973201248049922,
	"loss": 7.3517,
	"step": 112200
	},
	{
	"epoch": 17.968,
	"grad_norm": 0.1611936390399933,
	"learning_rate": 0.00029731772470898836,
	"loss": 7.3119,
	"step": 112300
	},
	{
	"epoch": 17.984,
	"grad_norm": 0.1410474330186844,
	"learning_rate": 0.0002973153246129845,
	"loss": 7.1857,
	"step": 112400
	},
	{
	"epoch": 18.0,
	"grad_norm": 0.14935807883739471,
	"learning_rate": 0.00029731292451698065,
	"loss": 7.2314,
	"step": 112500
	},
	{
	"epoch": 18.016,
	"grad_norm": 0.11792614310979843,
	"learning_rate": 0.0002973105244209768,
	"loss": 7.0182,
	"step": 112600
	},
	{
	"epoch": 18.032,
	"grad_norm": 0.19907847046852112,
	"learning_rate": 0.000297308124324973,
	"loss": 7.036,
	"step": 112700
	},
	{
	"epoch": 18.048,
	"grad_norm": 0.11814866214990616,
	"learning_rate": 0.00029730572422896915,
	"loss": 7.2484,
	"step": 112800
	},
	{
	"epoch": 18.064,
	"grad_norm": 0.16914184391498566,
	"learning_rate": 0.00029730332413296527,
	"loss": 7.0729,
	"step": 112900
	},
	{
	"epoch": 18.08,
	"grad_norm": 0.11930215358734131,
	"learning_rate": 0.00029730092403696144,
	"loss": 6.9642,
	"step": 113000
	},
	{
	"epoch": 18.096,
	"grad_norm": 0.14744411408901215,
	"learning_rate": 0.0002972985239409576,
	"loss": 7.1132,
	"step": 113100
	},
	{
	"epoch": 18.112,
	"grad_norm": 0.1400415003299713,
	"learning_rate": 0.0002972961238449538,
	"loss": 7.1415,
	"step": 113200
	},
	{
	"epoch": 18.128,
	"grad_norm": 0.1671387106180191,
	"learning_rate": 0.00029729374774990997,
	"loss": 7.2558,
	"step": 113300
	},
	{
	"epoch": 18.144,
	"grad_norm": 0.16554495692253113,
	"learning_rate": 0.00029729134765390613,
	"loss": 6.9987,
	"step": 113400
	},
	{
	"epoch": 18.16,
	"grad_norm": 0.1383550763130188,
	"learning_rate": 0.0002972889475579023,
	"loss": 7.0975,
	"step": 113500
	},
	{
	"epoch": 18.176,
	"grad_norm": 0.1566449999809265,
	"learning_rate": 0.0002972865474618985,
	"loss": 7.0562,
	"step": 113600
	},
	{
	"epoch": 18.192,
	"grad_norm": 0.19498635828495026,
	"learning_rate": 0.00029728414736589464,
	"loss": 6.6165,
	"step": 113700
	},
	{
	"epoch": 18.208,
	"grad_norm": 0.1640356481075287,
	"learning_rate": 0.00029728174726989076,
	"loss": 7.1794,
	"step": 113800
	},
	{
	"epoch": 18.224,
	"grad_norm": 0.11614058166742325,
	"learning_rate": 0.0002972793471738869,
	"loss": 7.285,
	"step": 113900
	},
	{
	"epoch": 18.24,
	"grad_norm": 0.15918317437171936,
	"learning_rate": 0.0002972769470778831,
	"loss": 7.163,
	"step": 114000
	},
	{
	"epoch": 18.256,
	"grad_norm": 0.1565544754266739,
	"learning_rate": 0.00029727454698187926,
	"loss": 7.225,
	"step": 114100
	},
	{
	"epoch": 18.272,
	"grad_norm": 0.17850929498672485,
	"learning_rate": 0.00029727214688587543,
	"loss": 6.801,
	"step": 114200
	},
	{
	"epoch": 18.288,
	"grad_norm": 0.11589377373456955,
	"learning_rate": 0.0002972697467898716,
	"loss": 6.8754,
	"step": 114300
	},
	{
	"epoch": 18.304,
	"grad_norm": 0.13528980314731598,
	"learning_rate": 0.0002972673466938677,
	"loss": 7.1785,
	"step": 114400
	},
	{
	"epoch": 18.32,
	"grad_norm": 0.14462067186832428,
	"learning_rate": 0.0002972649465978639,
	"loss": 6.7743,
	"step": 114500
	},
	{
	"epoch": 18.336,
	"grad_norm": 0.11352884024381638,
	"learning_rate": 0.0002972625705028201,
	"loss": 7.195,
	"step": 114600
	},
	{
	"epoch": 18.352,
	"grad_norm": 0.15487293899059296,
	"learning_rate": 0.00029726017040681624,
	"loss": 6.9974,
	"step": 114700
	},
	{
	"epoch": 18.368,
	"grad_norm": 0.18302305042743683,
	"learning_rate": 0.0002972577703108124,
	"loss": 7.3688,
	"step": 114800
	},
	{
	"epoch": 18.384,
	"grad_norm": 0.13732467591762543,
	"learning_rate": 0.00029725537021480853,
	"loss": 7.1072,
	"step": 114900
	},
	{
	"epoch": 18.4,
	"grad_norm": 0.16661597788333893,
	"learning_rate": 0.0002972529701188047,
	"loss": 6.9747,
	"step": 115000
	},
	{
	"epoch": 18.416,
	"grad_norm": 0.13797527551651,
	"learning_rate": 0.00029725057002280087,
	"loss": 6.9419,
	"step": 115100
	},
	{
	"epoch": 18.432,
	"grad_norm": 0.12859782576560974,
	"learning_rate": 0.00029724816992679704,
	"loss": 6.7853,
	"step": 115200
	},
	{
	"epoch": 18.448,
	"grad_norm": 0.14815713465213776,
	"learning_rate": 0.0002972457698307932,
	"loss": 7.2451,
	"step": 115300
	},
	{
	"epoch": 18.464,
	"grad_norm": 0.17937737703323364,
	"learning_rate": 0.0002972433697347894,
	"loss": 6.9378,
	"step": 115400
	},
	{
	"epoch": 18.48,
	"grad_norm": 0.1678260713815689,
	"learning_rate": 0.0002972409696387855,
	"loss": 7.324,
	"step": 115500
	},
	{
	"epoch": 18.496,
	"grad_norm": 0.1482672095298767,
	"learning_rate": 0.0002972385695427817,
	"loss": 6.7464,
	"step": 115600
	},
	{
	"epoch": 18.512,
	"grad_norm": 0.13717281818389893,
	"learning_rate": 0.0002972361694467779,
	"loss": 6.9728,
	"step": 115700
	},
	{
	"epoch": 18.528,
	"grad_norm": 0.16356568038463593,
	"learning_rate": 0.000297233769350774,
	"loss": 6.4269,
	"step": 115800
	},
	{
	"epoch": 18.544,
	"grad_norm": 0.11255384981632233,
	"learning_rate": 0.00029723136925477017,
	"loss": 6.8938,
	"step": 115900
	},
	{
	"epoch": 18.56,
	"grad_norm": 0.18403998017311096,
	"learning_rate": 0.00029722896915876634,
	"loss": 7.5852,
	"step": 116000
	},
	{
	"epoch": 18.576,
	"grad_norm": 0.16399045288562775,
	"learning_rate": 0.0002972265690627625,
	"loss": 6.8499,
	"step": 116100
	},
	{
	"epoch": 18.592,
	"grad_norm": 0.1565336287021637,
	"learning_rate": 0.0002972241689667587,
	"loss": 6.7727,
	"step": 116200
	},
	{
	"epoch": 18.608,
	"grad_norm": 0.19689014554023743,
	"learning_rate": 0.00029722176887075484,
	"loss": 7.1385,
	"step": 116300
	},
	{
	"epoch": 18.624,
	"grad_norm": 0.13252195715904236,
	"learning_rate": 0.00029721936877475096,
	"loss": 6.6291,
	"step": 116400
	},
	{
	"epoch": 18.64,
	"grad_norm": 0.12019433081150055,
	"learning_rate": 0.00029721696867874713,
	"loss": 6.8913,
	"step": 116500
	},
	{
	"epoch": 18.656,
	"grad_norm": 0.16386528313159943,
	"learning_rate": 0.0002972145685827433,
	"loss": 6.7989,
	"step": 116600
	},
	{
	"epoch": 18.672,
	"grad_norm": 0.13716477155685425,
	"learning_rate": 0.00029721216848673947,
	"loss": 6.6763,
	"step": 116700
	},
	{
	"epoch": 18.688,
	"grad_norm": 0.13785770535469055,
	"learning_rate": 0.00029720976839073564,
	"loss": 6.6476,
	"step": 116800
	},
	{
	"epoch": 18.704,
	"grad_norm": 0.1605842560529709,
	"learning_rate": 0.00029720736829473175,
	"loss": 6.6566,
	"step": 116900
	},
	{
	"epoch": 18.72,
	"grad_norm": 0.19339755177497864,
	"learning_rate": 0.0002972049681987279,
	"loss": 6.9454,
	"step": 117000
	},
	{
	"epoch": 18.736,
	"grad_norm": 0.14963068068027496,
	"learning_rate": 0.0002972025681027241,
	"loss": 7.0718,
	"step": 117100
	},
	{
	"epoch": 18.752,
	"grad_norm": 0.1378934234380722,
	"learning_rate": 0.00029720016800672026,
	"loss": 6.7582,
	"step": 117200
	},
	{
	"epoch": 18.768,
	"grad_norm": 0.1546606719493866,
	"learning_rate": 0.0002971977679107164,
	"loss": 6.9278,
	"step": 117300
	},
	{
	"epoch": 18.784,
	"grad_norm": 0.13777601718902588,
	"learning_rate": 0.0002971953678147126,
	"loss": 6.821,
	"step": 117400
	},
	{
	"epoch": 18.8,
	"grad_norm": 0.1833031326532364,
	"learning_rate": 0.0002971929677187087,
	"loss": 7.345,
	"step": 117500
	},
	{
	"epoch": 18.816,
	"grad_norm": 0.13752517104148865,
	"learning_rate": 0.0002971905676227049,
	"loss": 7.0435,
	"step": 117600
	},
	{
	"epoch": 18.832,
	"grad_norm": 0.14740273356437683,
	"learning_rate": 0.00029718816752670105,
	"loss": 7.0617,
	"step": 117700
	},
	{
	"epoch": 18.848,
	"grad_norm": 0.13207408785820007,
	"learning_rate": 0.0002971857674306972,
	"loss": 6.9374,
	"step": 117800
	},
	{
	"epoch": 18.864,
	"grad_norm": 0.14092418551445007,
	"learning_rate": 0.0002971833673346934,
	"loss": 6.5626,
	"step": 117900
	},
	{
	"epoch": 18.88,
	"grad_norm": 0.19631852209568024,
	"learning_rate": 0.0002971809672386895,
	"loss": 7.162,
	"step": 118000
	},
	{
	"epoch": 18.896,
	"grad_norm": 0.12741628289222717,
	"learning_rate": 0.00029717856714268567,
	"loss": 6.8316,
	"step": 118100
	},
	{
	"epoch": 18.912,
	"grad_norm": 0.17144246399402618,
	"learning_rate": 0.00029717616704668184,
	"loss": 6.5714,
	"step": 118200
	},
	{
	"epoch": 18.928,
	"grad_norm": 0.1456017643213272,
	"learning_rate": 0.000297173766950678,
	"loss": 7.1563,
	"step": 118300
	},
	{
	"epoch": 18.944,
	"grad_norm": 0.17816682159900665,
	"learning_rate": 0.0002971713668546742,
	"loss": 7.1767,
	"step": 118400
	},
	{
	"epoch": 18.96,
	"grad_norm": 0.274588942527771,
	"learning_rate": 0.00029716896675867035,
	"loss": 6.9244,
	"step": 118500
	},
	{
	"epoch": 18.976,
	"grad_norm": 0.14686717092990875,
	"learning_rate": 0.00029716656666266646,
	"loss": 6.9108,
	"step": 118600
	},
	{
	"epoch": 18.992,
	"grad_norm": 0.1549716740846634,
	"learning_rate": 0.00029716416656666263,
	"loss": 7.1166,
	"step": 118700
	},
	{
	"epoch": 19.008,
	"grad_norm": 0.24241045117378235,
	"learning_rate": 0.0002971617664706588,
	"loss": 6.7128,
	"step": 118800
	},
	{
	"epoch": 19.024,
	"grad_norm": 0.14365893602371216,
	"learning_rate": 0.00029715936637465497,
	"loss": 6.5973,
	"step": 118900
	},
	{
	"epoch": 19.04,
	"grad_norm": 0.1771174818277359,
	"learning_rate": 0.00029715696627865114,
	"loss": 6.8558,
	"step": 119000
	},
	{
	"epoch": 19.056,
	"grad_norm": 0.1703067272901535,
	"learning_rate": 0.00029715456618264726,
	"loss": 6.748,
	"step": 119100
	},
	{
	"epoch": 19.072,
	"grad_norm": 0.1466696858406067,
	"learning_rate": 0.0002971521660866434,
	"loss": 6.6093,
	"step": 119200
	},
	{
	"epoch": 19.088,
	"grad_norm": 0.16070063412189484,
	"learning_rate": 0.0002971497659906396,
	"loss": 6.7417,
	"step": 119300
	},
	{
	"epoch": 19.104,
	"grad_norm": 0.2056402564048767,
	"learning_rate": 0.00029714738989559584,
	"loss": 6.4175,
	"step": 119400
	},
	{
	"epoch": 19.12,
	"grad_norm": 0.207046240568161,
	"learning_rate": 0.00029714498979959195,
	"loss": 6.9465,
	"step": 119500
	},
	{
	"epoch": 19.136,
	"grad_norm": 0.12638603150844574,
	"learning_rate": 0.0002971425897035881,
	"loss": 6.882,
	"step": 119600
	},
	{
	"epoch": 19.152,
	"grad_norm": 0.17709197103977203,
	"learning_rate": 0.0002971401896075843,
	"loss": 6.5151,
	"step": 119700
	},
	{
	"epoch": 19.168,
	"grad_norm": 0.14313985407352448,
	"learning_rate": 0.00029713778951158046,
	"loss": 6.6897,
	"step": 119800
	},
	{
	"epoch": 19.184,
	"grad_norm": 0.14212185144424438,
	"learning_rate": 0.00029713538941557663,
	"loss": 7.0293,
	"step": 119900
	},
	{
	"epoch": 19.2,
	"grad_norm": 0.14830344915390015,
	"learning_rate": 0.00029713298931957274,
	"loss": 6.8398,
	"step": 120000
	},
	{
	"epoch": 19.216,
	"grad_norm": 0.24165965616703033,
	"learning_rate": 0.0002971305892235689,
	"loss": 6.715,
	"step": 120100
	},
	{
	"epoch": 19.232,
	"grad_norm": 0.13292773067951202,
	"learning_rate": 0.0002971281891275651,
	"loss": 6.8165,
	"step": 120200
	},
	{
	"epoch": 19.248,
	"grad_norm": 0.1639406383037567,
	"learning_rate": 0.00029712578903156125,
	"loss": 6.9099,
	"step": 120300
	},
	{
	"epoch": 19.264,
	"grad_norm": 0.18321408331394196,
	"learning_rate": 0.0002971233889355574,
	"loss": 6.4805,
	"step": 120400
	},
	{
	"epoch": 19.28,
	"grad_norm": 0.18382756412029266,
	"learning_rate": 0.0002971209888395536,
	"loss": 6.8172,
	"step": 120500
	},
	{
	"epoch": 19.296,
	"grad_norm": 0.15303823351860046,
	"learning_rate": 0.0002971185887435497,
	"loss": 6.2661,
	"step": 120600
	},
	{
	"epoch": 19.312,
	"grad_norm": 0.1740507036447525,
	"learning_rate": 0.0002971161886475459,
	"loss": 6.6127,
	"step": 120700
	},
	{
	"epoch": 19.328,
	"grad_norm": 0.14414259791374207,
	"learning_rate": 0.00029711378855154204,
	"loss": 6.4442,
	"step": 120800
	},
	{
	"epoch": 19.344,
	"grad_norm": 0.14647360146045685,
	"learning_rate": 0.0002971113884555382,
	"loss": 6.6076,
	"step": 120900
	},
	{
	"epoch": 19.36,
	"grad_norm": 0.15991808474063873,
	"learning_rate": 0.0002971089883595344,
	"loss": 6.787,
	"step": 121000
	},
	{
	"epoch": 19.376,
	"grad_norm": 0.1332535594701767,
	"learning_rate": 0.0002971065882635305,
	"loss": 6.7092,
	"step": 121100
	},
	{
	"epoch": 19.392,
	"grad_norm": 0.14746126532554626,
	"learning_rate": 0.00029710418816752667,
	"loss": 6.7574,
	"step": 121200
	},
	{
	"epoch": 19.408,
	"grad_norm": 0.13268060982227325,
	"learning_rate": 0.00029710178807152283,
	"loss": 6.4729,
	"step": 121300
	},
	{
	"epoch": 19.424,
	"grad_norm": 0.18852052092552185,
	"learning_rate": 0.000297099387975519,
	"loss": 6.7246,
	"step": 121400
	},
	{
	"epoch": 19.44,
	"grad_norm": 0.20590665936470032,
	"learning_rate": 0.00029709698787951517,
	"loss": 6.7032,
	"step": 121500
	},
	{
	"epoch": 19.456,
	"grad_norm": 0.18409046530723572,
	"learning_rate": 0.00029709458778351134,
	"loss": 6.9088,
	"step": 121600
	},
	{
	"epoch": 19.472,
	"grad_norm": 0.1330518126487732,
	"learning_rate": 0.00029709218768750746,
	"loss": 6.7912,
	"step": 121700
	},
	{
	"epoch": 19.488,
	"grad_norm": 0.17881762981414795,
	"learning_rate": 0.0002970897875915036,
	"loss": 6.6976,
	"step": 121800
	},
	{
	"epoch": 19.504,
	"grad_norm": 0.1952984780073166,
	"learning_rate": 0.0002970873874954998,
	"loss": 6.6684,
	"step": 121900
	},
	{
	"epoch": 19.52,
	"grad_norm": 0.10283193737268448,
	"learning_rate": 0.00029708498739949596,
	"loss": 6.8239,
	"step": 122000
	},
	{
	"epoch": 19.536,
	"grad_norm": 0.14318746328353882,
	"learning_rate": 0.00029708258730349213,
	"loss": 6.3829,
	"step": 122100
	},
	{
	"epoch": 19.552,
	"grad_norm": 0.27563196420669556,
	"learning_rate": 0.00029708018720748825,
	"loss": 6.5011,
	"step": 122200
	},
	{
	"epoch": 19.568,
	"grad_norm": 0.22338111698627472,
	"learning_rate": 0.0002970777871114844,
	"loss": 6.5485,
	"step": 122300
	},
	{
	"epoch": 19.584,
	"grad_norm": 0.12649616599082947,
	"learning_rate": 0.0002970753870154806,
	"loss": 6.7374,
	"step": 122400
	},
	{
	"epoch": 19.6,
	"grad_norm": 0.15860269963741302,
	"learning_rate": 0.00029707298691947676,
	"loss": 6.3596,
	"step": 122500
	},
	{
	"epoch": 19.616,
	"grad_norm": 0.12358345836400986,
	"learning_rate": 0.00029707061082443294,
	"loss": 6.3242,
	"step": 122600
	},
	{
	"epoch": 19.632,
	"grad_norm": 0.16506068408489227,
	"learning_rate": 0.0002970682107284291,
	"loss": 6.5935,
	"step": 122700
	},
	{
	"epoch": 19.648,
	"grad_norm": 0.19951657950878143,
	"learning_rate": 0.0002970658106324253,
	"loss": 6.4781,
	"step": 122800
	},
	{
	"epoch": 19.664,
	"grad_norm": 0.16879688203334808,
	"learning_rate": 0.00029706341053642145,
	"loss": 6.4468,
	"step": 122900
	},
	{
	"epoch": 19.68,
	"grad_norm": 0.14565648138523102,
	"learning_rate": 0.0002970610104404176,
	"loss": 6.635,
	"step": 123000
	},
	{
	"epoch": 19.696,
	"grad_norm": 0.12739145755767822,
	"learning_rate": 0.00029705861034441374,
	"loss": 6.7823,
	"step": 123100
	},
	{
	"epoch": 19.712,
	"grad_norm": 0.1428256332874298,
	"learning_rate": 0.0002970562102484099,
	"loss": 6.3011,
	"step": 123200
	},
	{
	"epoch": 19.728,
	"grad_norm": 0.1541672646999359,
	"learning_rate": 0.0002970538101524061,
	"loss": 6.93,
	"step": 123300
	},
	{
	"epoch": 19.744,
	"grad_norm": 0.14009244740009308,
	"learning_rate": 0.00029705141005640224,
	"loss": 6.4553,
	"step": 123400
	},
	{
	"epoch": 19.76,
	"grad_norm": 0.1925840973854065,
	"learning_rate": 0.0002970490099603984,
	"loss": 6.812,
	"step": 123500
	},
	{
	"epoch": 19.776,
	"grad_norm": 0.1624009907245636,
	"learning_rate": 0.0002970466098643946,
	"loss": 6.644,
	"step": 123600
	},
	{
	"epoch": 19.792,
	"grad_norm": 0.12902632355690002,
	"learning_rate": 0.0002970442097683907,
	"loss": 6.8444,
	"step": 123700
	},
	{
	"epoch": 19.808,
	"grad_norm": 0.1572074443101883,
	"learning_rate": 0.00029704180967238687,
	"loss": 6.8285,
	"step": 123800
	},
	{
	"epoch": 19.824,
	"grad_norm": 0.17196834087371826,
	"learning_rate": 0.00029703940957638304,
	"loss": 6.318,
	"step": 123900
	},
	{
	"epoch": 19.84,
	"grad_norm": 0.14329147338867188,
	"learning_rate": 0.0002970370094803792,
	"loss": 6.5197,
	"step": 124000
	},
	{
	"epoch": 19.856,
	"grad_norm": 0.12039805948734283,
	"learning_rate": 0.0002970346093843754,
	"loss": 6.3033,
	"step": 124100
	},
	{
	"epoch": 19.872,
	"grad_norm": 0.1786791980266571,
	"learning_rate": 0.0002970322092883715,
	"loss": 6.669,
	"step": 124200
	},
	{
	"epoch": 19.888,
	"grad_norm": 0.12987840175628662,
	"learning_rate": 0.00029702980919236766,
	"loss": 6.2543,
	"step": 124300
	},
	{
	"epoch": 19.904,
	"grad_norm": 0.12259730696678162,
	"learning_rate": 0.00029702740909636383,
	"loss": 6.4946,
	"step": 124400
	},
	{
	"epoch": 19.92,
	"grad_norm": 0.10069935768842697,
	"learning_rate": 0.00029702500900036,
	"loss": 6.7976,
	"step": 124500
	},
	{
	"epoch": 19.936,
	"grad_norm": 0.14555324614048004,
	"learning_rate": 0.00029702260890435617,
	"loss": 6.3994,
	"step": 124600
	},
	{
	"epoch": 19.951999999999998,
	"grad_norm": 0.15070566534996033,
	"learning_rate": 0.00029702020880835234,
	"loss": 6.3558,
	"step": 124700
	},
	{
	"epoch": 19.968,
	"grad_norm": 0.13936389982700348,
	"learning_rate": 0.00029701780871234845,
	"loss": 6.369,
	"step": 124800
	},
	{
	"epoch": 19.984,
	"grad_norm": 0.20414897799491882,
	"learning_rate": 0.0002970154086163446,
	"loss": 6.4591,
	"step": 124900
	},
	{
	"epoch": 20.0,
	"grad_norm": 0.17090056836605072,
	"learning_rate": 0.0002970130085203408,
	"loss": 6.6428,
	"step": 125000
	},
	{
	"epoch": 20.016,
	"grad_norm": 0.13628321886062622,
	"learning_rate": 0.00029701060842433696,
	"loss": 6.6142,
	"step": 125100
	},
	{
	"epoch": 20.032,
	"grad_norm": 0.1602114588022232,
	"learning_rate": 0.0002970082083283331,
	"loss": 6.2906,
	"step": 125200
	},
	{
	"epoch": 20.048,
	"grad_norm": 0.16529148817062378,
	"learning_rate": 0.00029700580823232924,
	"loss": 6.32,
	"step": 125300
	},
	{
	"epoch": 20.064,
	"grad_norm": 0.09591558575630188,
	"learning_rate": 0.0002970034081363254,
	"loss": 6.5236,
	"step": 125400
	},
	{
	"epoch": 20.08,
	"grad_norm": 0.16209086775779724,
	"learning_rate": 0.0002970010080403216,
	"loss": 6.0982,
	"step": 125500
	},
	{
	"epoch": 20.096,
	"grad_norm": 0.14823907613754272,
	"learning_rate": 0.00029699860794431775,
	"loss": 6.5177,
	"step": 125600
	},
	{
	"epoch": 20.112,
	"grad_norm": 0.14667312800884247,
	"learning_rate": 0.0002969962078483139,
	"loss": 6.2496,
	"step": 125700
	},
	{
	"epoch": 20.128,
	"grad_norm": 0.14101973176002502,
	"learning_rate": 0.0002969938077523101,
	"loss": 6.4982,
	"step": 125800
	},
	{
	"epoch": 20.144,
	"grad_norm": 0.15947328507900238,
	"learning_rate": 0.0002969914076563062,
	"loss": 6.2799,
	"step": 125900
	},
	{
	"epoch": 20.16,
	"grad_norm": 0.1501172035932541,
	"learning_rate": 0.00029698900756030237,
	"loss": 6.3317,
	"step": 126000
	},
	{
	"epoch": 20.176,
	"grad_norm": 0.15825922787189484,
	"learning_rate": 0.00029698660746429854,
	"loss": 6.2838,
	"step": 126100
	},
	{
	"epoch": 20.192,
	"grad_norm": 0.14270856976509094,
	"learning_rate": 0.00029698423136925473,
	"loss": 6.2077,
	"step": 126200
	},
	{
	"epoch": 20.208,
	"grad_norm": 0.1994931846857071,
	"learning_rate": 0.0002969818312732509,
	"loss": 6.3276,
	"step": 126300
	},
	{
	"epoch": 20.224,
	"grad_norm": 0.2308851182460785,
	"learning_rate": 0.00029697943117724707,
	"loss": 6.3211,
	"step": 126400
	},
	{
	"epoch": 20.24,
	"grad_norm": 0.21615839004516602,
	"learning_rate": 0.00029697703108124324,
	"loss": 6.2481,
	"step": 126500
	},
	{
	"epoch": 20.256,
	"grad_norm": 0.14972296357154846,
	"learning_rate": 0.0002969746309852394,
	"loss": 6.3543,
	"step": 126600
	},
	{
	"epoch": 20.272,
	"grad_norm": 0.164517343044281,
	"learning_rate": 0.0002969722308892356,
	"loss": 6.3991,
	"step": 126700
	},
	{
	"epoch": 20.288,
	"grad_norm": 0.15623216331005096,
	"learning_rate": 0.0002969698307932317,
	"loss": 6.6786,
	"step": 126800
	},
	{
	"epoch": 20.304,
	"grad_norm": 0.1451660692691803,
	"learning_rate": 0.00029696743069722786,
	"loss": 6.2966,
	"step": 126900
	},
	{
	"epoch": 20.32,
	"grad_norm": 0.17200326919555664,
	"learning_rate": 0.00029696503060122403,
	"loss": 6.4685,
	"step": 127000
	},
	{
	"epoch": 20.336,
	"grad_norm": 0.15096783638000488,
	"learning_rate": 0.0002969626305052202,
	"loss": 6.2486,
	"step": 127100
	},
	{
	"epoch": 20.352,
	"grad_norm": 0.14257729053497314,
	"learning_rate": 0.00029696023040921637,
	"loss": 6.2078,
	"step": 127200
	},
	{
	"epoch": 20.368,
	"grad_norm": 0.21399612724781036,
	"learning_rate": 0.0002969578303132125,
	"loss": 6.0766,
	"step": 127300
	},
	{
	"epoch": 20.384,
	"grad_norm": 0.11737848818302155,
	"learning_rate": 0.00029695543021720865,
	"loss": 6.3663,
	"step": 127400
	},
	{
	"epoch": 20.4,
	"grad_norm": 0.13575823605060577,
	"learning_rate": 0.0002969530301212048,
	"loss": 6.202,
	"step": 127500
	},
	{
	"epoch": 20.416,
	"grad_norm": 0.15899422764778137,
	"learning_rate": 0.000296950630025201,
	"loss": 6.0727,
	"step": 127600
	},
	{
	"epoch": 20.432,
	"grad_norm": 0.18363483250141144,
	"learning_rate": 0.00029694822992919716,
	"loss": 6.594,
	"step": 127700
	},
	{
	"epoch": 20.448,
	"grad_norm": 0.1325751096010208,
	"learning_rate": 0.00029694582983319333,
	"loss": 6.532,
	"step": 127800
	},
	{
	"epoch": 20.464,
	"grad_norm": 0.13950107991695404,
	"learning_rate": 0.00029694342973718944,
	"loss": 5.9695,
	"step": 127900
	},
	{
	"epoch": 20.48,
	"grad_norm": 0.09819541126489639,
	"learning_rate": 0.0002969410296411856,
	"loss": 6.3775,
	"step": 128000
	},
	{
	"epoch": 20.496,
	"grad_norm": 0.15788622200489044,
	"learning_rate": 0.0002969386295451818,
	"loss": 6.5626,
	"step": 128100
	},
	{
	"epoch": 20.512,
	"grad_norm": 0.1338583081960678,
	"learning_rate": 0.00029693622944917795,
	"loss": 6.3808,
	"step": 128200
	},
	{
	"epoch": 20.528,
	"grad_norm": 0.1711709052324295,
	"learning_rate": 0.0002969338293531741,
	"loss": 6.3297,
	"step": 128300
	},
	{
	"epoch": 20.544,
	"grad_norm": 0.10356644541025162,
	"learning_rate": 0.00029693142925717023,
	"loss": 6.2275,
	"step": 128400
	},
	{
	"epoch": 20.56,
	"grad_norm": 0.17266201972961426,
	"learning_rate": 0.0002969290291611664,
	"loss": 6.399,
	"step": 128500
	},
	{
	"epoch": 20.576,
	"grad_norm": 0.1582164466381073,
	"learning_rate": 0.0002969266290651626,
	"loss": 6.186,
	"step": 128600
	},
	{
	"epoch": 20.592,
	"grad_norm": 0.15661326050758362,
	"learning_rate": 0.00029692422896915874,
	"loss": 6.3988,
	"step": 128700
	},
	{
	"epoch": 20.608,
	"grad_norm": 0.12148367613554001,
	"learning_rate": 0.00029692185287411493,
	"loss": 6.4026,
	"step": 128800
	},
	{
	"epoch": 20.624,
	"grad_norm": 0.15861108899116516,
	"learning_rate": 0.0002969194527781111,
	"loss": 6.1632,
	"step": 128900
	},
	{
	"epoch": 20.64,
	"grad_norm": 0.21511606872081757,
	"learning_rate": 0.00029691705268210727,
	"loss": 6.1254,
	"step": 129000
	},
	{
	"epoch": 20.656,
	"grad_norm": 0.17380183935165405,
	"learning_rate": 0.00029691465258610344,
	"loss": 5.8979,
	"step": 129100
	},
	{
	"epoch": 20.672,
	"grad_norm": 0.15295742452144623,
	"learning_rate": 0.0002969122524900996,
	"loss": 6.1504,
	"step": 129200
	},
	{
	"epoch": 20.688,
	"grad_norm": 0.14123979210853577,
	"learning_rate": 0.0002969098523940957,
	"loss": 6.3968,
	"step": 129300
	},
	{
	"epoch": 20.704,
	"grad_norm": 0.11941767483949661,
	"learning_rate": 0.0002969074522980919,
	"loss": 6.2761,
	"step": 129400
	},
	{
	"epoch": 20.72,
	"grad_norm": 0.1716291755437851,
	"learning_rate": 0.00029690505220208806,
	"loss": 6.1725,
	"step": 129500
	},
	{
	"epoch": 20.736,
	"grad_norm": 0.10485927015542984,
	"learning_rate": 0.00029690265210608423,
	"loss": 6.3992,
	"step": 129600
	},
	{
	"epoch": 20.752,
	"grad_norm": 0.14606288075447083,
	"learning_rate": 0.0002969002520100804,
	"loss": 6.3221,
	"step": 129700
	},
	{
	"epoch": 20.768,
	"grad_norm": 0.1599857658147812,
	"learning_rate": 0.00029689785191407657,
	"loss": 6.4159,
	"step": 129800
	},
	{
	"epoch": 20.784,
	"grad_norm": 0.1607884019613266,
	"learning_rate": 0.0002968954518180727,
	"loss": 6.2899,
	"step": 129900
	},
	{
	"epoch": 20.8,
	"grad_norm": 0.17046970129013062,
	"learning_rate": 0.00029689305172206885,
	"loss": 6.195,
	"step": 130000
	},
	{
	"epoch": 20.816,
	"grad_norm": 0.17893536388874054,
	"learning_rate": 0.000296890651626065,
	"loss": 6.3987,
	"step": 130100
	},
	{
	"epoch": 20.832,
	"grad_norm": 0.15878397226333618,
	"learning_rate": 0.0002968882515300612,
	"loss": 6.8826,
	"step": 130200
	},
	{
	"epoch": 20.848,
	"grad_norm": 0.17702220380306244,
	"learning_rate": 0.00029688585143405736,
	"loss": 6.4912,
	"step": 130300
	},
	{
	"epoch": 20.864,
	"grad_norm": 0.1281166672706604,
	"learning_rate": 0.0002968834513380535,
	"loss": 6.5531,
	"step": 130400
	},
	{
	"epoch": 20.88,
	"grad_norm": 0.16799704730510712,
	"learning_rate": 0.00029688105124204964,
	"loss": 5.9929,
	"step": 130500
	},
	{
	"epoch": 20.896,
	"grad_norm": 0.1236133724451065,
	"learning_rate": 0.0002968786511460458,
	"loss": 6.0232,
	"step": 130600
	},
	{
	"epoch": 20.912,
	"grad_norm": 0.1369544267654419,
	"learning_rate": 0.000296876251050042,
	"loss": 6.5761,
	"step": 130700
	},
	{
	"epoch": 20.928,
	"grad_norm": 0.13266846537590027,
	"learning_rate": 0.00029687385095403815,
	"loss": 6.1677,
	"step": 130800
	},
	{
	"epoch": 20.944,
	"grad_norm": 0.11849372833967209,
	"learning_rate": 0.0002968714508580343,
	"loss": 6.0787,
	"step": 130900
	},
	{
	"epoch": 20.96,
	"grad_norm": 0.11395172029733658,
	"learning_rate": 0.00029686905076203044,
	"loss": 6.2634,
	"step": 131000
	},
	{
	"epoch": 20.976,
	"grad_norm": 0.11821906268596649,
	"learning_rate": 0.0002968666746669866,
	"loss": 6.388,
	"step": 131100
	},
	{
	"epoch": 20.992,
	"grad_norm": 0.12622199952602386,
	"learning_rate": 0.00029686427457098285,
	"loss": 6.0103,
	"step": 131200
	},
	{
	"epoch": 21.008,
	"grad_norm": 0.16676801443099976,
	"learning_rate": 0.00029686187447497896,
	"loss": 5.865,
	"step": 131300
	},
	{
	"epoch": 21.024,
	"grad_norm": 0.15502384305000305,
	"learning_rate": 0.00029685947437897513,
	"loss": 6.165,
	"step": 131400
	},
	{
	"epoch": 21.04,
	"grad_norm": 0.24440471827983856,
	"learning_rate": 0.0002968570742829713,
	"loss": 5.9314,
	"step": 131500
	},
	{
	"epoch": 21.056,
	"grad_norm": 0.1315223127603531,
	"learning_rate": 0.00029685467418696747,
	"loss": 6.0678,
	"step": 131600
	},
	{
	"epoch": 21.072,
	"grad_norm": 0.1865660399198532,
	"learning_rate": 0.00029685227409096364,
	"loss": 5.9805,
	"step": 131700
	},
	{
	"epoch": 21.088,
	"grad_norm": 0.2066924124956131,
	"learning_rate": 0.0002968498739949598,
	"loss": 6.1499,
	"step": 131800
	},
	{
	"epoch": 21.104,
	"grad_norm": 0.14284636080265045,
	"learning_rate": 0.0002968474738989559,
	"loss": 5.7731,
	"step": 131900
	},
	{
	"epoch": 21.12,
	"grad_norm": 0.15058225393295288,
	"learning_rate": 0.0002968450738029521,
	"loss": 6.1113,
	"step": 132000
	},
	{
	"epoch": 21.136,
	"grad_norm": 0.12619538605213165,
	"learning_rate": 0.00029684267370694826,
	"loss": 5.9437,
	"step": 132100
	},
	{
	"epoch": 21.152,
	"grad_norm": 0.15766064822673798,
	"learning_rate": 0.00029684027361094443,
	"loss": 6.2503,
	"step": 132200
	},
	{
	"epoch": 21.168,
	"grad_norm": 0.14563268423080444,
	"learning_rate": 0.0002968378735149406,
	"loss": 5.96,
	"step": 132300
	},
	{
	"epoch": 21.184,
	"grad_norm": 0.14157824218273163,
	"learning_rate": 0.0002968354734189367,
	"loss": 6.1794,
	"step": 132400
	},
	{
	"epoch": 21.2,
	"grad_norm": 0.18574143946170807,
	"learning_rate": 0.0002968330733229329,
	"loss": 6.3155,
	"step": 132500
	},
	{
	"epoch": 21.216,
	"grad_norm": 0.11855421960353851,
	"learning_rate": 0.00029683067322692905,
	"loss": 6.4108,
	"step": 132600
	},
	{
	"epoch": 21.232,
	"grad_norm": 0.12140708416700363,
	"learning_rate": 0.0002968282731309252,
	"loss": 6.0888,
	"step": 132700
	},
	{
	"epoch": 21.248,
	"grad_norm": 0.17192867398262024,
	"learning_rate": 0.0002968258730349214,
	"loss": 6.2884,
	"step": 132800
	},
	{
	"epoch": 21.264,
	"grad_norm": 0.13360394537448883,
	"learning_rate": 0.00029682347293891756,
	"loss": 6.1993,
	"step": 132900
	},
	{
	"epoch": 21.28,
	"grad_norm": 0.16163136065006256,
	"learning_rate": 0.0002968210968438737,
	"loss": 6.2262,
	"step": 133000
	},
	{
	"epoch": 21.296,
	"grad_norm": 0.12919676303863525,
	"learning_rate": 0.00029681869674786987,
	"loss": 5.8,
	"step": 133100
	},
	{
	"epoch": 21.312,
	"grad_norm": 0.1594499945640564,
	"learning_rate": 0.00029681629665186603,
	"loss": 5.8055,
	"step": 133200
	},
	{
	"epoch": 21.328,
	"grad_norm": 0.12262352555990219,
	"learning_rate": 0.0002968138965558622,
	"loss": 5.6412,
	"step": 133300
	},
	{
	"epoch": 21.344,
	"grad_norm": 0.16952601075172424,
	"learning_rate": 0.0002968114964598584,
	"loss": 6.0173,
	"step": 133400
	},
	{
	"epoch": 21.36,
	"grad_norm": 0.17378447949886322,
	"learning_rate": 0.0002968090963638545,
	"loss": 5.5105,
	"step": 133500
	},
	{
	"epoch": 21.376,
	"grad_norm": 0.12117540836334229,
	"learning_rate": 0.00029680669626785066,
	"loss": 6.5432,
	"step": 133600
	},
	{
	"epoch": 21.392,
	"grad_norm": 0.15760718286037445,
	"learning_rate": 0.0002968042961718468,
	"loss": 5.6998,
	"step": 133700
	},
	{
	"epoch": 21.408,
	"grad_norm": 0.20163291692733765,
	"learning_rate": 0.000296801896075843,
	"loss": 5.9457,
	"step": 133800
	},
	{
	"epoch": 21.424,
	"grad_norm": 0.1601804941892624,
	"learning_rate": 0.00029679949597983916,
	"loss": 5.7331,
	"step": 133900
	},
	{
	"epoch": 21.44,
	"grad_norm": 0.147283673286438,
	"learning_rate": 0.00029679709588383533,
	"loss": 6.034,
	"step": 134000
	},
	{
	"epoch": 21.456,
	"grad_norm": 0.1677253395318985,
	"learning_rate": 0.00029679469578783145,
	"loss": 6.4454,
	"step": 134100
	},
	{
	"epoch": 21.472,
	"grad_norm": 0.1402285099029541,
	"learning_rate": 0.0002967922956918276,
	"loss": 5.9842,
	"step": 134200
	},
	{
	"epoch": 21.488,
	"grad_norm": 0.185127392411232,
	"learning_rate": 0.00029678989559582384,
	"loss": 6.0976,
	"step": 134300
	},
	{
	"epoch": 21.504,
	"grad_norm": 0.17136482894420624,
	"learning_rate": 0.00029678749549981996,
	"loss": 6.3848,
	"step": 134400
	},
	{
	"epoch": 21.52,
	"grad_norm": 0.14343611896038055,
	"learning_rate": 0.0002967850954038161,
	"loss": 6.1087,
	"step": 134500
	},
	{
	"epoch": 21.536,
	"grad_norm": 0.13721515238285065,
	"learning_rate": 0.0002967826953078123,
	"loss": 6.0383,
	"step": 134600
	},
	{
	"epoch": 21.552,
	"grad_norm": 0.13419759273529053,
	"learning_rate": 0.00029678029521180846,
	"loss": 5.8767,
	"step": 134700
	},
	{
	"epoch": 21.568,
	"grad_norm": 0.18504373729228973,
	"learning_rate": 0.00029677789511580463,
	"loss": 6.0607,
	"step": 134800
	},
	{
	"epoch": 21.584,
	"grad_norm": 0.14880910515785217,
	"learning_rate": 0.0002967754950198008,
	"loss": 5.9108,
	"step": 134900
	},
	{
	"epoch": 21.6,
	"grad_norm": 0.13054971396923065,
	"learning_rate": 0.0002967730949237969,
	"loss": 6.0197,
	"step": 135000
	},
	{
	"epoch": 21.616,
	"grad_norm": 0.16096660494804382,
	"learning_rate": 0.0002967706948277931,
	"loss": 5.8114,
	"step": 135100
	},
	{
	"epoch": 21.632,
	"grad_norm": 0.16552191972732544,
	"learning_rate": 0.00029676829473178926,
	"loss": 6.2389,
	"step": 135200
	},
	{
	"epoch": 21.648,
	"grad_norm": 0.13705958425998688,
	"learning_rate": 0.0002967658946357854,
	"loss": 6.2474,
	"step": 135300
	},
	{
	"epoch": 21.664,
	"grad_norm": 0.17535176873207092,
	"learning_rate": 0.0002967634945397816,
	"loss": 6.0806,
	"step": 135400
	},
	{
	"epoch": 21.68,
	"grad_norm": 0.15185397863388062,
	"learning_rate": 0.0002967610944437777,
	"loss": 6.2673,
	"step": 135500
	},
	{
	"epoch": 21.696,
	"grad_norm": 0.1459989696741104,
	"learning_rate": 0.0002967586943477739,
	"loss": 6.1566,
	"step": 135600
	},
	{
	"epoch": 21.712,
	"grad_norm": 0.1216706857085228,
	"learning_rate": 0.00029675629425177005,
	"loss": 5.9801,
	"step": 135700
	},
	{
	"epoch": 21.728,
	"grad_norm": 0.1349131315946579,
	"learning_rate": 0.0002967538941557662,
	"loss": 5.8902,
	"step": 135800
	},
	{
	"epoch": 21.744,
	"grad_norm": 0.14793895184993744,
	"learning_rate": 0.0002967514940597624,
	"loss": 5.7143,
	"step": 135900
	},
	{
	"epoch": 21.76,
	"grad_norm": 0.171220600605011,
	"learning_rate": 0.00029674909396375855,
	"loss": 5.7715,
	"step": 136000
	},
	{
	"epoch": 21.776,
	"grad_norm": 0.18677209317684174,
	"learning_rate": 0.00029674669386775467,
	"loss": 5.9996,
	"step": 136100
	},
	{
	"epoch": 21.792,
	"grad_norm": 0.153004989027977,
	"learning_rate": 0.00029674429377175084,
	"loss": 6.1678,
	"step": 136200
	},
	{
	"epoch": 21.808,
	"grad_norm": 0.12716227769851685,
	"learning_rate": 0.000296741893675747,
	"loss": 5.8525,
	"step": 136300
	},
	{
	"epoch": 21.824,
	"grad_norm": 0.15531957149505615,
	"learning_rate": 0.0002967394935797432,
	"loss": 5.703,
	"step": 136400
	},
	{
	"epoch": 21.84,
	"grad_norm": 0.16813132166862488,
	"learning_rate": 0.00029673709348373935,
	"loss": 5.7367,
	"step": 136500
	},
	{
	"epoch": 21.856,
	"grad_norm": 0.1366407722234726,
	"learning_rate": 0.0002967346933877355,
	"loss": 6.4011,
	"step": 136600
	},
	{
	"epoch": 21.872,
	"grad_norm": 0.1486620455980301,
	"learning_rate": 0.00029673229329173163,
	"loss": 6.0592,
	"step": 136700
	},
	{
	"epoch": 21.888,
	"grad_norm": 0.1474551409482956,
	"learning_rate": 0.0002967298931957278,
	"loss": 6.1269,
	"step": 136800
	},
	{
	"epoch": 21.904,
	"grad_norm": 0.1317261904478073,
	"learning_rate": 0.00029672749309972397,
	"loss": 6.2704,
	"step": 136900
	},
	{
	"epoch": 21.92,
	"grad_norm": 0.12736591696739197,
	"learning_rate": 0.00029672511700468016,
	"loss": 5.9018,
	"step": 137000
	},
	{
	"epoch": 21.936,
	"grad_norm": 0.17512458562850952,
	"learning_rate": 0.0002967227169086763,
	"loss": 6.1423,
	"step": 137100
	},
	{
	"epoch": 21.951999999999998,
	"grad_norm": 0.2035478949546814,
	"learning_rate": 0.0002967203408136325,
	"loss": 5.8421,
	"step": 137200
	},
	{
	"epoch": 21.968,
	"grad_norm": 0.15790584683418274,
	"learning_rate": 0.0002967179407176287,
	"loss": 5.6449,
	"step": 137300
	},
	{
	"epoch": 21.984,
	"grad_norm": 0.13050822913646698,
	"learning_rate": 0.00029671554062162485,
	"loss": 6.0866,
	"step": 137400
	},
	{
	"epoch": 22.0,
	"grad_norm": 0.1332990825176239,
	"learning_rate": 0.00029671314052562097,
	"loss": 5.8362,
	"step": 137500
	},
	{
	"epoch": 22.016,
	"grad_norm": 0.14409734308719635,
	"learning_rate": 0.00029671074042961714,
	"loss": 5.7401,
	"step": 137600
	},
	{
	"epoch": 22.032,
	"grad_norm": 0.1513838768005371,
	"learning_rate": 0.0002967083403336133,
	"loss": 5.8022,
	"step": 137700
	},
	{
	"epoch": 22.048,
	"grad_norm": 0.14416912198066711,
	"learning_rate": 0.0002967059402376095,
	"loss": 5.7687,
	"step": 137800
	},
	{
	"epoch": 22.064,
	"grad_norm": 0.13069897890090942,
	"learning_rate": 0.00029670354014160565,
	"loss": 5.7314,
	"step": 137900
	},
	{
	"epoch": 22.08,
	"grad_norm": 0.15089532732963562,
	"learning_rate": 0.0002967011400456018,
	"loss": 5.6511,
	"step": 138000
	},
	{
	"epoch": 22.096,
	"grad_norm": 0.1493406444787979,
	"learning_rate": 0.00029669873994959793,
	"loss": 5.7553,
	"step": 138100
	},
	{
	"epoch": 22.112,
	"grad_norm": 0.11403771489858627,
	"learning_rate": 0.0002966963398535941,
	"loss": 5.8785,
	"step": 138200
	},
	{
	"epoch": 22.128,
	"grad_norm": 0.1418454647064209,
	"learning_rate": 0.00029669393975759027,
	"loss": 5.906,
	"step": 138300
	},
	{
	"epoch": 22.144,
	"grad_norm": 0.14632883667945862,
	"learning_rate": 0.00029669153966158644,
	"loss": 5.7911,
	"step": 138400
	},
	{
	"epoch": 22.16,
	"grad_norm": 0.18317896127700806,
	"learning_rate": 0.0002966891395655826,
	"loss": 5.6022,
	"step": 138500
	},
	{
	"epoch": 22.176,
	"grad_norm": 0.14640462398529053,
	"learning_rate": 0.0002966867394695788,
	"loss": 5.6879,
	"step": 138600
	},
	{
	"epoch": 22.192,
	"grad_norm": 0.11322261393070221,
	"learning_rate": 0.0002966843393735749,
	"loss": 5.679,
	"step": 138700
	},
	{
	"epoch": 22.208,
	"grad_norm": 0.14412596821784973,
	"learning_rate": 0.00029668193927757106,
	"loss": 5.6202,
	"step": 138800
	},
	{
	"epoch": 22.224,
	"grad_norm": 0.14023444056510925,
	"learning_rate": 0.00029667953918156723,
	"loss": 6.0133,
	"step": 138900
	},
	{
	"epoch": 22.24,
	"grad_norm": 0.18092051148414612,
	"learning_rate": 0.0002966771390855634,
	"loss": 5.6881,
	"step": 139000
	},
	{
	"epoch": 22.256,
	"grad_norm": 0.13267236948013306,
	"learning_rate": 0.00029667473898955957,
	"loss": 5.742,
	"step": 139100
	},
	{
	"epoch": 22.272,
	"grad_norm": 0.1066688597202301,
	"learning_rate": 0.0002966723388935557,
	"loss": 5.9524,
	"step": 139200
	},
	{
	"epoch": 22.288,
	"grad_norm": 0.17234094440937042,
	"learning_rate": 0.00029666993879755185,
	"loss": 6.0385,
	"step": 139300
	},
	{
	"epoch": 22.304,
	"grad_norm": 0.1593136042356491,
	"learning_rate": 0.000296667538701548,
	"loss": 5.7894,
	"step": 139400
	},
	{
	"epoch": 22.32,
	"grad_norm": 0.1161966621875763,
	"learning_rate": 0.0002966651386055442,
	"loss": 5.6333,
	"step": 139500
	},
	{
	"epoch": 22.336,
	"grad_norm": 0.16088221967220306,
	"learning_rate": 0.00029666273850954036,
	"loss": 5.3016,
	"step": 139600
	},
	{
	"epoch": 22.352,
	"grad_norm": 0.195027694106102,
	"learning_rate": 0.00029666033841353653,
	"loss": 5.8886,
	"step": 139700
	},
	{
	"epoch": 22.368,
	"grad_norm": 0.17010509967803955,
	"learning_rate": 0.00029665793831753264,
	"loss": 5.7462,
	"step": 139800
	},
	{
	"epoch": 22.384,
	"grad_norm": 0.15900500118732452,
	"learning_rate": 0.0002966555382215288,
	"loss": 6.1951,
	"step": 139900
	},
	{
	"epoch": 22.4,
	"grad_norm": 0.20321440696716309,
	"learning_rate": 0.000296653138125525,
	"loss": 5.8264,
	"step": 140000
	},
	{
	"epoch": 22.416,
	"grad_norm": 0.21823586523532867,
	"learning_rate": 0.00029665073802952115,
	"loss": 5.7779,
	"step": 140100
	},
	{
	"epoch": 22.432,
	"grad_norm": 0.12739881873130798,
	"learning_rate": 0.0002966483379335173,
	"loss": 5.6477,
	"step": 140200
	},
	{
	"epoch": 22.448,
	"grad_norm": 0.1288122534751892,
	"learning_rate": 0.00029664593783751344,
	"loss": 5.5937,
	"step": 140300
	},
	{
	"epoch": 22.464,
	"grad_norm": 0.12690824270248413,
	"learning_rate": 0.0002966435377415096,
	"loss": 6.0249,
	"step": 140400
	},
	{
	"epoch": 22.48,
	"grad_norm": 0.16361913084983826,
	"learning_rate": 0.00029664113764550583,
	"loss": 5.8957,
	"step": 140500
	},
	{
	"epoch": 22.496,
	"grad_norm": 0.13729694485664368,
	"learning_rate": 0.000296638737549502,
	"loss": 5.8405,
	"step": 140600
	},
	{
	"epoch": 22.512,
	"grad_norm": 0.19917264580726624,
	"learning_rate": 0.0002966363374534981,
	"loss": 5.9084,
	"step": 140700
	},
	{
	"epoch": 22.528,
	"grad_norm": 0.15145164728164673,
	"learning_rate": 0.0002966339373574943,
	"loss": 5.4631,
	"step": 140800
	},
	{
	"epoch": 22.544,
	"grad_norm": 0.11967241019010544,
	"learning_rate": 0.00029663153726149045,
	"loss": 5.9098,
	"step": 140900
	},
	{
	"epoch": 22.56,
	"grad_norm": 0.15000027418136597,
	"learning_rate": 0.0002966291371654866,
	"loss": 5.7238,
	"step": 141000
	},
	{
	"epoch": 22.576,
	"grad_norm": 0.16883157193660736,
	"learning_rate": 0.0002966267370694828,
	"loss": 5.738,
	"step": 141100
	},
	{
	"epoch": 22.592,
	"grad_norm": 0.13367842137813568,
	"learning_rate": 0.0002966243369734789,
	"loss": 5.5043,
	"step": 141200
	},
	{
	"epoch": 22.608,
	"grad_norm": 0.15113677084445953,
	"learning_rate": 0.00029662193687747507,
	"loss": 5.6651,
	"step": 141300
	},
	{
	"epoch": 22.624,
	"grad_norm": 0.13519582152366638,
	"learning_rate": 0.00029661953678147124,
	"loss": 5.9082,
	"step": 141400
	},
	{
	"epoch": 22.64,
	"grad_norm": 0.15879906713962555,
	"learning_rate": 0.0002966171366854674,
	"loss": 6.094,
	"step": 141500
	},
	{
	"epoch": 22.656,
	"grad_norm": 0.16288715600967407,
	"learning_rate": 0.0002966147365894636,
	"loss": 5.5707,
	"step": 141600
	},
	{
	"epoch": 22.672,
	"grad_norm": 0.14412395656108856,
	"learning_rate": 0.00029661233649345975,
	"loss": 5.6827,
	"step": 141700
	},
	{
	"epoch": 22.688,
	"grad_norm": 0.14847436547279358,
	"learning_rate": 0.00029660993639745586,
	"loss": 5.4179,
	"step": 141800
	},
	{
	"epoch": 22.704,
	"grad_norm": 0.13256803154945374,
	"learning_rate": 0.00029660753630145203,
	"loss": 5.6927,
	"step": 141900
	},
	{
	"epoch": 22.72,
	"grad_norm": 0.13526926934719086,
	"learning_rate": 0.0002966051362054482,
	"loss": 5.7505,
	"step": 142000
	},
	{
	"epoch": 22.736,
	"grad_norm": 0.2226150929927826,
	"learning_rate": 0.00029660273610944437,
	"loss": 5.6683,
	"step": 142100
	},
	{
	"epoch": 22.752,
	"grad_norm": 0.12251828610897064,
	"learning_rate": 0.00029660033601344054,
	"loss": 5.4908,
	"step": 142200
	},
	{
	"epoch": 22.768,
	"grad_norm": 0.15432491898536682,
	"learning_rate": 0.00029659793591743666,
	"loss": 5.5662,
	"step": 142300
	},
	{
	"epoch": 22.784,
	"grad_norm": 0.13890361785888672,
	"learning_rate": 0.0002965955358214328,
	"loss": 5.6202,
	"step": 142400
	},
	{
	"epoch": 22.8,
	"grad_norm": 0.10568337142467499,
	"learning_rate": 0.000296593135725429,
	"loss": 5.7232,
	"step": 142500
	},
	{
	"epoch": 22.816,
	"grad_norm": 0.14877153933048248,
	"learning_rate": 0.00029659073562942516,
	"loss": 5.4585,
	"step": 142600
	},
	{
	"epoch": 22.832,
	"grad_norm": 0.1703936904668808,
	"learning_rate": 0.00029658833553342133,
	"loss": 5.8294,
	"step": 142700
	},
	{
	"epoch": 22.848,
	"grad_norm": 0.12574242055416107,
	"learning_rate": 0.0002965859594383775,
	"loss": 6.0963,
	"step": 142800
	},
	{
	"epoch": 22.864,
	"grad_norm": 0.1556757390499115,
	"learning_rate": 0.00029658355934237364,
	"loss": 5.6681,
	"step": 142900
	},
	{
	"epoch": 22.88,
	"grad_norm": 0.14058822393417358,
	"learning_rate": 0.0002965811592463698,
	"loss": 5.6148,
	"step": 143000
	},
	{
	"epoch": 22.896,
	"grad_norm": 0.1746063232421875,
	"learning_rate": 0.000296578759150366,
	"loss": 5.698,
	"step": 143100
	},
	{
	"epoch": 22.912,
	"grad_norm": 0.14458870887756348,
	"learning_rate": 0.00029657635905436214,
	"loss": 5.439,
	"step": 143200
	},
	{
	"epoch": 22.928,
	"grad_norm": 0.1708308756351471,
	"learning_rate": 0.0002965739589583583,
	"loss": 5.8077,
	"step": 143300
	},
	{
	"epoch": 22.944,
	"grad_norm": 0.1382734328508377,
	"learning_rate": 0.00029657155886235443,
	"loss": 5.603,
	"step": 143400
	},
	{
	"epoch": 22.96,
	"grad_norm": 0.15728691220283508,
	"learning_rate": 0.0002965691587663506,
	"loss": 5.8985,
	"step": 143500
	},
	{
	"epoch": 22.976,
	"grad_norm": 0.12880076467990875,
	"learning_rate": 0.00029656675867034677,
	"loss": 5.7958,
	"step": 143600
	},
	{
	"epoch": 22.992,
	"grad_norm": 0.130670964717865,
	"learning_rate": 0.000296564358574343,
	"loss": 5.6226,
	"step": 143700
	},
	{
	"epoch": 23.008,
	"grad_norm": 0.1519329994916916,
	"learning_rate": 0.0002965619584783391,
	"loss": 5.5619,
	"step": 143800
	},
	{
	"epoch": 23.024,
	"grad_norm": 0.11900737136602402,
	"learning_rate": 0.0002965595583823353,
	"loss": 5.5148,
	"step": 143900
	},
	{
	"epoch": 23.04,
	"grad_norm": 0.13805437088012695,
	"learning_rate": 0.00029655715828633144,
	"loss": 5.1992,
	"step": 144000
	},
	{
	"epoch": 23.056,
	"grad_norm": 0.15381775796413422,
	"learning_rate": 0.0002965547581903276,
	"loss": 5.6994,
	"step": 144100
	},
	{
	"epoch": 23.072,
	"grad_norm": 0.17571000754833221,
	"learning_rate": 0.0002965523580943238,
	"loss": 5.4076,
	"step": 144200
	},
	{
	"epoch": 23.088,
	"grad_norm": 0.1299617439508438,
	"learning_rate": 0.0002965499579983199,
	"loss": 5.5817,
	"step": 144300
	},
	{
	"epoch": 23.104,
	"grad_norm": 0.1709066480398178,
	"learning_rate": 0.00029654755790231607,
	"loss": 5.6442,
	"step": 144400
	},
	{
	"epoch": 23.12,
	"grad_norm": 0.11673315614461899,
	"learning_rate": 0.00029654515780631224,
	"loss": 5.4461,
	"step": 144500
	},
	{
	"epoch": 23.136,
	"grad_norm": 0.17694547772407532,
	"learning_rate": 0.0002965427577103084,
	"loss": 5.4203,
	"step": 144600
	},
	{
	"epoch": 23.152,
	"grad_norm": 0.1397058516740799,
	"learning_rate": 0.0002965403576143046,
	"loss": 5.6535,
	"step": 144700
	},
	{
	"epoch": 23.168,
	"grad_norm": 0.14913706481456757,
	"learning_rate": 0.00029653795751830074,
	"loss": 5.327,
	"step": 144800
	},
	{
	"epoch": 23.184,
	"grad_norm": 0.0980440080165863,
	"learning_rate": 0.0002965355814232569,
	"loss": 5.6265,
	"step": 144900
	},
	{
	"epoch": 23.2,
	"grad_norm": 0.14519555866718292,
	"learning_rate": 0.00029653318132725305,
	"loss": 5.5968,
	"step": 145000
	},
	{
	"epoch": 23.216,
	"grad_norm": 0.14121969044208527,
	"learning_rate": 0.0002965307812312492,
	"loss": 5.3419,
	"step": 145100
	},
	{
	"epoch": 23.232,
	"grad_norm": 0.14867204427719116,
	"learning_rate": 0.0002965283811352454,
	"loss": 5.5432,
	"step": 145200
	},
	{
	"epoch": 23.248,
	"grad_norm": 0.14526410400867462,
	"learning_rate": 0.00029652598103924155,
	"loss": 5.4119,
	"step": 145300
	},
	{
	"epoch": 23.264,
	"grad_norm": 0.16068951785564423,
	"learning_rate": 0.00029652358094323767,
	"loss": 5.6084,
	"step": 145400
	},
	{
	"epoch": 23.28,
	"grad_norm": 0.1540200263261795,
	"learning_rate": 0.00029652118084723384,
	"loss": 5.3346,
	"step": 145500
	},
	{
	"epoch": 23.296,
	"grad_norm": 0.1306939572095871,
	"learning_rate": 0.00029651878075123,
	"loss": 5.4401,
	"step": 145600
	},
	{
	"epoch": 23.312,
	"grad_norm": 0.19503143429756165,
	"learning_rate": 0.0002965163806552262,
	"loss": 5.5145,
	"step": 145700
	},
	{
	"epoch": 23.328,
	"grad_norm": 0.16698400676250458,
	"learning_rate": 0.00029651398055922235,
	"loss": 5.4459,
	"step": 145800
	},
	{
	"epoch": 23.344,
	"grad_norm": 0.14990036189556122,
	"learning_rate": 0.0002965115804632185,
	"loss": 5.9844,
	"step": 145900
	},
	{
	"epoch": 23.36,
	"grad_norm": 0.12152257561683655,
	"learning_rate": 0.00029650918036721463,
	"loss": 5.4034,
	"step": 146000
	},
	{
	"epoch": 23.376,
	"grad_norm": 0.12588883936405182,
	"learning_rate": 0.0002965067802712108,
	"loss": 5.6587,
	"step": 146100
	},
	{
	"epoch": 23.392,
	"grad_norm": 0.13769680261611938,
	"learning_rate": 0.00029650438017520697,
	"loss": 5.6661,
	"step": 146200
	},
	{
	"epoch": 23.408,
	"grad_norm": 0.18270593881607056,
	"learning_rate": 0.00029650198007920314,
	"loss": 5.4772,
	"step": 146300
	},
	{
	"epoch": 23.424,
	"grad_norm": 0.16988155245780945,
	"learning_rate": 0.0002964995799831993,
	"loss": 5.861,
	"step": 146400
	},
	{
	"epoch": 23.44,
	"grad_norm": 0.15813444554805756,
	"learning_rate": 0.0002964971798871954,
	"loss": 5.5742,
	"step": 146500
	},
	{
	"epoch": 23.456,
	"grad_norm": 0.20319218933582306,
	"learning_rate": 0.0002964947797911916,
	"loss": 5.5046,
	"step": 146600
	},
	{
	"epoch": 23.472,
	"grad_norm": 0.1794954091310501,
	"learning_rate": 0.00029649237969518776,
	"loss": 5.4266,
	"step": 146700
	},
	{
	"epoch": 23.488,
	"grad_norm": 0.18233439326286316,
	"learning_rate": 0.000296489979599184,
	"loss": 5.7988,
	"step": 146800
	},
	{
	"epoch": 23.504,
	"grad_norm": 0.24476204812526703,
	"learning_rate": 0.0002964875795031801,
	"loss": 5.5573,
	"step": 146900
	},
	{
	"epoch": 23.52,
	"grad_norm": 0.12210160493850708,
	"learning_rate": 0.00029648517940717627,
	"loss": 5.3991,
	"step": 147000
	},
	{
	"epoch": 23.536,
	"grad_norm": 0.18380597233772278,
	"learning_rate": 0.00029648277931117244,
	"loss": 5.7061,
	"step": 147100
	},
	{
	"epoch": 23.552,
	"grad_norm": 0.14776001870632172,
	"learning_rate": 0.0002964803792151686,
	"loss": 5.6827,
	"step": 147200
	},
	{
	"epoch": 23.568,
	"grad_norm": 0.13290056586265564,
	"learning_rate": 0.0002964779791191648,
	"loss": 5.6598,
	"step": 147300
	},
	{
	"epoch": 23.584,
	"grad_norm": 0.12878666818141937,
	"learning_rate": 0.0002964755790231609,
	"loss": 5.4732,
	"step": 147400
	},
	{
	"epoch": 23.6,
	"grad_norm": 0.11875222623348236,
	"learning_rate": 0.00029647317892715706,
	"loss": 5.9345,
	"step": 147500
	},
	{
	"epoch": 23.616,
	"grad_norm": 0.1489972323179245,
	"learning_rate": 0.00029647077883115323,
	"loss": 5.5631,
	"step": 147600
	},
	{
	"epoch": 23.632,
	"grad_norm": 0.22594046592712402,
	"learning_rate": 0.0002964683787351494,
	"loss": 5.2854,
	"step": 147700
	},
	{
	"epoch": 23.648,
	"grad_norm": 0.14621250331401825,
	"learning_rate": 0.00029646597863914557,
	"loss": 5.2938,
	"step": 147800
	},
	{
	"epoch": 23.664,
	"grad_norm": 0.14641734957695007,
	"learning_rate": 0.00029646357854314174,
	"loss": 5.7265,
	"step": 147900
	},
	{
	"epoch": 23.68,
	"grad_norm": 0.14452804625034332,
	"learning_rate": 0.00029646117844713785,
	"loss": 5.3081,
	"step": 148000
	},
	{
	"epoch": 23.696,
	"grad_norm": 0.1696479767560959,
	"learning_rate": 0.000296458778351134,
	"loss": 5.7359,
	"step": 148100
	},
	{
	"epoch": 23.712,
	"grad_norm": 0.1629931777715683,
	"learning_rate": 0.0002964563782551302,
	"loss": 5.8091,
	"step": 148200
	},
	{
	"epoch": 23.728,
	"grad_norm": 0.1588413119316101,
	"learning_rate": 0.00029645397815912636,
	"loss": 5.8185,
	"step": 148300
	},
	{
	"epoch": 23.744,
	"grad_norm": 0.1528206616640091,
	"learning_rate": 0.00029645157806312253,
	"loss": 5.6945,
	"step": 148400
	},
	{
	"epoch": 23.76,
	"grad_norm": 0.16446250677108765,
	"learning_rate": 0.00029644917796711864,
	"loss": 5.1739,
	"step": 148500
	},
	{
	"epoch": 23.776,
	"grad_norm": 0.14487922191619873,
	"learning_rate": 0.00029644680187207483,
	"loss": 5.5836,
	"step": 148600
	},
	{
	"epoch": 23.792,
	"grad_norm": 0.297879159450531,
	"learning_rate": 0.0002964444257770311,
	"loss": 5.5247,
	"step": 148700
	},
	{
	"epoch": 23.808,
	"grad_norm": 0.1171737089753151,
	"learning_rate": 0.00029644202568102724,
	"loss": 5.3085,
	"step": 148800
	},
	{
	"epoch": 23.824,
	"grad_norm": 0.1464715600013733,
	"learning_rate": 0.00029643962558502336,
	"loss": 5.3029,
	"step": 148900
	},
	{
	"epoch": 23.84,
	"grad_norm": 0.16126649081707,
	"learning_rate": 0.0002964372254890195,
	"loss": 5.7273,
	"step": 149000
	},
	{
	"epoch": 23.856,
	"grad_norm": 0.10824692994356155,
	"learning_rate": 0.0002964348253930157,
	"loss": 5.3296,
	"step": 149100
	},
	{
	"epoch": 23.872,
	"grad_norm": 0.14661309123039246,
	"learning_rate": 0.00029643242529701187,
	"loss": 5.828,
	"step": 149200
	},
	{
	"epoch": 23.888,
	"grad_norm": 0.16918961703777313,
	"learning_rate": 0.00029643002520100803,
	"loss": 5.359,
	"step": 149300
	},
	{
	"epoch": 23.904,
	"grad_norm": 0.14028948545455933,
	"learning_rate": 0.00029642762510500415,
	"loss": 5.5027,
	"step": 149400
	},
	{
	"epoch": 23.92,
	"grad_norm": 0.15497733652591705,
	"learning_rate": 0.0002964252250090003,
	"loss": 5.7539,
	"step": 149500
	},
	{
	"epoch": 23.936,
	"grad_norm": 0.12349986284971237,
	"learning_rate": 0.0002964228249129965,
	"loss": 5.1582,
	"step": 149600
	},
	{
	"epoch": 23.951999999999998,
	"grad_norm": 0.1359599381685257,
	"learning_rate": 0.00029642042481699266,
	"loss": 5.4394,
	"step": 149700
	},
	{
	"epoch": 23.968,
	"grad_norm": 0.18629401922225952,
	"learning_rate": 0.0002964180247209888,
	"loss": 5.4743,
	"step": 149800
	},
	{
	"epoch": 23.984,
	"grad_norm": 0.1438770890235901,
	"learning_rate": 0.000296415624624985,
	"loss": 5.4707,
	"step": 149900
	},
	{
	"epoch": 24.0,
	"grad_norm": 0.11876608431339264,
	"learning_rate": 0.0002964132245289811,
	"loss": 5.2108,
	"step": 150000
	},
	{
	"epoch": 24.016,
	"grad_norm": 0.1379069685935974,
	"learning_rate": 0.0002964108244329773,
	"loss": 5.5858,
	"step": 150100
	},
	{
	"epoch": 24.032,
	"grad_norm": 0.15197959542274475,
	"learning_rate": 0.00029640842433697345,
	"loss": 5.3452,
	"step": 150200
	},
	{
	"epoch": 24.048,
	"grad_norm": 0.16093584895133972,
	"learning_rate": 0.0002964060242409696,
	"loss": 5.1725,
	"step": 150300
	},
	{
	"epoch": 24.064,
	"grad_norm": 0.14459937810897827,
	"learning_rate": 0.0002964036241449658,
	"loss": 5.529,
	"step": 150400
	},
	{
	"epoch": 24.08,
	"grad_norm": 0.15908825397491455,
	"learning_rate": 0.0002964012240489619,
	"loss": 5.0667,
	"step": 150500
	},
	{
	"epoch": 24.096,
	"grad_norm": 0.14320479333400726,
	"learning_rate": 0.00029639882395295807,
	"loss": 5.4541,
	"step": 150600
	},
	{
	"epoch": 24.112,
	"grad_norm": 0.1382274329662323,
	"learning_rate": 0.00029639642385695424,
	"loss": 5.4337,
	"step": 150700
	},
	{
	"epoch": 24.128,
	"grad_norm": 0.09485090523958206,
	"learning_rate": 0.0002963940237609504,
	"loss": 5.5169,
	"step": 150800
	},
	{
	"epoch": 24.144,
	"grad_norm": 0.1434488147497177,
	"learning_rate": 0.0002963916236649466,
	"loss": 5.1838,
	"step": 150900
	},
	{
	"epoch": 24.16,
	"grad_norm": 0.172550767660141,
	"learning_rate": 0.00029638922356894275,
	"loss": 5.4995,
	"step": 151000
	},
	{
	"epoch": 24.176,
	"grad_norm": 0.17296665906906128,
	"learning_rate": 0.00029638682347293886,
	"loss": 5.3814,
	"step": 151100
	},
	{
	"epoch": 24.192,
	"grad_norm": 0.13183431327342987,
	"learning_rate": 0.00029638442337693503,
	"loss": 5.4961,
	"step": 151200
	},
	{
	"epoch": 24.208,
	"grad_norm": 0.11805009096860886,
	"learning_rate": 0.0002963820472818913,
	"loss": 5.3575,
	"step": 151300
	},
	{
	"epoch": 24.224,
	"grad_norm": 0.1694483608007431,
	"learning_rate": 0.0002963796471858874,
	"loss": 5.4198,
	"step": 151400
	},
	{
	"epoch": 24.24,
	"grad_norm": 0.14694049954414368,
	"learning_rate": 0.00029637724708988356,
	"loss": 5.2369,
	"step": 151500
	},
	{
	"epoch": 24.256,
	"grad_norm": 0.14818693697452545,
	"learning_rate": 0.00029637484699387973,
	"loss": 5.5989,
	"step": 151600
	},
	{
	"epoch": 24.272,
	"grad_norm": 0.12142101675271988,
	"learning_rate": 0.0002963724468978759,
	"loss": 5.5808,
	"step": 151700
	},
	{
	"epoch": 24.288,
	"grad_norm": 0.1072693020105362,
	"learning_rate": 0.00029637004680187207,
	"loss": 5.2257,
	"step": 151800
	},
	{
	"epoch": 24.304,
	"grad_norm": 0.20452247560024261,
	"learning_rate": 0.00029636764670586824,
	"loss": 4.9512,
	"step": 151900
	},
	{
	"epoch": 24.32,
	"grad_norm": 0.13785667717456818,
	"learning_rate": 0.00029636524660986435,
	"loss": 5.3486,
	"step": 152000
	},
	{
	"epoch": 24.336,
	"grad_norm": 0.16348302364349365,
	"learning_rate": 0.0002963628465138605,
	"loss": 5.416,
	"step": 152100
	},
	{
	"epoch": 24.352,
	"grad_norm": 0.12873555719852448,
	"learning_rate": 0.0002963604464178567,
	"loss": 5.4854,
	"step": 152200
	},
	{
	"epoch": 24.368,
	"grad_norm": 0.14430370926856995,
	"learning_rate": 0.00029635804632185286,
	"loss": 5.083,
	"step": 152300
	},
	{
	"epoch": 24.384,
	"grad_norm": 0.14247077703475952,
	"learning_rate": 0.00029635564622584903,
	"loss": 5.2926,
	"step": 152400
	},
	{
	"epoch": 24.4,
	"grad_norm": 0.12942449748516083,
	"learning_rate": 0.00029635324612984514,
	"loss": 5.2287,
	"step": 152500
	},
	{
	"epoch": 24.416,
	"grad_norm": 0.1290571689605713,
	"learning_rate": 0.0002963508460338413,
	"loss": 5.1295,
	"step": 152600
	},
	{
	"epoch": 24.432,
	"grad_norm": 0.14392858743667603,
	"learning_rate": 0.0002963484459378375,
	"loss": 5.2795,
	"step": 152700
	},
	{
	"epoch": 24.448,
	"grad_norm": 0.10403969883918762,
	"learning_rate": 0.00029634604584183365,
	"loss": 5.4616,
	"step": 152800
	},
	{
	"epoch": 24.464,
	"grad_norm": 0.1357210874557495,
	"learning_rate": 0.0002963436457458298,
	"loss": 5.0671,
	"step": 152900
	},
	{
	"epoch": 24.48,
	"grad_norm": 0.162188321352005,
	"learning_rate": 0.000296341245649826,
	"loss": 5.1244,
	"step": 153000
	},
	{
	"epoch": 24.496,
	"grad_norm": 0.1423524171113968,
	"learning_rate": 0.0002963388455538221,
	"loss": 5.2658,
	"step": 153100
	},
	{
	"epoch": 24.512,
	"grad_norm": 0.15725597739219666,
	"learning_rate": 0.00029633644545781827,
	"loss": 5.4486,
	"step": 153200
	},
	{
	"epoch": 24.528,
	"grad_norm": 0.10184895247220993,
	"learning_rate": 0.00029633404536181444,
	"loss": 5.1975,
	"step": 153300
	},
	{
	"epoch": 24.544,
	"grad_norm": 0.11968593299388885,
	"learning_rate": 0.0002963316452658106,
	"loss": 5.0282,
	"step": 153400
	},
	{
	"epoch": 24.56,
	"grad_norm": 0.15125450491905212,
	"learning_rate": 0.0002963292451698068,
	"loss": 5.0548,
	"step": 153500
	},
	{
	"epoch": 24.576,
	"grad_norm": 0.1498018205165863,
	"learning_rate": 0.0002963268450738029,
	"loss": 5.2235,
	"step": 153600
	},
	{
	"epoch": 24.592,
	"grad_norm": 0.14961381256580353,
	"learning_rate": 0.00029632444497779906,
	"loss": 5.282,
	"step": 153700
	},
	{
	"epoch": 24.608,
	"grad_norm": 0.10805343836545944,
	"learning_rate": 0.00029632204488179523,
	"loss": 5.2164,
	"step": 153800
	},
	{
	"epoch": 24.624,
	"grad_norm": 0.1407497674226761,
	"learning_rate": 0.0002963196447857914,
	"loss": 5.8793,
	"step": 153900
	},
	{
	"epoch": 24.64,
	"grad_norm": 0.15589803457260132,
	"learning_rate": 0.00029631724468978757,
	"loss": 5.2803,
	"step": 154000
	},
	{
	"epoch": 24.656,
	"grad_norm": 0.15549539029598236,
	"learning_rate": 0.00029631484459378374,
	"loss": 5.5255,
	"step": 154100
	},
	{
	"epoch": 24.672,
	"grad_norm": 0.14697429537773132,
	"learning_rate": 0.00029631244449777986,
	"loss": 5.2088,
	"step": 154200
	},
	{
	"epoch": 24.688,
	"grad_norm": 0.14445632696151733,
	"learning_rate": 0.000296310044401776,
	"loss": 5.314,
	"step": 154300
	},
	{
	"epoch": 24.704,
	"grad_norm": 0.13264203071594238,
	"learning_rate": 0.0002963076443057722,
	"loss": 5.1363,
	"step": 154400
	},
	{
	"epoch": 24.72,
	"grad_norm": 0.14595112204551697,
	"learning_rate": 0.00029630524420976836,
	"loss": 5.1834,
	"step": 154500
	},
	{
	"epoch": 24.736,
	"grad_norm": 0.15063650906085968,
	"learning_rate": 0.00029630284411376453,
	"loss": 5.2409,
	"step": 154600
	},
	{
	"epoch": 24.752,
	"grad_norm": 0.1531144678592682,
	"learning_rate": 0.00029630044401776065,
	"loss": 5.3414,
	"step": 154700
	},
	{
	"epoch": 24.768,
	"grad_norm": 0.15418265759944916,
	"learning_rate": 0.0002962980439217568,
	"loss": 5.3579,
	"step": 154800
	},
	{
	"epoch": 24.784,
	"grad_norm": 0.13664741814136505,
	"learning_rate": 0.000296295643825753,
	"loss": 5.4855,
	"step": 154900
	},
	{
	"epoch": 24.8,
	"grad_norm": 0.15261198580265045,
	"learning_rate": 0.00029629324372974916,
	"loss": 5.5078,
	"step": 155000
	},
	{
	"epoch": 24.816,
	"grad_norm": 0.1436208039522171,
	"learning_rate": 0.0002962908436337453,
	"loss": 5.2359,
	"step": 155100
	},
	{
	"epoch": 24.832,
	"grad_norm": 0.1557721495628357,
	"learning_rate": 0.0002962884435377415,
	"loss": 5.1472,
	"step": 155200
	},
	{
	"epoch": 24.848,
	"grad_norm": 0.1639142483472824,
	"learning_rate": 0.0002962860434417376,
	"loss": 5.1701,
	"step": 155300
	},
	{
	"epoch": 24.864,
	"grad_norm": 0.1857120245695114,
	"learning_rate": 0.0002962836433457338,
	"loss": 5.3149,
	"step": 155400
	},
	{
	"epoch": 24.88,
	"grad_norm": 0.1384589672088623,
	"learning_rate": 0.00029628124324972995,
	"loss": 5.1655,
	"step": 155500
	},
	{
	"epoch": 24.896,
	"grad_norm": 0.16934780776500702,
	"learning_rate": 0.0002962788431537261,
	"loss": 5.0212,
	"step": 155600
	},
	{
	"epoch": 24.912,
	"grad_norm": 0.14011263847351074,
	"learning_rate": 0.0002962764430577223,
	"loss": 5.3506,
	"step": 155700
	},
	{
	"epoch": 24.928,
	"grad_norm": 0.12232084572315216,
	"learning_rate": 0.0002962740429617184,
	"loss": 4.9836,
	"step": 155800
	},
	{
	"epoch": 24.944,
	"grad_norm": 0.1219339519739151,
	"learning_rate": 0.00029627164286571457,
	"loss": 5.337,
	"step": 155900
	},
	{
	"epoch": 24.96,
	"grad_norm": 0.13951101899147034,
	"learning_rate": 0.0002962692667706708,
	"loss": 5.6947,
	"step": 156000
	},
	{
	"epoch": 24.976,
	"grad_norm": 0.15717874467372894,
	"learning_rate": 0.000296266866674667,
	"loss": 5.0598,
	"step": 156100
	},
	{
	"epoch": 24.992,
	"grad_norm": 0.16753438115119934,
	"learning_rate": 0.0002962644665786631,
	"loss": 5.1918,
	"step": 156200
	},
	{
	"epoch": 25.008,
	"grad_norm": 0.11955256760120392,
	"learning_rate": 0.00029626206648265927,
	"loss": 5.1705,
	"step": 156300
	},
	{
	"epoch": 25.024,
	"grad_norm": 0.11964499950408936,
	"learning_rate": 0.00029625966638665544,
	"loss": 5.3443,
	"step": 156400
	},
	{
	"epoch": 25.04,
	"grad_norm": 0.123370461165905,
	"learning_rate": 0.0002962572662906516,
	"loss": 4.9845,
	"step": 156500
	},
	{
	"epoch": 25.056,
	"grad_norm": 0.12556427717208862,
	"learning_rate": 0.0002962548661946478,
	"loss": 4.9369,
	"step": 156600
	},
	{
	"epoch": 25.072,
	"grad_norm": 0.15033285319805145,
	"learning_rate": 0.0002962524660986439,
	"loss": 5.1891,
	"step": 156700
	},
	{
	"epoch": 25.088,
	"grad_norm": 0.157626673579216,
	"learning_rate": 0.00029625006600264006,
	"loss": 5.0871,
	"step": 156800
	},
	{
	"epoch": 25.104,
	"grad_norm": 0.12489177286624908,
	"learning_rate": 0.0002962476659066362,
	"loss": 4.9887,
	"step": 156900
	},
	{
	"epoch": 25.12,
	"grad_norm": 0.17784586548805237,
	"learning_rate": 0.0002962452658106324,
	"loss": 4.9263,
	"step": 157000
	},
	{
	"epoch": 25.136,
	"grad_norm": 0.26584434509277344,
	"learning_rate": 0.00029624286571462857,
	"loss": 5.1268,
	"step": 157100
	},
	{
	"epoch": 25.152,
	"grad_norm": 0.14168865978717804,
	"learning_rate": 0.00029624046561862473,
	"loss": 5.4578,
	"step": 157200
	},
	{
	"epoch": 25.168,
	"grad_norm": 0.1289631426334381,
	"learning_rate": 0.00029623806552262085,
	"loss": 5.2466,
	"step": 157300
	},
	{
	"epoch": 25.184,
	"grad_norm": 0.12273957580327988,
	"learning_rate": 0.000296235665426617,
	"loss": 4.7845,
	"step": 157400
	},
	{
	"epoch": 25.2,
	"grad_norm": 0.24651670455932617,
	"learning_rate": 0.0002962332653306132,
	"loss": 5.0988,
	"step": 157500
	},
	{
	"epoch": 25.216,
	"grad_norm": 0.1415649801492691,
	"learning_rate": 0.00029623086523460936,
	"loss": 5.0998,
	"step": 157600
	},
	{
	"epoch": 25.232,
	"grad_norm": 0.1132798045873642,
	"learning_rate": 0.0002962284651386055,
	"loss": 5.2229,
	"step": 157700
	},
	{
	"epoch": 25.248,
	"grad_norm": 0.10961470752954483,
	"learning_rate": 0.00029622606504260164,
	"loss": 4.9959,
	"step": 157800
	},
	{
	"epoch": 25.264,
	"grad_norm": 0.16054928302764893,
	"learning_rate": 0.0002962236649465978,
	"loss": 4.989,
	"step": 157900
	},
	{
	"epoch": 25.28,
	"grad_norm": 0.16918180882930756,
	"learning_rate": 0.000296221264850594,
	"loss": 5.0824,
	"step": 158000
	},
	{
	"epoch": 25.296,
	"grad_norm": 0.12880262732505798,
	"learning_rate": 0.00029621886475459015,
	"loss": 4.6069,
	"step": 158100
	},
	{
	"epoch": 25.312,
	"grad_norm": 0.16930246353149414,
	"learning_rate": 0.0002962164646585863,
	"loss": 5.0421,
	"step": 158200
	},
	{
	"epoch": 25.328,
	"grad_norm": 0.15791450440883636,
	"learning_rate": 0.0002962140645625825,
	"loss": 5.1324,
	"step": 158300
	},
	{
	"epoch": 25.344,
	"grad_norm": 0.12896622717380524,
	"learning_rate": 0.0002962116644665786,
	"loss": 4.8697,
	"step": 158400
	},
	{
	"epoch": 25.36,
	"grad_norm": 0.15522588789463043,
	"learning_rate": 0.00029620926437057477,
	"loss": 5.112,
	"step": 158500
	},
	{
	"epoch": 25.376,
	"grad_norm": 0.15994909405708313,
	"learning_rate": 0.00029620686427457094,
	"loss": 5.1186,
	"step": 158600
	},
	{
	"epoch": 25.392,
	"grad_norm": 0.16203735768795013,
	"learning_rate": 0.0002962044641785671,
	"loss": 5.2136,
	"step": 158700
	},
	{
	"epoch": 25.408,
	"grad_norm": 0.14830628037452698,
	"learning_rate": 0.0002962020640825633,
	"loss": 4.8028,
	"step": 158800
	},
	{
	"epoch": 25.424,
	"grad_norm": 0.17855019867420197,
	"learning_rate": 0.00029619966398655945,
	"loss": 5.2293,
	"step": 158900
	},
	{
	"epoch": 25.44,
	"grad_norm": 0.13485394418239594,
	"learning_rate": 0.00029619728789151564,
	"loss": 5.1688,
	"step": 159000
	},
	{
	"epoch": 25.456,
	"grad_norm": 0.15001603960990906,
	"learning_rate": 0.0002961948877955118,
	"loss": 5.2429,
	"step": 159100
	},
	{
	"epoch": 25.472,
	"grad_norm": 0.15747343003749847,
	"learning_rate": 0.000296192487699508,
	"loss": 5.0648,
	"step": 159200
	},
	{
	"epoch": 25.488,
	"grad_norm": 0.11709601432085037,
	"learning_rate": 0.0002961900876035041,
	"loss": 4.9424,
	"step": 159300
	},
	{
	"epoch": 25.504,
	"grad_norm": 0.14115624129772186,
	"learning_rate": 0.00029618768750750026,
	"loss": 5.2824,
	"step": 159400
	},
	{
	"epoch": 25.52,
	"grad_norm": 0.13271014392375946,
	"learning_rate": 0.00029618528741149643,
	"loss": 5.2082,
	"step": 159500
	},
	{
	"epoch": 25.536,
	"grad_norm": 0.13927429914474487,
	"learning_rate": 0.0002961828873154926,
	"loss": 5.0302,
	"step": 159600
	},
	{
	"epoch": 25.552,
	"grad_norm": 0.1625901609659195,
	"learning_rate": 0.00029618048721948877,
	"loss": 5.2649,
	"step": 159700
	},
	{
	"epoch": 25.568,
	"grad_norm": 0.1242537572979927,
	"learning_rate": 0.0002961780871234849,
	"loss": 5.3638,
	"step": 159800
	},
	{
	"epoch": 25.584,
	"grad_norm": 0.22442211210727692,
	"learning_rate": 0.00029617568702748105,
	"loss": 4.7374,
	"step": 159900
	},
	{
	"epoch": 25.6,
	"grad_norm": 0.1424286961555481,
	"learning_rate": 0.0002961732869314772,
	"loss": 5.0878,
	"step": 160000
	},
	{
	"epoch": 25.616,
	"grad_norm": 0.16174399852752686,
	"learning_rate": 0.0002961708868354734,
	"loss": 5.4059,
	"step": 160100
	},
	{
	"epoch": 25.632,
	"grad_norm": 0.12529495358467102,
	"learning_rate": 0.00029616848673946956,
	"loss": 5.1528,
	"step": 160200
	},
	{
	"epoch": 25.648,
	"grad_norm": 0.14766289293766022,
	"learning_rate": 0.00029616608664346573,
	"loss": 5.2453,
	"step": 160300
	},
	{
	"epoch": 25.664,
	"grad_norm": 0.12722782790660858,
	"learning_rate": 0.00029616368654746184,
	"loss": 5.1237,
	"step": 160400
	},
	{
	"epoch": 25.68,
	"grad_norm": 0.1653498262166977,
	"learning_rate": 0.000296161286451458,
	"loss": 5.2606,
	"step": 160500
	},
	{
	"epoch": 25.696,
	"grad_norm": 0.15743720531463623,
	"learning_rate": 0.0002961588863554542,
	"loss": 5.3842,
	"step": 160600
	},
	{
	"epoch": 25.712,
	"grad_norm": 0.11641506105661392,
	"learning_rate": 0.00029615648625945035,
	"loss": 5.0112,
	"step": 160700
	},
	{
	"epoch": 25.728,
	"grad_norm": 0.1600313037633896,
	"learning_rate": 0.0002961540861634465,
	"loss": 5.1207,
	"step": 160800
	},
	{
	"epoch": 25.744,
	"grad_norm": 0.1792784333229065,
	"learning_rate": 0.0002961516860674427,
	"loss": 5.1801,
	"step": 160900
	},
	{
	"epoch": 25.76,
	"grad_norm": 0.12263203412294388,
	"learning_rate": 0.0002961492859714388,
	"loss": 5.1875,
	"step": 161000
	},
	{
	"epoch": 25.776,
	"grad_norm": 0.1638142168521881,
	"learning_rate": 0.00029614690987639505,
	"loss": 5.5503,
	"step": 161100
	},
	{
	"epoch": 25.792,
	"grad_norm": 0.12107832729816437,
	"learning_rate": 0.0002961445097803912,
	"loss": 5.312,
	"step": 161200
	},
	{
	"epoch": 25.808,
	"grad_norm": 0.1593557745218277,
	"learning_rate": 0.00029614210968438733,
	"loss": 5.0444,
	"step": 161300
	},
	{
	"epoch": 25.824,
	"grad_norm": 0.14629554748535156,
	"learning_rate": 0.0002961397095883835,
	"loss": 5.2007,
	"step": 161400
	},
	{
	"epoch": 25.84,
	"grad_norm": 0.14022816717624664,
	"learning_rate": 0.00029613730949237967,
	"loss": 5.1234,
	"step": 161500
	},
	{
	"epoch": 25.856,
	"grad_norm": 0.15026092529296875,
	"learning_rate": 0.00029613490939637584,
	"loss": 5.1459,
	"step": 161600
	},
	{
	"epoch": 25.872,
	"grad_norm": 0.16642487049102783,
	"learning_rate": 0.000296132509300372,
	"loss": 5.074,
	"step": 161700
	},
	{
	"epoch": 25.888,
	"grad_norm": 0.16100358963012695,
	"learning_rate": 0.0002961301092043681,
	"loss": 4.8445,
	"step": 161800
	},
	{
	"epoch": 25.904,
	"grad_norm": 0.14411258697509766,
	"learning_rate": 0.0002961277091083643,
	"loss": 4.7157,
	"step": 161900
	},
	{
	"epoch": 25.92,
	"grad_norm": 0.10813727974891663,
	"learning_rate": 0.00029612530901236046,
	"loss": 5.0682,
	"step": 162000
	},
	{
	"epoch": 25.936,
	"grad_norm": 0.14450779557228088,
	"learning_rate": 0.00029612290891635663,
	"loss": 5.241,
	"step": 162100
	},
	{
	"epoch": 25.951999999999998,
	"grad_norm": 0.16171583533287048,
	"learning_rate": 0.0002961205088203528,
	"loss": 5.1133,
	"step": 162200
	},
	{
	"epoch": 25.968,
	"grad_norm": 0.12712721526622772,
	"learning_rate": 0.00029611810872434897,
	"loss": 5.0328,
	"step": 162300
	},
	{
	"epoch": 25.984,
	"grad_norm": 0.12672489881515503,
	"learning_rate": 0.0002961157086283451,
	"loss": 4.8169,
	"step": 162400
	},
	{
	"epoch": 26.0,
	"grad_norm": 0.15172095596790314,
	"learning_rate": 0.00029611330853234125,
	"loss": 5.092,
	"step": 162500
	},
	{
	"epoch": 26.016,
	"grad_norm": 0.18036304414272308,
	"learning_rate": 0.0002961109084363374,
	"loss": 4.7511,
	"step": 162600
	},
	{
	"epoch": 26.032,
	"grad_norm": 0.16676302254199982,
	"learning_rate": 0.0002961085083403336,
	"loss": 4.9628,
	"step": 162700
	},
	{
	"epoch": 26.048,
	"grad_norm": 0.1724889576435089,
	"learning_rate": 0.00029610610824432976,
	"loss": 4.8742,
	"step": 162800
	},
	{
	"epoch": 26.064,
	"grad_norm": 0.1280188113451004,
	"learning_rate": 0.00029610370814832593,
	"loss": 5.3059,
	"step": 162900
	},
	{
	"epoch": 26.08,
	"grad_norm": 0.15785780549049377,
	"learning_rate": 0.00029610130805232204,
	"loss": 4.8671,
	"step": 163000
	},
	{
	"epoch": 26.096,
	"grad_norm": 0.14080898463726044,
	"learning_rate": 0.0002960989079563182,
	"loss": 5.1418,
	"step": 163100
	},
	{
	"epoch": 26.112,
	"grad_norm": 0.13095679879188538,
	"learning_rate": 0.0002960965078603144,
	"loss": 4.7194,
	"step": 163200
	},
	{
	"epoch": 26.128,
	"grad_norm": 0.1574213057756424,
	"learning_rate": 0.00029609410776431055,
	"loss": 4.9184,
	"step": 163300
	},
	{
	"epoch": 26.144,
	"grad_norm": 0.13669663667678833,
	"learning_rate": 0.0002960917076683067,
	"loss": 5.0563,
	"step": 163400
	},
	{
	"epoch": 26.16,
	"grad_norm": 0.15946930646896362,
	"learning_rate": 0.00029608930757230284,
	"loss": 4.7656,
	"step": 163500
	},
	{
	"epoch": 26.176,
	"grad_norm": 0.1457744687795639,
	"learning_rate": 0.000296086907476299,
	"loss": 4.894,
	"step": 163600
	},
	{
	"epoch": 26.192,
	"grad_norm": 0.10747674852609634,
	"learning_rate": 0.0002960845073802952,
	"loss": 5.1462,
	"step": 163700
	},
	{
	"epoch": 26.208,
	"grad_norm": 0.22094644606113434,
	"learning_rate": 0.00029608210728429134,
	"loss": 5.3243,
	"step": 163800
	},
	{
	"epoch": 26.224,
	"grad_norm": 0.12370151281356812,
	"learning_rate": 0.0002960797071882875,
	"loss": 4.8294,
	"step": 163900
	},
	{
	"epoch": 26.24,
	"grad_norm": 0.1479647010564804,
	"learning_rate": 0.0002960773070922837,
	"loss": 5.0416,
	"step": 164000
	},
	{
	"epoch": 26.256,
	"grad_norm": 0.15605013072490692,
	"learning_rate": 0.0002960749069962798,
	"loss": 5.2773,
	"step": 164100
	},
	{
	"epoch": 26.272,
	"grad_norm": 0.1911146342754364,
	"learning_rate": 0.00029607250690027597,
	"loss": 4.939,
	"step": 164200
	},
	{
	"epoch": 26.288,
	"grad_norm": 0.12012562155723572,
	"learning_rate": 0.0002960701308052322,
	"loss": 4.8719,
	"step": 164300
	},
	{
	"epoch": 26.304,
	"grad_norm": 0.12493129819631577,
	"learning_rate": 0.0002960677307092283,
	"loss": 4.7802,
	"step": 164400
	},
	{
	"epoch": 26.32,
	"grad_norm": 0.12632489204406738,
	"learning_rate": 0.0002960653306132245,
	"loss": 4.8725,
	"step": 164500
	},
	{
	"epoch": 26.336,
	"grad_norm": 0.15591692924499512,
	"learning_rate": 0.00029606293051722066,
	"loss": 5.2183,
	"step": 164600
	},
	{
	"epoch": 26.352,
	"grad_norm": 0.12113320082426071,
	"learning_rate": 0.00029606053042121683,
	"loss": 4.981,
	"step": 164700
	},
	{
	"epoch": 26.368,
	"grad_norm": 0.12973067164421082,
	"learning_rate": 0.000296058130325213,
	"loss": 5.1433,
	"step": 164800
	},
	{
	"epoch": 26.384,
	"grad_norm": 0.15297859907150269,
	"learning_rate": 0.00029605573022920917,
	"loss": 4.9628,
	"step": 164900
	},
	{
	"epoch": 26.4,
	"grad_norm": 0.13537169992923737,
	"learning_rate": 0.0002960533301332053,
	"loss": 4.6621,
	"step": 165000
	},
	{
	"epoch": 26.416,
	"grad_norm": 0.12161804735660553,
	"learning_rate": 0.00029605093003720145,
	"loss": 4.9027,
	"step": 165100
	},
	{
	"epoch": 26.432,
	"grad_norm": 0.14561276137828827,
	"learning_rate": 0.0002960485299411976,
	"loss": 4.7497,
	"step": 165200
	},
	{
	"epoch": 26.448,
	"grad_norm": 0.1523263305425644,
	"learning_rate": 0.0002960461298451938,
	"loss": 4.7575,
	"step": 165300
	},
	{
	"epoch": 26.464,
	"grad_norm": 0.13894937932491302,
	"learning_rate": 0.00029604372974918996,
	"loss": 5.1487,
	"step": 165400
	},
	{
	"epoch": 26.48,
	"grad_norm": 0.1122347041964531,
	"learning_rate": 0.0002960413296531861,
	"loss": 4.8517,
	"step": 165500
	},
	{
	"epoch": 26.496,
	"grad_norm": 0.12737123668193817,
	"learning_rate": 0.00029603892955718225,
	"loss": 4.8187,
	"step": 165600
	},
	{
	"epoch": 26.512,
	"grad_norm": 0.1302328109741211,
	"learning_rate": 0.0002960365294611784,
	"loss": 4.6812,
	"step": 165700
	},
	{
	"epoch": 26.528,
	"grad_norm": 0.14844807982444763,
	"learning_rate": 0.0002960341293651746,
	"loss": 4.9271,
	"step": 165800
	},
	{
	"epoch": 26.544,
	"grad_norm": 0.17675945162773132,
	"learning_rate": 0.00029603172926917075,
	"loss": 4.7797,
	"step": 165900
	},
	{
	"epoch": 26.56,
	"grad_norm": 0.18416370451450348,
	"learning_rate": 0.0002960293291731669,
	"loss": 5.1626,
	"step": 166000
	},
	{
	"epoch": 26.576,
	"grad_norm": 0.12005133926868439,
	"learning_rate": 0.00029602692907716304,
	"loss": 4.7074,
	"step": 166100
	},
	{
	"epoch": 26.592,
	"grad_norm": 0.185636967420578,
	"learning_rate": 0.0002960245289811592,
	"loss": 5.175,
	"step": 166200
	},
	{
	"epoch": 26.608,
	"grad_norm": 0.11722932010889053,
	"learning_rate": 0.0002960221288851554,
	"loss": 4.9977,
	"step": 166300
	},
	{
	"epoch": 26.624,
	"grad_norm": 0.13763803243637085,
	"learning_rate": 0.00029601972878915154,
	"loss": 4.732,
	"step": 166400
	},
	{
	"epoch": 26.64,
	"grad_norm": 0.13912682235240936,
	"learning_rate": 0.0002960173286931477,
	"loss": 4.877,
	"step": 166500
	},
	{
	"epoch": 26.656,
	"grad_norm": 0.10087449103593826,
	"learning_rate": 0.00029601492859714383,
	"loss": 4.7994,
	"step": 166600
	},
	{
	"epoch": 26.672,
	"grad_norm": 0.1845891773700714,
	"learning_rate": 0.00029601252850114,
	"loss": 5.4515,
	"step": 166700
	},
	{
	"epoch": 26.688,
	"grad_norm": 0.14900504052639008,
	"learning_rate": 0.00029601012840513617,
	"loss": 5.0709,
	"step": 166800
	},
	{
	"epoch": 26.704,
	"grad_norm": 0.19447046518325806,
	"learning_rate": 0.00029600772830913234,
	"loss": 4.8345,
	"step": 166900
	},
	{
	"epoch": 26.72,
	"grad_norm": 0.15507912635803223,
	"learning_rate": 0.0002960053282131285,
	"loss": 4.909,
	"step": 167000
	},
	{
	"epoch": 26.736,
	"grad_norm": 0.12142092734575272,
	"learning_rate": 0.0002960029281171247,
	"loss": 4.8017,
	"step": 167100
	},
	{
	"epoch": 26.752,
	"grad_norm": 0.12530605494976044,
	"learning_rate": 0.0002960005280211208,
	"loss": 5.1347,
	"step": 167200
	},
	{
	"epoch": 26.768,
	"grad_norm": 0.14327798783779144,
	"learning_rate": 0.00029599812792511696,
	"loss": 4.7235,
	"step": 167300
	},
	{
	"epoch": 26.784,
	"grad_norm": 0.14647874236106873,
	"learning_rate": 0.00029599572782911313,
	"loss": 4.9018,
	"step": 167400
	},
	{
	"epoch": 26.8,
	"grad_norm": 0.13197900354862213,
	"learning_rate": 0.0002959933277331093,
	"loss": 5.1885,
	"step": 167500
	},
	{
	"epoch": 26.816,
	"grad_norm": 0.13953787088394165,
	"learning_rate": 0.00029599092763710547,
	"loss": 4.8121,
	"step": 167600
	},
	{
	"epoch": 26.832,
	"grad_norm": 0.16823934018611908,
	"learning_rate": 0.0002959885275411016,
	"loss": 4.7129,
	"step": 167700
	},
	{
	"epoch": 26.848,
	"grad_norm": 0.1557362824678421,
	"learning_rate": 0.00029598612744509775,
	"loss": 5.2257,
	"step": 167800
	},
	{
	"epoch": 26.864,
	"grad_norm": 0.16123229265213013,
	"learning_rate": 0.000295983751350054,
	"loss": 4.8921,
	"step": 167900
	},
	{
	"epoch": 26.88,
	"grad_norm": 0.1613980084657669,
	"learning_rate": 0.00029598135125405016,
	"loss": 5.0361,
	"step": 168000
	},
	{
	"epoch": 26.896,
	"grad_norm": 0.1302555948495865,
	"learning_rate": 0.0002959789511580463,
	"loss": 5.0077,
	"step": 168100
	},
	{
	"epoch": 26.912,
	"grad_norm": 0.15182837843894958,
	"learning_rate": 0.00029597655106204245,
	"loss": 5.0202,
	"step": 168200
	},
	{
	"epoch": 26.928,
	"grad_norm": 0.13955193758010864,
	"learning_rate": 0.0002959741509660386,
	"loss": 4.9305,
	"step": 168300
	},
	{
	"epoch": 26.944,
	"grad_norm": 0.1417885273694992,
	"learning_rate": 0.0002959717508700348,
	"loss": 5.0889,
	"step": 168400
	},
	{
	"epoch": 26.96,
	"grad_norm": 0.14792856574058533,
	"learning_rate": 0.00029596935077403095,
	"loss": 4.8685,
	"step": 168500
	},
	{
	"epoch": 26.976,
	"grad_norm": 0.14266085624694824,
	"learning_rate": 0.00029596695067802707,
	"loss": 5.1578,
	"step": 168600
	},
	{
	"epoch": 26.992,
	"grad_norm": 0.11925966292619705,
	"learning_rate": 0.00029596455058202324,
	"loss": 4.6746,
	"step": 168700
	},
	{
	"epoch": 27.008,
	"grad_norm": 0.13332228362560272,
	"learning_rate": 0.0002959621504860194,
	"loss": 5.1295,
	"step": 168800
	},
	{
	"epoch": 27.024,
	"grad_norm": 0.13257551193237305,
	"learning_rate": 0.0002959597503900156,
	"loss": 5.0958,
	"step": 168900
	},
	{
	"epoch": 27.04,
	"grad_norm": 0.11077175289392471,
	"learning_rate": 0.00029595735029401175,
	"loss": 4.6509,
	"step": 169000
	},
	{
	"epoch": 27.056,
	"grad_norm": 0.1581268608570099,
	"learning_rate": 0.0002959549501980079,
	"loss": 4.7619,
	"step": 169100
	},
	{
	"epoch": 27.072,
	"grad_norm": 0.15108828246593475,
	"learning_rate": 0.00029595255010200403,
	"loss": 4.7792,
	"step": 169200
	},
	{
	"epoch": 27.088,
	"grad_norm": 0.15362246334552765,
	"learning_rate": 0.0002959501500060002,
	"loss": 5.189,
	"step": 169300
	},
	{
	"epoch": 27.104,
	"grad_norm": 0.1353999823331833,
	"learning_rate": 0.00029594774990999637,
	"loss": 4.7698,
	"step": 169400
	},
	{
	"epoch": 27.12,
	"grad_norm": 0.15684208273887634,
	"learning_rate": 0.00029594534981399254,
	"loss": 4.8111,
	"step": 169500
	},
	{
	"epoch": 27.136,
	"grad_norm": 0.17176128923892975,
	"learning_rate": 0.0002959429497179887,
	"loss": 4.8735,
	"step": 169600
	},
	{
	"epoch": 27.152,
	"grad_norm": 0.12857766449451447,
	"learning_rate": 0.0002959405496219848,
	"loss": 4.5602,
	"step": 169700
	},
	{
	"epoch": 27.168,
	"grad_norm": 0.2216508835554123,
	"learning_rate": 0.000295938149525981,
	"loss": 4.6848,
	"step": 169800
	},
	{
	"epoch": 27.184,
	"grad_norm": 0.18342281877994537,
	"learning_rate": 0.00029593577343093723,
	"loss": 4.9973,
	"step": 169900
	},
	{
	"epoch": 27.2,
	"grad_norm": 0.2726237177848816,
	"learning_rate": 0.0002959333733349334,
	"loss": 4.8341,
	"step": 170000
	},
	{
	"epoch": 27.216,
	"grad_norm": 0.1373586356639862,
	"learning_rate": 0.0002959309732389295,
	"loss": 4.914,
	"step": 170100
	},
	{
	"epoch": 27.232,
	"grad_norm": 0.13454484939575195,
	"learning_rate": 0.0002959285731429257,
	"loss": 5.0239,
	"step": 170200
	},
	{
	"epoch": 27.248,
	"grad_norm": 0.146050363779068,
	"learning_rate": 0.00029592617304692186,
	"loss": 4.7314,
	"step": 170300
	},
	{
	"epoch": 27.264,
	"grad_norm": 0.14222508668899536,
	"learning_rate": 0.000295923772950918,
	"loss": 4.6159,
	"step": 170400
	},
	{
	"epoch": 27.28,
	"grad_norm": 0.14632238447666168,
	"learning_rate": 0.0002959213728549142,
	"loss": 4.4062,
	"step": 170500
	},
	{
	"epoch": 27.296,
	"grad_norm": 0.16428226232528687,
	"learning_rate": 0.0002959189727589103,
	"loss": 5.1747,
	"step": 170600
	},
	{
	"epoch": 27.312,
	"grad_norm": 0.1323370337486267,
	"learning_rate": 0.0002959165726629065,
	"loss": 4.5199,
	"step": 170700
	},
	{
	"epoch": 27.328,
	"grad_norm": 0.14235830307006836,
	"learning_rate": 0.00029591417256690265,
	"loss": 4.9103,
	"step": 170800
	},
	{
	"epoch": 27.344,
	"grad_norm": 0.13216975331306458,
	"learning_rate": 0.0002959117724708988,
	"loss": 4.8293,
	"step": 170900
	},
	{
	"epoch": 27.36,
	"grad_norm": 0.15071095526218414,
	"learning_rate": 0.000295909372374895,
	"loss": 4.9801,
	"step": 171000
	},
	{
	"epoch": 27.376,
	"grad_norm": 0.1272030919790268,
	"learning_rate": 0.00029590697227889116,
	"loss": 4.9456,
	"step": 171100
	},
	{
	"epoch": 27.392,
	"grad_norm": 0.13579507172107697,
	"learning_rate": 0.00029590457218288727,
	"loss": 4.8712,
	"step": 171200
	},
	{
	"epoch": 27.408,
	"grad_norm": 0.12844951450824738,
	"learning_rate": 0.00029590217208688344,
	"loss": 4.679,
	"step": 171300
	},
	{
	"epoch": 27.424,
	"grad_norm": 0.10488644242286682,
	"learning_rate": 0.0002958997719908796,
	"loss": 4.8333,
	"step": 171400
	},
	{
	"epoch": 27.44,
	"grad_norm": 0.1397544890642166,
	"learning_rate": 0.0002958973718948758,
	"loss": 4.9637,
	"step": 171500
	},
	{
	"epoch": 27.456,
	"grad_norm": 0.17122800648212433,
	"learning_rate": 0.00029589497179887195,
	"loss": 4.5042,
	"step": 171600
	},
	{
	"epoch": 27.472,
	"grad_norm": 0.1432805061340332,
	"learning_rate": 0.00029589257170286806,
	"loss": 4.9236,
	"step": 171700
	},
	{
	"epoch": 27.488,
	"grad_norm": 0.2430882304906845,
	"learning_rate": 0.00029589017160686423,
	"loss": 4.6134,
	"step": 171800
	},
	{
	"epoch": 27.504,
	"grad_norm": 0.12965236604213715,
	"learning_rate": 0.0002958877715108604,
	"loss": 4.8867,
	"step": 171900
	},
	{
	"epoch": 27.52,
	"grad_norm": 0.13079382479190826,
	"learning_rate": 0.00029588537141485657,
	"loss": 4.7196,
	"step": 172000
	},
	{
	"epoch": 27.536,
	"grad_norm": 0.16515448689460754,
	"learning_rate": 0.00029588299531981276,
	"loss": 4.6995,
	"step": 172100
	},
	{
	"epoch": 27.552,
	"grad_norm": 0.12594960629940033,
	"learning_rate": 0.00029588059522380893,
	"loss": 4.8708,
	"step": 172200
	},
	{
	"epoch": 27.568,
	"grad_norm": 0.1570487916469574,
	"learning_rate": 0.0002958781951278051,
	"loss": 4.8169,
	"step": 172300
	},
	{
	"epoch": 27.584,
	"grad_norm": 0.13092289865016937,
	"learning_rate": 0.00029587579503180127,
	"loss": 4.695,
	"step": 172400
	},
	{
	"epoch": 27.6,
	"grad_norm": 0.14942535758018494,
	"learning_rate": 0.00029587339493579744,
	"loss": 4.7415,
	"step": 172500
	},
	{
	"epoch": 27.616,
	"grad_norm": 0.12075886875391006,
	"learning_rate": 0.00029587099483979355,
	"loss": 4.4839,
	"step": 172600
	},
	{
	"epoch": 27.632,
	"grad_norm": 0.11725221574306488,
	"learning_rate": 0.0002958685947437897,
	"loss": 4.8162,
	"step": 172700
	},
	{
	"epoch": 27.648,
	"grad_norm": 0.20893152058124542,
	"learning_rate": 0.0002958661946477859,
	"loss": 4.78,
	"step": 172800
	},
	{
	"epoch": 27.664,
	"grad_norm": 0.14231526851654053,
	"learning_rate": 0.00029586379455178206,
	"loss": 4.7212,
	"step": 172900
	},
	{
	"epoch": 27.68,
	"grad_norm": 0.1261710226535797,
	"learning_rate": 0.0002958613944557782,
	"loss": 4.96,
	"step": 173000
	},
	{
	"epoch": 27.696,
	"grad_norm": 0.1408015638589859,
	"learning_rate": 0.0002958589943597744,
	"loss": 4.7388,
	"step": 173100
	},
	{
	"epoch": 27.712,
	"grad_norm": 0.14422334730625153,
	"learning_rate": 0.0002958565942637705,
	"loss": 4.5018,
	"step": 173200
	},
	{
	"epoch": 27.728,
	"grad_norm": 0.17371025681495667,
	"learning_rate": 0.0002958541941677667,
	"loss": 4.792,
	"step": 173300
	},
	{
	"epoch": 27.744,
	"grad_norm": 0.21515819430351257,
	"learning_rate": 0.00029585179407176285,
	"loss": 4.8225,
	"step": 173400
	},
	{
	"epoch": 27.76,
	"grad_norm": 0.1557329297065735,
	"learning_rate": 0.000295849393975759,
	"loss": 4.6305,
	"step": 173500
	},
	{
	"epoch": 27.776,
	"grad_norm": 0.13870660960674286,
	"learning_rate": 0.0002958469938797552,
	"loss": 4.5486,
	"step": 173600
	},
	{
	"epoch": 27.792,
	"grad_norm": 0.13383133709430695,
	"learning_rate": 0.0002958445937837513,
	"loss": 4.6136,
	"step": 173700
	},
	{
	"epoch": 27.808,
	"grad_norm": 0.1399243175983429,
	"learning_rate": 0.00029584219368774747,
	"loss": 4.9352,
	"step": 173800
	},
	{
	"epoch": 27.824,
	"grad_norm": 0.11231095343828201,
	"learning_rate": 0.00029583979359174364,
	"loss": 4.9996,
	"step": 173900
	},
	{
	"epoch": 27.84,
	"grad_norm": 0.16128210723400116,
	"learning_rate": 0.0002958373934957398,
	"loss": 4.7546,
	"step": 174000
	},
	{
	"epoch": 27.856,
	"grad_norm": 0.15589210391044617,
	"learning_rate": 0.000295834993399736,
	"loss": 4.8234,
	"step": 174100
	},
	{
	"epoch": 27.872,
	"grad_norm": 0.22979894280433655,
	"learning_rate": 0.00029583259330373215,
	"loss": 4.8117,
	"step": 174200
	},
	{
	"epoch": 27.888,
	"grad_norm": 0.14024117588996887,
	"learning_rate": 0.00029583019320772826,
	"loss": 4.5712,
	"step": 174300
	},
	{
	"epoch": 27.904,
	"grad_norm": 0.16881561279296875,
	"learning_rate": 0.00029582779311172443,
	"loss": 4.8696,
	"step": 174400
	},
	{
	"epoch": 27.92,
	"grad_norm": 0.14194153249263763,
	"learning_rate": 0.0002958253930157206,
	"loss": 4.7792,
	"step": 174500
	},
	{
	"epoch": 27.936,
	"grad_norm": 0.16409501433372498,
	"learning_rate": 0.00029582299291971677,
	"loss": 4.862,
	"step": 174600
	},
	{
	"epoch": 27.951999999999998,
	"grad_norm": 0.21548931300640106,
	"learning_rate": 0.00029582059282371294,
	"loss": 4.6556,
	"step": 174700
	},
	{
	"epoch": 27.968,
	"grad_norm": 0.15370036661624908,
	"learning_rate": 0.00029581819272770906,
	"loss": 4.7855,
	"step": 174800
	},
	{
	"epoch": 27.984,
	"grad_norm": 0.1505698263645172,
	"learning_rate": 0.0002958157926317052,
	"loss": 4.5333,
	"step": 174900
	},
	{
	"epoch": 28.0,
	"grad_norm": 0.13952812552452087,
	"learning_rate": 0.0002958133925357014,
	"loss": 5.0827,
	"step": 175000
	},
	{
	"epoch": 28.016,
	"grad_norm": 0.14113423228263855,
	"learning_rate": 0.00029581099243969756,
	"loss": 4.4652,
	"step": 175100
	},
	{
	"epoch": 28.032,
	"grad_norm": 0.13563218712806702,
	"learning_rate": 0.00029580859234369373,
	"loss": 4.4769,
	"step": 175200
	},
	{
	"epoch": 28.048,
	"grad_norm": 0.16485312581062317,
	"learning_rate": 0.0002958061922476899,
	"loss": 4.7196,
	"step": 175300
	},
	{
	"epoch": 28.064,
	"grad_norm": 0.1928679645061493,
	"learning_rate": 0.000295803792151686,
	"loss": 4.5181,
	"step": 175400
	},
	{
	"epoch": 28.08,
	"grad_norm": 0.16406244039535522,
	"learning_rate": 0.00029580141605664226,
	"loss": 4.5547,
	"step": 175500
	},
	{
	"epoch": 28.096,
	"grad_norm": 0.12744209170341492,
	"learning_rate": 0.00029579901596063843,
	"loss": 4.6802,
	"step": 175600
	},
	{
	"epoch": 28.112,
	"grad_norm": 0.15242663025856018,
	"learning_rate": 0.00029579661586463454,
	"loss": 4.7076,
	"step": 175700
	},
	{
	"epoch": 28.128,
	"grad_norm": 0.1231980100274086,
	"learning_rate": 0.0002957942157686307,
	"loss": 4.7097,
	"step": 175800
	},
	{
	"epoch": 28.144,
	"grad_norm": 0.1742876172065735,
	"learning_rate": 0.0002957918156726269,
	"loss": 4.8166,
	"step": 175900
	},
	{
	"epoch": 28.16,
	"grad_norm": 0.15425816178321838,
	"learning_rate": 0.00029578941557662305,
	"loss": 4.6306,
	"step": 176000
	},
	{
	"epoch": 28.176,
	"grad_norm": 0.1423932909965515,
	"learning_rate": 0.0002957870154806192,
	"loss": 4.7671,
	"step": 176100
	},
	{
	"epoch": 28.192,
	"grad_norm": 0.13283143937587738,
	"learning_rate": 0.0002957846153846154,
	"loss": 4.5074,
	"step": 176200
	},
	{
	"epoch": 28.208,
	"grad_norm": 0.1560533046722412,
	"learning_rate": 0.0002957822152886115,
	"loss": 4.8514,
	"step": 176300
	},
	{
	"epoch": 28.224,
	"grad_norm": 0.12814775109291077,
	"learning_rate": 0.0002957798151926077,
	"loss": 4.7173,
	"step": 176400
	},
	{
	"epoch": 28.24,
	"grad_norm": 0.1441114842891693,
	"learning_rate": 0.00029577741509660384,
	"loss": 4.7003,
	"step": 176500
	},
	{
	"epoch": 28.256,
	"grad_norm": 0.13554996252059937,
	"learning_rate": 0.0002957750150006,
	"loss": 4.6206,
	"step": 176600
	},
	{
	"epoch": 28.272,
	"grad_norm": 0.21647945046424866,
	"learning_rate": 0.0002957726149045962,
	"loss": 4.9289,
	"step": 176700
	},
	{
	"epoch": 28.288,
	"grad_norm": 0.1216735765337944,
	"learning_rate": 0.0002957702148085923,
	"loss": 4.7441,
	"step": 176800
	},
	{
	"epoch": 28.304,
	"grad_norm": 0.12911395728588104,
	"learning_rate": 0.00029576781471258847,
	"loss": 4.6493,
	"step": 176900
	},
	{
	"epoch": 28.32,
	"grad_norm": 0.12240692973136902,
	"learning_rate": 0.00029576541461658463,
	"loss": 4.7305,
	"step": 177000
	},
	{
	"epoch": 28.336,
	"grad_norm": 0.17344659566879272,
	"learning_rate": 0.0002957630145205808,
	"loss": 4.5246,
	"step": 177100
	},
	{
	"epoch": 28.352,
	"grad_norm": 0.12759949266910553,
	"learning_rate": 0.00029576061442457697,
	"loss": 4.6852,
	"step": 177200
	},
	{
	"epoch": 28.368,
	"grad_norm": 0.12402662634849548,
	"learning_rate": 0.00029575821432857314,
	"loss": 4.5194,
	"step": 177300
	},
	{
	"epoch": 28.384,
	"grad_norm": 0.19976910948753357,
	"learning_rate": 0.00029575581423256926,
	"loss": 4.5166,
	"step": 177400
	},
	{
	"epoch": 28.4,
	"grad_norm": 0.14362084865570068,
	"learning_rate": 0.0002957534141365654,
	"loss": 4.5147,
	"step": 177500
	},
	{
	"epoch": 28.416,
	"grad_norm": 0.13851560652256012,
	"learning_rate": 0.0002957510140405616,
	"loss": 4.5473,
	"step": 177600
	},
	{
	"epoch": 28.432,
	"grad_norm": 0.13696688413619995,
	"learning_rate": 0.00029574861394455776,
	"loss": 4.7163,
	"step": 177700
	},
	{
	"epoch": 28.448,
	"grad_norm": 0.1331932544708252,
	"learning_rate": 0.00029574621384855393,
	"loss": 5.0066,
	"step": 177800
	},
	{
	"epoch": 28.464,
	"grad_norm": 0.13118359446525574,
	"learning_rate": 0.00029574381375255005,
	"loss": 4.7009,
	"step": 177900
	},
	{
	"epoch": 28.48,
	"grad_norm": 0.11460904031991959,
	"learning_rate": 0.0002957414136565462,
	"loss": 4.5525,
	"step": 178000
	},
	{
	"epoch": 28.496,
	"grad_norm": 0.11112211644649506,
	"learning_rate": 0.0002957390135605424,
	"loss": 4.8012,
	"step": 178100
	},
	{
	"epoch": 28.512,
	"grad_norm": 0.1618378460407257,
	"learning_rate": 0.00029573661346453856,
	"loss": 4.8419,
	"step": 178200
	},
	{
	"epoch": 28.528,
	"grad_norm": 0.13665986061096191,
	"learning_rate": 0.0002957342133685347,
	"loss": 4.6129,
	"step": 178300
	},
	{
	"epoch": 28.544,
	"grad_norm": 0.10059978067874908,
	"learning_rate": 0.0002957318132725309,
	"loss": 4.7326,
	"step": 178400
	},
	{
	"epoch": 28.56,
	"grad_norm": 0.1575680524110794,
	"learning_rate": 0.000295729413176527,
	"loss": 5.0102,
	"step": 178500
	},
	{
	"epoch": 28.576,
	"grad_norm": 0.10887812077999115,
	"learning_rate": 0.0002957270130805232,
	"loss": 4.7228,
	"step": 178600
	},
	{
	"epoch": 28.592,
	"grad_norm": 0.08943487703800201,
	"learning_rate": 0.0002957246369854794,
	"loss": 4.4294,
	"step": 178700
	},
	{
	"epoch": 28.608,
	"grad_norm": 0.14149336516857147,
	"learning_rate": 0.00029572223688947554,
	"loss": 4.6056,
	"step": 178800
	},
	{
	"epoch": 28.624,
	"grad_norm": 0.12872636318206787,
	"learning_rate": 0.0002957198367934717,
	"loss": 4.8457,
	"step": 178900
	},
	{
	"epoch": 28.64,
	"grad_norm": 0.15382656455039978,
	"learning_rate": 0.0002957174366974679,
	"loss": 4.7641,
	"step": 179000
	},
	{
	"epoch": 28.656,
	"grad_norm": 0.15484744310379028,
	"learning_rate": 0.00029571503660146404,
	"loss": 4.7261,
	"step": 179100
	},
	{
	"epoch": 28.672,
	"grad_norm": 0.1385447382926941,
	"learning_rate": 0.0002957126365054602,
	"loss": 4.8178,
	"step": 179200
	},
	{
	"epoch": 28.688,
	"grad_norm": 0.09416704624891281,
	"learning_rate": 0.0002957102364094564,
	"loss": 4.462,
	"step": 179300
	},
	{
	"epoch": 28.704,
	"grad_norm": 0.11756269633769989,
	"learning_rate": 0.0002957078363134525,
	"loss": 4.9817,
	"step": 179400
	},
	{
	"epoch": 28.72,
	"grad_norm": 0.16298645734786987,
	"learning_rate": 0.00029570543621744867,
	"loss": 4.7884,
	"step": 179500
	},
	{
	"epoch": 28.736,
	"grad_norm": 0.1666107177734375,
	"learning_rate": 0.00029570303612144484,
	"loss": 4.5478,
	"step": 179600
	},
	{
	"epoch": 28.752,
	"grad_norm": 0.14432166516780853,
	"learning_rate": 0.000295700636025441,
	"loss": 4.5671,
	"step": 179700
	},
	{
	"epoch": 28.768,
	"grad_norm": 0.14455050230026245,
	"learning_rate": 0.0002956982359294372,
	"loss": 4.4565,
	"step": 179800
	},
	{
	"epoch": 28.784,
	"grad_norm": 0.11911621689796448,
	"learning_rate": 0.0002956958358334333,
	"loss": 4.8298,
	"step": 179900
	},
	{
	"epoch": 28.8,
	"grad_norm": 0.11492261290550232,
	"learning_rate": 0.00029569343573742946,
	"loss": 4.8744,
	"step": 180000
	},
	{
	"epoch": 28.816,
	"grad_norm": 0.11532367020845413,
	"learning_rate": 0.00029569103564142563,
	"loss": 4.9461,
	"step": 180100
	},
	{
	"epoch": 28.832,
	"grad_norm": 0.11335845291614532,
	"learning_rate": 0.0002956886355454218,
	"loss": 4.6438,
	"step": 180200
	},
	{
	"epoch": 28.848,
	"grad_norm": 0.13290923833847046,
	"learning_rate": 0.00029568623544941797,
	"loss": 4.5029,
	"step": 180300
	},
	{
	"epoch": 28.864,
	"grad_norm": 0.12123245000839233,
	"learning_rate": 0.00029568383535341414,
	"loss": 5.002,
	"step": 180400
	},
	{
	"epoch": 28.88,
	"grad_norm": 0.1688774973154068,
	"learning_rate": 0.00029568143525741025,
	"loss": 4.5888,
	"step": 180500
	},
	{
	"epoch": 28.896,
	"grad_norm": 0.12593814730644226,
	"learning_rate": 0.0002956790351614064,
	"loss": 4.5949,
	"step": 180600
	},
	{
	"epoch": 28.912,
	"grad_norm": 0.13134326040744781,
	"learning_rate": 0.0002956766350654026,
	"loss": 4.3431,
	"step": 180700
	},
	{
	"epoch": 28.928,
	"grad_norm": 0.14252367615699768,
	"learning_rate": 0.00029567423496939876,
	"loss": 4.1599,
	"step": 180800
	},
	{
	"epoch": 28.944,
	"grad_norm": 0.13371191918849945,
	"learning_rate": 0.0002956718348733949,
	"loss": 4.4618,
	"step": 180900
	},
	{
	"epoch": 28.96,
	"grad_norm": 0.2305118888616562,
	"learning_rate": 0.00029566943477739104,
	"loss": 4.7324,
	"step": 181000
	},
	{
	"epoch": 28.976,
	"grad_norm": 0.17778520286083221,
	"learning_rate": 0.0002956670346813872,
	"loss": 4.5895,
	"step": 181100
	},
	{
	"epoch": 28.992,
	"grad_norm": 0.16209328174591064,
	"learning_rate": 0.0002956646345853834,
	"loss": 4.5924,
	"step": 181200
	},
	{
	"epoch": 29.008,
	"grad_norm": 0.13874457776546478,
	"learning_rate": 0.0002956622584903396,
	"loss": 4.5032,
	"step": 181300
	},
	{
	"epoch": 29.024,
	"grad_norm": 0.13318394124507904,
	"learning_rate": 0.00029565985839433574,
	"loss": 4.3979,
	"step": 181400
	},
	{
	"epoch": 29.04,
	"grad_norm": 0.1424497812986374,
	"learning_rate": 0.0002956574582983319,
	"loss": 4.6121,
	"step": 181500
	},
	{
	"epoch": 29.056,
	"grad_norm": 0.1274562031030655,
	"learning_rate": 0.0002956550582023281,
	"loss": 4.6716,
	"step": 181600
	},
	{
	"epoch": 29.072,
	"grad_norm": 0.15418770909309387,
	"learning_rate": 0.00029565265810632425,
	"loss": 4.4586,
	"step": 181700
	},
	{
	"epoch": 29.088,
	"grad_norm": 0.1679641753435135,
	"learning_rate": 0.0002956502580103204,
	"loss": 4.4676,
	"step": 181800
	},
	{
	"epoch": 29.104,
	"grad_norm": 0.10988187789916992,
	"learning_rate": 0.00029564788191527655,
	"loss": 4.4074,
	"step": 181900
	},
	{
	"epoch": 29.12,
	"grad_norm": 0.13705100119113922,
	"learning_rate": 0.0002956454818192727,
	"loss": 4.5681,
	"step": 182000
	}
	],
	"logging_steps": 100,
	"max_steps": 12500000,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 2000,
	"save_steps": 1000,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 7.600452986732544e+17,
	"train_batch_size": 64,
	"trial_name": null,
	"trial_params": null
	}