GLM-v2-lora / checkpoint-618 /trainer_state.json

Upload folder using huggingface_hub

6c23bbb verified 10 months ago

108 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.5006075334143378,
	"eval_steps": 103,
	"global_step": 618,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.002430133657351154,
	"grad_norm": 715.4923219036787,
	"learning_rate": 0.0,
	"loss": 1.3541,
	"step": 1
	},
	{
	"epoch": 0.002430133657351154,
	"eval_loss": 1.3335719108581543,
	"eval_runtime": 53.4883,
	"eval_samples_per_second": 13.91,
	"eval_steps_per_second": 1.739,
	"step": 1
	},
	{
	"epoch": 0.004860267314702308,
	"grad_norm": 614.6970578314867,
	"learning_rate": 5e-06,
	"loss": 1.3775,
	"step": 2
	},
	{
	"epoch": 0.007290400972053463,
	"grad_norm": 471.59017991123795,
	"learning_rate": 1e-05,
	"loss": 1.339,
	"step": 3
	},
	{
	"epoch": 0.009720534629404616,
	"grad_norm": 238.72216262259653,
	"learning_rate": 1.5e-05,
	"loss": 1.3829,
	"step": 4
	},
	{
	"epoch": 0.012150668286755772,
	"grad_norm": 355.68955726709873,
	"learning_rate": 2e-05,
	"loss": 1.3597,
	"step": 5
	},
	{
	"epoch": 0.014580801944106925,
	"grad_norm": 414.5627284272111,
	"learning_rate": 2.5e-05,
	"loss": 1.3862,
	"step": 6
	},
	{
	"epoch": 0.01701093560145808,
	"grad_norm": 534.9877222052693,
	"learning_rate": 3e-05,
	"loss": 1.2784,
	"step": 7
	},
	{
	"epoch": 0.019441069258809233,
	"grad_norm": 153.38895635666677,
	"learning_rate": 3.5e-05,
	"loss": 1.3521,
	"step": 8
	},
	{
	"epoch": 0.02187120291616039,
	"grad_norm": 858.293734138087,
	"learning_rate": 4e-05,
	"loss": 1.2461,
	"step": 9
	},
	{
	"epoch": 0.024301336573511544,
	"grad_norm": 255.81989388533376,
	"learning_rate": 4.5e-05,
	"loss": 1.2778,
	"step": 10
	},
	{
	"epoch": 0.026731470230862697,
	"grad_norm": 368.91949003479226,
	"learning_rate": 5e-05,
	"loss": 1.3412,
	"step": 11
	},
	{
	"epoch": 0.02916160388821385,
	"grad_norm": 176.49481799555898,
	"learning_rate": 5.500000000000001e-05,
	"loss": 1.3437,
	"step": 12
	},
	{
	"epoch": 0.031591737545565005,
	"grad_norm": 208.57742104974147,
	"learning_rate": 6e-05,
	"loss": 1.2859,
	"step": 13
	},
	{
	"epoch": 0.03402187120291616,
	"grad_norm": 93.26742036471734,
	"learning_rate": 6.500000000000001e-05,
	"loss": 1.1843,
	"step": 14
	},
	{
	"epoch": 0.03645200486026731,
	"grad_norm": 145.53380444622215,
	"learning_rate": 7e-05,
	"loss": 1.4281,
	"step": 15
	},
	{
	"epoch": 0.038882138517618466,
	"grad_norm": 126.56724937430516,
	"learning_rate": 7.500000000000001e-05,
	"loss": 1.3908,
	"step": 16
	},
	{
	"epoch": 0.041312272174969626,
	"grad_norm": 106.19246390662754,
	"learning_rate": 8e-05,
	"loss": 1.344,
	"step": 17
	},
	{
	"epoch": 0.04374240583232078,
	"grad_norm": 289.348178084847,
	"learning_rate": 8.5e-05,
	"loss": 1.2708,
	"step": 18
	},
	{
	"epoch": 0.046172539489671933,
	"grad_norm": 286.63676887065634,
	"learning_rate": 9e-05,
	"loss": 1.3564,
	"step": 19
	},
	{
	"epoch": 0.04860267314702309,
	"grad_norm": 269.6096299101413,
	"learning_rate": 9.5e-05,
	"loss": 1.2184,
	"step": 20
	},
	{
	"epoch": 0.05103280680437424,
	"grad_norm": 151.28678796160915,
	"learning_rate": 0.0001,
	"loss": 1.2974,
	"step": 21
	},
	{
	"epoch": 0.053462940461725394,
	"grad_norm": 265.5625538646362,
	"learning_rate": 0.000105,
	"loss": 1.2703,
	"step": 22
	},
	{
	"epoch": 0.05589307411907655,
	"grad_norm": 724.7157187586193,
	"learning_rate": 0.00011000000000000002,
	"loss": 1.2691,
	"step": 23
	},
	{
	"epoch": 0.0583232077764277,
	"grad_norm": 425.3768239347252,
	"learning_rate": 0.00011499999999999999,
	"loss": 1.375,
	"step": 24
	},
	{
	"epoch": 0.060753341433778855,
	"grad_norm": 314.5119318308783,
	"learning_rate": 0.00012,
	"loss": 1.2952,
	"step": 25
	},
	{
	"epoch": 0.06318347509113001,
	"grad_norm": 557.519173033834,
	"learning_rate": 0.000125,
	"loss": 1.2923,
	"step": 26
	},
	{
	"epoch": 0.06561360874848117,
	"grad_norm": 211.4069356529637,
	"learning_rate": 0.00013000000000000002,
	"loss": 1.2629,
	"step": 27
	},
	{
	"epoch": 0.06804374240583232,
	"grad_norm": 299.7742653722713,
	"learning_rate": 0.00013500000000000003,
	"loss": 1.3099,
	"step": 28
	},
	{
	"epoch": 0.07047387606318348,
	"grad_norm": 182.18551965886013,
	"learning_rate": 0.00014,
	"loss": 1.2215,
	"step": 29
	},
	{
	"epoch": 0.07290400972053462,
	"grad_norm": 153.38300520125887,
	"learning_rate": 0.000145,
	"loss": 1.2799,
	"step": 30
	},
	{
	"epoch": 0.07533414337788578,
	"grad_norm": 849.4472853252786,
	"learning_rate": 0.00015000000000000001,
	"loss": 1.2012,
	"step": 31
	},
	{
	"epoch": 0.07776427703523693,
	"grad_norm": 179.94814586965418,
	"learning_rate": 0.000155,
	"loss": 1.2103,
	"step": 32
	},
	{
	"epoch": 0.08019441069258809,
	"grad_norm": 180.36681057956048,
	"learning_rate": 0.00016,
	"loss": 1.2414,
	"step": 33
	},
	{
	"epoch": 0.08262454434993925,
	"grad_norm": 113.72852454032189,
	"learning_rate": 0.000165,
	"loss": 1.2508,
	"step": 34
	},
	{
	"epoch": 0.0850546780072904,
	"grad_norm": 150.53415363213057,
	"learning_rate": 0.00017,
	"loss": 1.2528,
	"step": 35
	},
	{
	"epoch": 0.08748481166464156,
	"grad_norm": 156.19567878683574,
	"learning_rate": 0.000175,
	"loss": 1.2016,
	"step": 36
	},
	{
	"epoch": 0.0899149453219927,
	"grad_norm": 416.34884765145057,
	"learning_rate": 0.00018,
	"loss": 1.254,
	"step": 37
	},
	{
	"epoch": 0.09234507897934387,
	"grad_norm": 269.7105025581372,
	"learning_rate": 0.00018500000000000002,
	"loss": 1.2215,
	"step": 38
	},
	{
	"epoch": 0.09477521263669501,
	"grad_norm": 249.35069047655023,
	"learning_rate": 0.00019,
	"loss": 1.2078,
	"step": 39
	},
	{
	"epoch": 0.09720534629404617,
	"grad_norm": 167.16896045613478,
	"learning_rate": 0.000195,
	"loss": 1.1866,
	"step": 40
	},
	{
	"epoch": 0.09963547995139732,
	"grad_norm": 248.22240554128427,
	"learning_rate": 0.0002,
	"loss": 1.252,
	"step": 41
	},
	{
	"epoch": 0.10206561360874848,
	"grad_norm": 180.89520841022969,
	"learning_rate": 0.0001999991930332148,
	"loss": 1.2251,
	"step": 42
	},
	{
	"epoch": 0.10449574726609964,
	"grad_norm": 614.4291375430485,
	"learning_rate": 0.00019999677214588312,
	"loss": 1.2563,
	"step": 43
	},
	{
	"epoch": 0.10692588092345079,
	"grad_norm": 211.7523427355369,
	"learning_rate": 0.00019999273737707646,
	"loss": 1.193,
	"step": 44
	},
	{
	"epoch": 0.10935601458080195,
	"grad_norm": 181.56788458769344,
	"learning_rate": 0.00019998708879191335,
	"loss": 1.2598,
	"step": 45
	},
	{
	"epoch": 0.1117861482381531,
	"grad_norm": 157.5783414916277,
	"learning_rate": 0.00019997982648155814,
	"loss": 1.2663,
	"step": 46
	},
	{
	"epoch": 0.11421628189550426,
	"grad_norm": 155.78006251192625,
	"learning_rate": 0.00019997095056321971,
	"loss": 1.1637,
	"step": 47
	},
	{
	"epoch": 0.1166464155528554,
	"grad_norm": 202.0253360488958,
	"learning_rate": 0.00019996046118014955,
	"loss": 1.2508,
	"step": 48
	},
	{
	"epoch": 0.11907654921020656,
	"grad_norm": 192.7576297264874,
	"learning_rate": 0.00019994835850163924,
	"loss": 1.2014,
	"step": 49
	},
	{
	"epoch": 0.12150668286755771,
	"grad_norm": 132.5484871621418,
	"learning_rate": 0.00019993464272301804,
	"loss": 1.2279,
	"step": 50
	},
	{
	"epoch": 0.12393681652490887,
	"grad_norm": 128.32285438248965,
	"learning_rate": 0.00019991931406564944,
	"loss": 1.2179,
	"step": 51
	},
	{
	"epoch": 0.12636695018226002,
	"grad_norm": 552.3669463716512,
	"learning_rate": 0.00019990237277692788,
	"loss": 1.1498,
	"step": 52
	},
	{
	"epoch": 0.12879708383961117,
	"grad_norm": 86.17911790260192,
	"learning_rate": 0.00019988381913027442,
	"loss": 1.2784,
	"step": 53
	},
	{
	"epoch": 0.13122721749696234,
	"grad_norm": 70.83294605515782,
	"learning_rate": 0.00019986365342513265,
	"loss": 1.2224,
	"step": 54
	},
	{
	"epoch": 0.1336573511543135,
	"grad_norm": 45.23624563299466,
	"learning_rate": 0.00019984187598696363,
	"loss": 1.1746,
	"step": 55
	},
	{
	"epoch": 0.13608748481166463,
	"grad_norm": 57.67645735585192,
	"learning_rate": 0.00019981848716724073,
	"loss": 1.2154,
	"step": 56
	},
	{
	"epoch": 0.1385176184690158,
	"grad_norm": 45.661268047129674,
	"learning_rate": 0.00019979348734344398,
	"loss": 1.1411,
	"step": 57
	},
	{
	"epoch": 0.14094775212636695,
	"grad_norm": 53.10628399970359,
	"learning_rate": 0.00019976687691905393,
	"loss": 1.2029,
	"step": 58
	},
	{
	"epoch": 0.1433778857837181,
	"grad_norm": 38.71353325803162,
	"learning_rate": 0.00019973865632354516,
	"loss": 1.1976,
	"step": 59
	},
	{
	"epoch": 0.14580801944106925,
	"grad_norm": 42.789208063581114,
	"learning_rate": 0.0001997088260123793,
	"loss": 1.1477,
	"step": 60
	},
	{
	"epoch": 0.14823815309842042,
	"grad_norm": 37.613194740192164,
	"learning_rate": 0.0001996773864669978,
	"loss": 1.2529,
	"step": 61
	},
	{
	"epoch": 0.15066828675577157,
	"grad_norm": 47.96813084127655,
	"learning_rate": 0.00019964433819481405,
	"loss": 1.2328,
	"step": 62
	},
	{
	"epoch": 0.15309842041312272,
	"grad_norm": 55.30483872428545,
	"learning_rate": 0.00019960968172920516,
	"loss": 1.1996,
	"step": 63
	},
	{
	"epoch": 0.15552855407047386,
	"grad_norm": 35.58995799070749,
	"learning_rate": 0.00019957341762950344,
	"loss": 1.1248,
	"step": 64
	},
	{
	"epoch": 0.15795868772782504,
	"grad_norm": 58.86131222300149,
	"learning_rate": 0.00019953554648098748,
	"loss": 1.3017,
	"step": 65
	},
	{
	"epoch": 0.16038882138517618,
	"grad_norm": 32.12091331878439,
	"learning_rate": 0.00019949606889487233,
	"loss": 1.1961,
	"step": 66
	},
	{
	"epoch": 0.16281895504252733,
	"grad_norm": 167.27433996357928,
	"learning_rate": 0.0001994549855083001,
	"loss": 1.1768,
	"step": 67
	},
	{
	"epoch": 0.1652490886998785,
	"grad_norm": 32.3328494297432,
	"learning_rate": 0.0001994122969843293,
	"loss": 1.1802,
	"step": 68
	},
	{
	"epoch": 0.16767922235722965,
	"grad_norm": 39.92530074438497,
	"learning_rate": 0.0001993680040119244,
	"loss": 1.2098,
	"step": 69
	},
	{
	"epoch": 0.1701093560145808,
	"grad_norm": 45.60830517129956,
	"learning_rate": 0.0001993221073059445,
	"loss": 1.2159,
	"step": 70
	},
	{
	"epoch": 0.17253948967193194,
	"grad_norm": 35.462695032736335,
	"learning_rate": 0.00019927460760713197,
	"loss": 1.1818,
	"step": 71
	},
	{
	"epoch": 0.17496962332928312,
	"grad_norm": 43.05751624597826,
	"learning_rate": 0.0001992255056821004,
	"loss": 1.2011,
	"step": 72
	},
	{
	"epoch": 0.17739975698663427,
	"grad_norm": 47.13143404969894,
	"learning_rate": 0.00019917480232332224,
	"loss": 1.1669,
	"step": 73
	},
	{
	"epoch": 0.1798298906439854,
	"grad_norm": 72.07146401418987,
	"learning_rate": 0.000199122498349116,
	"loss": 1.181,
	"step": 74
	},
	{
	"epoch": 0.1822600243013366,
	"grad_norm": 36.289202348834955,
	"learning_rate": 0.00019906859460363307,
	"loss": 1.1787,
	"step": 75
	},
	{
	"epoch": 0.18469015795868773,
	"grad_norm": 46.92636167228936,
	"learning_rate": 0.00019901309195684416,
	"loss": 1.2316,
	"step": 76
	},
	{
	"epoch": 0.18712029161603888,
	"grad_norm": 31.71425340357504,
	"learning_rate": 0.00019895599130452505,
	"loss": 1.1607,
	"step": 77
	},
	{
	"epoch": 0.18955042527339003,
	"grad_norm": 43.94199928621344,
	"learning_rate": 0.00019889729356824235,
	"loss": 1.1919,
	"step": 78
	},
	{
	"epoch": 0.1919805589307412,
	"grad_norm": 45.33073791860179,
	"learning_rate": 0.0001988369996953386,
	"loss": 1.2237,
	"step": 79
	},
	{
	"epoch": 0.19441069258809235,
	"grad_norm": 135.89980489661897,
	"learning_rate": 0.00019877511065891673,
	"loss": 1.1822,
	"step": 80
	},
	{
	"epoch": 0.1968408262454435,
	"grad_norm": 439.6770852212966,
	"learning_rate": 0.00019871162745782478,
	"loss": 1.1441,
	"step": 81
	},
	{
	"epoch": 0.19927095990279464,
	"grad_norm": 80.73319798776026,
	"learning_rate": 0.0001986465511166394,
	"loss": 1.1709,
	"step": 82
	},
	{
	"epoch": 0.20170109356014582,
	"grad_norm": 87.76515297497458,
	"learning_rate": 0.00019857988268564953,
	"loss": 1.1549,
	"step": 83
	},
	{
	"epoch": 0.20413122721749696,
	"grad_norm": 70.08754986406095,
	"learning_rate": 0.00019851162324083932,
	"loss": 1.1771,
	"step": 84
	},
	{
	"epoch": 0.2065613608748481,
	"grad_norm": 187.8198997057664,
	"learning_rate": 0.0001984417738838709,
	"loss": 1.2068,
	"step": 85
	},
	{
	"epoch": 0.20899149453219928,
	"grad_norm": 127.78818684755072,
	"learning_rate": 0.00019837033574206646,
	"loss": 1.1974,
	"step": 86
	},
	{
	"epoch": 0.21142162818955043,
	"grad_norm": 127.82979216871074,
	"learning_rate": 0.0001982973099683902,
	"loss": 1.185,
	"step": 87
	},
	{
	"epoch": 0.21385176184690158,
	"grad_norm": 142.35425084857746,
	"learning_rate": 0.00019822269774142954,
	"loss": 1.2225,
	"step": 88
	},
	{
	"epoch": 0.21628189550425272,
	"grad_norm": 246.64019353564817,
	"learning_rate": 0.0001981465002653763,
	"loss": 1.2574,
	"step": 89
	},
	{
	"epoch": 0.2187120291616039,
	"grad_norm": 189.88471076285524,
	"learning_rate": 0.0001980687187700071,
	"loss": 1.1635,
	"step": 90
	},
	{
	"epoch": 0.22114216281895505,
	"grad_norm": 116.65693373141701,
	"learning_rate": 0.00019798935451066361,
	"loss": 1.1457,
	"step": 91
	},
	{
	"epoch": 0.2235722964763062,
	"grad_norm": 71.76422539970217,
	"learning_rate": 0.00019790840876823232,
	"loss": 1.2354,
	"step": 92
	},
	{
	"epoch": 0.22600243013365734,
	"grad_norm": 139.42330509386431,
	"learning_rate": 0.0001978258828491236,
	"loss": 1.18,
	"step": 93
	},
	{
	"epoch": 0.2284325637910085,
	"grad_norm": 131.88308820601443,
	"learning_rate": 0.00019774177808525113,
	"loss": 1.1868,
	"step": 94
	},
	{
	"epoch": 0.23086269744835966,
	"grad_norm": 85.81071125615291,
	"learning_rate": 0.00019765609583400977,
	"loss": 1.1814,
	"step": 95
	},
	{
	"epoch": 0.2332928311057108,
	"grad_norm": 84.43756298541064,
	"learning_rate": 0.00019756883747825424,
	"loss": 1.1658,
	"step": 96
	},
	{
	"epoch": 0.23572296476306198,
	"grad_norm": 114.24245545143974,
	"learning_rate": 0.0001974800044262764,
	"loss": 1.2497,
	"step": 97
	},
	{
	"epoch": 0.23815309842041313,
	"grad_norm": 76.577511222722,
	"learning_rate": 0.00019738959811178272,
	"loss": 1.1414,
	"step": 98
	},
	{
	"epoch": 0.24058323207776428,
	"grad_norm": 171.8084830895381,
	"learning_rate": 0.00019729761999387103,
	"loss": 1.1619,
	"step": 99
	},
	{
	"epoch": 0.24301336573511542,
	"grad_norm": 221.87752250936416,
	"learning_rate": 0.00019720407155700707,
	"loss": 1.2718,
	"step": 100
	},
	{
	"epoch": 0.2454434993924666,
	"grad_norm": 205.64943975370608,
	"learning_rate": 0.00019710895431100046,
	"loss": 1.1786,
	"step": 101
	},
	{
	"epoch": 0.24787363304981774,
	"grad_norm": 160.16582903260615,
	"learning_rate": 0.00019701226979098037,
	"loss": 1.1426,
	"step": 102
	},
	{
	"epoch": 0.2503037667071689,
	"grad_norm": 82.85031394537334,
	"learning_rate": 0.00019691401955737072,
	"loss": 1.1718,
	"step": 103
	},
	{
	"epoch": 0.2503037667071689,
	"eval_loss": 1.1633374691009521,
	"eval_runtime": 52.6182,
	"eval_samples_per_second": 14.14,
	"eval_steps_per_second": 1.767,
	"step": 103
	},
	{
	"epoch": 0.25273390036452004,
	"grad_norm": 94.74469296109082,
	"learning_rate": 0.000196814205195865,
	"loss": 1.2255,
	"step": 104
	},
	{
	"epoch": 0.2551640340218712,
	"grad_norm": 126.15797466756656,
	"learning_rate": 0.00019671282831740076,
	"loss": 1.1623,
	"step": 105
	},
	{
	"epoch": 0.25759416767922233,
	"grad_norm": 79.41156434272008,
	"learning_rate": 0.0001966098905581334,
	"loss": 1.1606,
	"step": 106
	},
	{
	"epoch": 0.2600243013365735,
	"grad_norm": 70.33104031058372,
	"learning_rate": 0.00019650539357941003,
	"loss": 1.196,
	"step": 107
	},
	{
	"epoch": 0.2624544349939247,
	"grad_norm": 69.57260733822498,
	"learning_rate": 0.0001963993390677424,
	"loss": 1.1939,
	"step": 108
	},
	{
	"epoch": 0.2648845686512758,
	"grad_norm": 81.78820691772725,
	"learning_rate": 0.00019629172873477995,
	"loss": 1.2553,
	"step": 109
	},
	{
	"epoch": 0.267314702308627,
	"grad_norm": 117.06324110268656,
	"learning_rate": 0.00019618256431728194,
	"loss": 1.2535,
	"step": 110
	},
	{
	"epoch": 0.26974483596597815,
	"grad_norm": 83.26993317104247,
	"learning_rate": 0.00019607184757708951,
	"loss": 1.157,
	"step": 111
	},
	{
	"epoch": 0.27217496962332927,
	"grad_norm": 51.990829456422375,
	"learning_rate": 0.00019595958030109735,
	"loss": 1.1274,
	"step": 112
	},
	{
	"epoch": 0.27460510328068044,
	"grad_norm": 119.7487160875729,
	"learning_rate": 0.00019584576430122473,
	"loss": 1.1422,
	"step": 113
	},
	{
	"epoch": 0.2770352369380316,
	"grad_norm": 88.15636932272304,
	"learning_rate": 0.00019573040141438624,
	"loss": 1.1599,
	"step": 114
	},
	{
	"epoch": 0.27946537059538273,
	"grad_norm": 62.346402225534774,
	"learning_rate": 0.00019561349350246226,
	"loss": 1.1909,
	"step": 115
	},
	{
	"epoch": 0.2818955042527339,
	"grad_norm": 76.40612150653034,
	"learning_rate": 0.0001954950424522688,
	"loss": 1.1646,
	"step": 116
	},
	{
	"epoch": 0.284325637910085,
	"grad_norm": 94.8711613055073,
	"learning_rate": 0.00019537505017552716,
	"loss": 1.1547,
	"step": 117
	},
	{
	"epoch": 0.2867557715674362,
	"grad_norm": 63.86961661796314,
	"learning_rate": 0.00019525351860883293,
	"loss": 1.1841,
	"step": 118
	},
	{
	"epoch": 0.2891859052247874,
	"grad_norm": 133.2417924150684,
	"learning_rate": 0.00019513044971362494,
	"loss": 1.1365,
	"step": 119
	},
	{
	"epoch": 0.2916160388821385,
	"grad_norm": 133.44891510996445,
	"learning_rate": 0.00019500584547615333,
	"loss": 1.1696,
	"step": 120
	},
	{
	"epoch": 0.29404617253948967,
	"grad_norm": 58.51701768739601,
	"learning_rate": 0.00019487970790744774,
	"loss": 1.1874,
	"step": 121
	},
	{
	"epoch": 0.29647630619684084,
	"grad_norm": 49.536158238056196,
	"learning_rate": 0.00019475203904328474,
	"loss": 1.1798,
	"step": 122
	},
	{
	"epoch": 0.29890643985419196,
	"grad_norm": 94.27608706983857,
	"learning_rate": 0.000194622840944155,
	"loss": 1.2443,
	"step": 123
	},
	{
	"epoch": 0.30133657351154314,
	"grad_norm": 103.868243202843,
	"learning_rate": 0.00019449211569523,
	"loss": 1.1759,
	"step": 124
	},
	{
	"epoch": 0.3037667071688943,
	"grad_norm": 73.31536435980003,
	"learning_rate": 0.00019435986540632843,
	"loss": 1.1885,
	"step": 125
	},
	{
	"epoch": 0.30619684082624543,
	"grad_norm": 64.91149114745738,
	"learning_rate": 0.00019422609221188207,
	"loss": 1.1864,
	"step": 126
	},
	{
	"epoch": 0.3086269744835966,
	"grad_norm": 95.34449184763653,
	"learning_rate": 0.00019409079827090145,
	"loss": 1.1339,
	"step": 127
	},
	{
	"epoch": 0.3110571081409477,
	"grad_norm": 67.36156159754226,
	"learning_rate": 0.00019395398576694086,
	"loss": 1.1845,
	"step": 128
	},
	{
	"epoch": 0.3134872417982989,
	"grad_norm": 36.94913176821407,
	"learning_rate": 0.00019381565690806328,
	"loss": 1.2154,
	"step": 129
	},
	{
	"epoch": 0.3159173754556501,
	"grad_norm": 69.05265214547647,
	"learning_rate": 0.00019367581392680457,
	"loss": 1.1642,
	"step": 130
	},
	{
	"epoch": 0.3183475091130012,
	"grad_norm": 38.974761165559855,
	"learning_rate": 0.00019353445908013755,
	"loss": 1.1508,
	"step": 131
	},
	{
	"epoch": 0.32077764277035237,
	"grad_norm": 48.47215142199794,
	"learning_rate": 0.00019339159464943557,
	"loss": 1.2011,
	"step": 132
	},
	{
	"epoch": 0.32320777642770354,
	"grad_norm": 41.88512063342574,
	"learning_rate": 0.00019324722294043558,
	"loss": 1.1643,
	"step": 133
	},
	{
	"epoch": 0.32563791008505466,
	"grad_norm": 25.59403215229145,
	"learning_rate": 0.00019310134628320114,
	"loss": 1.1954,
	"step": 134
	},
	{
	"epoch": 0.32806804374240583,
	"grad_norm": 58.02634988046396,
	"learning_rate": 0.00019295396703208453,
	"loss": 1.1544,
	"step": 135
	},
	{
	"epoch": 0.330498177399757,
	"grad_norm": 31.26218977398251,
	"learning_rate": 0.00019280508756568896,
	"loss": 1.1613,
	"step": 136
	},
	{
	"epoch": 0.33292831105710813,
	"grad_norm": 31.81234539284103,
	"learning_rate": 0.00019265471028683014,
	"loss": 1.1892,
	"step": 137
	},
	{
	"epoch": 0.3353584447144593,
	"grad_norm": 54.44930114675527,
	"learning_rate": 0.00019250283762249748,
	"loss": 1.2801,
	"step": 138
	},
	{
	"epoch": 0.3377885783718105,
	"grad_norm": 30.320486287732734,
	"learning_rate": 0.00019234947202381486,
	"loss": 1.1934,
	"step": 139
	},
	{
	"epoch": 0.3402187120291616,
	"grad_norm": 32.76175001943503,
	"learning_rate": 0.00019219461596600113,
	"loss": 1.1436,
	"step": 140
	},
	{
	"epoch": 0.34264884568651277,
	"grad_norm": 36.802264122697316,
	"learning_rate": 0.00019203827194833026,
	"loss": 1.1418,
	"step": 141
	},
	{
	"epoch": 0.3450789793438639,
	"grad_norm": 35.03898729580271,
	"learning_rate": 0.0001918804424940908,
	"loss": 1.2479,
	"step": 142
	},
	{
	"epoch": 0.34750911300121506,
	"grad_norm": 89.58068030461165,
	"learning_rate": 0.00019172113015054532,
	"loss": 1.2504,
	"step": 143
	},
	{
	"epoch": 0.34993924665856624,
	"grad_norm": 30.05799668441019,
	"learning_rate": 0.00019156033748888917,
	"loss": 1.1662,
	"step": 144
	},
	{
	"epoch": 0.35236938031591736,
	"grad_norm": 33.80121199203598,
	"learning_rate": 0.00019139806710420914,
	"loss": 1.1862,
	"step": 145
	},
	{
	"epoch": 0.35479951397326853,
	"grad_norm": 31.510896023067872,
	"learning_rate": 0.00019123432161544142,
	"loss": 1.147,
	"step": 146
	},
	{
	"epoch": 0.3572296476306197,
	"grad_norm": 32.92613286618093,
	"learning_rate": 0.00019106910366532942,
	"loss": 1.1421,
	"step": 147
	},
	{
	"epoch": 0.3596597812879708,
	"grad_norm": 245.36013493823395,
	"learning_rate": 0.00019090241592038113,
	"loss": 1.1306,
	"step": 148
	},
	{
	"epoch": 0.362089914945322,
	"grad_norm": 72.3061625644275,
	"learning_rate": 0.000190734261070826,
	"loss": 1.1144,
	"step": 149
	},
	{
	"epoch": 0.3645200486026732,
	"grad_norm": 63.77748866336388,
	"learning_rate": 0.00019056464183057157,
	"loss": 1.1249,
	"step": 150
	},
	{
	"epoch": 0.3669501822600243,
	"grad_norm": 633.2421324308109,
	"learning_rate": 0.00019039356093715975,
	"loss": 1.1359,
	"step": 151
	},
	{
	"epoch": 0.36938031591737547,
	"grad_norm": 34.456657555313704,
	"learning_rate": 0.00019022102115172248,
	"loss": 1.1397,
	"step": 152
	},
	{
	"epoch": 0.3718104495747266,
	"grad_norm": 35.21328820959324,
	"learning_rate": 0.00019004702525893732,
	"loss": 1.1741,
	"step": 153
	},
	{
	"epoch": 0.37424058323207776,
	"grad_norm": 90.32405227187036,
	"learning_rate": 0.00018987157606698235,
	"loss": 1.1844,
	"step": 154
	},
	{
	"epoch": 0.37667071688942894,
	"grad_norm": 39.348755664527914,
	"learning_rate": 0.000189694676407491,
	"loss": 1.1216,
	"step": 155
	},
	{
	"epoch": 0.37910085054678005,
	"grad_norm": 58.85540744859834,
	"learning_rate": 0.00018951632913550626,
	"loss": 1.115,
	"step": 156
	},
	{
	"epoch": 0.38153098420413123,
	"grad_norm": 39.849945227365325,
	"learning_rate": 0.0001893365371294346,
	"loss": 1.1705,
	"step": 157
	},
	{
	"epoch": 0.3839611178614824,
	"grad_norm": 40.300954908722304,
	"learning_rate": 0.0001891553032909996,
	"loss": 1.1831,
	"step": 158
	},
	{
	"epoch": 0.3863912515188335,
	"grad_norm": 53.72009888405355,
	"learning_rate": 0.00018897263054519498,
	"loss": 1.1613,
	"step": 159
	},
	{
	"epoch": 0.3888213851761847,
	"grad_norm": 142.22686975859034,
	"learning_rate": 0.0001887885218402375,
	"loss": 1.1639,
	"step": 160
	},
	{
	"epoch": 0.39125151883353587,
	"grad_norm": 50.141889086717356,
	"learning_rate": 0.00018860298014751944,
	"loss": 1.1659,
	"step": 161
	},
	{
	"epoch": 0.393681652490887,
	"grad_norm": 63.25519968311113,
	"learning_rate": 0.0001884160084615604,
	"loss": 1.168,
	"step": 162
	},
	{
	"epoch": 0.39611178614823817,
	"grad_norm": 50.59325246324073,
	"learning_rate": 0.0001882276097999592,
	"loss": 1.1202,
	"step": 163
	},
	{
	"epoch": 0.3985419198055893,
	"grad_norm": 58.32587879810431,
	"learning_rate": 0.0001880377872033451,
	"loss": 1.1587,
	"step": 164
	},
	{
	"epoch": 0.40097205346294046,
	"grad_norm": 211.50882688314653,
	"learning_rate": 0.00018784654373532866,
	"loss": 1.1551,
	"step": 165
	},
	{
	"epoch": 0.40340218712029163,
	"grad_norm": 47.82888424614203,
	"learning_rate": 0.00018765388248245246,
	"loss": 1.2274,
	"step": 166
	},
	{
	"epoch": 0.40583232077764275,
	"grad_norm": 97.94922685274778,
	"learning_rate": 0.00018745980655414114,
	"loss": 1.0872,
	"step": 167
	},
	{
	"epoch": 0.4082624544349939,
	"grad_norm": 44.74994721544976,
	"learning_rate": 0.0001872643190826512,
	"loss": 1.1244,
	"step": 168
	},
	{
	"epoch": 0.4106925880923451,
	"grad_norm": 53.84692426866845,
	"learning_rate": 0.00018706742322302064,
	"loss": 1.1576,
	"step": 169
	},
	{
	"epoch": 0.4131227217496962,
	"grad_norm": 54.43599132185614,
	"learning_rate": 0.0001868691221530178,
	"loss": 1.0957,
	"step": 170
	},
	{
	"epoch": 0.4155528554070474,
	"grad_norm": 39.21766518089018,
	"learning_rate": 0.00018666941907309026,
	"loss": 1.1625,
	"step": 171
	},
	{
	"epoch": 0.41798298906439857,
	"grad_norm": 49.40030697752548,
	"learning_rate": 0.000186468317206313,
	"loss": 1.1556,
	"step": 172
	},
	{
	"epoch": 0.4204131227217497,
	"grad_norm": 101.50309647820374,
	"learning_rate": 0.0001862658197983366,
	"loss": 1.1687,
	"step": 173
	},
	{
	"epoch": 0.42284325637910086,
	"grad_norm": 105.41233861946563,
	"learning_rate": 0.0001860619301173347,
	"loss": 1.1687,
	"step": 174
	},
	{
	"epoch": 0.425273390036452,
	"grad_norm": 103.99749987770305,
	"learning_rate": 0.0001858566514539513,
	"loss": 1.144,
	"step": 175
	},
	{
	"epoch": 0.42770352369380316,
	"grad_norm": 78.83490301242213,
	"learning_rate": 0.0001856499871212477,
	"loss": 1.2318,
	"step": 176
	},
	{
	"epoch": 0.43013365735115433,
	"grad_norm": 62.325757489859335,
	"learning_rate": 0.00018544194045464886,
	"loss": 1.1092,
	"step": 177
	},
	{
	"epoch": 0.43256379100850545,
	"grad_norm": 81.32804926878099,
	"learning_rate": 0.00018523251481188986,
	"loss": 1.2233,
	"step": 178
	},
	{
	"epoch": 0.4349939246658566,
	"grad_norm": 38.97928032166606,
	"learning_rate": 0.00018502171357296144,
	"loss": 1.2371,
	"step": 179
	},
	{
	"epoch": 0.4374240583232078,
	"grad_norm": 82.62345361244209,
	"learning_rate": 0.0001848095401400555,
	"loss": 1.1562,
	"step": 180
	},
	{
	"epoch": 0.4398541919805589,
	"grad_norm": 47.793381366401626,
	"learning_rate": 0.0001845959979375104,
	"loss": 1.1249,
	"step": 181
	},
	{
	"epoch": 0.4422843256379101,
	"grad_norm": 53.6022948471739,
	"learning_rate": 0.00018438109041175532,
	"loss": 1.1415,
	"step": 182
	},
	{
	"epoch": 0.44471445929526127,
	"grad_norm": 65.92717051568573,
	"learning_rate": 0.00018416482103125506,
	"loss": 1.1748,
	"step": 183
	},
	{
	"epoch": 0.4471445929526124,
	"grad_norm": 59.410481167619494,
	"learning_rate": 0.0001839471932864537,
	"loss": 1.1399,
	"step": 184
	},
	{
	"epoch": 0.44957472660996356,
	"grad_norm": 64.22740395872977,
	"learning_rate": 0.0001837282106897185,
	"loss": 1.2193,
	"step": 185
	},
	{
	"epoch": 0.4520048602673147,
	"grad_norm": 54.63497168787729,
	"learning_rate": 0.00018350787677528306,
	"loss": 1.153,
	"step": 186
	},
	{
	"epoch": 0.45443499392466585,
	"grad_norm": 49.60676029637355,
	"learning_rate": 0.00018328619509919044,
	"loss": 1.1509,
	"step": 187
	},
	{
	"epoch": 0.456865127582017,
	"grad_norm": 32.29074835877607,
	"learning_rate": 0.00018306316923923563,
	"loss": 1.1851,
	"step": 188
	},
	{
	"epoch": 0.45929526123936815,
	"grad_norm": 61.13632454163589,
	"learning_rate": 0.0001828388027949078,
	"loss": 1.1323,
	"step": 189
	},
	{
	"epoch": 0.4617253948967193,
	"grad_norm": 67.48617660835801,
	"learning_rate": 0.00018261309938733238,
	"loss": 1.1956,
	"step": 190
	},
	{
	"epoch": 0.4641555285540705,
	"grad_norm": 38.31182257784929,
	"learning_rate": 0.00018238606265921238,
	"loss": 1.1379,
	"step": 191
	},
	{
	"epoch": 0.4665856622114216,
	"grad_norm": 47.30995766708629,
	"learning_rate": 0.00018215769627476984,
	"loss": 1.1462,
	"step": 192
	},
	{
	"epoch": 0.4690157958687728,
	"grad_norm": 34.57093925891121,
	"learning_rate": 0.00018192800391968642,
	"loss": 1.1979,
	"step": 193
	},
	{
	"epoch": 0.47144592952612396,
	"grad_norm": 34.45645740457662,
	"learning_rate": 0.0001816969893010442,
	"loss": 1.1763,
	"step": 194
	},
	{
	"epoch": 0.4738760631834751,
	"grad_norm": 39.21862152859671,
	"learning_rate": 0.00018146465614726567,
	"loss": 1.1514,
	"step": 195
	},
	{
	"epoch": 0.47630619684082626,
	"grad_norm": 34.765347344568106,
	"learning_rate": 0.00018123100820805355,
	"loss": 1.1426,
	"step": 196
	},
	{
	"epoch": 0.4787363304981774,
	"grad_norm": 35.04245362239315,
	"learning_rate": 0.00018099604925433043,
	"loss": 1.143,
	"step": 197
	},
	{
	"epoch": 0.48116646415552855,
	"grad_norm": 103.45636476066032,
	"learning_rate": 0.00018075978307817764,
	"loss": 1.1713,
	"step": 198
	},
	{
	"epoch": 0.4835965978128797,
	"grad_norm": 43.0297373660821,
	"learning_rate": 0.00018052221349277442,
	"loss": 1.2226,
	"step": 199
	},
	{
	"epoch": 0.48602673147023084,
	"grad_norm": 32.80474372048966,
	"learning_rate": 0.000180283344332336,
	"loss": 1.1556,
	"step": 200
	},
	{
	"epoch": 0.488456865127582,
	"grad_norm": 59.42688731224296,
	"learning_rate": 0.00018004317945205197,
	"loss": 1.1411,
	"step": 201
	},
	{
	"epoch": 0.4908869987849332,
	"grad_norm": 102.0917822407188,
	"learning_rate": 0.000179801722728024,
	"loss": 1.1309,
	"step": 202
	},
	{
	"epoch": 0.4933171324422843,
	"grad_norm": 309.9346821950787,
	"learning_rate": 0.0001795589780572031,
	"loss": 1.1953,
	"step": 203
	},
	{
	"epoch": 0.4957472660996355,
	"grad_norm": 344.5019267346993,
	"learning_rate": 0.0001793149493573271,
	"loss": 1.1524,
	"step": 204
	},
	{
	"epoch": 0.49817739975698666,
	"grad_norm": 50.075205946207085,
	"learning_rate": 0.00017906964056685706,
	"loss": 1.1495,
	"step": 205
	},
	{
	"epoch": 0.5006075334143378,
	"grad_norm": 132.32227258331488,
	"learning_rate": 0.00017882305564491396,
	"loss": 1.1976,
	"step": 206
	},
	{
	"epoch": 0.5006075334143378,
	"eval_loss": 1.146019458770752,
	"eval_runtime": 52.7816,
	"eval_samples_per_second": 14.096,
	"eval_steps_per_second": 1.762,
	"step": 206
	},
	{
	"epoch": 0.503037667071689,
	"grad_norm": 138.57200377669218,
	"learning_rate": 0.00017857519857121458,
	"loss": 1.2159,
	"step": 207
	},
	{
	"epoch": 0.5054678007290401,
	"grad_norm": 268.41109734161546,
	"learning_rate": 0.00017832607334600746,
	"loss": 1.1748,
	"step": 208
	},
	{
	"epoch": 0.5078979343863913,
	"grad_norm": 72.44153953442401,
	"learning_rate": 0.00017807568399000822,
	"loss": 1.1758,
	"step": 209
	},
	{
	"epoch": 0.5103280680437424,
	"grad_norm": 97.75400124096738,
	"learning_rate": 0.00017782403454433477,
	"loss": 1.1004,
	"step": 210
	},
	{
	"epoch": 0.5127582017010935,
	"grad_norm": 84.19522802756285,
	"learning_rate": 0.000177571129070442,
	"loss": 1.1397,
	"step": 211
	},
	{
	"epoch": 0.5151883353584447,
	"grad_norm": 132.95081835535706,
	"learning_rate": 0.00017731697165005618,
	"loss": 1.146,
	"step": 212
	},
	{
	"epoch": 0.5176184690157959,
	"grad_norm": 560.3351292126325,
	"learning_rate": 0.0001770615663851093,
	"loss": 1.1937,
	"step": 213
	},
	{
	"epoch": 0.520048602673147,
	"grad_norm": 252.72862614645885,
	"learning_rate": 0.0001768049173976727,
	"loss": 1.1213,
	"step": 214
	},
	{
	"epoch": 0.5224787363304981,
	"grad_norm": 356.2985211032981,
	"learning_rate": 0.0001765470288298905,
	"loss": 1.22,
	"step": 215
	},
	{
	"epoch": 0.5249088699878494,
	"grad_norm": 952.600672502031,
	"learning_rate": 0.00017628790484391284,
	"loss": 1.1321,
	"step": 216
	},
	{
	"epoch": 0.5273390036452005,
	"grad_norm": 289.9357041930161,
	"learning_rate": 0.0001760275496218288,
	"loss": 1.1688,
	"step": 217
	},
	{
	"epoch": 0.5297691373025516,
	"grad_norm": 48.69445264741508,
	"learning_rate": 0.0001757659673655986,
	"loss": 1.1551,
	"step": 218
	},
	{
	"epoch": 0.5321992709599028,
	"grad_norm": 40.15160247154335,
	"learning_rate": 0.0001755031622969862,
	"loss": 1.1459,
	"step": 219
	},
	{
	"epoch": 0.534629404617254,
	"grad_norm": 44.59390817019205,
	"learning_rate": 0.00017523913865749078,
	"loss": 1.2012,
	"step": 220
	},
	{
	"epoch": 0.5370595382746051,
	"grad_norm": 30.189717624412484,
	"learning_rate": 0.00017497390070827848,
	"loss": 1.15,
	"step": 221
	},
	{
	"epoch": 0.5394896719319563,
	"grad_norm": 27.185608574176108,
	"learning_rate": 0.00017470745273011362,
	"loss": 1.0763,
	"step": 222
	},
	{
	"epoch": 0.5419198055893074,
	"grad_norm": 99.44121390806423,
	"learning_rate": 0.00017443979902328956,
	"loss": 1.1478,
	"step": 223
	},
	{
	"epoch": 0.5443499392466585,
	"grad_norm": 29.684499344634585,
	"learning_rate": 0.00017417094390755934,
	"loss": 1.1123,
	"step": 224
	},
	{
	"epoch": 0.5467800729040098,
	"grad_norm": 26.788847114635054,
	"learning_rate": 0.00017390089172206592,
	"loss": 1.1169,
	"step": 225
	},
	{
	"epoch": 0.5492102065613609,
	"grad_norm": 31.84817878214798,
	"learning_rate": 0.00017362964682527218,
	"loss": 1.1524,
	"step": 226
	},
	{
	"epoch": 0.551640340218712,
	"grad_norm": 34.834632993822424,
	"learning_rate": 0.00017335721359489057,
	"loss": 1.1761,
	"step": 227
	},
	{
	"epoch": 0.5540704738760632,
	"grad_norm": 66.6084234453716,
	"learning_rate": 0.00017308359642781242,
	"loss": 1.1175,
	"step": 228
	},
	{
	"epoch": 0.5565006075334143,
	"grad_norm": 35.15720180142773,
	"learning_rate": 0.00017280879974003707,
	"loss": 1.2012,
	"step": 229
	},
	{
	"epoch": 0.5589307411907655,
	"grad_norm": 35.975450782756226,
	"learning_rate": 0.00017253282796660056,
	"loss": 1.1801,
	"step": 230
	},
	{
	"epoch": 0.5613608748481167,
	"grad_norm": 83.49050230764925,
	"learning_rate": 0.0001722556855615039,
	"loss": 1.1576,
	"step": 231
	},
	{
	"epoch": 0.5637910085054678,
	"grad_norm": 150.44630441002784,
	"learning_rate": 0.00017197737699764146,
	"loss": 1.1826,
	"step": 232
	},
	{
	"epoch": 0.5662211421628189,
	"grad_norm": 31.322382197739042,
	"learning_rate": 0.00017169790676672858,
	"loss": 1.1784,
	"step": 233
	},
	{
	"epoch": 0.56865127582017,
	"grad_norm": 33.15983653687515,
	"learning_rate": 0.0001714172793792291,
	"loss": 1.1411,
	"step": 234
	},
	{
	"epoch": 0.5710814094775213,
	"grad_norm": 22.206850165103052,
	"learning_rate": 0.0001711354993642827,
	"loss": 1.1772,
	"step": 235
	},
	{
	"epoch": 0.5735115431348724,
	"grad_norm": 43.35721272668955,
	"learning_rate": 0.00017085257126963152,
	"loss": 1.0915,
	"step": 236
	},
	{
	"epoch": 0.5759416767922235,
	"grad_norm": 29.57234737116712,
	"learning_rate": 0.0001705684996615472,
	"loss": 1.0977,
	"step": 237
	},
	{
	"epoch": 0.5783718104495748,
	"grad_norm": 42.929644875053214,
	"learning_rate": 0.00017028328912475668,
	"loss": 1.1782,
	"step": 238
	},
	{
	"epoch": 0.5808019441069259,
	"grad_norm": 32.15711272871687,
	"learning_rate": 0.0001699969442623686,
	"loss": 1.1855,
	"step": 239
	},
	{
	"epoch": 0.583232077764277,
	"grad_norm": 43.64453730184205,
	"learning_rate": 0.00016970946969579887,
	"loss": 1.1171,
	"step": 240
	},
	{
	"epoch": 0.5856622114216282,
	"grad_norm": 26.145541544112593,
	"learning_rate": 0.00016942087006469592,
	"loss": 1.1656,
	"step": 241
	},
	{
	"epoch": 0.5880923450789793,
	"grad_norm": 53.98173886095731,
	"learning_rate": 0.00016913115002686616,
	"loss": 1.1378,
	"step": 242
	},
	{
	"epoch": 0.5905224787363305,
	"grad_norm": 50.851193586801195,
	"learning_rate": 0.00016884031425819853,
	"loss": 1.1338,
	"step": 243
	},
	{
	"epoch": 0.5929526123936817,
	"grad_norm": 30.166674036386443,
	"learning_rate": 0.0001685483674525891,
	"loss": 1.1732,
	"step": 244
	},
	{
	"epoch": 0.5953827460510328,
	"grad_norm": 32.580505176392656,
	"learning_rate": 0.00016825531432186543,
	"loss": 1.143,
	"step": 245
	},
	{
	"epoch": 0.5978128797083839,
	"grad_norm": 35.087231952662634,
	"learning_rate": 0.0001679611595957103,
	"loss": 1.212,
	"step": 246
	},
	{
	"epoch": 0.6002430133657352,
	"grad_norm": 44.69578306542608,
	"learning_rate": 0.00016766590802158566,
	"loss": 1.1527,
	"step": 247
	},
	{
	"epoch": 0.6026731470230863,
	"grad_norm": 39.8378839133733,
	"learning_rate": 0.00016736956436465573,
	"loss": 1.2174,
	"step": 248
	},
	{
	"epoch": 0.6051032806804374,
	"grad_norm": 25.571860004032857,
	"learning_rate": 0.0001670721334077103,
	"loss": 1.1031,
	"step": 249
	},
	{
	"epoch": 0.6075334143377886,
	"grad_norm": 27.626061413643438,
	"learning_rate": 0.00016677361995108743,
	"loss": 1.107,
	"step": 250
	},
	{
	"epoch": 0.6099635479951397,
	"grad_norm": 47.405627339857176,
	"learning_rate": 0.00016647402881259598,
	"loss": 1.1521,
	"step": 251
	},
	{
	"epoch": 0.6123936816524909,
	"grad_norm": 31.951762409660272,
	"learning_rate": 0.00016617336482743794,
	"loss": 1.174,
	"step": 252
	},
	{
	"epoch": 0.6148238153098421,
	"grad_norm": 44.304437144236104,
	"learning_rate": 0.00016587163284813032,
	"loss": 1.1286,
	"step": 253
	},
	{
	"epoch": 0.6172539489671932,
	"grad_norm": 21.990501251879344,
	"learning_rate": 0.00016556883774442675,
	"loss": 1.1927,
	"step": 254
	},
	{
	"epoch": 0.6196840826245443,
	"grad_norm": 43.91119350789936,
	"learning_rate": 0.00016526498440323914,
	"loss": 1.1399,
	"step": 255
	},
	{
	"epoch": 0.6221142162818954,
	"grad_norm": 28.064569132249982,
	"learning_rate": 0.00016496007772855853,
	"loss": 1.1913,
	"step": 256
	},
	{
	"epoch": 0.6245443499392467,
	"grad_norm": 99.97142272243896,
	"learning_rate": 0.0001646541226413761,
	"loss": 1.1694,
	"step": 257
	},
	{
	"epoch": 0.6269744835965978,
	"grad_norm": 27.12524206817854,
	"learning_rate": 0.00016434712407960373,
	"loss": 1.2398,
	"step": 258
	},
	{
	"epoch": 0.6294046172539489,
	"grad_norm": 42.99171796479219,
	"learning_rate": 0.00016403908699799425,
	"loss": 1.145,
	"step": 259
	},
	{
	"epoch": 0.6318347509113001,
	"grad_norm": 24.064938768293658,
	"learning_rate": 0.00016373001636806153,
	"loss": 1.098,
	"step": 260
	},
	{
	"epoch": 0.6342648845686513,
	"grad_norm": 31.72232981247621,
	"learning_rate": 0.00016341991717800023,
	"loss": 1.1779,
	"step": 261
	},
	{
	"epoch": 0.6366950182260024,
	"grad_norm": 39.97326887390835,
	"learning_rate": 0.00016310879443260528,
	"loss": 1.3142,
	"step": 262
	},
	{
	"epoch": 0.6391251518833536,
	"grad_norm": 27.519208072826963,
	"learning_rate": 0.00016279665315319114,
	"loss": 1.2039,
	"step": 263
	},
	{
	"epoch": 0.6415552855407047,
	"grad_norm": 52.94895557810481,
	"learning_rate": 0.00016248349837751062,
	"loss": 1.1718,
	"step": 264
	},
	{
	"epoch": 0.6439854191980559,
	"grad_norm": 23.603047222747566,
	"learning_rate": 0.0001621693351596739,
	"loss": 1.1155,
	"step": 265
	},
	{
	"epoch": 0.6464155528554071,
	"grad_norm": 21.400341520569807,
	"learning_rate": 0.00016185416857006647,
	"loss": 1.1242,
	"step": 266
	},
	{
	"epoch": 0.6488456865127582,
	"grad_norm": 51.167335508822276,
	"learning_rate": 0.00016153800369526788,
	"loss": 1.1746,
	"step": 267
	},
	{
	"epoch": 0.6512758201701093,
	"grad_norm": 26.219581065473573,
	"learning_rate": 0.00016122084563796905,
	"loss": 1.0836,
	"step": 268
	},
	{
	"epoch": 0.6537059538274606,
	"grad_norm": 56.820249886600706,
	"learning_rate": 0.0001609026995168904,
	"loss": 1.1625,
	"step": 269
	},
	{
	"epoch": 0.6561360874848117,
	"grad_norm": 37.43384869992443,
	"learning_rate": 0.00016058357046669898,
	"loss": 1.2143,
	"step": 270
	},
	{
	"epoch": 0.6585662211421628,
	"grad_norm": 31.885237168871473,
	"learning_rate": 0.00016026346363792567,
	"loss": 1.1536,
	"step": 271
	},
	{
	"epoch": 0.660996354799514,
	"grad_norm": 34.66147983279251,
	"learning_rate": 0.00015994238419688199,
	"loss": 1.2095,
	"step": 272
	},
	{
	"epoch": 0.6634264884568651,
	"grad_norm": 86.90365354594917,
	"learning_rate": 0.00015962033732557686,
	"loss": 1.1149,
	"step": 273
	},
	{
	"epoch": 0.6658566221142163,
	"grad_norm": 52.21177462889067,
	"learning_rate": 0.00015929732822163287,
	"loss": 1.1861,
	"step": 274
	},
	{
	"epoch": 0.6682867557715675,
	"grad_norm": 92.11184701145604,
	"learning_rate": 0.00015897336209820239,
	"loss": 1.1853,
	"step": 275
	},
	{
	"epoch": 0.6707168894289186,
	"grad_norm": 30.662475573811115,
	"learning_rate": 0.00015864844418388342,
	"loss": 1.0912,
	"step": 276
	},
	{
	"epoch": 0.6731470230862697,
	"grad_norm": 26.15855468837027,
	"learning_rate": 0.00015832257972263523,
	"loss": 1.1618,
	"step": 277
	},
	{
	"epoch": 0.675577156743621,
	"grad_norm": 41.14250673970726,
	"learning_rate": 0.00015799577397369375,
	"loss": 1.1499,
	"step": 278
	},
	{
	"epoch": 0.6780072904009721,
	"grad_norm": 31.93253644773631,
	"learning_rate": 0.00015766803221148673,
	"loss": 1.1229,
	"step": 279
	},
	{
	"epoch": 0.6804374240583232,
	"grad_norm": 39.87120131585165,
	"learning_rate": 0.00015733935972554844,
	"loss": 1.1647,
	"step": 280
	},
	{
	"epoch": 0.6828675577156743,
	"grad_norm": 52.741654062271124,
	"learning_rate": 0.0001570097618204345,
	"loss": 1.1362,
	"step": 281
	},
	{
	"epoch": 0.6852976913730255,
	"grad_norm": 33.13137686002526,
	"learning_rate": 0.0001566792438156362,
	"loss": 1.1825,
	"step": 282
	},
	{
	"epoch": 0.6877278250303767,
	"grad_norm": 20.284041564566042,
	"learning_rate": 0.00015634781104549442,
	"loss": 1.1439,
	"step": 283
	},
	{
	"epoch": 0.6901579586877278,
	"grad_norm": 164.9222932471453,
	"learning_rate": 0.00015601546885911404,
	"loss": 1.122,
	"step": 284
	},
	{
	"epoch": 0.692588092345079,
	"grad_norm": 27.092346730158148,
	"learning_rate": 0.00015568222262027717,
	"loss": 1.157,
	"step": 285
	},
	{
	"epoch": 0.6950182260024301,
	"grad_norm": 39.46898996008012,
	"learning_rate": 0.00015534807770735664,
	"loss": 1.1092,
	"step": 286
	},
	{
	"epoch": 0.6974483596597812,
	"grad_norm": 30.00942949300714,
	"learning_rate": 0.00015501303951322943,
	"loss": 1.243,
	"step": 287
	},
	{
	"epoch": 0.6998784933171325,
	"grad_norm": 31.435817418038887,
	"learning_rate": 0.00015467711344518942,
	"loss": 1.1034,
	"step": 288
	},
	{
	"epoch": 0.7023086269744836,
	"grad_norm": 54.53572773177548,
	"learning_rate": 0.00015434030492486023,
	"loss": 1.2216,
	"step": 289
	},
	{
	"epoch": 0.7047387606318347,
	"grad_norm": 24.51082708234768,
	"learning_rate": 0.00015400261938810757,
	"loss": 1.1532,
	"step": 290
	},
	{
	"epoch": 0.707168894289186,
	"grad_norm": 104.85480514443172,
	"learning_rate": 0.00015366406228495172,
	"loss": 1.1156,
	"step": 291
	},
	{
	"epoch": 0.7095990279465371,
	"grad_norm": 26.398830117870997,
	"learning_rate": 0.0001533246390794794,
	"loss": 1.0934,
	"step": 292
	},
	{
	"epoch": 0.7120291616038882,
	"grad_norm": 25.062392373037707,
	"learning_rate": 0.00015298435524975572,
	"loss": 1.1453,
	"step": 293
	},
	{
	"epoch": 0.7144592952612394,
	"grad_norm": 25.385505352027444,
	"learning_rate": 0.0001526432162877356,
	"loss": 1.1359,
	"step": 294
	},
	{
	"epoch": 0.7168894289185905,
	"grad_norm": 18.00146943000571,
	"learning_rate": 0.00015230122769917527,
	"loss": 1.1129,
	"step": 295
	},
	{
	"epoch": 0.7193195625759417,
	"grad_norm": 22.55383473288135,
	"learning_rate": 0.00015195839500354335,
	"loss": 1.142,
	"step": 296
	},
	{
	"epoch": 0.7217496962332929,
	"grad_norm": 30.013723395820165,
	"learning_rate": 0.00015161472373393186,
	"loss": 1.1379,
	"step": 297
	},
	{
	"epoch": 0.724179829890644,
	"grad_norm": 40.566201545240425,
	"learning_rate": 0.0001512702194369668,
	"loss": 1.1326,
	"step": 298
	},
	{
	"epoch": 0.7266099635479951,
	"grad_norm": 27.34716639907029,
	"learning_rate": 0.00015092488767271857,
	"loss": 1.0782,
	"step": 299
	},
	{
	"epoch": 0.7290400972053463,
	"grad_norm": 45.0837594669075,
	"learning_rate": 0.00015057873401461253,
	"loss": 1.2054,
	"step": 300
	},
	{
	"epoch": 0.7314702308626975,
	"grad_norm": 22.39794101270309,
	"learning_rate": 0.00015023176404933874,
	"loss": 1.1052,
	"step": 301
	},
	{
	"epoch": 0.7339003645200486,
	"grad_norm": 21.818512025585306,
	"learning_rate": 0.00014988398337676198,
	"loss": 1.1664,
	"step": 302
	},
	{
	"epoch": 0.7363304981773997,
	"grad_norm": 33.09386163968815,
	"learning_rate": 0.00014953539760983122,
	"loss": 1.1364,
	"step": 303
	},
	{
	"epoch": 0.7387606318347509,
	"grad_norm": 26.3253592215911,
	"learning_rate": 0.00014918601237448923,
	"loss": 1.1093,
	"step": 304
	},
	{
	"epoch": 0.741190765492102,
	"grad_norm": 32.54878723405212,
	"learning_rate": 0.0001488358333095816,
	"loss": 1.182,
	"step": 305
	},
	{
	"epoch": 0.7436208991494532,
	"grad_norm": 28.645473311846015,
	"learning_rate": 0.0001484848660667658,
	"loss": 1.2064,
	"step": 306
	},
	{
	"epoch": 0.7460510328068044,
	"grad_norm": 29.02693042820854,
	"learning_rate": 0.00014813311631041995,
	"loss": 1.1545,
	"step": 307
	},
	{
	"epoch": 0.7484811664641555,
	"grad_norm": 20.28193033099828,
	"learning_rate": 0.00014778058971755154,
	"loss": 1.1885,
	"step": 308
	},
	{
	"epoch": 0.7509113001215066,
	"grad_norm": 121.86121371804961,
	"learning_rate": 0.00014742729197770552,
	"loss": 1.095,
	"step": 309
	},
	{
	"epoch": 0.7509113001215066,
	"eval_loss": 1.133868932723999,
	"eval_runtime": 52.6711,
	"eval_samples_per_second": 14.125,
	"eval_steps_per_second": 1.766,
	"step": 309
	},
	{
	"epoch": 0.7533414337788579,
	"grad_norm": 50.1793074315811,
	"learning_rate": 0.00014707322879287276,
	"loss": 1.1679,
	"step": 310
	},
	{
	"epoch": 0.755771567436209,
	"grad_norm": 31.791309498678103,
	"learning_rate": 0.00014671840587739783,
	"loss": 1.1277,
	"step": 311
	},
	{
	"epoch": 0.7582017010935601,
	"grad_norm": 56.88911226488106,
	"learning_rate": 0.00014636282895788688,
	"loss": 1.1492,
	"step": 312
	},
	{
	"epoch": 0.7606318347509113,
	"grad_norm": 117.29437608667352,
	"learning_rate": 0.00014600650377311522,
	"loss": 1.1123,
	"step": 313
	},
	{
	"epoch": 0.7630619684082625,
	"grad_norm": 107.56728772749254,
	"learning_rate": 0.00014564943607393459,
	"loss": 1.171,
	"step": 314
	},
	{
	"epoch": 0.7654921020656136,
	"grad_norm": 34.085830256919685,
	"learning_rate": 0.0001452916316231805,
	"loss": 1.1854,
	"step": 315
	},
	{
	"epoch": 0.7679222357229648,
	"grad_norm": 23.625747202851176,
	"learning_rate": 0.000144933096195579,
	"loss": 1.1622,
	"step": 316
	},
	{
	"epoch": 0.7703523693803159,
	"grad_norm": 56.9917185309248,
	"learning_rate": 0.00014457383557765386,
	"loss": 1.2037,
	"step": 317
	},
	{
	"epoch": 0.772782503037667,
	"grad_norm": 34.55554043725056,
	"learning_rate": 0.00014421385556763266,
	"loss": 1.1273,
	"step": 318
	},
	{
	"epoch": 0.7752126366950183,
	"grad_norm": 34.205286759913115,
	"learning_rate": 0.00014385316197535372,
	"loss": 1.2039,
	"step": 319
	},
	{
	"epoch": 0.7776427703523694,
	"grad_norm": 27.30015395778206,
	"learning_rate": 0.00014349176062217195,
	"loss": 1.1903,
	"step": 320
	},
	{
	"epoch": 0.7800729040097205,
	"grad_norm": 23.077745147127867,
	"learning_rate": 0.00014312965734086518,
	"loss": 1.1539,
	"step": 321
	},
	{
	"epoch": 0.7825030376670717,
	"grad_norm": 26.22112568156326,
	"learning_rate": 0.00014276685797553977,
	"loss": 1.1807,
	"step": 322
	},
	{
	"epoch": 0.7849331713244229,
	"grad_norm": 34.813719314948514,
	"learning_rate": 0.0001424033683815365,
	"loss": 1.1247,
	"step": 323
	},
	{
	"epoch": 0.787363304981774,
	"grad_norm": 27.109609629038324,
	"learning_rate": 0.00014203919442533597,
	"loss": 1.1735,
	"step": 324
	},
	{
	"epoch": 0.7897934386391251,
	"grad_norm": 144.91672798575476,
	"learning_rate": 0.00014167434198446383,
	"loss": 1.1007,
	"step": 325
	},
	{
	"epoch": 0.7922235722964763,
	"grad_norm": 42.19042828736382,
	"learning_rate": 0.00014130881694739616,
	"loss": 1.1398,
	"step": 326
	},
	{
	"epoch": 0.7946537059538274,
	"grad_norm": 43.00144921766715,
	"learning_rate": 0.00014094262521346427,
	"loss": 1.1712,
	"step": 327
	},
	{
	"epoch": 0.7970838396111786,
	"grad_norm": 26.343159670729925,
	"learning_rate": 0.0001405757726927595,
	"loss": 1.2103,
	"step": 328
	},
	{
	"epoch": 0.7995139732685298,
	"grad_norm": 31.68271222195729,
	"learning_rate": 0.00014020826530603776,
	"loss": 1.1578,
	"step": 329
	},
	{
	"epoch": 0.8019441069258809,
	"grad_norm": 39.08920292536896,
	"learning_rate": 0.00013984010898462416,
	"loss": 1.1377,
	"step": 330
	},
	{
	"epoch": 0.804374240583232,
	"grad_norm": 34.56898084569197,
	"learning_rate": 0.00013947130967031717,
	"loss": 1.1886,
	"step": 331
	},
	{
	"epoch": 0.8068043742405833,
	"grad_norm": 42.016356369933895,
	"learning_rate": 0.00013910187331529276,
	"loss": 1.1577,
	"step": 332
	},
	{
	"epoch": 0.8092345078979344,
	"grad_norm": 21.25953597879822,
	"learning_rate": 0.00013873180588200827,
	"loss": 1.1259,
	"step": 333
	},
	{
	"epoch": 0.8116646415552855,
	"grad_norm": 39.49634140985428,
	"learning_rate": 0.0001383611133431062,
	"loss": 1.173,
	"step": 334
	},
	{
	"epoch": 0.8140947752126367,
	"grad_norm": 29.837690582268863,
	"learning_rate": 0.00013798980168131794,
	"loss": 1.1322,
	"step": 335
	},
	{
	"epoch": 0.8165249088699879,
	"grad_norm": 23.510451396240928,
	"learning_rate": 0.000137617876889367,
	"loss": 1.1392,
	"step": 336
	},
	{
	"epoch": 0.818955042527339,
	"grad_norm": 19.183017199526635,
	"learning_rate": 0.00013724534496987247,
	"loss": 1.157,
	"step": 337
	},
	{
	"epoch": 0.8213851761846902,
	"grad_norm": 51.85037647612581,
	"learning_rate": 0.0001368722119352521,
	"loss": 1.1255,
	"step": 338
	},
	{
	"epoch": 0.8238153098420413,
	"grad_norm": 31.635699477838273,
	"learning_rate": 0.00013649848380762513,
	"loss": 1.1429,
	"step": 339
	},
	{
	"epoch": 0.8262454434993924,
	"grad_norm": 39.6479124739029,
	"learning_rate": 0.00013612416661871533,
	"loss": 1.1609,
	"step": 340
	},
	{
	"epoch": 0.8286755771567437,
	"grad_norm": 21.453228401011238,
	"learning_rate": 0.0001357492664097534,
	"loss": 1.1247,
	"step": 341
	},
	{
	"epoch": 0.8311057108140948,
	"grad_norm": 28.514958428145494,
	"learning_rate": 0.00013537378923137973,
	"loss": 1.0845,
	"step": 342
	},
	{
	"epoch": 0.8335358444714459,
	"grad_norm": 26.98663985253516,
	"learning_rate": 0.00013499774114354655,
	"loss": 1.1092,
	"step": 343
	},
	{
	"epoch": 0.8359659781287971,
	"grad_norm": 30.76143424141064,
	"learning_rate": 0.00013462112821542016,
	"loss": 1.1759,
	"step": 344
	},
	{
	"epoch": 0.8383961117861483,
	"grad_norm": 39.023771167108656,
	"learning_rate": 0.0001342439565252831,
	"loss": 1.1024,
	"step": 345
	},
	{
	"epoch": 0.8408262454434994,
	"grad_norm": 29.787639099820225,
	"learning_rate": 0.0001338662321604358,
	"loss": 1.2141,
	"step": 346
	},
	{
	"epoch": 0.8432563791008505,
	"grad_norm": 25.60634301240642,
	"learning_rate": 0.00013348796121709862,
	"loss": 1.1244,
	"step": 347
	},
	{
	"epoch": 0.8456865127582017,
	"grad_norm": 76.98542857181108,
	"learning_rate": 0.00013310914980031334,
	"loss": 1.19,
	"step": 348
	},
	{
	"epoch": 0.8481166464155528,
	"grad_norm": 110.28982985071892,
	"learning_rate": 0.0001327298040238446,
	"loss": 1.1295,
	"step": 349
	},
	{
	"epoch": 0.850546780072904,
	"grad_norm": 22.610631125609732,
	"learning_rate": 0.0001323499300100811,
	"loss": 1.1445,
	"step": 350
	},
	{
	"epoch": 0.8529769137302552,
	"grad_norm": 29.958515973723888,
	"learning_rate": 0.00013196953388993726,
	"loss": 1.2048,
	"step": 351
	},
	{
	"epoch": 0.8554070473876063,
	"grad_norm": 30.691798031468103,
	"learning_rate": 0.00013158862180275363,
	"loss": 1.1628,
	"step": 352
	},
	{
	"epoch": 0.8578371810449574,
	"grad_norm": 28.568576369680258,
	"learning_rate": 0.00013120719989619833,
	"loss": 1.0899,
	"step": 353
	},
	{
	"epoch": 0.8602673147023087,
	"grad_norm": 42.12623456189728,
	"learning_rate": 0.0001308252743261675,
	"loss": 1.1451,
	"step": 354
	},
	{
	"epoch": 0.8626974483596598,
	"grad_norm": 112.39248005736448,
	"learning_rate": 0.00013044285125668614,
	"loss": 1.154,
	"step": 355
	},
	{
	"epoch": 0.8651275820170109,
	"grad_norm": 28.013602355549782,
	"learning_rate": 0.0001300599368598086,
	"loss": 1.1937,
	"step": 356
	},
	{
	"epoch": 0.8675577156743621,
	"grad_norm": 27.763517972300694,
	"learning_rate": 0.0001296765373155188,
	"loss": 1.1243,
	"step": 357
	},
	{
	"epoch": 0.8699878493317132,
	"grad_norm": 112.85815824767063,
	"learning_rate": 0.0001292926588116308,
	"loss": 1.1595,
	"step": 358
	},
	{
	"epoch": 0.8724179829890644,
	"grad_norm": 27.085127886556087,
	"learning_rate": 0.00012890830754368855,
	"loss": 1.1196,
	"step": 359
	},
	{
	"epoch": 0.8748481166464156,
	"grad_norm": 31.56336829128541,
	"learning_rate": 0.00012852348971486617,
	"loss": 1.1231,
	"step": 360
	},
	{
	"epoch": 0.8772782503037667,
	"grad_norm": 31.904393738907178,
	"learning_rate": 0.0001281382115358679,
	"loss": 1.097,
	"step": 361
	},
	{
	"epoch": 0.8797083839611178,
	"grad_norm": 25.034453894065827,
	"learning_rate": 0.00012775247922482748,
	"loss": 1.1246,
	"step": 362
	},
	{
	"epoch": 0.8821385176184691,
	"grad_norm": 33.221958266501474,
	"learning_rate": 0.0001273662990072083,
	"loss": 1.1189,
	"step": 363
	},
	{
	"epoch": 0.8845686512758202,
	"grad_norm": 26.638980136773224,
	"learning_rate": 0.00012697967711570242,
	"loss": 1.1315,
	"step": 364
	},
	{
	"epoch": 0.8869987849331713,
	"grad_norm": 27.231479341362885,
	"learning_rate": 0.00012659261979013043,
	"loss": 1.1464,
	"step": 365
	},
	{
	"epoch": 0.8894289185905225,
	"grad_norm": 19.654091006710207,
	"learning_rate": 0.0001262051332773404,
	"loss": 1.1271,
	"step": 366
	},
	{
	"epoch": 0.8918590522478737,
	"grad_norm": 50.3934263865559,
	"learning_rate": 0.00012581722383110718,
	"loss": 1.1002,
	"step": 367
	},
	{
	"epoch": 0.8942891859052248,
	"grad_norm": 20.25952031318632,
	"learning_rate": 0.00012542889771203166,
	"loss": 1.0629,
	"step": 368
	},
	{
	"epoch": 0.8967193195625759,
	"grad_norm": 19.16914945262315,
	"learning_rate": 0.00012504016118743935,
	"loss": 1.1597,
	"step": 369
	},
	{
	"epoch": 0.8991494532199271,
	"grad_norm": 35.65941460173898,
	"learning_rate": 0.00012465102053127957,
	"loss": 1.1501,
	"step": 370
	},
	{
	"epoch": 0.9015795868772782,
	"grad_norm": 26.093269180565315,
	"learning_rate": 0.00012426148202402404,
	"loss": 1.1455,
	"step": 371
	},
	{
	"epoch": 0.9040097205346294,
	"grad_norm": 30.928987547424892,
	"learning_rate": 0.00012387155195256537,
	"loss": 1.1392,
	"step": 372
	},
	{
	"epoch": 0.9064398541919806,
	"grad_norm": 20.17512596846915,
	"learning_rate": 0.00012348123661011601,
	"loss": 1.1196,
	"step": 373
	},
	{
	"epoch": 0.9088699878493317,
	"grad_norm": 24.380789157356805,
	"learning_rate": 0.00012309054229610623,
	"loss": 1.1,
	"step": 374
	},
	{
	"epoch": 0.9113001215066828,
	"grad_norm": 95.49408387682203,
	"learning_rate": 0.00012269947531608276,
	"loss": 1.1825,
	"step": 375
	},
	{
	"epoch": 0.913730255164034,
	"grad_norm": 23.635286340368726,
	"learning_rate": 0.0001223080419816069,
	"loss": 1.1717,
	"step": 376
	},
	{
	"epoch": 0.9161603888213852,
	"grad_norm": 21.942478063568313,
	"learning_rate": 0.00012191624861015254,
	"loss": 1.1661,
	"step": 377
	},
	{
	"epoch": 0.9185905224787363,
	"grad_norm": 74.12601397150299,
	"learning_rate": 0.00012152410152500453,
	"loss": 1.1967,
	"step": 378
	},
	{
	"epoch": 0.9210206561360875,
	"grad_norm": 37.26720386499629,
	"learning_rate": 0.00012113160705515625,
	"loss": 1.1566,
	"step": 379
	},
	{
	"epoch": 0.9234507897934386,
	"grad_norm": 34.080854733427635,
	"learning_rate": 0.00012073877153520776,
	"loss": 1.0847,
	"step": 380
	},
	{
	"epoch": 0.9258809234507898,
	"grad_norm": 26.50842916877183,
	"learning_rate": 0.0001203456013052634,
	"loss": 1.0824,
	"step": 381
	},
	{
	"epoch": 0.928311057108141,
	"grad_norm": 37.92039651416441,
	"learning_rate": 0.00011995210271082944,
	"loss": 1.1485,
	"step": 382
	},
	{
	"epoch": 0.9307411907654921,
	"grad_norm": 38.56931832374284,
	"learning_rate": 0.00011955828210271187,
	"loss": 1.0737,
	"step": 383
	},
	{
	"epoch": 0.9331713244228432,
	"grad_norm": 24.419015296791592,
	"learning_rate": 0.0001191641458369136,
	"loss": 1.1208,
	"step": 384
	},
	{
	"epoch": 0.9356014580801945,
	"grad_norm": 28.75379656643836,
	"learning_rate": 0.00011876970027453222,
	"loss": 1.1071,
	"step": 385
	},
	{
	"epoch": 0.9380315917375456,
	"grad_norm": 138.39305133994282,
	"learning_rate": 0.00011837495178165706,
	"loss": 1.1405,
	"step": 386
	},
	{
	"epoch": 0.9404617253948967,
	"grad_norm": 22.200435229928654,
	"learning_rate": 0.00011797990672926652,
	"loss": 1.124,
	"step": 387
	},
	{
	"epoch": 0.9428918590522479,
	"grad_norm": 40.21978055156661,
	"learning_rate": 0.00011758457149312538,
	"loss": 1.1875,
	"step": 388
	},
	{
	"epoch": 0.945321992709599,
	"grad_norm": 23.592672098002485,
	"learning_rate": 0.00011718895245368167,
	"loss": 1.1748,
	"step": 389
	},
	{
	"epoch": 0.9477521263669502,
	"grad_norm": 17.463183827323444,
	"learning_rate": 0.00011679305599596393,
	"loss": 1.1794,
	"step": 390
	},
	{
	"epoch": 0.9501822600243013,
	"grad_norm": 36.219441964332646,
	"learning_rate": 0.00011639688850947799,
	"loss": 1.1459,
	"step": 391
	},
	{
	"epoch": 0.9526123936816525,
	"grad_norm": 23.727472560980413,
	"learning_rate": 0.00011600045638810386,
	"loss": 1.076,
	"step": 392
	},
	{
	"epoch": 0.9550425273390036,
	"grad_norm": 57.63284414960702,
	"learning_rate": 0.00011560376602999272,
	"loss": 1.1919,
	"step": 393
	},
	{
	"epoch": 0.9574726609963548,
	"grad_norm": 40.23829998466358,
	"learning_rate": 0.00011520682383746333,
	"loss": 1.0701,
	"step": 394
	},
	{
	"epoch": 0.959902794653706,
	"grad_norm": 58.2018640218209,
	"learning_rate": 0.00011480963621689905,
	"loss": 1.1745,
	"step": 395
	},
	{
	"epoch": 0.9623329283110571,
	"grad_norm": 27.693448904288406,
	"learning_rate": 0.00011441220957864421,
	"loss": 1.1323,
	"step": 396
	},
	{
	"epoch": 0.9647630619684082,
	"grad_norm": 34.94430005820724,
	"learning_rate": 0.00011401455033690076,
	"loss": 1.1497,
	"step": 397
	},
	{
	"epoch": 0.9671931956257594,
	"grad_norm": 17.521922247865188,
	"learning_rate": 0.00011361666490962468,
	"loss": 1.1319,
	"step": 398
	},
	{
	"epoch": 0.9696233292831106,
	"grad_norm": 25.886687159935246,
	"learning_rate": 0.00011321855971842243,
	"loss": 1.1418,
	"step": 399
	},
	{
	"epoch": 0.9720534629404617,
	"grad_norm": 31.388154506614836,
	"learning_rate": 0.00011282024118844738,
	"loss": 1.1282,
	"step": 400
	},
	{
	"epoch": 0.9744835965978129,
	"grad_norm": 27.458601253675347,
	"learning_rate": 0.00011242171574829599,
	"loss": 1.1647,
	"step": 401
	},
	{
	"epoch": 0.976913730255164,
	"grad_norm": 25.922873022924257,
	"learning_rate": 0.00011202298982990411,
	"loss": 1.091,
	"step": 402
	},
	{
	"epoch": 0.9793438639125152,
	"grad_norm": 20.129467589894766,
	"learning_rate": 0.00011162406986844323,
	"loss": 1.2,
	"step": 403
	},
	{
	"epoch": 0.9817739975698664,
	"grad_norm": 25.11892123906363,
	"learning_rate": 0.00011122496230221645,
	"loss": 1.0731,
	"step": 404
	},
	{
	"epoch": 0.9842041312272175,
	"grad_norm": 26.416884392453543,
	"learning_rate": 0.00011082567357255484,
	"loss": 1.1836,
	"step": 405
	},
	{
	"epoch": 0.9866342648845686,
	"grad_norm": 18.768078773975784,
	"learning_rate": 0.00011042621012371322,
	"loss": 1.1275,
	"step": 406
	},
	{
	"epoch": 0.9890643985419199,
	"grad_norm": 22.275756523796257,
	"learning_rate": 0.00011002657840276627,
	"loss": 1.1228,
	"step": 407
	},
	{
	"epoch": 0.991494532199271,
	"grad_norm": 29.605335344828575,
	"learning_rate": 0.00010962678485950455,
	"loss": 1.0255,
	"step": 408
	},
	{
	"epoch": 0.9939246658566221,
	"grad_norm": 41.1718200727633,
	"learning_rate": 0.00010922683594633021,
	"loss": 1.1876,
	"step": 409
	},
	{
	"epoch": 0.9963547995139733,
	"grad_norm": 20.46397475257922,
	"learning_rate": 0.00010882673811815304,
	"loss": 1.1168,
	"step": 410
	},
	{
	"epoch": 0.9987849331713244,
	"grad_norm": 21.084924025016928,
	"learning_rate": 0.00010842649783228624,
	"loss": 1.1948,
	"step": 411
	},
	{
	"epoch": 1.0,
	"grad_norm": 21.084924025016928,
	"learning_rate": 0.00010802612154834211,
	"loss": 1.1076,
	"step": 412
	},
	{
	"epoch": 1.0,
	"eval_loss": 1.121336579322815,
	"eval_runtime": 52.7043,
	"eval_samples_per_second": 14.116,
	"eval_steps_per_second": 1.765,
	"step": 412
	},
	{
	"epoch": 1.0024301336573511,
	"grad_norm": 35.25758968935371,
	"learning_rate": 0.00010762561572812788,
	"loss": 1.1335,
	"step": 413
	},
	{
	"epoch": 1.0048602673147022,
	"grad_norm": 20.78715726366623,
	"learning_rate": 0.0001072249868355415,
	"loss": 1.1003,
	"step": 414
	},
	{
	"epoch": 1.0072904009720534,
	"grad_norm": 31.01116633763719,
	"learning_rate": 0.0001068242413364671,
	"loss": 1.1225,
	"step": 415
	},
	{
	"epoch": 1.0097205346294047,
	"grad_norm": 19.050638172672897,
	"learning_rate": 0.00010642338569867086,
	"loss": 1.0595,
	"step": 416
	},
	{
	"epoch": 1.0121506682867558,
	"grad_norm": 41.54235389574412,
	"learning_rate": 0.00010602242639169648,
	"loss": 1.1719,
	"step": 417
	},
	{
	"epoch": 1.014580801944107,
	"grad_norm": 41.34218206464363,
	"learning_rate": 0.00010562136988676078,
	"loss": 1.1292,
	"step": 418
	},
	{
	"epoch": 1.017010935601458,
	"grad_norm": 32.436985934581934,
	"learning_rate": 0.0001052202226566494,
	"loss": 1.1244,
	"step": 419
	},
	{
	"epoch": 1.0194410692588092,
	"grad_norm": 19.631825450596665,
	"learning_rate": 0.0001048189911756121,
	"loss": 1.1323,
	"step": 420
	},
	{
	"epoch": 1.0218712029161603,
	"grad_norm": 23.275029440216805,
	"learning_rate": 0.00010441768191925847,
	"loss": 1.1605,
	"step": 421
	},
	{
	"epoch": 1.0243013365735116,
	"grad_norm": 21.44161988455765,
	"learning_rate": 0.0001040163013644533,
	"loss": 1.0886,
	"step": 422
	},
	{
	"epoch": 1.0267314702308628,
	"grad_norm": 31.9765167465431,
	"learning_rate": 0.00010361485598921212,
	"loss": 1.1378,
	"step": 423
	},
	{
	"epoch": 1.0291616038882139,
	"grad_norm": 22.340741556027833,
	"learning_rate": 0.00010321335227259661,
	"loss": 1.1278,
	"step": 424
	},
	{
	"epoch": 1.031591737545565,
	"grad_norm": 29.27286563037163,
	"learning_rate": 0.00010281179669461005,
	"loss": 1.1186,
	"step": 425
	},
	{
	"epoch": 1.034021871202916,
	"grad_norm": 65.85877610734141,
	"learning_rate": 0.00010241019573609269,
	"loss": 1.1673,
	"step": 426
	},
	{
	"epoch": 1.0364520048602672,
	"grad_norm": 35.173784527846884,
	"learning_rate": 0.00010200855587861724,
	"loss": 1.0903,
	"step": 427
	},
	{
	"epoch": 1.0388821385176186,
	"grad_norm": 29.91546238299385,
	"learning_rate": 0.00010160688360438419,
	"loss": 1.0884,
	"step": 428
	},
	{
	"epoch": 1.0413122721749697,
	"grad_norm": 26.873308685100223,
	"learning_rate": 0.0001012051853961172,
	"loss": 1.1296,
	"step": 429
	},
	{
	"epoch": 1.0437424058323208,
	"grad_norm": 25.90622275527891,
	"learning_rate": 0.00010080346773695853,
	"loss": 1.1349,
	"step": 430
	},
	{
	"epoch": 1.046172539489672,
	"grad_norm": 21.388851321680434,
	"learning_rate": 0.00010040173711036431,
	"loss": 1.0947,
	"step": 431
	},
	{
	"epoch": 1.048602673147023,
	"grad_norm": 31.206506843880053,
	"learning_rate": 0.0001,
	"loss": 1.1541,
	"step": 432
	},
	{
	"epoch": 1.0510328068043742,
	"grad_norm": 19.486767323523555,
	"learning_rate": 9.959826288963571e-05,
	"loss": 1.1574,
	"step": 433
	},
	{
	"epoch": 1.0534629404617255,
	"grad_norm": 102.81325604770561,
	"learning_rate": 9.919653226304148e-05,
	"loss": 1.1762,
	"step": 434
	},
	{
	"epoch": 1.0558930741190766,
	"grad_norm": 17.18170280255333,
	"learning_rate": 9.879481460388282e-05,
	"loss": 1.1208,
	"step": 435
	},
	{
	"epoch": 1.0583232077764277,
	"grad_norm": 29.88292309614927,
	"learning_rate": 9.839311639561583e-05,
	"loss": 1.1114,
	"step": 436
	},
	{
	"epoch": 1.0607533414337789,
	"grad_norm": 23.50392429976475,
	"learning_rate": 9.799144412138275e-05,
	"loss": 1.2026,
	"step": 437
	},
	{
	"epoch": 1.06318347509113,
	"grad_norm": 24.794408487434744,
	"learning_rate": 9.758980426390732e-05,
	"loss": 1.1587,
	"step": 438
	},
	{
	"epoch": 1.065613608748481,
	"grad_norm": 38.726295800289655,
	"learning_rate": 9.718820330538998e-05,
	"loss": 1.14,
	"step": 439
	},
	{
	"epoch": 1.0680437424058322,
	"grad_norm": 31.152256057732977,
	"learning_rate": 9.678664772740343e-05,
	"loss": 1.0882,
	"step": 440
	},
	{
	"epoch": 1.0704738760631836,
	"grad_norm": 65.73380095432839,
	"learning_rate": 9.638514401078788e-05,
	"loss": 1.1213,
	"step": 441
	},
	{
	"epoch": 1.0729040097205347,
	"grad_norm": 69.07317297910537,
	"learning_rate": 9.598369863554673e-05,
	"loss": 1.1285,
	"step": 442
	},
	{
	"epoch": 1.0753341433778858,
	"grad_norm": 62.55969576940585,
	"learning_rate": 9.558231808074156e-05,
	"loss": 1.1252,
	"step": 443
	},
	{
	"epoch": 1.077764277035237,
	"grad_norm": 26.35106444530265,
	"learning_rate": 9.51810088243879e-05,
	"loss": 1.108,
	"step": 444
	},
	{
	"epoch": 1.080194410692588,
	"grad_norm": 76.70006955440516,
	"learning_rate": 9.477977734335061e-05,
	"loss": 1.1144,
	"step": 445
	},
	{
	"epoch": 1.0826245443499392,
	"grad_norm": 22.376983523395264,
	"learning_rate": 9.437863011323922e-05,
	"loss": 1.173,
	"step": 446
	},
	{
	"epoch": 1.0850546780072905,
	"grad_norm": 33.51322062360491,
	"learning_rate": 9.397757360830353e-05,
	"loss": 1.089,
	"step": 447
	},
	{
	"epoch": 1.0874848116646416,
	"grad_norm": 24.87252097324779,
	"learning_rate": 9.357661430132915e-05,
	"loss": 1.098,
	"step": 448
	},
	{
	"epoch": 1.0899149453219927,
	"grad_norm": 48.95371674408058,
	"learning_rate": 9.317575866353292e-05,
	"loss": 1.0491,
	"step": 449
	},
	{
	"epoch": 1.0923450789793439,
	"grad_norm": 25.50740340531524,
	"learning_rate": 9.277501316445854e-05,
	"loss": 1.0939,
	"step": 450
	},
	{
	"epoch": 1.094775212636695,
	"grad_norm": 27.60998778610316,
	"learning_rate": 9.23743842718721e-05,
	"loss": 1.1564,
	"step": 451
	},
	{
	"epoch": 1.097205346294046,
	"grad_norm": 63.99226186124907,
	"learning_rate": 9.197387845165793e-05,
	"loss": 1.1088,
	"step": 452
	},
	{
	"epoch": 1.0996354799513974,
	"grad_norm": 36.441157466567596,
	"learning_rate": 9.157350216771378e-05,
	"loss": 1.0897,
	"step": 453
	},
	{
	"epoch": 1.1020656136087486,
	"grad_norm": 32.32587774153429,
	"learning_rate": 9.117326188184695e-05,
	"loss": 1.1285,
	"step": 454
	},
	{
	"epoch": 1.1044957472660997,
	"grad_norm": 33.39257750037465,
	"learning_rate": 9.077316405366981e-05,
	"loss": 1.1568,
	"step": 455
	},
	{
	"epoch": 1.1069258809234508,
	"grad_norm": 45.03485873480868,
	"learning_rate": 9.037321514049548e-05,
	"loss": 1.0791,
	"step": 456
	},
	{
	"epoch": 1.109356014580802,
	"grad_norm": 35.1451377482015,
	"learning_rate": 8.997342159723371e-05,
	"loss": 1.1243,
	"step": 457
	},
	{
	"epoch": 1.111786148238153,
	"grad_norm": 67.01465976966,
	"learning_rate": 8.957378987628682e-05,
	"loss": 1.0978,
	"step": 458
	},
	{
	"epoch": 1.1142162818955041,
	"grad_norm": 33.057859846207634,
	"learning_rate": 8.917432642744518e-05,
	"loss": 1.1431,
	"step": 459
	},
	{
	"epoch": 1.1166464155528555,
	"grad_norm": 30.602840863536635,
	"learning_rate": 8.877503769778356e-05,
	"loss": 1.1157,
	"step": 460
	},
	{
	"epoch": 1.1190765492102066,
	"grad_norm": 38.088467248288964,
	"learning_rate": 8.83759301315568e-05,
	"loss": 1.0776,
	"step": 461
	},
	{
	"epoch": 1.1215066828675577,
	"grad_norm": 66.03671829863266,
	"learning_rate": 8.797701017009591e-05,
	"loss": 1.1468,
	"step": 462
	},
	{
	"epoch": 1.1239368165249088,
	"grad_norm": 32.293691874682686,
	"learning_rate": 8.757828425170404e-05,
	"loss": 1.1115,
	"step": 463
	},
	{
	"epoch": 1.12636695018226,
	"grad_norm": 32.70707175332633,
	"learning_rate": 8.717975881155261e-05,
	"loss": 1.1677,
	"step": 464
	},
	{
	"epoch": 1.128797083839611,
	"grad_norm": 48.79069594971439,
	"learning_rate": 8.678144028157759e-05,
	"loss": 1.1341,
	"step": 465
	},
	{
	"epoch": 1.1312272174969624,
	"grad_norm": 37.52808559072613,
	"learning_rate": 8.638333509037536e-05,
	"loss": 1.1414,
	"step": 466
	},
	{
	"epoch": 1.1336573511543135,
	"grad_norm": 27.096068124970536,
	"learning_rate": 8.598544966309925e-05,
	"loss": 1.1719,
	"step": 467
	},
	{
	"epoch": 1.1360874848116647,
	"grad_norm": 16.019227077248434,
	"learning_rate": 8.55877904213558e-05,
	"loss": 1.1148,
	"step": 468
	},
	{
	"epoch": 1.1385176184690158,
	"grad_norm": 29.861941956913498,
	"learning_rate": 8.519036378310096e-05,
	"loss": 1.1486,
	"step": 469
	},
	{
	"epoch": 1.140947752126367,
	"grad_norm": 23.058998452019107,
	"learning_rate": 8.47931761625367e-05,
	"loss": 1.0745,
	"step": 470
	},
	{
	"epoch": 1.143377885783718,
	"grad_norm": 24.486692418227875,
	"learning_rate": 8.43962339700073e-05,
	"loss": 1.1333,
	"step": 471
	},
	{
	"epoch": 1.1458080194410694,
	"grad_norm": 31.632544516924323,
	"learning_rate": 8.399954361189615e-05,
	"loss": 1.1565,
	"step": 472
	},
	{
	"epoch": 1.1482381530984205,
	"grad_norm": 21.67735267443374,
	"learning_rate": 8.360311149052205e-05,
	"loss": 1.109,
	"step": 473
	},
	{
	"epoch": 1.1506682867557716,
	"grad_norm": 29.096918560226527,
	"learning_rate": 8.320694400403606e-05,
	"loss": 1.1517,
	"step": 474
	},
	{
	"epoch": 1.1530984204131227,
	"grad_norm": 46.067313216206955,
	"learning_rate": 8.281104754631835e-05,
	"loss": 1.1043,
	"step": 475
	},
	{
	"epoch": 1.1555285540704738,
	"grad_norm": 30.84953769166141,
	"learning_rate": 8.241542850687465e-05,
	"loss": 1.1081,
	"step": 476
	},
	{
	"epoch": 1.157958687727825,
	"grad_norm": 39.34158523904847,
	"learning_rate": 8.20200932707335e-05,
	"loss": 1.1787,
	"step": 477
	},
	{
	"epoch": 1.160388821385176,
	"grad_norm": 39.14663302484904,
	"learning_rate": 8.162504821834295e-05,
	"loss": 1.202,
	"step": 478
	},
	{
	"epoch": 1.1628189550425274,
	"grad_norm": 49.7279004249915,
	"learning_rate": 8.123029972546781e-05,
	"loss": 1.1439,
	"step": 479
	},
	{
	"epoch": 1.1652490886998785,
	"grad_norm": 35.49897960878779,
	"learning_rate": 8.083585416308642e-05,
	"loss": 1.0741,
	"step": 480
	},
	{
	"epoch": 1.1676792223572297,
	"grad_norm": 31.306252618855535,
	"learning_rate": 8.044171789728816e-05,
	"loss": 1.0697,
	"step": 481
	},
	{
	"epoch": 1.1701093560145808,
	"grad_norm": 22.40745672651249,
	"learning_rate": 8.004789728917059e-05,
	"loss": 1.1498,
	"step": 482
	},
	{
	"epoch": 1.172539489671932,
	"grad_norm": 32.19326746671122,
	"learning_rate": 7.965439869473664e-05,
	"loss": 1.1392,
	"step": 483
	},
	{
	"epoch": 1.1749696233292832,
	"grad_norm": 33.66876390791385,
	"learning_rate": 7.926122846479224e-05,
	"loss": 1.1049,
	"step": 484
	},
	{
	"epoch": 1.1773997569866343,
	"grad_norm": 35.43357233261174,
	"learning_rate": 7.886839294484377e-05,
	"loss": 1.0467,
	"step": 485
	},
	{
	"epoch": 1.1798298906439855,
	"grad_norm": 50.660998166256256,
	"learning_rate": 7.84758984749955e-05,
	"loss": 1.1244,
	"step": 486
	},
	{
	"epoch": 1.1822600243013366,
	"grad_norm": 41.356845334605936,
	"learning_rate": 7.808375138984745e-05,
	"loss": 1.1279,
	"step": 487
	},
	{
	"epoch": 1.1846901579586877,
	"grad_norm": 22.947663723281487,
	"learning_rate": 7.769195801839313e-05,
	"loss": 1.0787,
	"step": 488
	},
	{
	"epoch": 1.1871202916160388,
	"grad_norm": 36.434647074399905,
	"learning_rate": 7.730052468391725e-05,
	"loss": 1.1148,
	"step": 489
	},
	{
	"epoch": 1.18955042527339,
	"grad_norm": 75.94549877059467,
	"learning_rate": 7.690945770389377e-05,
	"loss": 1.1127,
	"step": 490
	},
	{
	"epoch": 1.1919805589307413,
	"grad_norm": 68.03126664734435,
	"learning_rate": 7.6518763389884e-05,
	"loss": 1.1672,
	"step": 491
	},
	{
	"epoch": 1.1944106925880924,
	"grad_norm": 40.15361719091623,
	"learning_rate": 7.612844804743466e-05,
	"loss": 1.0962,
	"step": 492
	},
	{
	"epoch": 1.1968408262454435,
	"grad_norm": 105.80023571763755,
	"learning_rate": 7.573851797597602e-05,
	"loss": 1.1091,
	"step": 493
	},
	{
	"epoch": 1.1992709599027946,
	"grad_norm": 41.84401502420881,
	"learning_rate": 7.534897946872042e-05,
	"loss": 1.1359,
	"step": 494
	},
	{
	"epoch": 1.2017010935601458,
	"grad_norm": 21.985533615468846,
	"learning_rate": 7.495983881256067e-05,
	"loss": 1.1024,
	"step": 495
	},
	{
	"epoch": 1.2041312272174969,
	"grad_norm": 23.02649898605792,
	"learning_rate": 7.457110228796838e-05,
	"loss": 1.1089,
	"step": 496
	},
	{
	"epoch": 1.206561360874848,
	"grad_norm": 74.4950498938832,
	"learning_rate": 7.418277616889282e-05,
	"loss": 1.0439,
	"step": 497
	},
	{
	"epoch": 1.2089914945321993,
	"grad_norm": 27.637660484960865,
	"learning_rate": 7.379486672265964e-05,
	"loss": 1.1453,
	"step": 498
	},
	{
	"epoch": 1.2114216281895505,
	"grad_norm": 34.98561655821008,
	"learning_rate": 7.340738020986961e-05,
	"loss": 1.139,
	"step": 499
	},
	{
	"epoch": 1.2138517618469016,
	"grad_norm": 28.47627677351389,
	"learning_rate": 7.302032288429756e-05,
	"loss": 1.0623,
	"step": 500
	},
	{
	"epoch": 1.2162818955042527,
	"grad_norm": 39.551486186427596,
	"learning_rate": 7.263370099279172e-05,
	"loss": 1.1277,
	"step": 501
	},
	{
	"epoch": 1.2187120291616038,
	"grad_norm": 44.12973085459368,
	"learning_rate": 7.224752077517253e-05,
	"loss": 1.1768,
	"step": 502
	},
	{
	"epoch": 1.2211421628189552,
	"grad_norm": 84.84836585196132,
	"learning_rate": 7.186178846413214e-05,
	"loss": 1.1892,
	"step": 503
	},
	{
	"epoch": 1.2235722964763063,
	"grad_norm": 34.94807915131505,
	"learning_rate": 7.147651028513383e-05,
	"loss": 1.1108,
	"step": 504
	},
	{
	"epoch": 1.2260024301336574,
	"grad_norm": 46.19847384406232,
	"learning_rate": 7.109169245631149e-05,
	"loss": 1.0956,
	"step": 505
	},
	{
	"epoch": 1.2284325637910085,
	"grad_norm": 38.58484473058957,
	"learning_rate": 7.070734118836925e-05,
	"loss": 1.1175,
	"step": 506
	},
	{
	"epoch": 1.2308626974483596,
	"grad_norm": 37.84739298111386,
	"learning_rate": 7.032346268448118e-05,
	"loss": 1.1411,
	"step": 507
	},
	{
	"epoch": 1.2332928311057108,
	"grad_norm": 53.5471335398439,
	"learning_rate": 6.994006314019141e-05,
	"loss": 1.1332,
	"step": 508
	},
	{
	"epoch": 1.2357229647630619,
	"grad_norm": 91.55067777365485,
	"learning_rate": 6.955714874331387e-05,
	"loss": 1.1205,
	"step": 509
	},
	{
	"epoch": 1.2381530984204132,
	"grad_norm": 27.05333642785952,
	"learning_rate": 6.917472567383252e-05,
	"loss": 1.099,
	"step": 510
	},
	{
	"epoch": 1.2405832320777643,
	"grad_norm": 24.519879042487336,
	"learning_rate": 6.87928001038017e-05,
	"loss": 1.1401,
	"step": 511
	},
	{
	"epoch": 1.2430133657351154,
	"grad_norm": 33.763495598365786,
	"learning_rate": 6.84113781972464e-05,
	"loss": 1.2058,
	"step": 512
	},
	{
	"epoch": 1.2454434993924666,
	"grad_norm": 34.49114206138826,
	"learning_rate": 6.803046611006278e-05,
	"loss": 1.1044,
	"step": 513
	},
	{
	"epoch": 1.2478736330498177,
	"grad_norm": 74.20211157975073,
	"learning_rate": 6.765006998991888e-05,
	"loss": 1.111,
	"step": 514
	},
	{
	"epoch": 1.250303766707169,
	"grad_norm": 32.30436806042553,
	"learning_rate": 6.727019597615545e-05,
	"loss": 1.1063,
	"step": 515
	},
	{
	"epoch": 1.250303766707169,
	"eval_loss": 1.1128273010253906,
	"eval_runtime": 53.4998,
	"eval_samples_per_second": 13.907,
	"eval_steps_per_second": 1.738,
	"step": 515
	},
	{
	"epoch": 1.25273390036452,
	"grad_norm": 42.104054612880084,
	"learning_rate": 6.689085019968669e-05,
	"loss": 1.1315,
	"step": 516
	},
	{
	"epoch": 1.2551640340218713,
	"grad_norm": 25.66097714624212,
	"learning_rate": 6.651203878290139e-05,
	"loss": 1.0916,
	"step": 517
	},
	{
	"epoch": 1.2575941676792224,
	"grad_norm": 35.12310576456352,
	"learning_rate": 6.613376783956423e-05,
	"loss": 1.0699,
	"step": 518
	},
	{
	"epoch": 1.2600243013365735,
	"grad_norm": 34.172951559594566,
	"learning_rate": 6.575604347471695e-05,
	"loss": 1.1412,
	"step": 519
	},
	{
	"epoch": 1.2624544349939246,
	"grad_norm": 54.373563773275116,
	"learning_rate": 6.537887178457984e-05,
	"loss": 1.1255,
	"step": 520
	},
	{
	"epoch": 1.2648845686512757,
	"grad_norm": 33.806385046788755,
	"learning_rate": 6.500225885645346e-05,
	"loss": 1.101,
	"step": 521
	},
	{
	"epoch": 1.267314702308627,
	"grad_norm": 34.17813695957543,
	"learning_rate": 6.46262107686203e-05,
	"loss": 1.1226,
	"step": 522
	},
	{
	"epoch": 1.2697448359659782,
	"grad_norm": 24.68048087106548,
	"learning_rate": 6.425073359024663e-05,
	"loss": 1.1787,
	"step": 523
	},
	{
	"epoch": 1.2721749696233293,
	"grad_norm": 32.78749757697808,
	"learning_rate": 6.387583338128471e-05,
	"loss": 1.0541,
	"step": 524
	},
	{
	"epoch": 1.2746051032806804,
	"grad_norm": 30.906673844090044,
	"learning_rate": 6.350151619237488e-05,
	"loss": 1.0964,
	"step": 525
	},
	{
	"epoch": 1.2770352369380316,
	"grad_norm": 32.571858392892736,
	"learning_rate": 6.312778806474795e-05,
	"loss": 1.1251,
	"step": 526
	},
	{
	"epoch": 1.2794653705953827,
	"grad_norm": 43.02428916532565,
	"learning_rate": 6.275465503012751e-05,
	"loss": 1.0473,
	"step": 527
	},
	{
	"epoch": 1.2818955042527338,
	"grad_norm": 60.93587506764561,
	"learning_rate": 6.2382123110633e-05,
	"loss": 1.078,
	"step": 528
	},
	{
	"epoch": 1.2843256379100851,
	"grad_norm": 64.6934775930251,
	"learning_rate": 6.201019831868208e-05,
	"loss": 1.0904,
	"step": 529
	},
	{
	"epoch": 1.2867557715674363,
	"grad_norm": 32.977077613035426,
	"learning_rate": 6.16388866568938e-05,
	"loss": 1.0705,
	"step": 530
	},
	{
	"epoch": 1.2891859052247874,
	"grad_norm": 28.27407310492513,
	"learning_rate": 6.126819411799175e-05,
	"loss": 1.1252,
	"step": 531
	},
	{
	"epoch": 1.2916160388821385,
	"grad_norm": 33.73515826089828,
	"learning_rate": 6.0898126684707265e-05,
	"loss": 1.1262,
	"step": 532
	},
	{
	"epoch": 1.2940461725394896,
	"grad_norm": 25.370361818959903,
	"learning_rate": 6.052869032968285e-05,
	"loss": 1.0845,
	"step": 533
	},
	{
	"epoch": 1.296476306196841,
	"grad_norm": 37.389287060597105,
	"learning_rate": 6.015989101537586e-05,
	"loss": 1.1352,
	"step": 534
	},
	{
	"epoch": 1.2989064398541919,
	"grad_norm": 39.04755104008223,
	"learning_rate": 5.979173469396227e-05,
	"loss": 1.1538,
	"step": 535
	},
	{
	"epoch": 1.3013365735115432,
	"grad_norm": 34.33676719612293,
	"learning_rate": 5.9424227307240554e-05,
	"loss": 1.1725,
	"step": 536
	},
	{
	"epoch": 1.3037667071688943,
	"grad_norm": 64.66076997769457,
	"learning_rate": 5.905737478653572e-05,
	"loss": 1.1146,
	"step": 537
	},
	{
	"epoch": 1.3061968408262454,
	"grad_norm": 48.043289790386325,
	"learning_rate": 5.8691183052603834e-05,
	"loss": 1.1035,
	"step": 538
	},
	{
	"epoch": 1.3086269744835966,
	"grad_norm": 49.08397341659928,
	"learning_rate": 5.83256580155362e-05,
	"loss": 1.1653,
	"step": 539
	},
	{
	"epoch": 1.3110571081409477,
	"grad_norm": 46.688886812303515,
	"learning_rate": 5.796080557466406e-05,
	"loss": 1.1328,
	"step": 540
	},
	{
	"epoch": 1.313487241798299,
	"grad_norm": 27.503882325413493,
	"learning_rate": 5.7596631618463514e-05,
	"loss": 1.1019,
	"step": 541
	},
	{
	"epoch": 1.3159173754556501,
	"grad_norm": 48.88974129574653,
	"learning_rate": 5.723314202446026e-05,
	"loss": 1.121,
	"step": 542
	},
	{
	"epoch": 1.3183475091130012,
	"grad_norm": 28.105881157995345,
	"learning_rate": 5.687034265913485e-05,
	"loss": 1.0898,
	"step": 543
	},
	{
	"epoch": 1.3207776427703524,
	"grad_norm": 30.410731278414804,
	"learning_rate": 5.6508239377828034e-05,
	"loss": 1.07,
	"step": 544
	},
	{
	"epoch": 1.3232077764277035,
	"grad_norm": 38.08324176765882,
	"learning_rate": 5.614683802464631e-05,
	"loss": 1.1503,
	"step": 545
	},
	{
	"epoch": 1.3256379100850546,
	"grad_norm": 46.28952293745534,
	"learning_rate": 5.578614443236738e-05,
	"loss": 1.1282,
	"step": 546
	},
	{
	"epoch": 1.3280680437424057,
	"grad_norm": 68.2597453597135,
	"learning_rate": 5.542616442234618e-05,
	"loss": 1.1373,
	"step": 547
	},
	{
	"epoch": 1.330498177399757,
	"grad_norm": 30.351663825014143,
	"learning_rate": 5.5066903804421025e-05,
	"loss": 1.1633,
	"step": 548
	},
	{
	"epoch": 1.3329283110571082,
	"grad_norm": 38.2711285636887,
	"learning_rate": 5.470836837681954e-05,
	"loss": 1.1604,
	"step": 549
	},
	{
	"epoch": 1.3353584447144593,
	"grad_norm": 35.64230091531108,
	"learning_rate": 5.4350563926065404e-05,
	"loss": 1.0564,
	"step": 550
	},
	{
	"epoch": 1.3377885783718104,
	"grad_norm": 44.869816046925564,
	"learning_rate": 5.399349622688479e-05,
	"loss": 1.1376,
	"step": 551
	},
	{
	"epoch": 1.3402187120291615,
	"grad_norm": 26.681037126315633,
	"learning_rate": 5.3637171042113146e-05,
	"loss": 1.0867,
	"step": 552
	},
	{
	"epoch": 1.3426488456865129,
	"grad_norm": 34.6124686262535,
	"learning_rate": 5.32815941226022e-05,
	"loss": 1.0474,
	"step": 553
	},
	{
	"epoch": 1.3450789793438638,
	"grad_norm": 35.92639009060983,
	"learning_rate": 5.2926771207127254e-05,
	"loss": 1.0958,
	"step": 554
	},
	{
	"epoch": 1.3475091130012151,
	"grad_norm": 39.08938922562224,
	"learning_rate": 5.2572708022294504e-05,
	"loss": 1.074,
	"step": 555
	},
	{
	"epoch": 1.3499392466585662,
	"grad_norm": 76.06708166273745,
	"learning_rate": 5.2219410282448514e-05,
	"loss": 1.0865,
	"step": 556
	},
	{
	"epoch": 1.3523693803159174,
	"grad_norm": 74.14222265654887,
	"learning_rate": 5.1866883689580056e-05,
	"loss": 1.1567,
	"step": 557
	},
	{
	"epoch": 1.3547995139732685,
	"grad_norm": 34.82441678662901,
	"learning_rate": 5.151513393323426e-05,
	"loss": 1.0802,
	"step": 558
	},
	{
	"epoch": 1.3572296476306196,
	"grad_norm": 75.53504846566143,
	"learning_rate": 5.116416669041843e-05,
	"loss": 1.0623,
	"step": 559
	},
	{
	"epoch": 1.359659781287971,
	"grad_norm": 29.423475817434785,
	"learning_rate": 5.0813987625510775e-05,
	"loss": 1.077,
	"step": 560
	},
	{
	"epoch": 1.362089914945322,
	"grad_norm": 44.607486168434534,
	"learning_rate": 5.046460239016879e-05,
	"loss": 1.096,
	"step": 561
	},
	{
	"epoch": 1.3645200486026732,
	"grad_norm": 40.684125033315404,
	"learning_rate": 5.011601662323807e-05,
	"loss": 1.148,
	"step": 562
	},
	{
	"epoch": 1.3669501822600243,
	"grad_norm": 47.33103026318705,
	"learning_rate": 4.976823595066128e-05,
	"loss": 1.1712,
	"step": 563
	},
	{
	"epoch": 1.3693803159173754,
	"grad_norm": 51.17017845058186,
	"learning_rate": 4.9421265985387476e-05,
	"loss": 1.1287,
	"step": 564
	},
	{
	"epoch": 1.3718104495747265,
	"grad_norm": 50.76665552103517,
	"learning_rate": 4.907511232728145e-05,
	"loss": 1.1156,
	"step": 565
	},
	{
	"epoch": 1.3742405832320777,
	"grad_norm": 32.6007633025874,
	"learning_rate": 4.872978056303327e-05,
	"loss": 1.1477,
	"step": 566
	},
	{
	"epoch": 1.376670716889429,
	"grad_norm": 29.696241441710107,
	"learning_rate": 4.8385276266068146e-05,
	"loss": 1.0874,
	"step": 567
	},
	{
	"epoch": 1.37910085054678,
	"grad_norm": 58.96613500379004,
	"learning_rate": 4.804160499645667e-05,
	"loss": 1.0616,
	"step": 568
	},
	{
	"epoch": 1.3815309842041312,
	"grad_norm": 37.104100020310334,
	"learning_rate": 4.7698772300824756e-05,
	"loss": 1.0878,
	"step": 569
	},
	{
	"epoch": 1.3839611178614823,
	"grad_norm": 51.735902941979305,
	"learning_rate": 4.735678371226441e-05,
	"loss": 1.0836,
	"step": 570
	},
	{
	"epoch": 1.3863912515188335,
	"grad_norm": 55.49190976804079,
	"learning_rate": 4.7015644750244306e-05,
	"loss": 1.0473,
	"step": 571
	},
	{
	"epoch": 1.3888213851761848,
	"grad_norm": 34.27972449829039,
	"learning_rate": 4.6675360920520625e-05,
	"loss": 1.0723,
	"step": 572
	},
	{
	"epoch": 1.391251518833536,
	"grad_norm": 28.508157856527724,
	"learning_rate": 4.6335937715048306e-05,
	"loss": 1.0723,
	"step": 573
	},
	{
	"epoch": 1.393681652490887,
	"grad_norm": 106.84009565003795,
	"learning_rate": 4.599738061189244e-05,
	"loss": 1.149,
	"step": 574
	},
	{
	"epoch": 1.3961117861482382,
	"grad_norm": 50.543394606036294,
	"learning_rate": 4.565969507513981e-05,
	"loss": 1.0991,
	"step": 575
	},
	{
	"epoch": 1.3985419198055893,
	"grad_norm": 30.409124335052745,
	"learning_rate": 4.532288655481062e-05,
	"loss": 1.1157,
	"step": 576
	},
	{
	"epoch": 1.4009720534629404,
	"grad_norm": 89.92061876679301,
	"learning_rate": 4.498696048677059e-05,
	"loss": 1.1526,
	"step": 577
	},
	{
	"epoch": 1.4034021871202915,
	"grad_norm": 84.27775422110602,
	"learning_rate": 4.465192229264337e-05,
	"loss": 1.1418,
	"step": 578
	},
	{
	"epoch": 1.4058323207776429,
	"grad_norm": 40.7815489623743,
	"learning_rate": 4.4317777379722866e-05,
	"loss": 1.0831,
	"step": 579
	},
	{
	"epoch": 1.408262454434994,
	"grad_norm": 66.6911504313278,
	"learning_rate": 4.3984531140885943e-05,
	"loss": 1.1088,
	"step": 580
	},
	{
	"epoch": 1.410692588092345,
	"grad_norm": 137.00882181835217,
	"learning_rate": 4.365218895450558e-05,
	"loss": 1.1089,
	"step": 581
	},
	{
	"epoch": 1.4131227217496962,
	"grad_norm": 41.139168895296855,
	"learning_rate": 4.332075618436386e-05,
	"loss": 1.1603,
	"step": 582
	},
	{
	"epoch": 1.4155528554070473,
	"grad_norm": 35.443969765428506,
	"learning_rate": 4.29902381795655e-05,
	"loss": 1.0301,
	"step": 583
	},
	{
	"epoch": 1.4179829890643987,
	"grad_norm": 32.931514576694674,
	"learning_rate": 4.266064027445155e-05,
	"loss": 1.1016,
	"step": 584
	},
	{
	"epoch": 1.4204131227217496,
	"grad_norm": 64.21015694858382,
	"learning_rate": 4.2331967788513295e-05,
	"loss": 1.0789,
	"step": 585
	},
	{
	"epoch": 1.422843256379101,
	"grad_norm": 84.13251752827094,
	"learning_rate": 4.200422602630629e-05,
	"loss": 1.1573,
	"step": 586
	},
	{
	"epoch": 1.425273390036452,
	"grad_norm": 53.61636603108024,
	"learning_rate": 4.167742027736482e-05,
	"loss": 1.0942,
	"step": 587
	},
	{
	"epoch": 1.4277035236938032,
	"grad_norm": 133.20877569415256,
	"learning_rate": 4.135155581611661e-05,
	"loss": 1.0877,
	"step": 588
	},
	{
	"epoch": 1.4301336573511543,
	"grad_norm": 49.85736467319357,
	"learning_rate": 4.102663790179764e-05,
	"loss": 1.0619,
	"step": 589
	},
	{
	"epoch": 1.4325637910085054,
	"grad_norm": 91.13217639524017,
	"learning_rate": 4.070267177836712e-05,
	"loss": 1.1093,
	"step": 590
	},
	{
	"epoch": 1.4349939246658567,
	"grad_norm": 49.25558128250457,
	"learning_rate": 4.037966267442315e-05,
	"loss": 1.1344,
	"step": 591
	},
	{
	"epoch": 1.4374240583232079,
	"grad_norm": 95.87244356130316,
	"learning_rate": 4.005761580311805e-05,
	"loss": 1.0929,
	"step": 592
	},
	{
	"epoch": 1.439854191980559,
	"grad_norm": 74.28903671045653,
	"learning_rate": 3.973653636207437e-05,
	"loss": 1.1263,
	"step": 593
	},
	{
	"epoch": 1.44228432563791,
	"grad_norm": 53.99454529785116,
	"learning_rate": 3.941642953330103e-05,
	"loss": 1.0916,
	"step": 594
	},
	{
	"epoch": 1.4447144592952612,
	"grad_norm": 113.26015597338959,
	"learning_rate": 3.909730048310962e-05,
	"loss": 1.1009,
	"step": 595
	},
	{
	"epoch": 1.4471445929526123,
	"grad_norm": 134.4015550981493,
	"learning_rate": 3.8779154362030986e-05,
	"loss": 1.1351,
	"step": 596
	},
	{
	"epoch": 1.4495747266099634,
	"grad_norm": 90.61611981238187,
	"learning_rate": 3.846199630473216e-05,
	"loss": 1.0827,
	"step": 597
	},
	{
	"epoch": 1.4520048602673148,
	"grad_norm": 56.55050791518521,
	"learning_rate": 3.814583142993352e-05,
	"loss": 1.1145,
	"step": 598
	},
	{
	"epoch": 1.454434993924666,
	"grad_norm": 265.6916535243014,
	"learning_rate": 3.7830664840326145e-05,
	"loss": 1.1459,
	"step": 599
	},
	{
	"epoch": 1.456865127582017,
	"grad_norm": 72.81191101030372,
	"learning_rate": 3.7516501622489367e-05,
	"loss": 1.0903,
	"step": 600
	},
	{
	"epoch": 1.4592952612393681,
	"grad_norm": 58.309143549086556,
	"learning_rate": 3.720334684680889e-05,
	"loss": 1.1041,
	"step": 601
	},
	{
	"epoch": 1.4617253948967193,
	"grad_norm": 35.19205741792398,
	"learning_rate": 3.689120556739475e-05,
	"loss": 1.1523,
	"step": 602
	},
	{
	"epoch": 1.4641555285540706,
	"grad_norm": 88.97226951757321,
	"learning_rate": 3.6580082821999786e-05,
	"loss": 1.1117,
	"step": 603
	},
	{
	"epoch": 1.4665856622114215,
	"grad_norm": 64.50873879301322,
	"learning_rate": 3.6269983631938475e-05,
	"loss": 1.1256,
	"step": 604
	},
	{
	"epoch": 1.4690157958687728,
	"grad_norm": 78.10556611104111,
	"learning_rate": 3.596091300200578e-05,
	"loss": 1.0834,
	"step": 605
	},
	{
	"epoch": 1.471445929526124,
	"grad_norm": 69.38449946362529,
	"learning_rate": 3.565287592039628e-05,
	"loss": 1.1026,
	"step": 606
	},
	{
	"epoch": 1.473876063183475,
	"grad_norm": 79.60241521456905,
	"learning_rate": 3.534587735862391e-05,
	"loss": 1.0456,
	"step": 607
	},
	{
	"epoch": 1.4763061968408262,
	"grad_norm": 89.68581306071424,
	"learning_rate": 3.503992227144147e-05,
	"loss": 1.0809,
	"step": 608
	},
	{
	"epoch": 1.4787363304981773,
	"grad_norm": 68.570527237558,
	"learning_rate": 3.473501559676088e-05,
	"loss": 1.0754,
	"step": 609
	},
	{
	"epoch": 1.4811664641555287,
	"grad_norm": 54.94762317625427,
	"learning_rate": 3.4431162255573245e-05,
	"loss": 1.1751,
	"step": 610
	},
	{
	"epoch": 1.4835965978128798,
	"grad_norm": 109.12821602719706,
	"learning_rate": 3.4128367151869714e-05,
	"loss": 1.1055,
	"step": 611
	},
	{
	"epoch": 1.486026731470231,
	"grad_norm": 198.79030469542352,
	"learning_rate": 3.3826635172562094e-05,
	"loss": 1.1369,
	"step": 612
	},
	{
	"epoch": 1.488456865127582,
	"grad_norm": 62.002866716809,
	"learning_rate": 3.352597118740404e-05,
	"loss": 1.1611,
	"step": 613
	},
	{
	"epoch": 1.4908869987849331,
	"grad_norm": 79.21193137029579,
	"learning_rate": 3.3226380048912585e-05,
	"loss": 1.1688,
	"step": 614
	},
	{
	"epoch": 1.4933171324422843,
	"grad_norm": 68.6722934326242,
	"learning_rate": 3.292786659228973e-05,
	"loss": 1.1248,
	"step": 615
	},
	{
	"epoch": 1.4957472660996354,
	"grad_norm": 104.34122241838278,
	"learning_rate": 3.263043563534428e-05,
	"loss": 1.1425,
	"step": 616
	},
	{
	"epoch": 1.4981773997569867,
	"grad_norm": 86.43862038340298,
	"learning_rate": 3.233409197841437e-05,
	"loss": 1.0562,
	"step": 617
	},
	{
	"epoch": 1.5006075334143378,
	"grad_norm": 79.74137751394451,
	"learning_rate": 3.2038840404289705e-05,
	"loss": 1.1214,
	"step": 618
	},
	{
	"epoch": 1.5006075334143378,
	"eval_loss": 1.1088899374008179,
	"eval_runtime": 53.0545,
	"eval_samples_per_second": 14.023,
	"eval_steps_per_second": 1.753,
	"step": 618
	}
	],
	"logging_steps": 1,
	"max_steps": 822,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 2,
	"save_steps": 206,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 9.157723878347244e+17,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}