Vinallama_patch_file_v1 / trainer_state.json

anhvv200053

Upload 11 files

fe99a65 verified about 1 year ago

48.6 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 7.733952049497293,
	"eval_steps": 500,
	"global_step": 30000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.025779840164990978,
	"grad_norm": 0.5347822308540344,
	"learning_rate": 0.0002,
	"loss": 1.4509,
	"step": 100
	},
	{
	"epoch": 0.051559680329981955,
	"grad_norm": 0.4712078273296356,
	"learning_rate": 0.0002,
	"loss": 1.1744,
	"step": 200
	},
	{
	"epoch": 0.07733952049497293,
	"grad_norm": 0.5031601786613464,
	"learning_rate": 0.0002,
	"loss": 1.096,
	"step": 300
	},
	{
	"epoch": 0.10311936065996391,
	"grad_norm": 0.49241065979003906,
	"learning_rate": 0.0002,
	"loss": 0.9847,
	"step": 400
	},
	{
	"epoch": 0.12889920082495487,
	"grad_norm": 0.9957050681114197,
	"learning_rate": 0.0002,
	"loss": 0.9928,
	"step": 500
	},
	{
	"epoch": 0.15467904098994587,
	"grad_norm": 0.38163048028945923,
	"learning_rate": 0.0002,
	"loss": 0.9008,
	"step": 600
	},
	{
	"epoch": 0.18045888115493683,
	"grad_norm": 0.4322434663772583,
	"learning_rate": 0.0002,
	"loss": 0.9108,
	"step": 700
	},
	{
	"epoch": 0.20623872131992782,
	"grad_norm": 0.4072737395763397,
	"learning_rate": 0.0002,
	"loss": 0.8713,
	"step": 800
	},
	{
	"epoch": 0.23201856148491878,
	"grad_norm": 0.5637839436531067,
	"learning_rate": 0.0002,
	"loss": 0.8538,
	"step": 900
	},
	{
	"epoch": 0.25779840164990975,
	"grad_norm": 0.6094131469726562,
	"learning_rate": 0.0002,
	"loss": 0.8154,
	"step": 1000
	},
	{
	"epoch": 0.28357824181490077,
	"grad_norm": 0.4212701618671417,
	"learning_rate": 0.0002,
	"loss": 0.7897,
	"step": 1100
	},
	{
	"epoch": 0.30935808197989173,
	"grad_norm": 0.4663824737071991,
	"learning_rate": 0.0002,
	"loss": 0.8021,
	"step": 1200
	},
	{
	"epoch": 0.3351379221448827,
	"grad_norm": 0.3774861693382263,
	"learning_rate": 0.0002,
	"loss": 0.7452,
	"step": 1300
	},
	{
	"epoch": 0.36091776230987366,
	"grad_norm": 0.19446992874145508,
	"learning_rate": 0.0002,
	"loss": 0.737,
	"step": 1400
	},
	{
	"epoch": 0.3866976024748647,
	"grad_norm": 0.25984033942222595,
	"learning_rate": 0.0002,
	"loss": 0.6966,
	"step": 1500
	},
	{
	"epoch": 0.41247744263985564,
	"grad_norm": 0.3495163023471832,
	"learning_rate": 0.0002,
	"loss": 0.7179,
	"step": 1600
	},
	{
	"epoch": 0.4382572828048466,
	"grad_norm": 0.5092929601669312,
	"learning_rate": 0.0002,
	"loss": 0.7132,
	"step": 1700
	},
	{
	"epoch": 0.46403712296983757,
	"grad_norm": 0.16095790266990662,
	"learning_rate": 0.0002,
	"loss": 0.6652,
	"step": 1800
	},
	{
	"epoch": 0.4898169631348286,
	"grad_norm": 0.38502034544944763,
	"learning_rate": 0.0002,
	"loss": 0.6564,
	"step": 1900
	},
	{
	"epoch": 0.5155968032998195,
	"grad_norm": 0.3100506067276001,
	"learning_rate": 0.0002,
	"loss": 0.6082,
	"step": 2000
	},
	{
	"epoch": 0.5413766434648105,
	"grad_norm": 0.4585016965866089,
	"learning_rate": 0.0002,
	"loss": 0.6491,
	"step": 2100
	},
	{
	"epoch": 0.5671564836298015,
	"grad_norm": 0.35394927859306335,
	"learning_rate": 0.0002,
	"loss": 0.6136,
	"step": 2200
	},
	{
	"epoch": 0.5929363237947924,
	"grad_norm": 0.4828909933567047,
	"learning_rate": 0.0002,
	"loss": 0.5639,
	"step": 2300
	},
	{
	"epoch": 0.6187161639597835,
	"grad_norm": 0.7377568483352661,
	"learning_rate": 0.0002,
	"loss": 0.5998,
	"step": 2400
	},
	{
	"epoch": 0.6444960041247745,
	"grad_norm": 0.33992356061935425,
	"learning_rate": 0.0002,
	"loss": 0.5535,
	"step": 2500
	},
	{
	"epoch": 0.6702758442897654,
	"grad_norm": 0.40880173444747925,
	"learning_rate": 0.0002,
	"loss": 0.5839,
	"step": 2600
	},
	{
	"epoch": 0.6960556844547564,
	"grad_norm": 0.6135886907577515,
	"learning_rate": 0.0002,
	"loss": 0.5697,
	"step": 2700
	},
	{
	"epoch": 0.7218355246197473,
	"grad_norm": 0.14242181181907654,
	"learning_rate": 0.0002,
	"loss": 0.562,
	"step": 2800
	},
	{
	"epoch": 0.7476153647847383,
	"grad_norm": 0.1636349856853485,
	"learning_rate": 0.0002,
	"loss": 0.5301,
	"step": 2900
	},
	{
	"epoch": 0.7733952049497294,
	"grad_norm": 0.5300703644752502,
	"learning_rate": 0.0002,
	"loss": 0.5428,
	"step": 3000
	},
	{
	"epoch": 0.7991750451147203,
	"grad_norm": 0.2816906273365021,
	"learning_rate": 0.0002,
	"loss": 0.5319,
	"step": 3100
	},
	{
	"epoch": 0.8249548852797113,
	"grad_norm": 0.4165875315666199,
	"learning_rate": 0.0002,
	"loss": 0.5073,
	"step": 3200
	},
	{
	"epoch": 0.8507347254447022,
	"grad_norm": 0.46957316994667053,
	"learning_rate": 0.0002,
	"loss": 0.4973,
	"step": 3300
	},
	{
	"epoch": 0.8765145656096932,
	"grad_norm": 0.22382797300815582,
	"learning_rate": 0.0002,
	"loss": 0.5091,
	"step": 3400
	},
	{
	"epoch": 0.9022944057746842,
	"grad_norm": 0.517814576625824,
	"learning_rate": 0.0002,
	"loss": 0.4879,
	"step": 3500
	},
	{
	"epoch": 0.9280742459396751,
	"grad_norm": 0.44171011447906494,
	"learning_rate": 0.0002,
	"loss": 0.4711,
	"step": 3600
	},
	{
	"epoch": 0.9538540861046662,
	"grad_norm": 0.3107047379016876,
	"learning_rate": 0.0002,
	"loss": 0.465,
	"step": 3700
	},
	{
	"epoch": 0.9796339262696572,
	"grad_norm": 0.09984863549470901,
	"learning_rate": 0.0002,
	"loss": 0.4485,
	"step": 3800
	},
	{
	"epoch": 1.005413766434648,
	"grad_norm": 0.43100592494010925,
	"learning_rate": 0.0002,
	"loss": 0.4752,
	"step": 3900
	},
	{
	"epoch": 1.031193606599639,
	"grad_norm": 0.5259262919425964,
	"learning_rate": 0.0002,
	"loss": 0.3621,
	"step": 4000
	},
	{
	"epoch": 1.0569734467646301,
	"grad_norm": 0.47033509612083435,
	"learning_rate": 0.0002,
	"loss": 0.3569,
	"step": 4100
	},
	{
	"epoch": 1.082753286929621,
	"grad_norm": 0.5318751931190491,
	"learning_rate": 0.0002,
	"loss": 0.3512,
	"step": 4200
	},
	{
	"epoch": 1.108533127094612,
	"grad_norm": 0.5434057116508484,
	"learning_rate": 0.0002,
	"loss": 0.3504,
	"step": 4300
	},
	{
	"epoch": 1.134312967259603,
	"grad_norm": 0.47843560576438904,
	"learning_rate": 0.0002,
	"loss": 0.3712,
	"step": 4400
	},
	{
	"epoch": 1.160092807424594,
	"grad_norm": 0.5956776142120361,
	"learning_rate": 0.0002,
	"loss": 0.3511,
	"step": 4500
	},
	{
	"epoch": 1.1858726475895849,
	"grad_norm": 0.5072950720787048,
	"learning_rate": 0.0002,
	"loss": 0.3445,
	"step": 4600
	},
	{
	"epoch": 1.211652487754576,
	"grad_norm": 0.5608052611351013,
	"learning_rate": 0.0002,
	"loss": 0.3377,
	"step": 4700
	},
	{
	"epoch": 1.237432327919567,
	"grad_norm": 0.474223256111145,
	"learning_rate": 0.0002,
	"loss": 0.3276,
	"step": 4800
	},
	{
	"epoch": 1.2632121680845578,
	"grad_norm": 0.5215118527412415,
	"learning_rate": 0.0002,
	"loss": 0.3375,
	"step": 4900
	},
	{
	"epoch": 1.288992008249549,
	"grad_norm": 0.3922516405582428,
	"learning_rate": 0.0002,
	"loss": 0.342,
	"step": 5000
	},
	{
	"epoch": 1.3147718484145399,
	"grad_norm": 0.4958643615245819,
	"learning_rate": 0.0002,
	"loss": 0.3553,
	"step": 5100
	},
	{
	"epoch": 1.3405516885795308,
	"grad_norm": 0.564983069896698,
	"learning_rate": 0.0002,
	"loss": 0.3389,
	"step": 5200
	},
	{
	"epoch": 1.3663315287445217,
	"grad_norm": 0.5662856698036194,
	"learning_rate": 0.0002,
	"loss": 0.3382,
	"step": 5300
	},
	{
	"epoch": 1.3921113689095128,
	"grad_norm": 0.5040738582611084,
	"learning_rate": 0.0002,
	"loss": 0.3408,
	"step": 5400
	},
	{
	"epoch": 1.4178912090745037,
	"grad_norm": 0.27346768975257874,
	"learning_rate": 0.0002,
	"loss": 0.3266,
	"step": 5500
	},
	{
	"epoch": 1.4436710492394949,
	"grad_norm": 0.5055024027824402,
	"learning_rate": 0.0002,
	"loss": 0.3561,
	"step": 5600
	},
	{
	"epoch": 1.4694508894044858,
	"grad_norm": 0.5442714691162109,
	"learning_rate": 0.0002,
	"loss": 0.3241,
	"step": 5700
	},
	{
	"epoch": 1.4952307295694767,
	"grad_norm": 0.4862806499004364,
	"learning_rate": 0.0002,
	"loss": 0.344,
	"step": 5800
	},
	{
	"epoch": 1.5210105697344676,
	"grad_norm": 0.6346714496612549,
	"learning_rate": 0.0002,
	"loss": 0.3195,
	"step": 5900
	},
	{
	"epoch": 1.5467904098994585,
	"grad_norm": 0.5846338272094727,
	"learning_rate": 0.0002,
	"loss": 0.3232,
	"step": 6000
	},
	{
	"epoch": 1.5725702500644496,
	"grad_norm": 0.41255345940589905,
	"learning_rate": 0.0002,
	"loss": 0.3379,
	"step": 6100
	},
	{
	"epoch": 1.5983500902294405,
	"grad_norm": 0.6396617293357849,
	"learning_rate": 0.0002,
	"loss": 0.3099,
	"step": 6200
	},
	{
	"epoch": 1.6241299303944317,
	"grad_norm": 0.3450670540332794,
	"learning_rate": 0.0002,
	"loss": 0.3129,
	"step": 6300
	},
	{
	"epoch": 1.6499097705594226,
	"grad_norm": 0.30461055040359497,
	"learning_rate": 0.0002,
	"loss": 0.2978,
	"step": 6400
	},
	{
	"epoch": 1.6756896107244135,
	"grad_norm": 0.4209739863872528,
	"learning_rate": 0.0002,
	"loss": 0.3323,
	"step": 6500
	},
	{
	"epoch": 1.7014694508894044,
	"grad_norm": 0.3296062648296356,
	"learning_rate": 0.0002,
	"loss": 0.3047,
	"step": 6600
	},
	{
	"epoch": 1.7272492910543955,
	"grad_norm": 0.9009484648704529,
	"learning_rate": 0.0002,
	"loss": 0.3046,
	"step": 6700
	},
	{
	"epoch": 1.7530291312193864,
	"grad_norm": 0.7505986094474792,
	"learning_rate": 0.0002,
	"loss": 0.3123,
	"step": 6800
	},
	{
	"epoch": 1.7788089713843775,
	"grad_norm": 0.3542492389678955,
	"learning_rate": 0.0002,
	"loss": 0.3259,
	"step": 6900
	},
	{
	"epoch": 1.8045888115493685,
	"grad_norm": 0.4935378432273865,
	"learning_rate": 0.0002,
	"loss": 0.3262,
	"step": 7000
	},
	{
	"epoch": 1.8303686517143594,
	"grad_norm": 0.3000539541244507,
	"learning_rate": 0.0002,
	"loss": 0.2887,
	"step": 7100
	},
	{
	"epoch": 1.8561484918793503,
	"grad_norm": 0.2680779695510864,
	"learning_rate": 0.0002,
	"loss": 0.3108,
	"step": 7200
	},
	{
	"epoch": 1.8819283320443412,
	"grad_norm": 0.5922934412956238,
	"learning_rate": 0.0002,
	"loss": 0.3211,
	"step": 7300
	},
	{
	"epoch": 1.9077081722093323,
	"grad_norm": 0.38349688053131104,
	"learning_rate": 0.0002,
	"loss": 0.316,
	"step": 7400
	},
	{
	"epoch": 1.9334880123743234,
	"grad_norm": 0.7654793858528137,
	"learning_rate": 0.0002,
	"loss": 0.3111,
	"step": 7500
	},
	{
	"epoch": 1.9592678525393143,
	"grad_norm": 0.2399352639913559,
	"learning_rate": 0.0002,
	"loss": 0.3042,
	"step": 7600
	},
	{
	"epoch": 1.9850476927043053,
	"grad_norm": 0.42787912487983704,
	"learning_rate": 0.0002,
	"loss": 0.2928,
	"step": 7700
	},
	{
	"epoch": 2.010827532869296,
	"grad_norm": 0.4771544933319092,
	"learning_rate": 0.0002,
	"loss": 0.2487,
	"step": 7800
	},
	{
	"epoch": 2.036607373034287,
	"grad_norm": 0.6133277416229248,
	"learning_rate": 0.0002,
	"loss": 0.2219,
	"step": 7900
	},
	{
	"epoch": 2.062387213199278,
	"grad_norm": 0.43137651681900024,
	"learning_rate": 0.0002,
	"loss": 0.2158,
	"step": 8000
	},
	{
	"epoch": 2.0881670533642693,
	"grad_norm": 0.41038885712623596,
	"learning_rate": 0.0002,
	"loss": 0.2127,
	"step": 8100
	},
	{
	"epoch": 2.1139468935292602,
	"grad_norm": 0.351235568523407,
	"learning_rate": 0.0002,
	"loss": 0.2185,
	"step": 8200
	},
	{
	"epoch": 2.139726733694251,
	"grad_norm": 0.41089433431625366,
	"learning_rate": 0.0002,
	"loss": 0.2346,
	"step": 8300
	},
	{
	"epoch": 2.165506573859242,
	"grad_norm": 0.3464137613773346,
	"learning_rate": 0.0002,
	"loss": 0.2273,
	"step": 8400
	},
	{
	"epoch": 2.191286414024233,
	"grad_norm": 0.2753762900829315,
	"learning_rate": 0.0002,
	"loss": 0.2359,
	"step": 8500
	},
	{
	"epoch": 2.217066254189224,
	"grad_norm": 0.3630015552043915,
	"learning_rate": 0.0002,
	"loss": 0.2351,
	"step": 8600
	},
	{
	"epoch": 2.2428460943542152,
	"grad_norm": 0.5501378178596497,
	"learning_rate": 0.0002,
	"loss": 0.2273,
	"step": 8700
	},
	{
	"epoch": 2.268625934519206,
	"grad_norm": 0.31958362460136414,
	"learning_rate": 0.0002,
	"loss": 0.2306,
	"step": 8800
	},
	{
	"epoch": 2.294405774684197,
	"grad_norm": 0.4495809078216553,
	"learning_rate": 0.0002,
	"loss": 0.2283,
	"step": 8900
	},
	{
	"epoch": 2.320185614849188,
	"grad_norm": 0.45789313316345215,
	"learning_rate": 0.0002,
	"loss": 0.2191,
	"step": 9000
	},
	{
	"epoch": 2.345965455014179,
	"grad_norm": 0.2430783361196518,
	"learning_rate": 0.0002,
	"loss": 0.2266,
	"step": 9100
	},
	{
	"epoch": 2.3717452951791698,
	"grad_norm": 0.512585461139679,
	"learning_rate": 0.0002,
	"loss": 0.2293,
	"step": 9200
	},
	{
	"epoch": 2.3975251353441607,
	"grad_norm": 0.42088598012924194,
	"learning_rate": 0.0002,
	"loss": 0.2388,
	"step": 9300
	},
	{
	"epoch": 2.423304975509152,
	"grad_norm": 0.4196650981903076,
	"learning_rate": 0.0002,
	"loss": 0.2305,
	"step": 9400
	},
	{
	"epoch": 2.449084815674143,
	"grad_norm": 0.45856234431266785,
	"learning_rate": 0.0002,
	"loss": 0.2294,
	"step": 9500
	},
	{
	"epoch": 2.474864655839134,
	"grad_norm": 0.5690295100212097,
	"learning_rate": 0.0002,
	"loss": 0.2237,
	"step": 9600
	},
	{
	"epoch": 2.5006444960041248,
	"grad_norm": 0.5325428247451782,
	"learning_rate": 0.0002,
	"loss": 0.2125,
	"step": 9700
	},
	{
	"epoch": 2.5264243361691157,
	"grad_norm": 0.4254339933395386,
	"learning_rate": 0.0002,
	"loss": 0.2335,
	"step": 9800
	},
	{
	"epoch": 2.5522041763341066,
	"grad_norm": 0.44463545083999634,
	"learning_rate": 0.0002,
	"loss": 0.2247,
	"step": 9900
	},
	{
	"epoch": 2.577984016499098,
	"grad_norm": 0.4192294776439667,
	"learning_rate": 0.0002,
	"loss": 0.2328,
	"step": 10000
	},
	{
	"epoch": 2.603763856664089,
	"grad_norm": 0.39080777764320374,
	"learning_rate": 0.0002,
	"loss": 0.2229,
	"step": 10100
	},
	{
	"epoch": 2.6295436968290797,
	"grad_norm": 0.3375299870967865,
	"learning_rate": 0.0002,
	"loss": 0.2374,
	"step": 10200
	},
	{
	"epoch": 2.6553235369940706,
	"grad_norm": 0.6126553416252136,
	"learning_rate": 0.0002,
	"loss": 0.2283,
	"step": 10300
	},
	{
	"epoch": 2.6811033771590616,
	"grad_norm": 0.21654823422431946,
	"learning_rate": 0.0002,
	"loss": 0.2265,
	"step": 10400
	},
	{
	"epoch": 2.7068832173240525,
	"grad_norm": 0.41668832302093506,
	"learning_rate": 0.0002,
	"loss": 0.2267,
	"step": 10500
	},
	{
	"epoch": 2.7326630574890434,
	"grad_norm": 0.5655872225761414,
	"learning_rate": 0.0002,
	"loss": 0.2331,
	"step": 10600
	},
	{
	"epoch": 2.7584428976540343,
	"grad_norm": 0.49956533312797546,
	"learning_rate": 0.0002,
	"loss": 0.2323,
	"step": 10700
	},
	{
	"epoch": 2.7842227378190256,
	"grad_norm": 0.4230547547340393,
	"learning_rate": 0.0002,
	"loss": 0.2157,
	"step": 10800
	},
	{
	"epoch": 2.8100025779840165,
	"grad_norm": 0.5253151655197144,
	"learning_rate": 0.0002,
	"loss": 0.2189,
	"step": 10900
	},
	{
	"epoch": 2.8357824181490074,
	"grad_norm": 0.3807348906993866,
	"learning_rate": 0.0002,
	"loss": 0.2285,
	"step": 11000
	},
	{
	"epoch": 2.8615622583139984,
	"grad_norm": 0.6454833149909973,
	"learning_rate": 0.0002,
	"loss": 0.228,
	"step": 11100
	},
	{
	"epoch": 2.8873420984789897,
	"grad_norm": 0.2508118450641632,
	"learning_rate": 0.0002,
	"loss": 0.2139,
	"step": 11200
	},
	{
	"epoch": 2.9131219386439806,
	"grad_norm": 0.32768428325653076,
	"learning_rate": 0.0002,
	"loss": 0.2206,
	"step": 11300
	},
	{
	"epoch": 2.9389017788089715,
	"grad_norm": 0.4850573241710663,
	"learning_rate": 0.0002,
	"loss": 0.2235,
	"step": 11400
	},
	{
	"epoch": 2.9646816189739624,
	"grad_norm": 0.6089478135108948,
	"learning_rate": 0.0002,
	"loss": 0.2081,
	"step": 11500
	},
	{
	"epoch": 2.9904614591389533,
	"grad_norm": 0.47153401374816895,
	"learning_rate": 0.0002,
	"loss": 0.2463,
	"step": 11600
	},
	{
	"epoch": 3.0162412993039442,
	"grad_norm": 0.3843853771686554,
	"learning_rate": 0.0002,
	"loss": 0.1911,
	"step": 11700
	},
	{
	"epoch": 3.042021139468935,
	"grad_norm": 0.21224769949913025,
	"learning_rate": 0.0002,
	"loss": 0.1753,
	"step": 11800
	},
	{
	"epoch": 3.067800979633926,
	"grad_norm": 0.3223534822463989,
	"learning_rate": 0.0002,
	"loss": 0.1799,
	"step": 11900
	},
	{
	"epoch": 3.0935808197989174,
	"grad_norm": 0.399443656206131,
	"learning_rate": 0.0002,
	"loss": 0.1755,
	"step": 12000
	},
	{
	"epoch": 3.1193606599639083,
	"grad_norm": 0.253034770488739,
	"learning_rate": 0.0002,
	"loss": 0.177,
	"step": 12100
	},
	{
	"epoch": 3.1451405001288992,
	"grad_norm": 0.318568617105484,
	"learning_rate": 0.0002,
	"loss": 0.1772,
	"step": 12200
	},
	{
	"epoch": 3.17092034029389,
	"grad_norm": 0.2624630928039551,
	"learning_rate": 0.0002,
	"loss": 0.1876,
	"step": 12300
	},
	{
	"epoch": 3.196700180458881,
	"grad_norm": 0.46422523260116577,
	"learning_rate": 0.0002,
	"loss": 0.1717,
	"step": 12400
	},
	{
	"epoch": 3.222480020623872,
	"grad_norm": 0.4504973888397217,
	"learning_rate": 0.0002,
	"loss": 0.1862,
	"step": 12500
	},
	{
	"epoch": 3.2482598607888633,
	"grad_norm": 0.44676682353019714,
	"learning_rate": 0.0002,
	"loss": 0.1865,
	"step": 12600
	},
	{
	"epoch": 3.274039700953854,
	"grad_norm": 0.44682949781417847,
	"learning_rate": 0.0002,
	"loss": 0.1797,
	"step": 12700
	},
	{
	"epoch": 3.299819541118845,
	"grad_norm": 0.22240401804447174,
	"learning_rate": 0.0002,
	"loss": 0.1823,
	"step": 12800
	},
	{
	"epoch": 3.325599381283836,
	"grad_norm": 0.3457636535167694,
	"learning_rate": 0.0002,
	"loss": 0.1839,
	"step": 12900
	},
	{
	"epoch": 3.351379221448827,
	"grad_norm": 0.5065191388130188,
	"learning_rate": 0.0002,
	"loss": 0.1823,
	"step": 13000
	},
	{
	"epoch": 3.377159061613818,
	"grad_norm": 0.516930341720581,
	"learning_rate": 0.0002,
	"loss": 0.1812,
	"step": 13100
	},
	{
	"epoch": 3.4029389017788088,
	"grad_norm": 0.5823391079902649,
	"learning_rate": 0.0002,
	"loss": 0.1851,
	"step": 13200
	},
	{
	"epoch": 3.4287187419438,
	"grad_norm": 0.4604497253894806,
	"learning_rate": 0.0002,
	"loss": 0.1897,
	"step": 13300
	},
	{
	"epoch": 3.454498582108791,
	"grad_norm": 0.3871957063674927,
	"learning_rate": 0.0002,
	"loss": 0.1778,
	"step": 13400
	},
	{
	"epoch": 3.480278422273782,
	"grad_norm": 0.40806278586387634,
	"learning_rate": 0.0002,
	"loss": 0.1854,
	"step": 13500
	},
	{
	"epoch": 3.506058262438773,
	"grad_norm": 0.24849525094032288,
	"learning_rate": 0.0002,
	"loss": 0.1825,
	"step": 13600
	},
	{
	"epoch": 3.5318381026037637,
	"grad_norm": 0.28265008330345154,
	"learning_rate": 0.0002,
	"loss": 0.1914,
	"step": 13700
	},
	{
	"epoch": 3.557617942768755,
	"grad_norm": 0.18643364310264587,
	"learning_rate": 0.0002,
	"loss": 0.1728,
	"step": 13800
	},
	{
	"epoch": 3.583397782933746,
	"grad_norm": 0.36125150322914124,
	"learning_rate": 0.0002,
	"loss": 0.184,
	"step": 13900
	},
	{
	"epoch": 3.609177623098737,
	"grad_norm": 0.35003572702407837,
	"learning_rate": 0.0002,
	"loss": 0.1834,
	"step": 14000
	},
	{
	"epoch": 3.634957463263728,
	"grad_norm": 0.29175901412963867,
	"learning_rate": 0.0002,
	"loss": 0.1845,
	"step": 14100
	},
	{
	"epoch": 3.6607373034287187,
	"grad_norm": 0.37868496775627136,
	"learning_rate": 0.0002,
	"loss": 0.1893,
	"step": 14200
	},
	{
	"epoch": 3.6865171435937096,
	"grad_norm": 0.3279033899307251,
	"learning_rate": 0.0002,
	"loss": 0.1908,
	"step": 14300
	},
	{
	"epoch": 3.7122969837587005,
	"grad_norm": 0.31007370352745056,
	"learning_rate": 0.0002,
	"loss": 0.1832,
	"step": 14400
	},
	{
	"epoch": 3.7380768239236914,
	"grad_norm": 0.298289030790329,
	"learning_rate": 0.0002,
	"loss": 0.1948,
	"step": 14500
	},
	{
	"epoch": 3.763856664088683,
	"grad_norm": 0.6039551496505737,
	"learning_rate": 0.0002,
	"loss": 0.1828,
	"step": 14600
	},
	{
	"epoch": 3.7896365042536737,
	"grad_norm": 0.449587345123291,
	"learning_rate": 0.0002,
	"loss": 0.1891,
	"step": 14700
	},
	{
	"epoch": 3.8154163444186646,
	"grad_norm": 0.6465901136398315,
	"learning_rate": 0.0002,
	"loss": 0.1895,
	"step": 14800
	},
	{
	"epoch": 3.8411961845836555,
	"grad_norm": 0.5226249098777771,
	"learning_rate": 0.0002,
	"loss": 0.1767,
	"step": 14900
	},
	{
	"epoch": 3.8669760247486464,
	"grad_norm": 0.29470816254615784,
	"learning_rate": 0.0002,
	"loss": 0.1958,
	"step": 15000
	},
	{
	"epoch": 3.892755864913638,
	"grad_norm": 0.4997386336326599,
	"learning_rate": 0.0002,
	"loss": 0.1984,
	"step": 15100
	},
	{
	"epoch": 3.9185357050786287,
	"grad_norm": 0.35381177067756653,
	"learning_rate": 0.0002,
	"loss": 0.1839,
	"step": 15200
	},
	{
	"epoch": 3.9443155452436196,
	"grad_norm": 0.29231759905815125,
	"learning_rate": 0.0002,
	"loss": 0.1812,
	"step": 15300
	},
	{
	"epoch": 3.9700953854086105,
	"grad_norm": 0.40497833490371704,
	"learning_rate": 0.0002,
	"loss": 0.1798,
	"step": 15400
	},
	{
	"epoch": 3.9958752255736014,
	"grad_norm": 0.1775328516960144,
	"learning_rate": 0.0002,
	"loss": 0.1931,
	"step": 15500
	},
	{
	"epoch": 4.021655065738592,
	"grad_norm": 0.2625548243522644,
	"learning_rate": 0.0002,
	"loss": 0.1513,
	"step": 15600
	},
	{
	"epoch": 4.047434905903583,
	"grad_norm": 0.47476592659950256,
	"learning_rate": 0.0002,
	"loss": 0.1607,
	"step": 15700
	},
	{
	"epoch": 4.073214746068574,
	"grad_norm": 0.4454491138458252,
	"learning_rate": 0.0002,
	"loss": 0.1529,
	"step": 15800
	},
	{
	"epoch": 4.098994586233565,
	"grad_norm": 0.12239188700914383,
	"learning_rate": 0.0002,
	"loss": 0.1539,
	"step": 15900
	},
	{
	"epoch": 4.124774426398556,
	"grad_norm": 0.2339598536491394,
	"learning_rate": 0.0002,
	"loss": 0.1572,
	"step": 16000
	},
	{
	"epoch": 4.150554266563548,
	"grad_norm": 0.19658803939819336,
	"learning_rate": 0.0002,
	"loss": 0.1571,
	"step": 16100
	},
	{
	"epoch": 4.176334106728539,
	"grad_norm": 0.25842776894569397,
	"learning_rate": 0.0002,
	"loss": 0.155,
	"step": 16200
	},
	{
	"epoch": 4.20211394689353,
	"grad_norm": 0.4655442535877228,
	"learning_rate": 0.0002,
	"loss": 0.1584,
	"step": 16300
	},
	{
	"epoch": 4.2278937870585205,
	"grad_norm": 0.3778013586997986,
	"learning_rate": 0.0002,
	"loss": 0.1587,
	"step": 16400
	},
	{
	"epoch": 4.253673627223511,
	"grad_norm": 0.22199797630310059,
	"learning_rate": 0.0002,
	"loss": 0.1573,
	"step": 16500
	},
	{
	"epoch": 4.279453467388502,
	"grad_norm": 0.23724961280822754,
	"learning_rate": 0.0002,
	"loss": 0.1649,
	"step": 16600
	},
	{
	"epoch": 4.305233307553493,
	"grad_norm": 0.4558769166469574,
	"learning_rate": 0.0002,
	"loss": 0.1633,
	"step": 16700
	},
	{
	"epoch": 4.331013147718484,
	"grad_norm": 0.27720391750335693,
	"learning_rate": 0.0002,
	"loss": 0.1613,
	"step": 16800
	},
	{
	"epoch": 4.356792987883475,
	"grad_norm": 0.3628349304199219,
	"learning_rate": 0.0002,
	"loss": 0.16,
	"step": 16900
	},
	{
	"epoch": 4.382572828048466,
	"grad_norm": 0.6290438175201416,
	"learning_rate": 0.0002,
	"loss": 0.1658,
	"step": 17000
	},
	{
	"epoch": 4.408352668213457,
	"grad_norm": 0.14983007311820984,
	"learning_rate": 0.0002,
	"loss": 0.1629,
	"step": 17100
	},
	{
	"epoch": 4.434132508378448,
	"grad_norm": 0.30865323543548584,
	"learning_rate": 0.0002,
	"loss": 0.1603,
	"step": 17200
	},
	{
	"epoch": 4.459912348543439,
	"grad_norm": 0.5674950480461121,
	"learning_rate": 0.0002,
	"loss": 0.1674,
	"step": 17300
	},
	{
	"epoch": 4.4856921887084305,
	"grad_norm": 0.40429455041885376,
	"learning_rate": 0.0002,
	"loss": 0.1677,
	"step": 17400
	},
	{
	"epoch": 4.511472028873421,
	"grad_norm": 0.27213749289512634,
	"learning_rate": 0.0002,
	"loss": 0.1642,
	"step": 17500
	},
	{
	"epoch": 4.537251869038412,
	"grad_norm": 0.40964949131011963,
	"learning_rate": 0.0002,
	"loss": 0.1626,
	"step": 17600
	},
	{
	"epoch": 4.563031709203403,
	"grad_norm": 0.3955250382423401,
	"learning_rate": 0.0002,
	"loss": 0.1564,
	"step": 17700
	},
	{
	"epoch": 4.588811549368394,
	"grad_norm": 0.3900775611400604,
	"learning_rate": 0.0002,
	"loss": 0.1605,
	"step": 17800
	},
	{
	"epoch": 4.614591389533385,
	"grad_norm": 0.2436327487230301,
	"learning_rate": 0.0002,
	"loss": 0.1603,
	"step": 17900
	},
	{
	"epoch": 4.640371229698376,
	"grad_norm": 0.4188991189002991,
	"learning_rate": 0.0002,
	"loss": 0.163,
	"step": 18000
	},
	{
	"epoch": 4.666151069863367,
	"grad_norm": 0.15686850249767303,
	"learning_rate": 0.0002,
	"loss": 0.1656,
	"step": 18100
	},
	{
	"epoch": 4.691930910028358,
	"grad_norm": 0.30334389209747314,
	"learning_rate": 0.0002,
	"loss": 0.1612,
	"step": 18200
	},
	{
	"epoch": 4.717710750193349,
	"grad_norm": 0.33619073033332825,
	"learning_rate": 0.0002,
	"loss": 0.1626,
	"step": 18300
	},
	{
	"epoch": 4.7434905903583395,
	"grad_norm": 0.20497629046440125,
	"learning_rate": 0.0002,
	"loss": 0.1647,
	"step": 18400
	},
	{
	"epoch": 4.76927043052333,
	"grad_norm": 0.20428726077079773,
	"learning_rate": 0.0002,
	"loss": 0.1726,
	"step": 18500
	},
	{
	"epoch": 4.795050270688321,
	"grad_norm": 0.3606746196746826,
	"learning_rate": 0.0002,
	"loss": 0.1638,
	"step": 18600
	},
	{
	"epoch": 4.820830110853313,
	"grad_norm": 0.3441687226295471,
	"learning_rate": 0.0002,
	"loss": 0.1676,
	"step": 18700
	},
	{
	"epoch": 4.846609951018304,
	"grad_norm": 0.3479159474372864,
	"learning_rate": 0.0002,
	"loss": 0.1654,
	"step": 18800
	},
	{
	"epoch": 4.872389791183295,
	"grad_norm": 0.39751461148262024,
	"learning_rate": 0.0002,
	"loss": 0.1592,
	"step": 18900
	},
	{
	"epoch": 4.898169631348286,
	"grad_norm": 0.1793346256017685,
	"learning_rate": 0.0002,
	"loss": 0.1683,
	"step": 19000
	},
	{
	"epoch": 4.923949471513277,
	"grad_norm": 0.100714772939682,
	"learning_rate": 0.0002,
	"loss": 0.1592,
	"step": 19100
	},
	{
	"epoch": 4.949729311678268,
	"grad_norm": 0.6268895864486694,
	"learning_rate": 0.0002,
	"loss": 0.1667,
	"step": 19200
	},
	{
	"epoch": 4.975509151843259,
	"grad_norm": 0.32232895493507385,
	"learning_rate": 0.0002,
	"loss": 0.1615,
	"step": 19300
	},
	{
	"epoch": 5.0012889920082495,
	"grad_norm": 0.3094789683818817,
	"learning_rate": 0.0002,
	"loss": 0.1648,
	"step": 19400
	},
	{
	"epoch": 5.02706883217324,
	"grad_norm": 0.3806459307670593,
	"learning_rate": 0.0002,
	"loss": 0.149,
	"step": 19500
	},
	{
	"epoch": 5.052848672338231,
	"grad_norm": 0.28195375204086304,
	"learning_rate": 0.0002,
	"loss": 0.1409,
	"step": 19600
	},
	{
	"epoch": 5.078628512503222,
	"grad_norm": 0.1819002479314804,
	"learning_rate": 0.0002,
	"loss": 0.1403,
	"step": 19700
	},
	{
	"epoch": 5.104408352668213,
	"grad_norm": 0.27728572487831116,
	"learning_rate": 0.0002,
	"loss": 0.1426,
	"step": 19800
	},
	{
	"epoch": 5.130188192833204,
	"grad_norm": 0.21889761090278625,
	"learning_rate": 0.0002,
	"loss": 0.1499,
	"step": 19900
	},
	{
	"epoch": 5.155968032998196,
	"grad_norm": 0.3974555432796478,
	"learning_rate": 0.0002,
	"loss": 0.1427,
	"step": 20000
	},
	{
	"epoch": 5.181747873163187,
	"grad_norm": 0.48159608244895935,
	"learning_rate": 0.0002,
	"loss": 0.1477,
	"step": 20100
	},
	{
	"epoch": 5.207527713328178,
	"grad_norm": 0.3865210711956024,
	"learning_rate": 0.0002,
	"loss": 0.1424,
	"step": 20200
	},
	{
	"epoch": 5.233307553493169,
	"grad_norm": 0.26485195755958557,
	"learning_rate": 0.0002,
	"loss": 0.1486,
	"step": 20300
	},
	{
	"epoch": 5.2590873936581595,
	"grad_norm": 0.41939619183540344,
	"learning_rate": 0.0002,
	"loss": 0.151,
	"step": 20400
	},
	{
	"epoch": 5.28486723382315,
	"grad_norm": 0.3483380973339081,
	"learning_rate": 0.0002,
	"loss": 0.1475,
	"step": 20500
	},
	{
	"epoch": 5.310647073988141,
	"grad_norm": 0.40975695848464966,
	"learning_rate": 0.0002,
	"loss": 0.1461,
	"step": 20600
	},
	{
	"epoch": 5.336426914153132,
	"grad_norm": 0.27101436257362366,
	"learning_rate": 0.0002,
	"loss": 0.1528,
	"step": 20700
	},
	{
	"epoch": 5.362206754318123,
	"grad_norm": 0.27852606773376465,
	"learning_rate": 0.0002,
	"loss": 0.1484,
	"step": 20800
	},
	{
	"epoch": 5.387986594483114,
	"grad_norm": 0.4176689684391022,
	"learning_rate": 0.0002,
	"loss": 0.1485,
	"step": 20900
	},
	{
	"epoch": 5.413766434648105,
	"grad_norm": 0.4901387691497803,
	"learning_rate": 0.0002,
	"loss": 0.1479,
	"step": 21000
	},
	{
	"epoch": 5.439546274813096,
	"grad_norm": 0.33768975734710693,
	"learning_rate": 0.0002,
	"loss": 0.15,
	"step": 21100
	},
	{
	"epoch": 5.465326114978087,
	"grad_norm": 0.5349870324134827,
	"learning_rate": 0.0002,
	"loss": 0.1485,
	"step": 21200
	},
	{
	"epoch": 5.4911059551430785,
	"grad_norm": 0.24405865371227264,
	"learning_rate": 0.0002,
	"loss": 0.146,
	"step": 21300
	},
	{
	"epoch": 5.516885795308069,
	"grad_norm": 0.2870001494884491,
	"learning_rate": 0.0002,
	"loss": 0.1482,
	"step": 21400
	},
	{
	"epoch": 5.54266563547306,
	"grad_norm": 0.34606364369392395,
	"learning_rate": 0.0002,
	"loss": 0.1535,
	"step": 21500
	},
	{
	"epoch": 5.568445475638051,
	"grad_norm": 0.4999238848686218,
	"learning_rate": 0.0002,
	"loss": 0.1523,
	"step": 21600
	},
	{
	"epoch": 5.594225315803042,
	"grad_norm": 0.2526559829711914,
	"learning_rate": 0.0002,
	"loss": 0.1524,
	"step": 21700
	},
	{
	"epoch": 5.620005155968033,
	"grad_norm": 0.270786315202713,
	"learning_rate": 0.0002,
	"loss": 0.1511,
	"step": 21800
	},
	{
	"epoch": 5.645784996133024,
	"grad_norm": 0.4440493881702423,
	"learning_rate": 0.0002,
	"loss": 0.1539,
	"step": 21900
	},
	{
	"epoch": 5.671564836298015,
	"grad_norm": 0.4871107041835785,
	"learning_rate": 0.0002,
	"loss": 0.1505,
	"step": 22000
	},
	{
	"epoch": 5.697344676463006,
	"grad_norm": 0.40973493456840515,
	"learning_rate": 0.0002,
	"loss": 0.1553,
	"step": 22100
	},
	{
	"epoch": 5.723124516627997,
	"grad_norm": 0.4365851581096649,
	"learning_rate": 0.0002,
	"loss": 0.1502,
	"step": 22200
	},
	{
	"epoch": 5.748904356792988,
	"grad_norm": 0.5478639602661133,
	"learning_rate": 0.0002,
	"loss": 0.1611,
	"step": 22300
	},
	{
	"epoch": 5.7746841969579785,
	"grad_norm": 0.29485803842544556,
	"learning_rate": 0.0002,
	"loss": 0.157,
	"step": 22400
	},
	{
	"epoch": 5.800464037122969,
	"grad_norm": 0.20778502523899078,
	"learning_rate": 0.0002,
	"loss": 0.1489,
	"step": 22500
	},
	{
	"epoch": 5.826243877287961,
	"grad_norm": 0.1795939952135086,
	"learning_rate": 0.0002,
	"loss": 0.1517,
	"step": 22600
	},
	{
	"epoch": 5.852023717452952,
	"grad_norm": 0.4165894687175751,
	"learning_rate": 0.0002,
	"loss": 0.1464,
	"step": 22700
	},
	{
	"epoch": 5.877803557617943,
	"grad_norm": 0.35076722502708435,
	"learning_rate": 0.0002,
	"loss": 0.1499,
	"step": 22800
	},
	{
	"epoch": 5.903583397782934,
	"grad_norm": 0.3190014362335205,
	"learning_rate": 0.0002,
	"loss": 0.1474,
	"step": 22900
	},
	{
	"epoch": 5.929363237947925,
	"grad_norm": 0.6232258081436157,
	"learning_rate": 0.0002,
	"loss": 0.1521,
	"step": 23000
	},
	{
	"epoch": 5.955143078112916,
	"grad_norm": 0.41889217495918274,
	"learning_rate": 0.0002,
	"loss": 0.1553,
	"step": 23100
	},
	{
	"epoch": 5.980922918277907,
	"grad_norm": 0.4977259635925293,
	"learning_rate": 0.0002,
	"loss": 0.1543,
	"step": 23200
	},
	{
	"epoch": 6.006702758442898,
	"grad_norm": 0.3092762231826782,
	"learning_rate": 0.0002,
	"loss": 0.145,
	"step": 23300
	},
	{
	"epoch": 6.0324825986078885,
	"grad_norm": 0.15745452046394348,
	"learning_rate": 0.0002,
	"loss": 0.138,
	"step": 23400
	},
	{
	"epoch": 6.058262438772879,
	"grad_norm": 0.10685788840055466,
	"learning_rate": 0.0002,
	"loss": 0.1345,
	"step": 23500
	},
	{
	"epoch": 6.08404227893787,
	"grad_norm": 0.41699907183647156,
	"learning_rate": 0.0002,
	"loss": 0.1379,
	"step": 23600
	},
	{
	"epoch": 6.109822119102861,
	"grad_norm": 0.18783129751682281,
	"learning_rate": 0.0002,
	"loss": 0.1306,
	"step": 23700
	},
	{
	"epoch": 6.135601959267852,
	"grad_norm": 0.15569710731506348,
	"learning_rate": 0.0002,
	"loss": 0.1372,
	"step": 23800
	},
	{
	"epoch": 6.161381799432844,
	"grad_norm": 0.4492259919643402,
	"learning_rate": 0.0002,
	"loss": 0.1414,
	"step": 23900
	},
	{
	"epoch": 6.187161639597835,
	"grad_norm": 0.1448894888162613,
	"learning_rate": 0.0002,
	"loss": 0.1376,
	"step": 24000
	},
	{
	"epoch": 6.212941479762826,
	"grad_norm": 0.2028491050004959,
	"learning_rate": 0.0002,
	"loss": 0.1349,
	"step": 24100
	},
	{
	"epoch": 6.238721319927817,
	"grad_norm": 0.19205012917518616,
	"learning_rate": 0.0002,
	"loss": 0.1396,
	"step": 24200
	},
	{
	"epoch": 6.2645011600928076,
	"grad_norm": 0.29885369539260864,
	"learning_rate": 0.0002,
	"loss": 0.1449,
	"step": 24300
	},
	{
	"epoch": 6.2902810002577985,
	"grad_norm": 0.15814617276191711,
	"learning_rate": 0.0002,
	"loss": 0.1438,
	"step": 24400
	},
	{
	"epoch": 6.316060840422789,
	"grad_norm": 0.2691551148891449,
	"learning_rate": 0.0002,
	"loss": 0.1406,
	"step": 24500
	},
	{
	"epoch": 6.34184068058778,
	"grad_norm": 0.543335497379303,
	"learning_rate": 0.0002,
	"loss": 0.1389,
	"step": 24600
	},
	{
	"epoch": 6.367620520752771,
	"grad_norm": 0.33116665482521057,
	"learning_rate": 0.0002,
	"loss": 0.1403,
	"step": 24700
	},
	{
	"epoch": 6.393400360917762,
	"grad_norm": 0.5159612894058228,
	"learning_rate": 0.0002,
	"loss": 0.1408,
	"step": 24800
	},
	{
	"epoch": 6.419180201082753,
	"grad_norm": 0.30205056071281433,
	"learning_rate": 0.0002,
	"loss": 0.1409,
	"step": 24900
	},
	{
	"epoch": 6.444960041247744,
	"grad_norm": 0.44916966557502747,
	"learning_rate": 0.0002,
	"loss": 0.1432,
	"step": 25000
	},
	{
	"epoch": 6.470739881412735,
	"grad_norm": 0.18665899336338043,
	"learning_rate": 0.0002,
	"loss": 0.1434,
	"step": 25100
	},
	{
	"epoch": 6.496519721577727,
	"grad_norm": 0.4078758656978607,
	"learning_rate": 0.0002,
	"loss": 0.1411,
	"step": 25200
	},
	{
	"epoch": 6.5222995617427175,
	"grad_norm": 0.39813536405563354,
	"learning_rate": 0.0002,
	"loss": 0.1445,
	"step": 25300
	},
	{
	"epoch": 6.548079401907708,
	"grad_norm": 0.2587377727031708,
	"learning_rate": 0.0002,
	"loss": 0.1463,
	"step": 25400
	},
	{
	"epoch": 6.573859242072699,
	"grad_norm": 0.41181057691574097,
	"learning_rate": 0.0002,
	"loss": 0.1487,
	"step": 25500
	},
	{
	"epoch": 6.59963908223769,
	"grad_norm": 0.3136518597602844,
	"learning_rate": 0.0002,
	"loss": 0.1414,
	"step": 25600
	},
	{
	"epoch": 6.625418922402681,
	"grad_norm": 0.4114777445793152,
	"learning_rate": 0.0002,
	"loss": 0.1434,
	"step": 25700
	},
	{
	"epoch": 6.651198762567672,
	"grad_norm": 0.17142866551876068,
	"learning_rate": 0.0002,
	"loss": 0.1411,
	"step": 25800
	},
	{
	"epoch": 6.676978602732663,
	"grad_norm": 0.5585296750068665,
	"learning_rate": 0.0002,
	"loss": 0.148,
	"step": 25900
	},
	{
	"epoch": 6.702758442897654,
	"grad_norm": 0.23773185908794403,
	"learning_rate": 0.0002,
	"loss": 0.1468,
	"step": 26000
	},
	{
	"epoch": 6.728538283062645,
	"grad_norm": 0.38246840238571167,
	"learning_rate": 0.0002,
	"loss": 0.1426,
	"step": 26100
	},
	{
	"epoch": 6.754318123227636,
	"grad_norm": 0.5393186807632446,
	"learning_rate": 0.0002,
	"loss": 0.1456,
	"step": 26200
	},
	{
	"epoch": 6.780097963392627,
	"grad_norm": 0.21433015167713165,
	"learning_rate": 0.0002,
	"loss": 0.1456,
	"step": 26300
	},
	{
	"epoch": 6.8058778035576175,
	"grad_norm": 0.4375258982181549,
	"learning_rate": 0.0002,
	"loss": 0.1461,
	"step": 26400
	},
	{
	"epoch": 6.831657643722609,
	"grad_norm": 0.515832781791687,
	"learning_rate": 0.0002,
	"loss": 0.1484,
	"step": 26500
	},
	{
	"epoch": 6.8574374838876,
	"grad_norm": 0.496559739112854,
	"learning_rate": 0.0002,
	"loss": 0.1461,
	"step": 26600
	},
	{
	"epoch": 6.883217324052591,
	"grad_norm": 0.30182015895843506,
	"learning_rate": 0.0002,
	"loss": 0.1471,
	"step": 26700
	},
	{
	"epoch": 6.908997164217582,
	"grad_norm": 0.3858971893787384,
	"learning_rate": 0.0002,
	"loss": 0.1469,
	"step": 26800
	},
	{
	"epoch": 6.934777004382573,
	"grad_norm": 0.30368533730506897,
	"learning_rate": 0.0002,
	"loss": 0.1466,
	"step": 26900
	},
	{
	"epoch": 6.960556844547564,
	"grad_norm": 0.29557520151138306,
	"learning_rate": 0.0002,
	"loss": 0.1446,
	"step": 27000
	},
	{
	"epoch": 6.986336684712555,
	"grad_norm": 0.34702664613723755,
	"learning_rate": 0.0002,
	"loss": 0.143,
	"step": 27100
	},
	{
	"epoch": 7.012116524877546,
	"grad_norm": 0.18182627856731415,
	"learning_rate": 0.0002,
	"loss": 0.1467,
	"step": 27200
	},
	{
	"epoch": 7.037896365042537,
	"grad_norm": 0.48641154170036316,
	"learning_rate": 0.0002,
	"loss": 0.1337,
	"step": 27300
	},
	{
	"epoch": 7.0636762052075275,
	"grad_norm": 0.5797538757324219,
	"learning_rate": 0.0002,
	"loss": 0.1291,
	"step": 27400
	},
	{
	"epoch": 7.089456045372518,
	"grad_norm": 0.20399855077266693,
	"learning_rate": 0.0002,
	"loss": 0.1372,
	"step": 27500
	},
	{
	"epoch": 7.115235885537509,
	"grad_norm": 0.12141354382038116,
	"learning_rate": 0.0002,
	"loss": 0.1359,
	"step": 27600
	},
	{
	"epoch": 7.1410157257025,
	"grad_norm": 0.13764117658138275,
	"learning_rate": 0.0002,
	"loss": 0.1276,
	"step": 27700
	},
	{
	"epoch": 7.166795565867492,
	"grad_norm": 0.21888123452663422,
	"learning_rate": 0.0002,
	"loss": 0.1337,
	"step": 27800
	},
	{
	"epoch": 7.192575406032483,
	"grad_norm": 0.1562834531068802,
	"learning_rate": 0.0002,
	"loss": 0.133,
	"step": 27900
	},
	{
	"epoch": 7.218355246197474,
	"grad_norm": 0.3367880880832672,
	"learning_rate": 0.0002,
	"loss": 0.1335,
	"step": 28000
	},
	{
	"epoch": 7.244135086362465,
	"grad_norm": 0.1075579896569252,
	"learning_rate": 0.0002,
	"loss": 0.1334,
	"step": 28100
	},
	{
	"epoch": 7.269914926527456,
	"grad_norm": 0.11283877491950989,
	"learning_rate": 0.0002,
	"loss": 0.1356,
	"step": 28200
	},
	{
	"epoch": 7.2956947666924465,
	"grad_norm": 0.24768362939357758,
	"learning_rate": 0.0002,
	"loss": 0.1374,
	"step": 28300
	},
	{
	"epoch": 7.3214746068574375,
	"grad_norm": 0.22776305675506592,
	"learning_rate": 0.0002,
	"loss": 0.1307,
	"step": 28400
	},
	{
	"epoch": 7.347254447022428,
	"grad_norm": 0.13827867805957794,
	"learning_rate": 0.0002,
	"loss": 0.1396,
	"step": 28500
	},
	{
	"epoch": 7.373034287187419,
	"grad_norm": 0.2935916781425476,
	"learning_rate": 0.0002,
	"loss": 0.1355,
	"step": 28600
	},
	{
	"epoch": 7.39881412735241,
	"grad_norm": 0.10991048812866211,
	"learning_rate": 0.0002,
	"loss": 0.1349,
	"step": 28700
	},
	{
	"epoch": 7.424593967517401,
	"grad_norm": 0.30149704217910767,
	"learning_rate": 0.0002,
	"loss": 0.1374,
	"step": 28800
	},
	{
	"epoch": 7.450373807682392,
	"grad_norm": 0.13918708264827728,
	"learning_rate": 0.0002,
	"loss": 0.141,
	"step": 28900
	},
	{
	"epoch": 7.476153647847383,
	"grad_norm": 0.13292869925498962,
	"learning_rate": 0.0002,
	"loss": 0.1386,
	"step": 29000
	},
	{
	"epoch": 7.501933488012375,
	"grad_norm": 0.5602275729179382,
	"learning_rate": 0.0002,
	"loss": 0.1421,
	"step": 29100
	},
	{
	"epoch": 7.527713328177366,
	"grad_norm": 0.12204320728778839,
	"learning_rate": 0.0002,
	"loss": 0.1334,
	"step": 29200
	},
	{
	"epoch": 7.5534931683423565,
	"grad_norm": 0.17424637079238892,
	"learning_rate": 0.0002,
	"loss": 0.1372,
	"step": 29300
	},
	{
	"epoch": 7.579273008507347,
	"grad_norm": 0.4190254509449005,
	"learning_rate": 0.0002,
	"loss": 0.1458,
	"step": 29400
	},
	{
	"epoch": 7.605052848672338,
	"grad_norm": 0.13242638111114502,
	"learning_rate": 0.0002,
	"loss": 0.1421,
	"step": 29500
	},
	{
	"epoch": 7.630832688837329,
	"grad_norm": 0.23242244124412537,
	"learning_rate": 0.0002,
	"loss": 0.1429,
	"step": 29600
	},
	{
	"epoch": 7.65661252900232,
	"grad_norm": 0.4323575794696808,
	"learning_rate": 0.0002,
	"loss": 0.1402,
	"step": 29700
	},
	{
	"epoch": 7.682392369167311,
	"grad_norm": 0.1595413088798523,
	"learning_rate": 0.0002,
	"loss": 0.1403,
	"step": 29800
	},
	{
	"epoch": 7.708172209332302,
	"grad_norm": 0.1448589414358139,
	"learning_rate": 0.0002,
	"loss": 0.136,
	"step": 29900
	},
	{
	"epoch": 7.733952049497293,
	"grad_norm": 0.5433810353279114,
	"learning_rate": 0.0002,
	"loss": 0.139,
	"step": 30000
	}
	],
	"logging_steps": 100,
	"max_steps": 31032,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 8,
	"save_steps": 3000,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 2.186321886206116e+17,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}