Add Devstral-14B CPT training run

a555835 verified 2 months ago

131 kB

	{
	"best_global_step": 650,
	"best_metric": 0.3949255049228668,
	"best_model_checkpoint": "runs/cpt_run_v1/checkpoints/checkpoint-600",
	"epoch": 2.0,
	"eval_steps": 50,
	"global_step": 686,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0029170464904284413,
	"grad_norm": 1.1577509641647339,
	"learning_rate": 0.0,
	"loss": 0.9893555045127869,
	"step": 1
	},
	{
	"epoch": 0.005834092980856883,
	"grad_norm": 0.9491796493530273,
	"learning_rate": 2.8985507246376816e-07,
	"loss": 0.8791205883026123,
	"step": 2
	},
	{
	"epoch": 0.008751139471285323,
	"grad_norm": 1.1600768566131592,
	"learning_rate": 5.797101449275363e-07,
	"loss": 0.9858248233795166,
	"step": 3
	},
	{
	"epoch": 0.011668185961713765,
	"grad_norm": 1.2298306226730347,
	"learning_rate": 8.695652173913044e-07,
	"loss": 1.0516364574432373,
	"step": 4
	},
	{
	"epoch": 0.014585232452142206,
	"grad_norm": 0.9520533680915833,
	"learning_rate": 1.1594202898550726e-06,
	"loss": 0.8392249345779419,
	"step": 5
	},
	{
	"epoch": 0.017502278942570646,
	"grad_norm": 1.2451188564300537,
	"learning_rate": 1.4492753623188408e-06,
	"loss": 1.0955077409744263,
	"step": 6
	},
	{
	"epoch": 0.02041932543299909,
	"grad_norm": 1.1123991012573242,
	"learning_rate": 1.7391304347826088e-06,
	"loss": 0.9201866388320923,
	"step": 7
	},
	{
	"epoch": 0.02333637192342753,
	"grad_norm": 0.9283139705657959,
	"learning_rate": 2.028985507246377e-06,
	"loss": 0.9770950078964233,
	"step": 8
	},
	{
	"epoch": 0.02625341841385597,
	"grad_norm": 0.9589216113090515,
	"learning_rate": 2.3188405797101453e-06,
	"loss": 0.9442565441131592,
	"step": 9
	},
	{
	"epoch": 0.02917046490428441,
	"grad_norm": 0.8866703510284424,
	"learning_rate": 2.6086956521739132e-06,
	"loss": 0.9354464411735535,
	"step": 10
	},
	{
	"epoch": 0.03208751139471285,
	"grad_norm": 0.7191241383552551,
	"learning_rate": 2.8985507246376816e-06,
	"loss": 0.7659736275672913,
	"step": 11
	},
	{
	"epoch": 0.03500455788514129,
	"grad_norm": 0.9110142588615417,
	"learning_rate": 3.188405797101449e-06,
	"loss": 0.9319326877593994,
	"step": 12
	},
	{
	"epoch": 0.03792160437556973,
	"grad_norm": 0.8754057288169861,
	"learning_rate": 3.4782608695652175e-06,
	"loss": 0.9819356203079224,
	"step": 13
	},
	{
	"epoch": 0.04083865086599818,
	"grad_norm": 0.896181046962738,
	"learning_rate": 3.768115942028986e-06,
	"loss": 1.026316523551941,
	"step": 14
	},
	{
	"epoch": 0.04375569735642662,
	"grad_norm": 0.6104832887649536,
	"learning_rate": 4.057971014492754e-06,
	"loss": 0.8427562713623047,
	"step": 15
	},
	{
	"epoch": 0.04667274384685506,
	"grad_norm": 0.6529208421707153,
	"learning_rate": 4.347826086956522e-06,
	"loss": 0.8496565222740173,
	"step": 16
	},
	{
	"epoch": 0.0495897903372835,
	"grad_norm": 0.6319335699081421,
	"learning_rate": 4.637681159420291e-06,
	"loss": 0.9139047861099243,
	"step": 17
	},
	{
	"epoch": 0.05250683682771194,
	"grad_norm": 0.7458649277687073,
	"learning_rate": 4.927536231884059e-06,
	"loss": 0.8867442011833191,
	"step": 18
	},
	{
	"epoch": 0.05542388331814038,
	"grad_norm": 0.6179773211479187,
	"learning_rate": 5.2173913043478265e-06,
	"loss": 0.9579408168792725,
	"step": 19
	},
	{
	"epoch": 0.05834092980856882,
	"grad_norm": 0.794481635093689,
	"learning_rate": 5.507246376811595e-06,
	"loss": 0.8736554980278015,
	"step": 20
	},
	{
	"epoch": 0.06125797629899726,
	"grad_norm": 0.8356145620346069,
	"learning_rate": 5.797101449275363e-06,
	"loss": 0.9358762502670288,
	"step": 21
	},
	{
	"epoch": 0.0641750227894257,
	"grad_norm": 0.5891932845115662,
	"learning_rate": 6.086956521739132e-06,
	"loss": 0.8972038626670837,
	"step": 22
	},
	{
	"epoch": 0.06709206927985414,
	"grad_norm": 0.6931268572807312,
	"learning_rate": 6.376811594202898e-06,
	"loss": 0.9583507776260376,
	"step": 23
	},
	{
	"epoch": 0.07000911577028258,
	"grad_norm": 0.7298229336738586,
	"learning_rate": 6.666666666666667e-06,
	"loss": 0.8119489550590515,
	"step": 24
	},
	{
	"epoch": 0.07292616226071102,
	"grad_norm": 0.6419956684112549,
	"learning_rate": 6.956521739130435e-06,
	"loss": 0.9386100769042969,
	"step": 25
	},
	{
	"epoch": 0.07584320875113947,
	"grad_norm": 0.7508338689804077,
	"learning_rate": 7.246376811594203e-06,
	"loss": 0.9272583723068237,
	"step": 26
	},
	{
	"epoch": 0.0787602552415679,
	"grad_norm": 0.5848079919815063,
	"learning_rate": 7.536231884057972e-06,
	"loss": 0.8967856168746948,
	"step": 27
	},
	{
	"epoch": 0.08167730173199636,
	"grad_norm": 0.7384837865829468,
	"learning_rate": 7.82608695652174e-06,
	"loss": 0.8696568012237549,
	"step": 28
	},
	{
	"epoch": 0.0845943482224248,
	"grad_norm": 0.5069604516029358,
	"learning_rate": 8.115942028985508e-06,
	"loss": 0.9121193885803223,
	"step": 29
	},
	{
	"epoch": 0.08751139471285324,
	"grad_norm": 0.833165168762207,
	"learning_rate": 8.405797101449275e-06,
	"loss": 0.8180589079856873,
	"step": 30
	},
	{
	"epoch": 0.09042844120328168,
	"grad_norm": 0.6355920433998108,
	"learning_rate": 8.695652173913044e-06,
	"loss": 0.8640957474708557,
	"step": 31
	},
	{
	"epoch": 0.09334548769371012,
	"grad_norm": 1.0429315567016602,
	"learning_rate": 8.985507246376812e-06,
	"loss": 0.9517915844917297,
	"step": 32
	},
	{
	"epoch": 0.09626253418413856,
	"grad_norm": 0.5875154733657837,
	"learning_rate": 9.275362318840581e-06,
	"loss": 0.9443603754043579,
	"step": 33
	},
	{
	"epoch": 0.099179580674567,
	"grad_norm": 1.9913769960403442,
	"learning_rate": 9.565217391304349e-06,
	"loss": 0.9510866403579712,
	"step": 34
	},
	{
	"epoch": 0.10209662716499544,
	"grad_norm": 0.5310097932815552,
	"learning_rate": 9.855072463768118e-06,
	"loss": 0.8653419613838196,
	"step": 35
	},
	{
	"epoch": 0.10501367365542388,
	"grad_norm": 0.624421238899231,
	"learning_rate": 1.0144927536231885e-05,
	"loss": 0.7941208481788635,
	"step": 36
	},
	{
	"epoch": 0.10793072014585232,
	"grad_norm": 0.6314200758934021,
	"learning_rate": 1.0434782608695653e-05,
	"loss": 0.8931174278259277,
	"step": 37
	},
	{
	"epoch": 0.11084776663628076,
	"grad_norm": 0.6272342205047607,
	"learning_rate": 1.0724637681159422e-05,
	"loss": 0.8978185057640076,
	"step": 38
	},
	{
	"epoch": 0.1137648131267092,
	"grad_norm": 0.5711184740066528,
	"learning_rate": 1.101449275362319e-05,
	"loss": 0.808263897895813,
	"step": 39
	},
	{
	"epoch": 0.11668185961713765,
	"grad_norm": 0.7581208944320679,
	"learning_rate": 1.1304347826086957e-05,
	"loss": 0.7456756830215454,
	"step": 40
	},
	{
	"epoch": 0.11959890610756609,
	"grad_norm": 0.4989977180957794,
	"learning_rate": 1.1594202898550726e-05,
	"loss": 0.8273333311080933,
	"step": 41
	},
	{
	"epoch": 0.12251595259799453,
	"grad_norm": 0.8602972626686096,
	"learning_rate": 1.1884057971014494e-05,
	"loss": 0.8514784574508667,
	"step": 42
	},
	{
	"epoch": 0.12543299908842298,
	"grad_norm": 0.6918581128120422,
	"learning_rate": 1.2173913043478263e-05,
	"loss": 0.8182265162467957,
	"step": 43
	},
	{
	"epoch": 0.1283500455788514,
	"grad_norm": 0.653099536895752,
	"learning_rate": 1.2463768115942029e-05,
	"loss": 0.8242791891098022,
	"step": 44
	},
	{
	"epoch": 0.13126709206927986,
	"grad_norm": 0.7485584616661072,
	"learning_rate": 1.2753623188405797e-05,
	"loss": 0.8229591250419617,
	"step": 45
	},
	{
	"epoch": 0.1341841385597083,
	"grad_norm": 0.6724833250045776,
	"learning_rate": 1.3043478260869566e-05,
	"loss": 0.8146833181381226,
	"step": 46
	},
	{
	"epoch": 0.13710118505013674,
	"grad_norm": 0.857208251953125,
	"learning_rate": 1.3333333333333333e-05,
	"loss": 0.8154427409172058,
	"step": 47
	},
	{
	"epoch": 0.14001823154056517,
	"grad_norm": 0.5559669137001038,
	"learning_rate": 1.3623188405797103e-05,
	"loss": 0.879005491733551,
	"step": 48
	},
	{
	"epoch": 0.14293527803099362,
	"grad_norm": 0.5910897850990295,
	"learning_rate": 1.391304347826087e-05,
	"loss": 0.8148283362388611,
	"step": 49
	},
	{
	"epoch": 0.14585232452142205,
	"grad_norm": 0.6478891372680664,
	"learning_rate": 1.420289855072464e-05,
	"loss": 0.8293006420135498,
	"step": 50
	},
	{
	"epoch": 0.14585232452142205,
	"eval_loss": 0.7892261147499084,
	"eval_runtime": 973.2157,
	"eval_samples_per_second": 0.649,
	"eval_steps_per_second": 0.649,
	"step": 50
	},
	{
	"epoch": 0.1487693710118505,
	"grad_norm": 0.757882833480835,
	"learning_rate": 1.4492753623188407e-05,
	"loss": 0.8114852905273438,
	"step": 51
	},
	{
	"epoch": 0.15168641750227893,
	"grad_norm": 0.8496116995811462,
	"learning_rate": 1.4782608695652174e-05,
	"loss": 0.7886185050010681,
	"step": 52
	},
	{
	"epoch": 0.15460346399270739,
	"grad_norm": 0.6078857183456421,
	"learning_rate": 1.5072463768115944e-05,
	"loss": 0.7298170924186707,
	"step": 53
	},
	{
	"epoch": 0.1575205104831358,
	"grad_norm": 0.5856835246086121,
	"learning_rate": 1.536231884057971e-05,
	"loss": 0.7407160997390747,
	"step": 54
	},
	{
	"epoch": 0.16043755697356427,
	"grad_norm": 1.0533701181411743,
	"learning_rate": 1.565217391304348e-05,
	"loss": 0.7057831287384033,
	"step": 55
	},
	{
	"epoch": 0.16335460346399272,
	"grad_norm": 0.8087610006332397,
	"learning_rate": 1.5942028985507246e-05,
	"loss": 0.7409019470214844,
	"step": 56
	},
	{
	"epoch": 0.16627164995442115,
	"grad_norm": 0.629945695400238,
	"learning_rate": 1.6231884057971015e-05,
	"loss": 0.7768293023109436,
	"step": 57
	},
	{
	"epoch": 0.1691886964448496,
	"grad_norm": 0.5187911987304688,
	"learning_rate": 1.6521739130434785e-05,
	"loss": 0.825718104839325,
	"step": 58
	},
	{
	"epoch": 0.17210574293527803,
	"grad_norm": 0.5866358280181885,
	"learning_rate": 1.681159420289855e-05,
	"loss": 0.8575979471206665,
	"step": 59
	},
	{
	"epoch": 0.17502278942570648,
	"grad_norm": 1.5098934173583984,
	"learning_rate": 1.710144927536232e-05,
	"loss": 0.8058848977088928,
	"step": 60
	},
	{
	"epoch": 0.1779398359161349,
	"grad_norm": 0.6981958150863647,
	"learning_rate": 1.739130434782609e-05,
	"loss": 0.7640778422355652,
	"step": 61
	},
	{
	"epoch": 0.18085688240656336,
	"grad_norm": 0.631349503993988,
	"learning_rate": 1.7681159420289858e-05,
	"loss": 0.7896331548690796,
	"step": 62
	},
	{
	"epoch": 0.1837739288969918,
	"grad_norm": 0.6930747032165527,
	"learning_rate": 1.7971014492753624e-05,
	"loss": 0.6762524247169495,
	"step": 63
	},
	{
	"epoch": 0.18669097538742024,
	"grad_norm": 0.599399209022522,
	"learning_rate": 1.8260869565217393e-05,
	"loss": 0.7285035848617554,
	"step": 64
	},
	{
	"epoch": 0.18960802187784867,
	"grad_norm": 0.6194344758987427,
	"learning_rate": 1.8550724637681162e-05,
	"loss": 0.7682523131370544,
	"step": 65
	},
	{
	"epoch": 0.19252506836827712,
	"grad_norm": 0.5691342949867249,
	"learning_rate": 1.8840579710144928e-05,
	"loss": 0.6791993379592896,
	"step": 66
	},
	{
	"epoch": 0.19544211485870555,
	"grad_norm": 0.6257390379905701,
	"learning_rate": 1.9130434782608697e-05,
	"loss": 0.6744828224182129,
	"step": 67
	},
	{
	"epoch": 0.198359161349134,
	"grad_norm": 0.5871018767356873,
	"learning_rate": 1.9420289855072467e-05,
	"loss": 0.7317330837249756,
	"step": 68
	},
	{
	"epoch": 0.20127620783956243,
	"grad_norm": 1.0744612216949463,
	"learning_rate": 1.9710144927536236e-05,
	"loss": 0.6617178916931152,
	"step": 69
	},
	{
	"epoch": 0.2041932543299909,
	"grad_norm": 0.675946831703186,
	"learning_rate": 2e-05,
	"loss": 0.7615712881088257,
	"step": 70
	},
	{
	"epoch": 0.2071103008204193,
	"grad_norm": 0.7663411498069763,
	"learning_rate": 1.9999870372100614e-05,
	"loss": 0.7131291627883911,
	"step": 71
	},
	{
	"epoch": 0.21002734731084777,
	"grad_norm": 0.6725395321846008,
	"learning_rate": 1.9999481491763123e-05,
	"loss": 0.7452989816665649,
	"step": 72
	},
	{
	"epoch": 0.21294439380127622,
	"grad_norm": 0.6505664587020874,
	"learning_rate": 1.9998833369069483e-05,
	"loss": 0.7477136850357056,
	"step": 73
	},
	{
	"epoch": 0.21586144029170465,
	"grad_norm": 0.7032860517501831,
	"learning_rate": 1.9997926020822643e-05,
	"loss": 0.6854275465011597,
	"step": 74
	},
	{
	"epoch": 0.2187784867821331,
	"grad_norm": 0.645345151424408,
	"learning_rate": 1.999675947054614e-05,
	"loss": 0.7552425265312195,
	"step": 75
	},
	{
	"epoch": 0.22169553327256153,
	"grad_norm": 0.6620492935180664,
	"learning_rate": 1.9995333748483464e-05,
	"loss": 0.7262853384017944,
	"step": 76
	},
	{
	"epoch": 0.22461257976298998,
	"grad_norm": 0.6511455774307251,
	"learning_rate": 1.9993648891597284e-05,
	"loss": 0.7591732144355774,
	"step": 77
	},
	{
	"epoch": 0.2275296262534184,
	"grad_norm": 0.6775254011154175,
	"learning_rate": 1.9991704943568497e-05,
	"loss": 0.7498704195022583,
	"step": 78
	},
	{
	"epoch": 0.23044667274384686,
	"grad_norm": 0.8199896216392517,
	"learning_rate": 1.9989501954795076e-05,
	"loss": 0.7238684296607971,
	"step": 79
	},
	{
	"epoch": 0.2333637192342753,
	"grad_norm": 0.8197569847106934,
	"learning_rate": 1.998703998239079e-05,
	"loss": 0.7028778195381165,
	"step": 80
	},
	{
	"epoch": 0.23628076572470375,
	"grad_norm": 0.6602625250816345,
	"learning_rate": 1.9984319090183692e-05,
	"loss": 0.8842703104019165,
	"step": 81
	},
	{
	"epoch": 0.23919781221513217,
	"grad_norm": 0.9587129354476929,
	"learning_rate": 1.99813393487145e-05,
	"loss": 0.732614278793335,
	"step": 82
	},
	{
	"epoch": 0.24211485870556063,
	"grad_norm": 0.6822189092636108,
	"learning_rate": 1.997810083523473e-05,
	"loss": 0.7544928193092346,
	"step": 83
	},
	{
	"epoch": 0.24503190519598905,
	"grad_norm": 0.8980082869529724,
	"learning_rate": 1.9974603633704726e-05,
	"loss": 0.6704054474830627,
	"step": 84
	},
	{
	"epoch": 0.2479489516864175,
	"grad_norm": 0.7413425445556641,
	"learning_rate": 1.9970847834791472e-05,
	"loss": 0.693661093711853,
	"step": 85
	},
	{
	"epoch": 0.25086599817684596,
	"grad_norm": 0.8314999341964722,
	"learning_rate": 1.9966833535866223e-05,
	"loss": 0.667654275894165,
	"step": 86
	},
	{
	"epoch": 0.25378304466727436,
	"grad_norm": 0.7972444891929626,
	"learning_rate": 1.9962560841002013e-05,
	"loss": 0.8403134942054749,
	"step": 87
	},
	{
	"epoch": 0.2567000911577028,
	"grad_norm": 0.8519951701164246,
	"learning_rate": 1.995802986097093e-05,
	"loss": 0.6897370219230652,
	"step": 88
	},
	{
	"epoch": 0.25961713764813127,
	"grad_norm": 0.8268933892250061,
	"learning_rate": 1.995324071324126e-05,
	"loss": 0.6690632700920105,
	"step": 89
	},
	{
	"epoch": 0.2625341841385597,
	"grad_norm": 0.7133983969688416,
	"learning_rate": 1.9948193521974436e-05,
	"loss": 0.6314147114753723,
	"step": 90
	},
	{
	"epoch": 0.2654512306289881,
	"grad_norm": 0.889302134513855,
	"learning_rate": 1.9942888418021814e-05,
	"loss": 0.7389825582504272,
	"step": 91
	},
	{
	"epoch": 0.2683682771194166,
	"grad_norm": 0.7022432088851929,
	"learning_rate": 1.99373255389213e-05,
	"loss": 0.6916261911392212,
	"step": 92
	},
	{
	"epoch": 0.27128532360984503,
	"grad_norm": 0.696432888507843,
	"learning_rate": 1.9931505028893748e-05,
	"loss": 0.6908476948738098,
	"step": 93
	},
	{
	"epoch": 0.2742023701002735,
	"grad_norm": 0.7667419910430908,
	"learning_rate": 1.9925427038839267e-05,
	"loss": 0.6500837206840515,
	"step": 94
	},
	{
	"epoch": 0.27711941659070194,
	"grad_norm": 0.6974894404411316,
	"learning_rate": 1.9919091726333265e-05,
	"loss": 0.7059191465377808,
	"step": 95
	},
	{
	"epoch": 0.28003646308113034,
	"grad_norm": 0.7047077417373657,
	"learning_rate": 1.9912499255622397e-05,
	"loss": 0.6287837624549866,
	"step": 96
	},
	{
	"epoch": 0.2829535095715588,
	"grad_norm": 0.7729557156562805,
	"learning_rate": 1.990564979762029e-05,
	"loss": 0.6738612055778503,
	"step": 97
	},
	{
	"epoch": 0.28587055606198725,
	"grad_norm": 0.7020529508590698,
	"learning_rate": 1.989854352990311e-05,
	"loss": 0.662042498588562,
	"step": 98
	},
	{
	"epoch": 0.2887876025524157,
	"grad_norm": 0.7369800209999084,
	"learning_rate": 1.9891180636704975e-05,
	"loss": 0.6246830821037292,
	"step": 99
	},
	{
	"epoch": 0.2917046490428441,
	"grad_norm": 0.7412623167037964,
	"learning_rate": 1.9883561308913154e-05,
	"loss": 0.6623879075050354,
	"step": 100
	},
	{
	"epoch": 0.2917046490428441,
	"eval_loss": 0.6552971005439758,
	"eval_runtime": 966.7072,
	"eval_samples_per_second": 0.654,
	"eval_steps_per_second": 0.654,
	"step": 100
	},
	{
	"epoch": 0.29462169553327255,
	"grad_norm": 0.8428792953491211,
	"learning_rate": 1.987568574406314e-05,
	"loss": 0.6312171816825867,
	"step": 101
	},
	{
	"epoch": 0.297538742023701,
	"grad_norm": 0.6948133707046509,
	"learning_rate": 1.9867554146333517e-05,
	"loss": 0.6266146898269653,
	"step": 102
	},
	{
	"epoch": 0.30045578851412946,
	"grad_norm": 1.3897597789764404,
	"learning_rate": 1.985916672654068e-05,
	"loss": 0.6669265031814575,
	"step": 103
	},
	{
	"epoch": 0.30337283500455786,
	"grad_norm": 0.8838400840759277,
	"learning_rate": 1.985052370213334e-05,
	"loss": 0.6601086854934692,
	"step": 104
	},
	{
	"epoch": 0.3062898814949863,
	"grad_norm": 0.8471395373344421,
	"learning_rate": 1.9841625297186925e-05,
	"loss": 0.5984431505203247,
	"step": 105
	},
	{
	"epoch": 0.30920692798541477,
	"grad_norm": 0.8940042853355408,
	"learning_rate": 1.983247174239774e-05,
	"loss": 0.7223822474479675,
	"step": 106
	},
	{
	"epoch": 0.3121239744758432,
	"grad_norm": 0.7833696603775024,
	"learning_rate": 1.9823063275076998e-05,
	"loss": 0.6868705749511719,
	"step": 107
	},
	{
	"epoch": 0.3150410209662716,
	"grad_norm": 0.8794649243354797,
	"learning_rate": 1.9813400139144673e-05,
	"loss": 0.6246675848960876,
	"step": 108
	},
	{
	"epoch": 0.3179580674567001,
	"grad_norm": 0.8126057982444763,
	"learning_rate": 1.9803482585123165e-05,
	"loss": 0.5908697247505188,
	"step": 109
	},
	{
	"epoch": 0.32087511394712853,
	"grad_norm": 0.7947676777839661,
	"learning_rate": 1.979331087013082e-05,
	"loss": 0.5751246809959412,
	"step": 110
	},
	{
	"epoch": 0.323792160437557,
	"grad_norm": 0.713545560836792,
	"learning_rate": 1.978288525787524e-05,
	"loss": 0.6081106066703796,
	"step": 111
	},
	{
	"epoch": 0.32670920692798544,
	"grad_norm": 1.011828064918518,
	"learning_rate": 1.977220601864647e-05,
	"loss": 0.7039169669151306,
	"step": 112
	},
	{
	"epoch": 0.32962625341841384,
	"grad_norm": 0.730570912361145,
	"learning_rate": 1.9761273429309982e-05,
	"loss": 0.6140255928039551,
	"step": 113
	},
	{
	"epoch": 0.3325432999088423,
	"grad_norm": 1.059688687324524,
	"learning_rate": 1.9750087773299492e-05,
	"loss": 0.648114025592804,
	"step": 114
	},
	{
	"epoch": 0.33546034639927075,
	"grad_norm": 0.9336895942687988,
	"learning_rate": 1.973864934060962e-05,
	"loss": 0.622555673122406,
	"step": 115
	},
	{
	"epoch": 0.3383773928896992,
	"grad_norm": 0.7195945978164673,
	"learning_rate": 1.9726958427788367e-05,
	"loss": 0.70485520362854,
	"step": 116
	},
	{
	"epoch": 0.3412944393801276,
	"grad_norm": 0.8101872801780701,
	"learning_rate": 1.971501533792942e-05,
	"loss": 0.6958848834037781,
	"step": 117
	},
	{
	"epoch": 0.34421148587055606,
	"grad_norm": 1.6075212955474854,
	"learning_rate": 1.970282038066432e-05,
	"loss": 0.6021550893783569,
	"step": 118
	},
	{
	"epoch": 0.3471285323609845,
	"grad_norm": 0.7881433963775635,
	"learning_rate": 1.9690373872154396e-05,
	"loss": 0.6449777483940125,
	"step": 119
	},
	{
	"epoch": 0.35004557885141296,
	"grad_norm": 1.014639973640442,
	"learning_rate": 1.9677676135082606e-05,
	"loss": 0.5939379930496216,
	"step": 120
	},
	{
	"epoch": 0.35296262534184136,
	"grad_norm": 0.8198449611663818,
	"learning_rate": 1.9664727498645144e-05,
	"loss": 0.6210286617279053,
	"step": 121
	},
	{
	"epoch": 0.3558796718322698,
	"grad_norm": 1.0194576978683472,
	"learning_rate": 1.9651528298542918e-05,
	"loss": 0.624247670173645,
	"step": 122
	},
	{
	"epoch": 0.35879671832269827,
	"grad_norm": 0.7963470220565796,
	"learning_rate": 1.9638078876972842e-05,
	"loss": 0.6479315757751465,
	"step": 123
	},
	{
	"epoch": 0.3617137648131267,
	"grad_norm": 0.9007541537284851,
	"learning_rate": 1.9624379582618976e-05,
	"loss": 0.6131505370140076,
	"step": 124
	},
	{
	"epoch": 0.3646308113035551,
	"grad_norm": 0.8712120056152344,
	"learning_rate": 1.9610430770643464e-05,
	"loss": 0.6249448657035828,
	"step": 125
	},
	{
	"epoch": 0.3675478577939836,
	"grad_norm": 1.1482540369033813,
	"learning_rate": 1.9596232802677347e-05,
	"loss": 0.5844688415527344,
	"step": 126
	},
	{
	"epoch": 0.37046490428441203,
	"grad_norm": 0.8662379384040833,
	"learning_rate": 1.9581786046811175e-05,
	"loss": 0.6573485732078552,
	"step": 127
	},
	{
	"epoch": 0.3733819507748405,
	"grad_norm": 0.8191388845443726,
	"learning_rate": 1.9567090877585477e-05,
	"loss": 0.5896862745285034,
	"step": 128
	},
	{
	"epoch": 0.37629899726526894,
	"grad_norm": 1.0187078714370728,
	"learning_rate": 1.955214767598103e-05,
	"loss": 0.613490879535675,
	"step": 129
	},
	{
	"epoch": 0.37921604375569734,
	"grad_norm": 0.8444119691848755,
	"learning_rate": 1.953695682940901e-05,
	"loss": 0.727687656879425,
	"step": 130
	},
	{
	"epoch": 0.3821330902461258,
	"grad_norm": 0.74753737449646,
	"learning_rate": 1.9521518731700913e-05,
	"loss": 0.6102436780929565,
	"step": 131
	},
	{
	"epoch": 0.38505013673655425,
	"grad_norm": 1.0166202783584595,
	"learning_rate": 1.9505833783098378e-05,
	"loss": 0.6244844198226929,
	"step": 132
	},
	{
	"epoch": 0.3879671832269827,
	"grad_norm": 0.8175772428512573,
	"learning_rate": 1.9489902390242793e-05,
	"loss": 0.5939282178878784,
	"step": 133
	},
	{
	"epoch": 0.3908842297174111,
	"grad_norm": 1.0177713632583618,
	"learning_rate": 1.947372496616476e-05,
	"loss": 0.6418229937553406,
	"step": 134
	},
	{
	"epoch": 0.39380127620783956,
	"grad_norm": 0.8652453422546387,
	"learning_rate": 1.9457301930273376e-05,
	"loss": 0.5870395302772522,
	"step": 135
	},
	{
	"epoch": 0.396718322698268,
	"grad_norm": 0.8378894925117493,
	"learning_rate": 1.9440633708345365e-05,
	"loss": 0.6480278372764587,
	"step": 136
	},
	{
	"epoch": 0.39963536918869647,
	"grad_norm": 0.8303541541099548,
	"learning_rate": 1.9423720732514052e-05,
	"loss": 0.6191359758377075,
	"step": 137
	},
	{
	"epoch": 0.40255241567912486,
	"grad_norm": 0.8576734662055969,
	"learning_rate": 1.9406563441258145e-05,
	"loss": 0.5696198344230652,
	"step": 138
	},
	{
	"epoch": 0.4054694621695533,
	"grad_norm": 0.9558727145195007,
	"learning_rate": 1.9389162279390362e-05,
	"loss": 0.6177623271942139,
	"step": 139
	},
	{
	"epoch": 0.4083865086599818,
	"grad_norm": 0.7046042084693909,
	"learning_rate": 1.9371517698045922e-05,
	"loss": 0.5836521983146667,
	"step": 140
	},
	{
	"epoch": 0.4113035551504102,
	"grad_norm": 1.0522717237472534,
	"learning_rate": 1.935363015467082e-05,
	"loss": 0.5728275775909424,
	"step": 141
	},
	{
	"epoch": 0.4142206016408386,
	"grad_norm": 0.9554787874221802,
	"learning_rate": 1.933550011301e-05,
	"loss": 0.632586658000946,
	"step": 142
	},
	{
	"epoch": 0.4171376481312671,
	"grad_norm": 0.8874214291572571,
	"learning_rate": 1.9317128043095293e-05,
	"loss": 0.5850118398666382,
	"step": 143
	},
	{
	"epoch": 0.42005469462169553,
	"grad_norm": 1.0708963871002197,
	"learning_rate": 1.9298514421233276e-05,
	"loss": 0.6260685324668884,
	"step": 144
	},
	{
	"epoch": 0.422971741112124,
	"grad_norm": 0.8135736584663391,
	"learning_rate": 1.9279659729992888e-05,
	"loss": 0.6031094193458557,
	"step": 145
	},
	{
	"epoch": 0.42588878760255244,
	"grad_norm": 0.7971774339675903,
	"learning_rate": 1.9260564458192926e-05,
	"loss": 0.6101322770118713,
	"step": 146
	},
	{
	"epoch": 0.42880583409298084,
	"grad_norm": 0.9374974966049194,
	"learning_rate": 1.9241229100889397e-05,
	"loss": 0.5836313366889954,
	"step": 147
	},
	{
	"epoch": 0.4317228805834093,
	"grad_norm": 0.8043425679206848,
	"learning_rate": 1.9221654159362636e-05,
	"loss": 0.6181215047836304,
	"step": 148
	},
	{
	"epoch": 0.43463992707383775,
	"grad_norm": 0.8923380374908447,
	"learning_rate": 1.920184014110436e-05,
	"loss": 0.6149677634239197,
	"step": 149
	},
	{
	"epoch": 0.4375569735642662,
	"grad_norm": 0.8908132314682007,
	"learning_rate": 1.918178755980449e-05,
	"loss": 0.5899742841720581,
	"step": 150
	},
	{
	"epoch": 0.4375569735642662,
	"eval_loss": 0.5903874635696411,
	"eval_runtime": 1186.9542,
	"eval_samples_per_second": 0.532,
	"eval_steps_per_second": 0.532,
	"step": 150
	},
	{
	"epoch": 0.4404740200546946,
	"grad_norm": 1.060531497001648,
	"learning_rate": 1.9161496935337808e-05,
	"loss": 0.5852696895599365,
	"step": 151
	},
	{
	"epoch": 0.44339106654512306,
	"grad_norm": 0.9723032712936401,
	"learning_rate": 1.914096879375053e-05,
	"loss": 0.5822056531906128,
	"step": 152
	},
	{
	"epoch": 0.4463081130355515,
	"grad_norm": 0.9519931674003601,
	"learning_rate": 1.912020366724663e-05,
	"loss": 0.6183493137359619,
	"step": 153
	},
	{
	"epoch": 0.44922515952597997,
	"grad_norm": 0.8282918334007263,
	"learning_rate": 1.9099202094174055e-05,
	"loss": 0.6229860782623291,
	"step": 154
	},
	{
	"epoch": 0.45214220601640837,
	"grad_norm": 0.9251292943954468,
	"learning_rate": 1.907796461901076e-05,
	"loss": 0.6552959680557251,
	"step": 155
	},
	{
	"epoch": 0.4550592525068368,
	"grad_norm": 1.0349540710449219,
	"learning_rate": 1.9056491792350606e-05,
	"loss": 0.6170098781585693,
	"step": 156
	},
	{
	"epoch": 0.4579762989972653,
	"grad_norm": 0.8720711469650269,
	"learning_rate": 1.9034784170889076e-05,
	"loss": 0.5870137810707092,
	"step": 157
	},
	{
	"epoch": 0.46089334548769373,
	"grad_norm": 1.0785977840423584,
	"learning_rate": 1.9012842317408843e-05,
	"loss": 0.5515124201774597,
	"step": 158
	},
	{
	"epoch": 0.4638103919781221,
	"grad_norm": 1.0634154081344604,
	"learning_rate": 1.8990666800765187e-05,
	"loss": 0.6073828339576721,
	"step": 159
	},
	{
	"epoch": 0.4667274384685506,
	"grad_norm": 0.8770879507064819,
	"learning_rate": 1.896825819587123e-05,
	"loss": 0.5960907936096191,
	"step": 160
	},
	{
	"epoch": 0.46964448495897904,
	"grad_norm": 1.1225898265838623,
	"learning_rate": 1.894561708368305e-05,
	"loss": 0.545990526676178,
	"step": 161
	},
	{
	"epoch": 0.4725615314494075,
	"grad_norm": 0.9373893141746521,
	"learning_rate": 1.8922744051184613e-05,
	"loss": 0.5566108822822571,
	"step": 162
	},
	{
	"epoch": 0.4754785779398359,
	"grad_norm": 1.5016087293624878,
	"learning_rate": 1.8899639691372545e-05,
	"loss": 0.558845043182373,
	"step": 163
	},
	{
	"epoch": 0.47839562443026434,
	"grad_norm": 0.903020977973938,
	"learning_rate": 1.8876304603240773e-05,
	"loss": 0.6824233531951904,
	"step": 164
	},
	{
	"epoch": 0.4813126709206928,
	"grad_norm": 0.8239623308181763,
	"learning_rate": 1.8852739391764993e-05,
	"loss": 0.5630610585212708,
	"step": 165
	},
	{
	"epoch": 0.48422971741112125,
	"grad_norm": 0.926069438457489,
	"learning_rate": 1.882894466788697e-05,
	"loss": 0.6211802363395691,
	"step": 166
	},
	{
	"epoch": 0.4871467639015497,
	"grad_norm": 1.0098828077316284,
	"learning_rate": 1.8804921048498722e-05,
	"loss": 0.5513257384300232,
	"step": 167
	},
	{
	"epoch": 0.4900638103919781,
	"grad_norm": 0.9228141903877258,
	"learning_rate": 1.8780669156426517e-05,
	"loss": 0.6197121739387512,
	"step": 168
	},
	{
	"epoch": 0.49298085688240656,
	"grad_norm": 1.0551754236221313,
	"learning_rate": 1.8756189620414712e-05,
	"loss": 0.5221806764602661,
	"step": 169
	},
	{
	"epoch": 0.495897903372835,
	"grad_norm": 0.9017496109008789,
	"learning_rate": 1.873148307510948e-05,
	"loss": 0.5766995549201965,
	"step": 170
	},
	{
	"epoch": 0.49881494986326347,
	"grad_norm": 0.9704970717430115,
	"learning_rate": 1.870655016104233e-05,
	"loss": 0.6514763832092285,
	"step": 171
	},
	{
	"epoch": 0.5017319963536919,
	"grad_norm": 0.9972712397575378,
	"learning_rate": 1.8681391524613518e-05,
	"loss": 0.5273895263671875,
	"step": 172
	},
	{
	"epoch": 0.5046490428441204,
	"grad_norm": 0.9473339319229126,
	"learning_rate": 1.8656007818075288e-05,
	"loss": 0.5548599362373352,
	"step": 173
	},
	{
	"epoch": 0.5075660893345487,
	"grad_norm": 1.2493574619293213,
	"learning_rate": 1.8630399699514944e-05,
	"loss": 0.5593586564064026,
	"step": 174
	},
	{
	"epoch": 0.5104831358249772,
	"grad_norm": 1.2766696214675903,
	"learning_rate": 1.860456783283781e-05,
	"loss": 0.6054630279541016,
	"step": 175
	},
	{
	"epoch": 0.5134001823154056,
	"grad_norm": 0.9555240869522095,
	"learning_rate": 1.857851288775002e-05,
	"loss": 0.508592963218689,
	"step": 176
	},
	{
	"epoch": 0.5163172288058341,
	"grad_norm": 1.260219931602478,
	"learning_rate": 1.8552235539741118e-05,
	"loss": 0.5532065629959106,
	"step": 177
	},
	{
	"epoch": 0.5192342752962625,
	"grad_norm": 1.1859954595565796,
	"learning_rate": 1.8525736470066595e-05,
	"loss": 0.5683344006538391,
	"step": 178
	},
	{
	"epoch": 0.522151321786691,
	"grad_norm": 1.3044344186782837,
	"learning_rate": 1.8499016365730203e-05,
	"loss": 0.5281959772109985,
	"step": 179
	},
	{
	"epoch": 0.5250683682771194,
	"grad_norm": 1.3049921989440918,
	"learning_rate": 1.8472075919466137e-05,
	"loss": 0.49621230363845825,
	"step": 180
	},
	{
	"epoch": 0.5279854147675479,
	"grad_norm": 1.0488537549972534,
	"learning_rate": 1.844491582972109e-05,
	"loss": 0.6194032430648804,
	"step": 181
	},
	{
	"epoch": 0.5309024612579762,
	"grad_norm": 1.5553455352783203,
	"learning_rate": 1.8417536800636138e-05,
	"loss": 0.5645846724510193,
	"step": 182
	},
	{
	"epoch": 0.5338195077484047,
	"grad_norm": 1.2673912048339844,
	"learning_rate": 1.8389939542028484e-05,
	"loss": 0.6267315745353699,
	"step": 183
	},
	{
	"epoch": 0.5367365542388332,
	"grad_norm": 1.0273847579956055,
	"learning_rate": 1.8362124769373064e-05,
	"loss": 0.5256403684616089,
	"step": 184
	},
	{
	"epoch": 0.5396536007292616,
	"grad_norm": 1.006093978881836,
	"learning_rate": 1.8334093203783986e-05,
	"loss": 0.5916382074356079,
	"step": 185
	},
	{
	"epoch": 0.5425706472196901,
	"grad_norm": 1.2740857601165771,
	"learning_rate": 1.8305845571995843e-05,
	"loss": 0.581648588180542,
	"step": 186
	},
	{
	"epoch": 0.5454876937101185,
	"grad_norm": 1.494248390197754,
	"learning_rate": 1.8277382606344872e-05,
	"loss": 0.4824523627758026,
	"step": 187
	},
	{
	"epoch": 0.548404740200547,
	"grad_norm": 1.1862496137619019,
	"learning_rate": 1.824870504474996e-05,
	"loss": 0.5531858205795288,
	"step": 188
	},
	{
	"epoch": 0.5513217866909754,
	"grad_norm": 3.503049373626709,
	"learning_rate": 1.8219813630693523e-05,
	"loss": 0.6308296918869019,
	"step": 189
	},
	{
	"epoch": 0.5542388331814039,
	"grad_norm": 1.7544710636138916,
	"learning_rate": 1.819070911320222e-05,
	"loss": 0.6146273016929626,
	"step": 190
	},
	{
	"epoch": 0.5571558796718322,
	"grad_norm": 1.3367774486541748,
	"learning_rate": 1.8161392246827546e-05,
	"loss": 0.5848966240882874,
	"step": 191
	},
	{
	"epoch": 0.5600729261622607,
	"grad_norm": 1.696418046951294,
	"learning_rate": 1.8131863791626263e-05,
	"loss": 0.6621730327606201,
	"step": 192
	},
	{
	"epoch": 0.5629899726526891,
	"grad_norm": 1.360052227973938,
	"learning_rate": 1.8102124513140694e-05,
	"loss": 0.5972204208374023,
	"step": 193
	},
	{
	"epoch": 0.5659070191431176,
	"grad_norm": 1.5376263856887817,
	"learning_rate": 1.807217518237888e-05,
	"loss": 0.4938785433769226,
	"step": 194
	},
	{
	"epoch": 0.568824065633546,
	"grad_norm": 1.2249681949615479,
	"learning_rate": 1.8042016575794585e-05,
	"loss": 0.5366095304489136,
	"step": 195
	},
	{
	"epoch": 0.5717411121239745,
	"grad_norm": 1.7868080139160156,
	"learning_rate": 1.8011649475267178e-05,
	"loss": 0.5116773843765259,
	"step": 196
	},
	{
	"epoch": 0.574658158614403,
	"grad_norm": 2.369993209838867,
	"learning_rate": 1.7981074668081345e-05,
	"loss": 0.49072742462158203,
	"step": 197
	},
	{
	"epoch": 0.5775752051048314,
	"grad_norm": 1.0168434381484985,
	"learning_rate": 1.7950292946906695e-05,
	"loss": 0.5691611170768738,
	"step": 198
	},
	{
	"epoch": 0.5804922515952597,
	"grad_norm": 1.2990851402282715,
	"learning_rate": 1.7919305109777195e-05,
	"loss": 0.5515039563179016,
	"step": 199
	},
	{
	"epoch": 0.5834092980856882,
	"grad_norm": 1.4859853982925415,
	"learning_rate": 1.7888111960070493e-05,
	"loss": 0.5017011165618896,
	"step": 200
	},
	{
	"epoch": 0.5834092980856882,
	"eval_loss": 0.5414339303970337,
	"eval_runtime": 1180.7894,
	"eval_samples_per_second": 0.535,
	"eval_steps_per_second": 0.535,
	"step": 200
	},
	{
	"epoch": 0.5863263445761167,
	"grad_norm": 1.0065829753875732,
	"learning_rate": 1.7856714306487088e-05,
	"loss": 0.5677731037139893,
	"step": 201
	},
	{
	"epoch": 0.5892433910665451,
	"grad_norm": 1.1727538108825684,
	"learning_rate": 1.7825112963029352e-05,
	"loss": 0.4525509476661682,
	"step": 202
	},
	{
	"epoch": 0.5921604375569736,
	"grad_norm": 1.3376752138137817,
	"learning_rate": 1.7793308748980437e-05,
	"loss": 0.5208959579467773,
	"step": 203
	},
	{
	"epoch": 0.595077484047402,
	"grad_norm": 0.9196159839630127,
	"learning_rate": 1.776130248888304e-05,
	"loss": 0.6033903360366821,
	"step": 204
	},
	{
	"epoch": 0.5979945305378305,
	"grad_norm": 1.0750919580459595,
	"learning_rate": 1.772909501251801e-05,
	"loss": 0.5449609160423279,
	"step": 205
	},
	{
	"epoch": 0.6009115770282589,
	"grad_norm": 1.2459467649459839,
	"learning_rate": 1.769668715488285e-05,
	"loss": 0.5685338377952576,
	"step": 206
	},
	{
	"epoch": 0.6038286235186874,
	"grad_norm": 1.1690552234649658,
	"learning_rate": 1.766407975617006e-05,
	"loss": 0.5240382552146912,
	"step": 207
	},
	{
	"epoch": 0.6067456700091157,
	"grad_norm": 1.0816599130630493,
	"learning_rate": 1.7631273661745362e-05,
	"loss": 0.6802893877029419,
	"step": 208
	},
	{
	"epoch": 0.6096627164995442,
	"grad_norm": 1.3662947416305542,
	"learning_rate": 1.7598269722125775e-05,
	"loss": 0.48193931579589844,
	"step": 209
	},
	{
	"epoch": 0.6125797629899726,
	"grad_norm": 0.9364766478538513,
	"learning_rate": 1.7565068792957576e-05,
	"loss": 0.5675849914550781,
	"step": 210
	},
	{
	"epoch": 0.6154968094804011,
	"grad_norm": 1.123828411102295,
	"learning_rate": 1.75316717349941e-05,
	"loss": 0.5474762916564941,
	"step": 211
	},
	{
	"epoch": 0.6184138559708295,
	"grad_norm": 1.1924363374710083,
	"learning_rate": 1.749807941407345e-05,
	"loss": 0.4918654263019562,
	"step": 212
	},
	{
	"epoch": 0.621330902461258,
	"grad_norm": 1.101293921470642,
	"learning_rate": 1.7464292701096014e-05,
	"loss": 0.5742691159248352,
	"step": 213
	},
	{
	"epoch": 0.6242479489516864,
	"grad_norm": 1.7374963760375977,
	"learning_rate": 1.7430312472001928e-05,
	"loss": 0.5828965902328491,
	"step": 214
	},
	{
	"epoch": 0.6271649954421149,
	"grad_norm": 1.3195666074752808,
	"learning_rate": 1.739613960774833e-05,
	"loss": 0.5265159010887146,
	"step": 215
	},
	{
	"epoch": 0.6300820419325432,
	"grad_norm": 1.254686713218689,
	"learning_rate": 1.7361774994286545e-05,
	"loss": 0.4929371476173401,
	"step": 216
	},
	{
	"epoch": 0.6329990884229717,
	"grad_norm": 1.1476380825042725,
	"learning_rate": 1.7327219522539102e-05,
	"loss": 0.5060417652130127,
	"step": 217
	},
	{
	"epoch": 0.6359161349134002,
	"grad_norm": 1.0914150476455688,
	"learning_rate": 1.7292474088376643e-05,
	"loss": 0.504043698310852,
	"step": 218
	},
	{
	"epoch": 0.6388331814038286,
	"grad_norm": 1.1339508295059204,
	"learning_rate": 1.7257539592594698e-05,
	"loss": 0.4797310531139374,
	"step": 219
	},
	{
	"epoch": 0.6417502278942571,
	"grad_norm": 1.0805399417877197,
	"learning_rate": 1.722241694089033e-05,
	"loss": 0.5878555178642273,
	"step": 220
	},
	{
	"epoch": 0.6446672743846855,
	"grad_norm": 1.8615056276321411,
	"learning_rate": 1.718710704383865e-05,
	"loss": 0.5005823969841003,
	"step": 221
	},
	{
	"epoch": 0.647584320875114,
	"grad_norm": 1.1445401906967163,
	"learning_rate": 1.7151610816869214e-05,
	"loss": 0.4949319064617157,
	"step": 222
	},
	{
	"epoch": 0.6505013673655424,
	"grad_norm": 0.9726515412330627,
	"learning_rate": 1.711592918024229e-05,
	"loss": 0.5073204040527344,
	"step": 223
	},
	{
	"epoch": 0.6534184138559709,
	"grad_norm": 1.4491140842437744,
	"learning_rate": 1.7080063059024998e-05,
	"loss": 0.47885262966156006,
	"step": 224
	},
	{
	"epoch": 0.6563354603463992,
	"grad_norm": 1.0070592164993286,
	"learning_rate": 1.7044013383067327e-05,
	"loss": 0.5775837898254395,
	"step": 225
	},
	{
	"epoch": 0.6592525068368277,
	"grad_norm": 0.966221272945404,
	"learning_rate": 1.7007781086978037e-05,
	"loss": 0.5050399899482727,
	"step": 226
	},
	{
	"epoch": 0.6621695533272561,
	"grad_norm": 0.9808815121650696,
	"learning_rate": 1.6971367110100407e-05,
	"loss": 0.5737045407295227,
	"step": 227
	},
	{
	"epoch": 0.6650865998176846,
	"grad_norm": 1.0158127546310425,
	"learning_rate": 1.6934772396487906e-05,
	"loss": 0.48077821731567383,
	"step": 228
	},
	{
	"epoch": 0.668003646308113,
	"grad_norm": 1.32015860080719,
	"learning_rate": 1.6897997894879706e-05,
	"loss": 0.5614925026893616,
	"step": 229
	},
	{
	"epoch": 0.6709206927985415,
	"grad_norm": 1.1055903434753418,
	"learning_rate": 1.686104455867608e-05,
	"loss": 0.4970760643482208,
	"step": 230
	},
	{
	"epoch": 0.67383773928897,
	"grad_norm": 1.0804500579833984,
	"learning_rate": 1.682391334591371e-05,
	"loss": 0.5540452003479004,
	"step": 231
	},
	{
	"epoch": 0.6767547857793984,
	"grad_norm": 1.1906245946884155,
	"learning_rate": 1.6786605219240807e-05,
	"loss": 0.5778501033782959,
	"step": 232
	},
	{
	"epoch": 0.6796718322698267,
	"grad_norm": 0.9758645296096802,
	"learning_rate": 1.6749121145892192e-05,
	"loss": 0.49073565006256104,
	"step": 233
	},
	{
	"epoch": 0.6825888787602552,
	"grad_norm": 1.1678364276885986,
	"learning_rate": 1.6711462097664207e-05,
	"loss": 0.4828741252422333,
	"step": 234
	},
	{
	"epoch": 0.6855059252506837,
	"grad_norm": 1.148301362991333,
	"learning_rate": 1.6673629050889507e-05,
	"loss": 0.5143818855285645,
	"step": 235
	},
	{
	"epoch": 0.6884229717411121,
	"grad_norm": 1.005898356437683,
	"learning_rate": 1.6635622986411776e-05,
	"loss": 0.5301160216331482,
	"step": 236
	},
	{
	"epoch": 0.6913400182315406,
	"grad_norm": 1.2227320671081543,
	"learning_rate": 1.659744488956027e-05,
	"loss": 0.4800386130809784,
	"step": 237
	},
	{
	"epoch": 0.694257064721969,
	"grad_norm": 0.986456573009491,
	"learning_rate": 1.6559095750124296e-05,
	"loss": 0.5098081827163696,
	"step": 238
	},
	{
	"epoch": 0.6971741112123975,
	"grad_norm": 1.1474376916885376,
	"learning_rate": 1.6520576562327518e-05,
	"loss": 0.5147273540496826,
	"step": 239
	},
	{
	"epoch": 0.7000911577028259,
	"grad_norm": 1.10917067527771,
	"learning_rate": 1.6481888324802223e-05,
	"loss": 0.5023190379142761,
	"step": 240
	},
	{
	"epoch": 0.7030082041932544,
	"grad_norm": 1.2339262962341309,
	"learning_rate": 1.644303204056341e-05,
	"loss": 0.5282092690467834,
	"step": 241
	},
	{
	"epoch": 0.7059252506836827,
	"grad_norm": 0.997941255569458,
	"learning_rate": 1.640400871698277e-05,
	"loss": 0.5635963082313538,
	"step": 242
	},
	{
	"epoch": 0.7088422971741112,
	"grad_norm": 1.0345823764801025,
	"learning_rate": 1.63648193657626e-05,
	"loss": 0.5577977895736694,
	"step": 243
	},
	{
	"epoch": 0.7117593436645396,
	"grad_norm": 1.3468303680419922,
	"learning_rate": 1.6325465002909554e-05,
	"loss": 0.4365362524986267,
	"step": 244
	},
	{
	"epoch": 0.7146763901549681,
	"grad_norm": 1.2817128896713257,
	"learning_rate": 1.628594664870831e-05,
	"loss": 0.46069926023483276,
	"step": 245
	},
	{
	"epoch": 0.7175934366453965,
	"grad_norm": 1.043311357498169,
	"learning_rate": 1.6246265327695117e-05,
	"loss": 0.5476971864700317,
	"step": 246
	},
	{
	"epoch": 0.720510483135825,
	"grad_norm": 1.0297389030456543,
	"learning_rate": 1.620642206863124e-05,
	"loss": 0.48051249980926514,
	"step": 247
	},
	{
	"epoch": 0.7234275296262535,
	"grad_norm": 1.4869836568832397,
	"learning_rate": 1.6166417904476257e-05,
	"loss": 0.5683314800262451,
	"step": 248
	},
	{
	"epoch": 0.7263445761166819,
	"grad_norm": 1.0628005266189575,
	"learning_rate": 1.6126253872361336e-05,
	"loss": 0.5277887582778931,
	"step": 249
	},
	{
	"epoch": 0.7292616226071102,
	"grad_norm": 1.2682170867919922,
	"learning_rate": 1.608593101356229e-05,
	"loss": 0.5048879384994507,
	"step": 250
	},
	{
	"epoch": 0.7292616226071102,
	"eval_loss": 0.5038471221923828,
	"eval_runtime": 1175.0375,
	"eval_samples_per_second": 0.538,
	"eval_steps_per_second": 0.538,
	"step": 250
	},
	{
	"epoch": 0.7321786690975387,
	"grad_norm": 1.7376199960708618,
	"learning_rate": 1.6045450373472626e-05,
	"loss": 0.5093721151351929,
	"step": 251
	},
	{
	"epoch": 0.7350957155879672,
	"grad_norm": 1.6047718524932861,
	"learning_rate": 1.6004813001576405e-05,
	"loss": 0.4796055555343628,
	"step": 252
	},
	{
	"epoch": 0.7380127620783956,
	"grad_norm": 1.3582886457443237,
	"learning_rate": 1.5964019951421058e-05,
	"loss": 0.4733014702796936,
	"step": 253
	},
	{
	"epoch": 0.7409298085688241,
	"grad_norm": 0.9468897581100464,
	"learning_rate": 1.5923072280590072e-05,
	"loss": 0.5312032103538513,
	"step": 254
	},
	{
	"epoch": 0.7438468550592525,
	"grad_norm": 1.3890198469161987,
	"learning_rate": 1.5881971050675547e-05,
	"loss": 0.47576645016670227,
	"step": 255
	},
	{
	"epoch": 0.746763901549681,
	"grad_norm": 1.782992959022522,
	"learning_rate": 1.584071732725071e-05,
	"loss": 0.5555092096328735,
	"step": 256
	},
	{
	"epoch": 0.7496809480401094,
	"grad_norm": 1.1790621280670166,
	"learning_rate": 1.5799312179842265e-05,
	"loss": 0.5148727893829346,
	"step": 257
	},
	{
	"epoch": 0.7525979945305379,
	"grad_norm": 1.446694254875183,
	"learning_rate": 1.5757756681902664e-05,
	"loss": 0.49939870834350586,
	"step": 258
	},
	{
	"epoch": 0.7555150410209662,
	"grad_norm": 1.1786166429519653,
	"learning_rate": 1.571605191078229e-05,
	"loss": 0.562156081199646,
	"step": 259
	},
	{
	"epoch": 0.7584320875113947,
	"grad_norm": 1.16925847530365,
	"learning_rate": 1.567419894770151e-05,
	"loss": 0.49580734968185425,
	"step": 260
	},
	{
	"epoch": 0.7613491340018231,
	"grad_norm": 1.60944664478302,
	"learning_rate": 1.5632198877722676e-05,
	"loss": 0.4821680784225464,
	"step": 261
	},
	{
	"epoch": 0.7642661804922516,
	"grad_norm": 1.3957884311676025,
	"learning_rate": 1.5590052789721946e-05,
	"loss": 0.4392276406288147,
	"step": 262
	},
	{
	"epoch": 0.76718322698268,
	"grad_norm": 1.636195421218872,
	"learning_rate": 1.5547761776361096e-05,
	"loss": 0.39603114128112793,
	"step": 263
	},
	{
	"epoch": 0.7701002734731085,
	"grad_norm": 1.496766448020935,
	"learning_rate": 1.550532693405917e-05,
	"loss": 0.4833749234676361,
	"step": 264
	},
	{
	"epoch": 0.773017319963537,
	"grad_norm": 1.3587844371795654,
	"learning_rate": 1.5462749362964058e-05,
	"loss": 0.43738317489624023,
	"step": 265
	},
	{
	"epoch": 0.7759343664539654,
	"grad_norm": 1.670704960823059,
	"learning_rate": 1.5420030166923983e-05,
	"loss": 0.4476737380027771,
	"step": 266
	},
	{
	"epoch": 0.7788514129443938,
	"grad_norm": 1.2674932479858398,
	"learning_rate": 1.537717045345888e-05,
	"loss": 0.42266708612442017,
	"step": 267
	},
	{
	"epoch": 0.7817684594348222,
	"grad_norm": 2.0639536380767822,
	"learning_rate": 1.5334171333731666e-05,
	"loss": 0.5245381593704224,
	"step": 268
	},
	{
	"epoch": 0.7846855059252507,
	"grad_norm": 1.2091766595840454,
	"learning_rate": 1.529103392251946e-05,
	"loss": 0.5166443586349487,
	"step": 269
	},
	{
	"epoch": 0.7876025524156791,
	"grad_norm": 1.1021631956100464,
	"learning_rate": 1.5247759338184653e-05,
	"loss": 0.5674265027046204,
	"step": 270
	},
	{
	"epoch": 0.7905195989061076,
	"grad_norm": 1.3143829107284546,
	"learning_rate": 1.520434870264595e-05,
	"loss": 0.40855613350868225,
	"step": 271
	},
	{
	"epoch": 0.793436645396536,
	"grad_norm": 1.1784812211990356,
	"learning_rate": 1.5160803141349244e-05,
	"loss": 0.4308925271034241,
	"step": 272
	},
	{
	"epoch": 0.7963536918869645,
	"grad_norm": 2.1635706424713135,
	"learning_rate": 1.5117123783238458e-05,
	"loss": 0.45035502314567566,
	"step": 273
	},
	{
	"epoch": 0.7992707383773929,
	"grad_norm": 1.569203495979309,
	"learning_rate": 1.5073311760726287e-05,
	"loss": 0.5095728635787964,
	"step": 274
	},
	{
	"epoch": 0.8021877848678214,
	"grad_norm": 2.532621383666992,
	"learning_rate": 1.5029368209664822e-05,
	"loss": 0.496748685836792,
	"step": 275
	},
	{
	"epoch": 0.8051048313582497,
	"grad_norm": 1.6312552690505981,
	"learning_rate": 1.4985294269316098e-05,
	"loss": 0.4972914159297943,
	"step": 276
	},
	{
	"epoch": 0.8080218778486782,
	"grad_norm": 1.3996756076812744,
	"learning_rate": 1.4941091082322579e-05,
	"loss": 0.5589750409126282,
	"step": 277
	},
	{
	"epoch": 0.8109389243391066,
	"grad_norm": 1.1288363933563232,
	"learning_rate": 1.4896759794677526e-05,
	"loss": 0.5349453687667847,
	"step": 278
	},
	{
	"epoch": 0.8138559708295351,
	"grad_norm": 1.6913920640945435,
	"learning_rate": 1.4852301555695268e-05,
	"loss": 0.46511000394821167,
	"step": 279
	},
	{
	"epoch": 0.8167730173199635,
	"grad_norm": 1.1913212537765503,
	"learning_rate": 1.4807717517981439e-05,
	"loss": 0.4715422987937927,
	"step": 280
	},
	{
	"epoch": 0.819690063810392,
	"grad_norm": 1.1179691553115845,
	"learning_rate": 1.476300883740307e-05,
	"loss": 0.53330397605896,
	"step": 281
	},
	{
	"epoch": 0.8226071103008205,
	"grad_norm": 1.7473797798156738,
	"learning_rate": 1.4718176673058624e-05,
	"loss": 0.47564437985420227,
	"step": 282
	},
	{
	"epoch": 0.8255241567912489,
	"grad_norm": 1.2653177976608276,
	"learning_rate": 1.4673222187247963e-05,
	"loss": 0.46364277601242065,
	"step": 283
	},
	{
	"epoch": 0.8284412032816773,
	"grad_norm": 1.2567330598831177,
	"learning_rate": 1.4628146545442202e-05,
	"loss": 0.4778091013431549,
	"step": 284
	},
	{
	"epoch": 0.8313582497721057,
	"grad_norm": 1.5848406553268433,
	"learning_rate": 1.4582950916253488e-05,
	"loss": 0.4480203688144684,
	"step": 285
	},
	{
	"epoch": 0.8342752962625342,
	"grad_norm": 1.3278183937072754,
	"learning_rate": 1.453763647140472e-05,
	"loss": 0.37945032119750977,
	"step": 286
	},
	{
	"epoch": 0.8371923427529626,
	"grad_norm": 1.0961651802062988,
	"learning_rate": 1.4492204385699155e-05,
	"loss": 0.5306747555732727,
	"step": 287
	},
	{
	"epoch": 0.8401093892433911,
	"grad_norm": 1.176276683807373,
	"learning_rate": 1.4446655836989961e-05,
	"loss": 0.49950045347213745,
	"step": 288
	},
	{
	"epoch": 0.8430264357338195,
	"grad_norm": 1.2228269577026367,
	"learning_rate": 1.4400992006149674e-05,
	"loss": 0.494475394487381,
	"step": 289
	},
	{
	"epoch": 0.845943482224248,
	"grad_norm": 1.1584209203720093,
	"learning_rate": 1.4355214077039592e-05,
	"loss": 0.44170859456062317,
	"step": 290
	},
	{
	"epoch": 0.8488605287146764,
	"grad_norm": 1.2041938304901123,
	"learning_rate": 1.4309323236479071e-05,
	"loss": 0.4359871745109558,
	"step": 291
	},
	{
	"epoch": 0.8517775752051049,
	"grad_norm": 1.279645562171936,
	"learning_rate": 1.4263320674214762e-05,
	"loss": 0.45031386613845825,
	"step": 292
	},
	{
	"epoch": 0.8546946216955332,
	"grad_norm": 1.3958357572555542,
	"learning_rate": 1.4217207582889769e-05,
	"loss": 0.4832204580307007,
	"step": 293
	},
	{
	"epoch": 0.8576116681859617,
	"grad_norm": 1.2788586616516113,
	"learning_rate": 1.4170985158012725e-05,
	"loss": 0.5154346227645874,
	"step": 294
	},
	{
	"epoch": 0.8605287146763901,
	"grad_norm": 1.3634892702102661,
	"learning_rate": 1.4124654597926795e-05,
	"loss": 0.46777206659317017,
	"step": 295
	},
	{
	"epoch": 0.8634457611668186,
	"grad_norm": 1.2719579935073853,
	"learning_rate": 1.4078217103778619e-05,
	"loss": 0.4247053265571594,
	"step": 296
	},
	{
	"epoch": 0.866362807657247,
	"grad_norm": 2.890467643737793,
	"learning_rate": 1.4031673879487161e-05,
	"loss": 0.38349640369415283,
	"step": 297
	},
	{
	"epoch": 0.8692798541476755,
	"grad_norm": 2.4354801177978516,
	"learning_rate": 1.3985026131712499e-05,
	"loss": 0.4134889543056488,
	"step": 298
	},
	{
	"epoch": 0.872196900638104,
	"grad_norm": 1.0138323307037354,
	"learning_rate": 1.3938275069824541e-05,
	"loss": 0.5176680684089661,
	"step": 299
	},
	{
	"epoch": 0.8751139471285324,
	"grad_norm": 1.2316186428070068,
	"learning_rate": 1.389142190587168e-05,
	"loss": 0.4818477928638458,
	"step": 300
	},
	{
	"epoch": 0.8751139471285324,
	"eval_loss": 0.4752846360206604,
	"eval_runtime": 1189.1666,
	"eval_samples_per_second": 0.531,
	"eval_steps_per_second": 0.531,
	"step": 300
	},
	{
	"epoch": 0.8780309936189608,
	"grad_norm": 1.515487551689148,
	"learning_rate": 1.384446785454936e-05,
	"loss": 0.47766175866127014,
	"step": 301
	},
	{
	"epoch": 0.8809480401093892,
	"grad_norm": 1.4357497692108154,
	"learning_rate": 1.3797414133168591e-05,
	"loss": 0.49297061562538147,
	"step": 302
	},
	{
	"epoch": 0.8838650865998177,
	"grad_norm": 1.2523037195205688,
	"learning_rate": 1.3750261961624383e-05,
	"loss": 0.4629015326499939,
	"step": 303
	},
	{
	"epoch": 0.8867821330902461,
	"grad_norm": 3.5790023803710938,
	"learning_rate": 1.3703012562364124e-05,
	"loss": 0.3773120045661926,
	"step": 304
	},
	{
	"epoch": 0.8896991795806746,
	"grad_norm": 1.9305704832077026,
	"learning_rate": 1.3655667160355892e-05,
	"loss": 0.496719628572464,
	"step": 305
	},
	{
	"epoch": 0.892616226071103,
	"grad_norm": 1.1506154537200928,
	"learning_rate": 1.3608226983056687e-05,
	"loss": 0.49487072229385376,
	"step": 306
	},
	{
	"epoch": 0.8955332725615315,
	"grad_norm": 1.8046090602874756,
	"learning_rate": 1.3560693260380614e-05,
	"loss": 0.4910697937011719,
	"step": 307
	},
	{
	"epoch": 0.8984503190519599,
	"grad_norm": 2.0088653564453125,
	"learning_rate": 1.3513067224667e-05,
	"loss": 0.508246660232544,
	"step": 308
	},
	{
	"epoch": 0.9013673655423883,
	"grad_norm": 1.2966033220291138,
	"learning_rate": 1.3465350110648437e-05,
	"loss": 0.5125166177749634,
	"step": 309
	},
	{
	"epoch": 0.9042844120328167,
	"grad_norm": 1.9976309537887573,
	"learning_rate": 1.3417543155418775e-05,
	"loss": 0.43942537903785706,
	"step": 310
	},
	{
	"epoch": 0.9072014585232452,
	"grad_norm": 1.2663682699203491,
	"learning_rate": 1.336964759840105e-05,
	"loss": 0.4839101731777191,
	"step": 311
	},
	{
	"epoch": 0.9101185050136736,
	"grad_norm": 1.1223328113555908,
	"learning_rate": 1.3321664681315354e-05,
	"loss": 0.48008066415786743,
	"step": 312
	},
	{
	"epoch": 0.9130355515041021,
	"grad_norm": 1.5786972045898438,
	"learning_rate": 1.3273595648146634e-05,
	"loss": 0.47250309586524963,
	"step": 313
	},
	{
	"epoch": 0.9159525979945305,
	"grad_norm": 1.2150241136550903,
	"learning_rate": 1.322544174511245e-05,
	"loss": 0.5149738788604736,
	"step": 314
	},
	{
	"epoch": 0.918869644484959,
	"grad_norm": 1.3676542043685913,
	"learning_rate": 1.3177204220630662e-05,
	"loss": 0.4430195093154907,
	"step": 315
	},
	{
	"epoch": 0.9217866909753875,
	"grad_norm": 1.0703285932540894,
	"learning_rate": 1.3128884325287064e-05,
	"loss": 0.4798983037471771,
	"step": 316
	},
	{
	"epoch": 0.9247037374658159,
	"grad_norm": 1.3131535053253174,
	"learning_rate": 1.308048331180296e-05,
	"loss": 0.4241073727607727,
	"step": 317
	},
	{
	"epoch": 0.9276207839562443,
	"grad_norm": 1.4485348463058472,
	"learning_rate": 1.3032002435002698e-05,
	"loss": 0.527199923992157,
	"step": 318
	},
	{
	"epoch": 0.9305378304466727,
	"grad_norm": 1.370936393737793,
	"learning_rate": 1.2983442951781114e-05,
	"loss": 0.47125962376594543,
	"step": 319
	},
	{
	"epoch": 0.9334548769371012,
	"grad_norm": 1.2369643449783325,
	"learning_rate": 1.2934806121070973e-05,
	"loss": 0.4814244210720062,
	"step": 320
	},
	{
	"epoch": 0.9363719234275296,
	"grad_norm": 1.2632933855056763,
	"learning_rate": 1.2886093203810314e-05,
	"loss": 0.4915548264980316,
	"step": 321
	},
	{
	"epoch": 0.9392889699179581,
	"grad_norm": 1.054569959640503,
	"learning_rate": 1.2837305462909764e-05,
	"loss": 0.5325602293014526,
	"step": 322
	},
	{
	"epoch": 0.9422060164083865,
	"grad_norm": 1.15959632396698,
	"learning_rate": 1.27884441632198e-05,
	"loss": 0.43607404828071594,
	"step": 323
	},
	{
	"epoch": 0.945123062898815,
	"grad_norm": 1.1667979955673218,
	"learning_rate": 1.2739510571497945e-05,
	"loss": 0.4631507992744446,
	"step": 324
	},
	{
	"epoch": 0.9480401093892434,
	"grad_norm": 1.6009081602096558,
	"learning_rate": 1.2690505956375944e-05,
	"loss": 0.4935731887817383,
	"step": 325
	},
	{
	"epoch": 0.9509571558796718,
	"grad_norm": 1.1193996667861938,
	"learning_rate": 1.2641431588326858e-05,
	"loss": 0.45883435010910034,
	"step": 326
	},
	{
	"epoch": 0.9538742023701002,
	"grad_norm": 1.5365067720413208,
	"learning_rate": 1.2592288739632138e-05,
	"loss": 0.5206276178359985,
	"step": 327
	},
	{
	"epoch": 0.9567912488605287,
	"grad_norm": 1.0714622735977173,
	"learning_rate": 1.2543078684348632e-05,
	"loss": 0.5242853760719299,
	"step": 328
	},
	{
	"epoch": 0.9597082953509571,
	"grad_norm": 1.3009248971939087,
	"learning_rate": 1.2493802698275557e-05,
	"loss": 0.4794357717037201,
	"step": 329
	},
	{
	"epoch": 0.9626253418413856,
	"grad_norm": 1.495771050453186,
	"learning_rate": 1.244446205892143e-05,
	"loss": 0.5849282145500183,
	"step": 330
	},
	{
	"epoch": 0.965542388331814,
	"grad_norm": 1.2046003341674805,
	"learning_rate": 1.2395058045470935e-05,
	"loss": 0.47758305072784424,
	"step": 331
	},
	{
	"epoch": 0.9684594348222425,
	"grad_norm": 1.1362569332122803,
	"learning_rate": 1.2345591938751772e-05,
	"loss": 0.4490663409233093,
	"step": 332
	},
	{
	"epoch": 0.971376481312671,
	"grad_norm": 1.2658129930496216,
	"learning_rate": 1.2296065021201438e-05,
	"loss": 0.4035309851169586,
	"step": 333
	},
	{
	"epoch": 0.9742935278030994,
	"grad_norm": 4.370306015014648,
	"learning_rate": 1.2246478576833993e-05,
	"loss": 0.495273619890213,
	"step": 334
	},
	{
	"epoch": 0.9772105742935278,
	"grad_norm": 1.3863654136657715,
	"learning_rate": 1.219683389120676e-05,
	"loss": 0.46410733461380005,
	"step": 335
	},
	{
	"epoch": 0.9801276207839562,
	"grad_norm": 1.4544321298599243,
	"learning_rate": 1.2147132251387004e-05,
	"loss": 0.4301709830760956,
	"step": 336
	},
	{
	"epoch": 0.9830446672743847,
	"grad_norm": 1.0852457284927368,
	"learning_rate": 1.2097374945918554e-05,
	"loss": 0.48892468214035034,
	"step": 337
	},
	{
	"epoch": 0.9859617137648131,
	"grad_norm": 1.5062257051467896,
	"learning_rate": 1.2047563264788412e-05,
	"loss": 0.4667983055114746,
	"step": 338
	},
	{
	"epoch": 0.9888787602552416,
	"grad_norm": 1.2472951412200928,
	"learning_rate": 1.199769849939329e-05,
	"loss": 0.4827345013618469,
	"step": 339
	},
	{
	"epoch": 0.99179580674567,
	"grad_norm": 1.2589871883392334,
	"learning_rate": 1.1947781942506151e-05,
	"loss": 0.405245304107666,
	"step": 340
	},
	{
	"epoch": 0.9947128532360985,
	"grad_norm": 1.25636625289917,
	"learning_rate": 1.1897814888242679e-05,
	"loss": 0.37956133484840393,
	"step": 341
	},
	{
	"epoch": 0.9976298997265269,
	"grad_norm": 2.7064895629882812,
	"learning_rate": 1.1847798632027726e-05,
	"loss": 0.489456444978714,
	"step": 342
	},
	{
	"epoch": 1.0,
	"grad_norm": 1.6156240701675415,
	"learning_rate": 1.1797734470561744e-05,
	"loss": 0.46473199129104614,
	"step": 343
	},
	{
	"epoch": 1.0029170464904285,
	"grad_norm": 1.3046343326568604,
	"learning_rate": 1.1747623701787143e-05,
	"loss": 0.3504878282546997,
	"step": 344
	},
	{
	"epoch": 1.005834092980857,
	"grad_norm": 1.414828896522522,
	"learning_rate": 1.1697467624854666e-05,
	"loss": 0.4719260334968567,
	"step": 345
	},
	{
	"epoch": 1.0087511394712854,
	"grad_norm": 1.1873356103897095,
	"learning_rate": 1.164726754008969e-05,
	"loss": 0.45313555002212524,
	"step": 346
	},
	{
	"epoch": 1.0116681859617138,
	"grad_norm": 1.1382380723953247,
	"learning_rate": 1.1597024748958526e-05,
	"loss": 0.4365478456020355,
	"step": 347
	},
	{
	"epoch": 1.0145852324521423,
	"grad_norm": 1.8141961097717285,
	"learning_rate": 1.1546740554034661e-05,
	"loss": 0.3694503605365753,
	"step": 348
	},
	{
	"epoch": 1.0175022789425707,
	"grad_norm": 1.333388328552246,
	"learning_rate": 1.1496416258965015e-05,
	"loss": 0.4755721688270569,
	"step": 349
	},
	{
	"epoch": 1.0204193254329992,
	"grad_norm": 1.3464443683624268,
	"learning_rate": 1.1446053168436117e-05,
	"loss": 0.4227846562862396,
	"step": 350
	},
	{
	"epoch": 1.0204193254329992,
	"eval_loss": 0.44924086332321167,
	"eval_runtime": 1214.6648,
	"eval_samples_per_second": 0.52,
	"eval_steps_per_second": 0.52,
	"step": 350
	},
	{
	"epoch": 1.0233363719234276,
	"grad_norm": 1.2682689428329468,
	"learning_rate": 1.1395652588140292e-05,
	"loss": 0.44300130009651184,
	"step": 351
	},
	{
	"epoch": 1.0262534184138559,
	"grad_norm": 1.7737696170806885,
	"learning_rate": 1.1345215824741814e-05,
	"loss": 0.5106258988380432,
	"step": 352
	},
	{
	"epoch": 1.0291704649042843,
	"grad_norm": 1.2601238489151,
	"learning_rate": 1.1294744185843014e-05,
	"loss": 0.45930635929107666,
	"step": 353
	},
	{
	"epoch": 1.0320875113947128,
	"grad_norm": 1.2162678241729736,
	"learning_rate": 1.1244238979950406e-05,
	"loss": 0.44163084030151367,
	"step": 354
	},
	{
	"epoch": 1.0350045578851412,
	"grad_norm": 1.0905817747116089,
	"learning_rate": 1.1193701516440733e-05,
	"loss": 0.510662317276001,
	"step": 355
	},
	{
	"epoch": 1.0379216043755697,
	"grad_norm": 0.9624952673912048,
	"learning_rate": 1.1143133105527048e-05,
	"loss": 0.5297917127609253,
	"step": 356
	},
	{
	"epoch": 1.0408386508659981,
	"grad_norm": 1.2757681608200073,
	"learning_rate": 1.1092535058224725e-05,
	"loss": 0.4332093596458435,
	"step": 357
	},
	{
	"epoch": 1.0437556973564266,
	"grad_norm": 1.6885719299316406,
	"learning_rate": 1.104190868631748e-05,
	"loss": 0.4337635040283203,
	"step": 358
	},
	{
	"epoch": 1.046672743846855,
	"grad_norm": 1.175484538078308,
	"learning_rate": 1.099125530232336e-05,
	"loss": 0.45411020517349243,
	"step": 359
	},
	{
	"epoch": 1.0495897903372835,
	"grad_norm": 1.0964939594268799,
	"learning_rate": 1.0940576219460723e-05,
	"loss": 0.5333439707756042,
	"step": 360
	},
	{
	"epoch": 1.052506836827712,
	"grad_norm": 1.5493136644363403,
	"learning_rate": 1.0889872751614176e-05,
	"loss": 0.4400906264781952,
	"step": 361
	},
	{
	"epoch": 1.0554238833181404,
	"grad_norm": 1.2491416931152344,
	"learning_rate": 1.0839146213300526e-05,
	"loss": 0.31049978733062744,
	"step": 362
	},
	{
	"epoch": 1.0583409298085689,
	"grad_norm": 1.7213693857192993,
	"learning_rate": 1.0788397919634694e-05,
	"loss": 0.389009028673172,
	"step": 363
	},
	{
	"epoch": 1.0612579762989973,
	"grad_norm": 1.5405336618423462,
	"learning_rate": 1.0737629186295621e-05,
	"loss": 0.4068562984466553,
	"step": 364
	},
	{
	"epoch": 1.0641750227894258,
	"grad_norm": 1.225455641746521,
	"learning_rate": 1.0686841329492159e-05,
	"loss": 0.47358617186546326,
	"step": 365
	},
	{
	"epoch": 1.0670920692798542,
	"grad_norm": 1.3436250686645508,
	"learning_rate": 1.0636035665928945e-05,
	"loss": 0.47050854563713074,
	"step": 366
	},
	{
	"epoch": 1.0700091157702827,
	"grad_norm": 1.4952112436294556,
	"learning_rate": 1.058521351277227e-05,
	"loss": 0.43496906757354736,
	"step": 367
	},
	{
	"epoch": 1.072926162260711,
	"grad_norm": 1.549112319946289,
	"learning_rate": 1.0534376187615924e-05,
	"loss": 0.45711052417755127,
	"step": 368
	},
	{
	"epoch": 1.0758432087511394,
	"grad_norm": 1.3851526975631714,
	"learning_rate": 1.048352500844704e-05,
	"loss": 0.45045915246009827,
	"step": 369
	},
	{
	"epoch": 1.0787602552415678,
	"grad_norm": 1.6302049160003662,
	"learning_rate": 1.0432661293611927e-05,
	"loss": 0.3736046254634857,
	"step": 370
	},
	{
	"epoch": 1.0816773017319963,
	"grad_norm": 1.3365869522094727,
	"learning_rate": 1.0381786361781885e-05,
	"loss": 0.42242100834846497,
	"step": 371
	},
	{
	"epoch": 1.0845943482224247,
	"grad_norm": 1.4369138479232788,
	"learning_rate": 1.0330901531919026e-05,
	"loss": 0.44570961594581604,
	"step": 372
	},
	{
	"epoch": 1.0875113947128532,
	"grad_norm": 1.3528283834457397,
	"learning_rate": 1.0280008123242069e-05,
	"loss": 0.43440738320350647,
	"step": 373
	},
	{
	"epoch": 1.0904284412032816,
	"grad_norm": 1.469660997390747,
	"learning_rate": 1.0229107455192147e-05,
	"loss": 0.3960394263267517,
	"step": 374
	},
	{
	"epoch": 1.09334548769371,
	"grad_norm": 1.4542185068130493,
	"learning_rate": 1.0178200847398595e-05,
	"loss": 0.47834208607673645,
	"step": 375
	},
	{
	"epoch": 1.0962625341841385,
	"grad_norm": 1.6470292806625366,
	"learning_rate": 1.0127289619644737e-05,
	"loss": 0.42791086435317993,
	"step": 376
	},
	{
	"epoch": 1.099179580674567,
	"grad_norm": 1.1934021711349487,
	"learning_rate": 1.0076375091833681e-05,
	"loss": 0.4401305019855499,
	"step": 377
	},
	{
	"epoch": 1.1020966271649955,
	"grad_norm": 0.9786668419837952,
	"learning_rate": 1.0025458583954078e-05,
	"loss": 0.4816555678844452,
	"step": 378
	},
	{
	"epoch": 1.105013673655424,
	"grad_norm": 1.1348779201507568,
	"learning_rate": 9.974541416045924e-06,
	"loss": 0.41516968607902527,
	"step": 379
	},
	{
	"epoch": 1.1079307201458524,
	"grad_norm": 1.0188615322113037,
	"learning_rate": 9.923624908166322e-06,
	"loss": 0.48087278008461,
	"step": 380
	},
	{
	"epoch": 1.1108477666362808,
	"grad_norm": 1.0821740627288818,
	"learning_rate": 9.872710380355263e-06,
	"loss": 0.41974008083343506,
	"step": 381
	},
	{
	"epoch": 1.1137648131267093,
	"grad_norm": 1.250951886177063,
	"learning_rate": 9.82179915260141e-06,
	"loss": 0.42703643441200256,
	"step": 382
	},
	{
	"epoch": 1.1166818596171377,
	"grad_norm": 1.4528254270553589,
	"learning_rate": 9.770892544807856e-06,
	"loss": 0.43801453709602356,
	"step": 383
	},
	{
	"epoch": 1.1195989061075662,
	"grad_norm": 1.813859462738037,
	"learning_rate": 9.719991876757934e-06,
	"loss": 0.4344240725040436,
	"step": 384
	},
	{
	"epoch": 1.1225159525979946,
	"grad_norm": 1.6681253910064697,
	"learning_rate": 9.669098468080976e-06,
	"loss": 0.4356998801231384,
	"step": 385
	},
	{
	"epoch": 1.125432999088423,
	"grad_norm": 1.3447953462600708,
	"learning_rate": 9.618213638218117e-06,
	"loss": 0.43189188838005066,
	"step": 386
	},
	{
	"epoch": 1.1283500455788513,
	"grad_norm": 1.9577926397323608,
	"learning_rate": 9.567338706388074e-06,
	"loss": 0.34984707832336426,
	"step": 387
	},
	{
	"epoch": 1.1312670920692798,
	"grad_norm": 1.5225576162338257,
	"learning_rate": 9.516474991552965e-06,
	"loss": 0.4243963062763214,
	"step": 388
	},
	{
	"epoch": 1.1341841385597082,
	"grad_norm": 1.7416809797286987,
	"learning_rate": 9.46562381238408e-06,
	"loss": 0.3414606750011444,
	"step": 389
	},
	{
	"epoch": 1.1371011850501367,
	"grad_norm": 1.8358951807022095,
	"learning_rate": 9.414786487227732e-06,
	"loss": 0.387447327375412,
	"step": 390
	},
	{
	"epoch": 1.1400182315405651,
	"grad_norm": 1.9706153869628906,
	"learning_rate": 9.363964334071057e-06,
	"loss": 0.4599088728427887,
	"step": 391
	},
	{
	"epoch": 1.1429352780309936,
	"grad_norm": 1.0604286193847656,
	"learning_rate": 9.313158670507843e-06,
	"loss": 0.4633581042289734,
	"step": 392
	},
	{
	"epoch": 1.145852324521422,
	"grad_norm": 1.4851202964782715,
	"learning_rate": 9.262370813704379e-06,
	"loss": 0.3872259557247162,
	"step": 393
	},
	{
	"epoch": 1.1487693710118505,
	"grad_norm": 1.7839159965515137,
	"learning_rate": 9.21160208036531e-06,
	"loss": 0.5215944647789001,
	"step": 394
	},
	{
	"epoch": 1.151686417502279,
	"grad_norm": 1.3054656982421875,
	"learning_rate": 9.160853786699475e-06,
	"loss": 0.4030425548553467,
	"step": 395
	},
	{
	"epoch": 1.1546034639927074,
	"grad_norm": 3.8467981815338135,
	"learning_rate": 9.110127248385827e-06,
	"loss": 0.4032524824142456,
	"step": 396
	},
	{
	"epoch": 1.1575205104831359,
	"grad_norm": 1.8513801097869873,
	"learning_rate": 9.05942378053928e-06,
	"loss": 0.46577155590057373,
	"step": 397
	},
	{
	"epoch": 1.1604375569735643,
	"grad_norm": 1.312689185142517,
	"learning_rate": 9.008744697676642e-06,
	"loss": 0.39114487171173096,
	"step": 398
	},
	{
	"epoch": 1.1633546034639928,
	"grad_norm": 1.1996328830718994,
	"learning_rate": 8.958091313682521e-06,
	"loss": 0.481199711561203,
	"step": 399
	},
	{
	"epoch": 1.1662716499544212,
	"grad_norm": 5.172409534454346,
	"learning_rate": 8.90746494177528e-06,
	"loss": 0.3803558945655823,
	"step": 400
	},
	{
	"epoch": 1.1662716499544212,
	"eval_loss": 0.4318464398384094,
	"eval_runtime": 1206.0306,
	"eval_samples_per_second": 0.524,
	"eval_steps_per_second": 0.524,
	"step": 400
	},
	{
	"epoch": 1.1691886964448497,
	"grad_norm": 1.0115015506744385,
	"learning_rate": 8.856866894472954e-06,
	"loss": 0.39636704325675964,
	"step": 401
	},
	{
	"epoch": 1.172105742935278,
	"grad_norm": 1.1557435989379883,
	"learning_rate": 8.806298483559268e-06,
	"loss": 0.4076298475265503,
	"step": 402
	},
	{
	"epoch": 1.1750227894257064,
	"grad_norm": 1.2802515029907227,
	"learning_rate": 8.755761020049597e-06,
	"loss": 0.44352248311042786,
	"step": 403
	},
	{
	"epoch": 1.1779398359161348,
	"grad_norm": 1.2755069732666016,
	"learning_rate": 8.705255814156988e-06,
	"loss": 0.390497624874115,
	"step": 404
	},
	{
	"epoch": 1.1808568824065633,
	"grad_norm": 1.2799782752990723,
	"learning_rate": 8.654784175258188e-06,
	"loss": 0.35810694098472595,
	"step": 405
	},
	{
	"epoch": 1.1837739288969917,
	"grad_norm": 1.0968674421310425,
	"learning_rate": 8.604347411859713e-06,
	"loss": 0.3890265226364136,
	"step": 406
	},
	{
	"epoch": 1.1866909753874202,
	"grad_norm": 1.3334455490112305,
	"learning_rate": 8.553946831563886e-06,
	"loss": 0.3916901648044586,
	"step": 407
	},
	{
	"epoch": 1.1896080218778486,
	"grad_norm": 1.1888184547424316,
	"learning_rate": 8.503583741034988e-06,
	"loss": 0.5231326222419739,
	"step": 408
	},
	{
	"epoch": 1.192525068368277,
	"grad_norm": 1.1163763999938965,
	"learning_rate": 8.45325944596534e-06,
	"loss": 0.4249858558177948,
	"step": 409
	},
	{
	"epoch": 1.1954421148587056,
	"grad_norm": 1.3470333814620972,
	"learning_rate": 8.40297525104148e-06,
	"loss": 0.5201632380485535,
	"step": 410
	},
	{
	"epoch": 1.198359161349134,
	"grad_norm": 1.5412285327911377,
	"learning_rate": 8.35273245991031e-06,
	"loss": 0.39376699924468994,
	"step": 411
	},
	{
	"epoch": 1.2012762078395625,
	"grad_norm": 1.3408735990524292,
	"learning_rate": 8.302532375145339e-06,
	"loss": 0.39554283022880554,
	"step": 412
	},
	{
	"epoch": 1.204193254329991,
	"grad_norm": 1.990668773651123,
	"learning_rate": 8.25237629821286e-06,
	"loss": 0.42424261569976807,
	"step": 413
	},
	{
	"epoch": 1.2071103008204194,
	"grad_norm": 1.6471989154815674,
	"learning_rate": 8.202265529438259e-06,
	"loss": 0.3234582543373108,
	"step": 414
	},
	{
	"epoch": 1.2100273473108478,
	"grad_norm": 1.1483631134033203,
	"learning_rate": 8.152201367972275e-06,
	"loss": 0.39163246750831604,
	"step": 415
	},
	{
	"epoch": 1.2129443938012763,
	"grad_norm": 1.800149917602539,
	"learning_rate": 8.102185111757323e-06,
	"loss": 0.5055042505264282,
	"step": 416
	},
	{
	"epoch": 1.2158614402917047,
	"grad_norm": 1.4394795894622803,
	"learning_rate": 8.052218057493849e-06,
	"loss": 0.4761751592159271,
	"step": 417
	},
	{
	"epoch": 1.2187784867821332,
	"grad_norm": 1.622689962387085,
	"learning_rate": 8.002301500606715e-06,
	"loss": 0.4490141272544861,
	"step": 418
	},
	{
	"epoch": 1.2216955332725616,
	"grad_norm": 1.2564961910247803,
	"learning_rate": 7.952436735211593e-06,
	"loss": 0.3964035212993622,
	"step": 419
	},
	{
	"epoch": 1.22461257976299,
	"grad_norm": 1.3248411417007446,
	"learning_rate": 7.902625054081449e-06,
	"loss": 0.46039122343063354,
	"step": 420
	},
	{
	"epoch": 1.2275296262534183,
	"grad_norm": 1.568983793258667,
	"learning_rate": 7.852867748613e-06,
	"loss": 0.49916595220565796,
	"step": 421
	},
	{
	"epoch": 1.2304466727438468,
	"grad_norm": 1.4784491062164307,
	"learning_rate": 7.803166108793243e-06,
	"loss": 0.4035068154335022,
	"step": 422
	},
	{
	"epoch": 1.2333637192342752,
	"grad_norm": 1.2940057516098022,
	"learning_rate": 7.753521423166007e-06,
	"loss": 0.4154140055179596,
	"step": 423
	},
	{
	"epoch": 1.2362807657247037,
	"grad_norm": 1.167786717414856,
	"learning_rate": 7.703934978798565e-06,
	"loss": 0.39541637897491455,
	"step": 424
	},
	{
	"epoch": 1.2391978122151321,
	"grad_norm": 1.5126771926879883,
	"learning_rate": 7.65440806124823e-06,
	"loss": 0.37744253873825073,
	"step": 425
	},
	{
	"epoch": 1.2421148587055606,
	"grad_norm": 1.2595263719558716,
	"learning_rate": 7.604941954529067e-06,
	"loss": 0.46380615234375,
	"step": 426
	},
	{
	"epoch": 1.245031905195989,
	"grad_norm": 1.4258298873901367,
	"learning_rate": 7.555537941078573e-06,
	"loss": 0.3391319513320923,
	"step": 427
	},
	{
	"epoch": 1.2479489516864175,
	"grad_norm": 1.5371774435043335,
	"learning_rate": 7.506197301724446e-06,
	"loss": 0.39805102348327637,
	"step": 428
	},
	{
	"epoch": 1.250865998176846,
	"grad_norm": 1.3789173364639282,
	"learning_rate": 7.456921315651371e-06,
	"loss": 0.37969034910202026,
	"step": 429
	},
	{
	"epoch": 1.2537830446672744,
	"grad_norm": 1.32931649684906,
	"learning_rate": 7.407711260367867e-06,
	"loss": 0.3841526508331299,
	"step": 430
	},
	{
	"epoch": 1.2567000911577029,
	"grad_norm": 1.2836817502975464,
	"learning_rate": 7.358568411673145e-06,
	"loss": 0.340289443731308,
	"step": 431
	},
	{
	"epoch": 1.2596171376481313,
	"grad_norm": 1.0418318510055542,
	"learning_rate": 7.309494043624059e-06,
	"loss": 0.44747158885002136,
	"step": 432
	},
	{
	"epoch": 1.2625341841385598,
	"grad_norm": 1.1769362688064575,
	"learning_rate": 7.260489428502058e-06,
	"loss": 0.45737382769584656,
	"step": 433
	},
	{
	"epoch": 1.265451230628988,
	"grad_norm": 2.2730748653411865,
	"learning_rate": 7.211555836780203e-06,
	"loss": 0.3827931582927704,
	"step": 434
	},
	{
	"epoch": 1.2683682771194165,
	"grad_norm": 1.263096809387207,
	"learning_rate": 7.162694537090235e-06,
	"loss": 0.3589435815811157,
	"step": 435
	},
	{
	"epoch": 1.271285323609845,
	"grad_norm": 1.4073514938354492,
	"learning_rate": 7.113906796189692e-06,
	"loss": 0.45206642150878906,
	"step": 436
	},
	{
	"epoch": 1.2742023701002734,
	"grad_norm": 1.064585566520691,
	"learning_rate": 7.0651938789290306e-06,
	"loss": 0.5409261584281921,
	"step": 437
	},
	{
	"epoch": 1.2771194165907018,
	"grad_norm": 1.2346999645233154,
	"learning_rate": 7.016557048218889e-06,
	"loss": 0.40680158138275146,
	"step": 438
	},
	{
	"epoch": 1.2800364630811303,
	"grad_norm": 1.5816547870635986,
	"learning_rate": 6.967997564997306e-06,
	"loss": 0.38718655705451965,
	"step": 439
	},
	{
	"epoch": 1.2829535095715587,
	"grad_norm": 1.085268259048462,
	"learning_rate": 6.919516688197041e-06,
	"loss": 0.4863276779651642,
	"step": 440
	},
	{
	"epoch": 1.2858705560619872,
	"grad_norm": 1.0984629392623901,
	"learning_rate": 6.871115674712937e-06,
	"loss": 0.39562875032424927,
	"step": 441
	},
	{
	"epoch": 1.2887876025524156,
	"grad_norm": 1.3004229068756104,
	"learning_rate": 6.822795779369339e-06,
	"loss": 0.44437694549560547,
	"step": 442
	},
	{
	"epoch": 1.291704649042844,
	"grad_norm": 1.3541183471679688,
	"learning_rate": 6.774558254887553e-06,
	"loss": 0.4728967249393463,
	"step": 443
	},
	{
	"epoch": 1.2946216955332726,
	"grad_norm": 1.2485377788543701,
	"learning_rate": 6.7264043518533695e-06,
	"loss": 0.4052809476852417,
	"step": 444
	},
	{
	"epoch": 1.297538742023701,
	"grad_norm": 1.412827730178833,
	"learning_rate": 6.67833531868465e-06,
	"loss": 0.40149861574172974,
	"step": 445
	},
	{
	"epoch": 1.3004557885141295,
	"grad_norm": 1.5576224327087402,
	"learning_rate": 6.630352401598953e-06,
	"loss": 0.44107240438461304,
	"step": 446
	},
	{
	"epoch": 1.303372835004558,
	"grad_norm": 1.1551047563552856,
	"learning_rate": 6.582456844581226e-06,
	"loss": 0.4898405969142914,
	"step": 447
	},
	{
	"epoch": 1.3062898814949864,
	"grad_norm": 1.9939689636230469,
	"learning_rate": 6.5346498893515645e-06,
	"loss": 0.4791329801082611,
	"step": 448
	},
	{
	"epoch": 1.3092069279854148,
	"grad_norm": 1.4782553911209106,
	"learning_rate": 6.486932775333002e-06,
	"loss": 0.472908616065979,
	"step": 449
	},
	{
	"epoch": 1.3121239744758433,
	"grad_norm": 1.2496148347854614,
	"learning_rate": 6.439306739619387e-06,
	"loss": 0.514995276927948,
	"step": 450
	},
	{
	"epoch": 1.3121239744758433,
	"eval_loss": 0.4178673028945923,
	"eval_runtime": 1197.5534,
	"eval_samples_per_second": 0.528,
	"eval_steps_per_second": 0.528,
	"step": 450
	},
	{
	"epoch": 1.3150410209662717,
	"grad_norm": 1.3996772766113281,
	"learning_rate": 6.391773016943316e-06,
	"loss": 0.4087896943092346,
	"step": 451
	},
	{
	"epoch": 1.3179580674567002,
	"grad_norm": 1.20390784740448,
	"learning_rate": 6.344332839644111e-06,
	"loss": 0.43224579095840454,
	"step": 452
	},
	{
	"epoch": 1.3208751139471286,
	"grad_norm": 1.2709496021270752,
	"learning_rate": 6.296987437635876e-06,
	"loss": 0.44104093313217163,
	"step": 453
	},
	{
	"epoch": 1.323792160437557,
	"grad_norm": 1.0112334489822388,
	"learning_rate": 6.249738038375618e-06,
	"loss": 0.47084498405456543,
	"step": 454
	},
	{
	"epoch": 1.3267092069279856,
	"grad_norm": 1.0771515369415283,
	"learning_rate": 6.202585866831411e-06,
	"loss": 0.4700928032398224,
	"step": 455
	},
	{
	"epoch": 1.3296262534184138,
	"grad_norm": 1.4937143325805664,
	"learning_rate": 6.15553214545064e-06,
	"loss": 0.345747709274292,
	"step": 456
	},
	{
	"epoch": 1.3325432999088422,
	"grad_norm": 1.1348456144332886,
	"learning_rate": 6.108578094128321e-06,
	"loss": 0.33824583888053894,
	"step": 457
	},
	{
	"epoch": 1.3354603463992707,
	"grad_norm": 1.2502707242965698,
	"learning_rate": 6.061724930175461e-06,
	"loss": 0.3528832197189331,
	"step": 458
	},
	{
	"epoch": 1.3383773928896991,
	"grad_norm": 1.5359619855880737,
	"learning_rate": 6.014973868287504e-06,
	"loss": 0.4413869082927704,
	"step": 459
	},
	{
	"epoch": 1.3412944393801276,
	"grad_norm": 0.9747081398963928,
	"learning_rate": 5.9683261205128395e-06,
	"loss": 0.6849499940872192,
	"step": 460
	},
	{
	"epoch": 1.344211485870556,
	"grad_norm": 1.3150533437728882,
	"learning_rate": 5.921782896221383e-06,
	"loss": 0.3901931047439575,
	"step": 461
	},
	{
	"epoch": 1.3471285323609845,
	"grad_norm": 1.137770652770996,
	"learning_rate": 5.875345402073207e-06,
	"loss": 0.37498384714126587,
	"step": 462
	},
	{
	"epoch": 1.350045578851413,
	"grad_norm": 1.2216367721557617,
	"learning_rate": 5.829014841987277e-06,
	"loss": 0.3874579966068268,
	"step": 463
	},
	{
	"epoch": 1.3529626253418414,
	"grad_norm": 1.135439157485962,
	"learning_rate": 5.782792417110233e-06,
	"loss": 0.384797066450119,
	"step": 464
	},
	{
	"epoch": 1.3558796718322699,
	"grad_norm": 1.2400696277618408,
	"learning_rate": 5.736679325785239e-06,
	"loss": 0.46303266286849976,
	"step": 465
	},
	{
	"epoch": 1.3587967183226983,
	"grad_norm": 1.8848882913589478,
	"learning_rate": 5.6906767635209304e-06,
	"loss": 0.5068309903144836,
	"step": 466
	},
	{
	"epoch": 1.3617137648131268,
	"grad_norm": 1.4707008600234985,
	"learning_rate": 5.644785922960412e-06,
	"loss": 0.364332914352417,
	"step": 467
	},
	{
	"epoch": 1.364630811303555,
	"grad_norm": 2.4436841011047363,
	"learning_rate": 5.599007993850329e-06,
	"loss": 0.485107421875,
	"step": 468
	},
	{
	"epoch": 1.3675478577939835,
	"grad_norm": 1.1924740076065063,
	"learning_rate": 5.553344163010039e-06,
	"loss": 0.34547489881515503,
	"step": 469
	},
	{
	"epoch": 1.370464904284412,
	"grad_norm": 1.1255877017974854,
	"learning_rate": 5.507795614300846e-06,
	"loss": 0.39645254611968994,
	"step": 470
	},
	{
	"epoch": 1.3733819507748404,
	"grad_norm": 1.0937018394470215,
	"learning_rate": 5.4623635285952815e-06,
	"loss": 0.4267856478691101,
	"step": 471
	},
	{
	"epoch": 1.3762989972652688,
	"grad_norm": 1.3355520963668823,
	"learning_rate": 5.417049083746513e-06,
	"loss": 0.3669992983341217,
	"step": 472
	},
	{
	"epoch": 1.3792160437556973,
	"grad_norm": 1.7302504777908325,
	"learning_rate": 5.3718534545578035e-06,
	"loss": 0.3873697519302368,
	"step": 473
	},
	{
	"epoch": 1.3821330902461257,
	"grad_norm": 1.17263662815094,
	"learning_rate": 5.326777812752041e-06,
	"loss": 0.4581540524959564,
	"step": 474
	},
	{
	"epoch": 1.3850501367365542,
	"grad_norm": 1.0998128652572632,
	"learning_rate": 5.281823326941377e-06,
	"loss": 0.43062761425971985,
	"step": 475
	},
	{
	"epoch": 1.3879671832269826,
	"grad_norm": 1.1194556951522827,
	"learning_rate": 5.236991162596932e-06,
	"loss": 0.381741464138031,
	"step": 476
	},
	{
	"epoch": 1.390884229717411,
	"grad_norm": 1.2759051322937012,
	"learning_rate": 5.19228248201856e-06,
	"loss": 0.49175748229026794,
	"step": 477
	},
	{
	"epoch": 1.3938012762078396,
	"grad_norm": 1.2134747505187988,
	"learning_rate": 5.147698444304732e-06,
	"loss": 0.4997562766075134,
	"step": 478
	},
	{
	"epoch": 1.396718322698268,
	"grad_norm": 1.0833078622817993,
	"learning_rate": 5.1032402053224804e-06,
	"loss": 0.42580488324165344,
	"step": 479
	},
	{
	"epoch": 1.3996353691886965,
	"grad_norm": 1.4838510751724243,
	"learning_rate": 5.058908917677426e-06,
	"loss": 0.5015593767166138,
	"step": 480
	},
	{
	"epoch": 1.402552415679125,
	"grad_norm": 1.218610167503357,
	"learning_rate": 5.014705730683904e-06,
	"loss": 0.34739193320274353,
	"step": 481
	},
	{
	"epoch": 1.4054694621695534,
	"grad_norm": 1.1883307695388794,
	"learning_rate": 4.970631790335181e-06,
	"loss": 0.41708022356033325,
	"step": 482
	},
	{
	"epoch": 1.4083865086599818,
	"grad_norm": 1.209291696548462,
	"learning_rate": 4.926688239273713e-06,
	"loss": 0.43546172976493835,
	"step": 483
	},
	{
	"epoch": 1.4113035551504103,
	"grad_norm": 1.0801606178283691,
	"learning_rate": 4.882876216761543e-06,
	"loss": 0.44491735100746155,
	"step": 484
	},
	{
	"epoch": 1.4142206016408387,
	"grad_norm": 1.2746628522872925,
	"learning_rate": 4.839196858650763e-06,
	"loss": 0.436122864484787,
	"step": 485
	},
	{
	"epoch": 1.4171376481312672,
	"grad_norm": 1.4465962648391724,
	"learning_rate": 4.795651297354056e-06,
	"loss": 0.3750447630882263,
	"step": 486
	},
	{
	"epoch": 1.4200546946216956,
	"grad_norm": 1.6736211776733398,
	"learning_rate": 4.752240661815346e-06,
	"loss": 0.38286519050598145,
	"step": 487
	},
	{
	"epoch": 1.422971741112124,
	"grad_norm": 1.1946996450424194,
	"learning_rate": 4.708966077480544e-06,
	"loss": 0.4488063156604767,
	"step": 488
	},
	{
	"epoch": 1.4258887876025526,
	"grad_norm": 1.42599356174469,
	"learning_rate": 4.665828666268335e-06,
	"loss": 0.44088613986968994,
	"step": 489
	},
	{
	"epoch": 1.4288058340929808,
	"grad_norm": 1.2281016111373901,
	"learning_rate": 4.622829546541121e-06,
	"loss": 0.4030645489692688,
	"step": 490
	},
	{
	"epoch": 1.4317228805834092,
	"grad_norm": 1.2875670194625854,
	"learning_rate": 4.57996983307602e-06,
	"loss": 0.44702020287513733,
	"step": 491
	},
	{
	"epoch": 1.4346399270738377,
	"grad_norm": 1.2456860542297363,
	"learning_rate": 4.537250637035947e-06,
	"loss": 0.4067370593547821,
	"step": 492
	},
	{
	"epoch": 1.4375569735642661,
	"grad_norm": 1.2822725772857666,
	"learning_rate": 4.494673065940833e-06,
	"loss": 0.4237740635871887,
	"step": 493
	},
	{
	"epoch": 1.4404740200546946,
	"grad_norm": 1.5517818927764893,
	"learning_rate": 4.452238223638906e-06,
	"loss": 0.40579724311828613,
	"step": 494
	},
	{
	"epoch": 1.443391066545123,
	"grad_norm": 1.275344967842102,
	"learning_rate": 4.409947210278056e-06,
	"loss": 0.38880717754364014,
	"step": 495
	},
	{
	"epoch": 1.4463081130355515,
	"grad_norm": 1.22952139377594,
	"learning_rate": 4.367801122277327e-06,
	"loss": 0.4042310416698456,
	"step": 496
	},
	{
	"epoch": 1.44922515952598,
	"grad_norm": 1.122261643409729,
	"learning_rate": 4.325801052298493e-06,
	"loss": 0.5408368110656738,
	"step": 497
	},
	{
	"epoch": 1.4521422060164084,
	"grad_norm": 1.5885361433029175,
	"learning_rate": 4.283948089217715e-06,
	"loss": 0.37697717547416687,
	"step": 498
	},
	{
	"epoch": 1.4550592525068369,
	"grad_norm": 2.3565149307250977,
	"learning_rate": 4.242243318097338e-06,
	"loss": 0.3811529576778412,
	"step": 499
	},
	{
	"epoch": 1.4579762989972653,
	"grad_norm": 1.1944137811660767,
	"learning_rate": 4.200687820157735e-06,
	"loss": 0.414781391620636,
	"step": 500
	},
	{
	"epoch": 1.4579762989972653,
	"eval_loss": 0.40706494450569153,
	"eval_runtime": 1189.1593,
	"eval_samples_per_second": 0.531,
	"eval_steps_per_second": 0.531,
	"step": 500
	},
	{
	"epoch": 1.4608933454876938,
	"grad_norm": 1.0442464351654053,
	"learning_rate": 4.159282672749289e-06,
	"loss": 0.38155990839004517,
	"step": 501
	},
	{
	"epoch": 1.463810391978122,
	"grad_norm": 1.7274727821350098,
	"learning_rate": 4.118028949324453e-06,
	"loss": 0.4830601215362549,
	"step": 502
	},
	{
	"epoch": 1.4667274384685505,
	"grad_norm": 2.064513921737671,
	"learning_rate": 4.0769277194099345e-06,
	"loss": 0.3975123167037964,
	"step": 503
	},
	{
	"epoch": 1.469644484958979,
	"grad_norm": 1.7695534229278564,
	"learning_rate": 4.035980048578942e-06,
	"loss": 0.37033841013908386,
	"step": 504
	},
	{
	"epoch": 1.4725615314494074,
	"grad_norm": 1.4455046653747559,
	"learning_rate": 3.995186998423597e-06,
	"loss": 0.39567673206329346,
	"step": 505
	},
	{
	"epoch": 1.4754785779398358,
	"grad_norm": 1.1791958808898926,
	"learning_rate": 3.9545496265273765e-06,
	"loss": 0.44786664843559265,
	"step": 506
	},
	{
	"epoch": 1.4783956244302643,
	"grad_norm": 2.0874717235565186,
	"learning_rate": 3.9140689864377105e-06,
	"loss": 0.3333263099193573,
	"step": 507
	},
	{
	"epoch": 1.4813126709206927,
	"grad_norm": 1.5897501707077026,
	"learning_rate": 3.873746127638668e-06,
	"loss": 0.5105943083763123,
	"step": 508
	},
	{
	"epoch": 1.4842297174111212,
	"grad_norm": 1.5059760808944702,
	"learning_rate": 3.833582095523749e-06,
	"loss": 0.43922683596611023,
	"step": 509
	},
	{
	"epoch": 1.4871467639015497,
	"grad_norm": 1.379347562789917,
	"learning_rate": 3.7935779313687648e-06,
	"loss": 0.4584790766239166,
	"step": 510
	},
	{
	"epoch": 1.490063810391978,
	"grad_norm": 1.0984690189361572,
	"learning_rate": 3.7537346723048816e-06,
	"loss": 0.5217512249946594,
	"step": 511
	},
	{
	"epoch": 1.4929808568824066,
	"grad_norm": 1.5944225788116455,
	"learning_rate": 3.71405335129169e-06,
	"loss": 0.4180052876472473,
	"step": 512
	},
	{
	"epoch": 1.495897903372835,
	"grad_norm": 1.2745033502578735,
	"learning_rate": 3.6745349970904465e-06,
	"loss": 0.4584833085536957,
	"step": 513
	},
	{
	"epoch": 1.4988149498632635,
	"grad_norm": 1.2746814489364624,
	"learning_rate": 3.6351806342374007e-06,
	"loss": 0.3202287554740906,
	"step": 514
	},
	{
	"epoch": 1.501731996353692,
	"grad_norm": 1.409638524055481,
	"learning_rate": 3.5959912830172348e-06,
	"loss": 0.37963351607322693,
	"step": 515
	},
	{
	"epoch": 1.5046490428441204,
	"grad_norm": 1.1655553579330444,
	"learning_rate": 3.556967959436591e-06,
	"loss": 0.43133026361465454,
	"step": 516
	},
	{
	"epoch": 1.5075660893345488,
	"grad_norm": 1.0495020151138306,
	"learning_rate": 3.518111675197776e-06,
	"loss": 0.3739299178123474,
	"step": 517
	},
	{
	"epoch": 1.5104831358249773,
	"grad_norm": 1.3055057525634766,
	"learning_rate": 3.4794234376724835e-06,
	"loss": 0.4099601209163666,
	"step": 518
	},
	{
	"epoch": 1.5134001823154057,
	"grad_norm": 1.2252463102340698,
	"learning_rate": 3.4409042498757084e-06,
	"loss": 0.380616158246994,
	"step": 519
	},
	{
	"epoch": 1.5163172288058342,
	"grad_norm": 1.2728638648986816,
	"learning_rate": 3.4025551104397294e-06,
	"loss": 0.3510003685951233,
	"step": 520
	},
	{
	"epoch": 1.5192342752962626,
	"grad_norm": 2.70664644241333,
	"learning_rate": 3.3643770135882282e-06,
	"loss": 0.4087940752506256,
	"step": 521
	},
	{
	"epoch": 1.522151321786691,
	"grad_norm": 1.6197112798690796,
	"learning_rate": 3.3263709491104933e-06,
	"loss": 0.45614126324653625,
	"step": 522
	},
	{
	"epoch": 1.5250683682771196,
	"grad_norm": 1.3596103191375732,
	"learning_rate": 3.2885379023357956e-06,
	"loss": 0.3824586272239685,
	"step": 523
	},
	{
	"epoch": 1.527985414767548,
	"grad_norm": 1.1768635511398315,
	"learning_rate": 3.2508788541078097e-06,
	"loss": 0.47717779874801636,
	"step": 524
	},
	{
	"epoch": 1.5309024612579762,
	"grad_norm": 1.669474482536316,
	"learning_rate": 3.2133947807591958e-06,
	"loss": 0.4013281762599945,
	"step": 525
	},
	{
	"epoch": 1.5338195077484047,
	"grad_norm": 1.600868582725525,
	"learning_rate": 3.1760866540862932e-06,
	"loss": 0.367280513048172,
	"step": 526
	},
	{
	"epoch": 1.5367365542388332,
	"grad_norm": 1.1689515113830566,
	"learning_rate": 3.138955441323923e-06,
	"loss": 0.4432409405708313,
	"step": 527
	},
	{
	"epoch": 1.5396536007292616,
	"grad_norm": 2.361961603164673,
	"learning_rate": 3.1020021051202973e-06,
	"loss": 0.4219942092895508,
	"step": 528
	},
	{
	"epoch": 1.54257064721969,
	"grad_norm": 1.1962230205535889,
	"learning_rate": 3.0652276035120964e-06,
	"loss": 0.3672596514225006,
	"step": 529
	},
	{
	"epoch": 1.5454876937101185,
	"grad_norm": 1.4149441719055176,
	"learning_rate": 3.0286328898995963e-06,
	"loss": 0.42919260263442993,
	"step": 530
	},
	{
	"epoch": 1.548404740200547,
	"grad_norm": 1.2668434381484985,
	"learning_rate": 2.992218913021966e-06,
	"loss": 0.4499061107635498,
	"step": 531
	},
	{
	"epoch": 1.5513217866909754,
	"grad_norm": 1.268114686012268,
	"learning_rate": 2.9559866169326734e-06,
	"loss": 0.34660714864730835,
	"step": 532
	},
	{
	"epoch": 1.5542388331814039,
	"grad_norm": 1.0086419582366943,
	"learning_rate": 2.919936940975007e-06,
	"loss": 0.38239023089408875,
	"step": 533
	},
	{
	"epoch": 1.557155879671832,
	"grad_norm": 1.0700170993804932,
	"learning_rate": 2.884070819757712e-06,
	"loss": 0.48240017890930176,
	"step": 534
	},
	{
	"epoch": 1.5600729261622606,
	"grad_norm": 1.2101227045059204,
	"learning_rate": 2.8483891831307873e-06,
	"loss": 0.4098761975765228,
	"step": 535
	},
	{
	"epoch": 1.562989972652689,
	"grad_norm": 1.2731400728225708,
	"learning_rate": 2.8128929561613505e-06,
	"loss": 0.45641395449638367,
	"step": 536
	},
	{
	"epoch": 1.5659070191431175,
	"grad_norm": 1.1474392414093018,
	"learning_rate": 2.777583059109671e-06,
	"loss": 0.42283985018730164,
	"step": 537
	},
	{
	"epoch": 1.568824065633546,
	"grad_norm": 1.789881944656372,
	"learning_rate": 2.7424604074053028e-06,
	"loss": 0.3469158113002777,
	"step": 538
	},
	{
	"epoch": 1.5717411121239744,
	"grad_norm": 1.3426933288574219,
	"learning_rate": 2.707525911623362e-06,
	"loss": 0.35837510228157043,
	"step": 539
	},
	{
	"epoch": 1.5746581586144028,
	"grad_norm": 1.2343578338623047,
	"learning_rate": 2.672780477460901e-06,
	"loss": 0.4736083745956421,
	"step": 540
	},
	{
	"epoch": 1.5775752051048313,
	"grad_norm": 1.516298770904541,
	"learning_rate": 2.638225005713457e-06,
	"loss": 0.34345340728759766,
	"step": 541
	},
	{
	"epoch": 1.5804922515952597,
	"grad_norm": 1.1488829851150513,
	"learning_rate": 2.6038603922516705e-06,
	"loss": 0.4134179949760437,
	"step": 542
	},
	{
	"epoch": 1.5834092980856882,
	"grad_norm": 1.4486491680145264,
	"learning_rate": 2.569687527998073e-06,
	"loss": 0.3297592103481293,
	"step": 543
	},
	{
	"epoch": 1.5863263445761167,
	"grad_norm": 1.272691011428833,
	"learning_rate": 2.5357072989039855e-06,
	"loss": 0.3958476185798645,
	"step": 544
	},
	{
	"epoch": 1.589243391066545,
	"grad_norm": 1.244240641593933,
	"learning_rate": 2.501920585926555e-06,
	"loss": 0.4125611186027527,
	"step": 545
	},
	{
	"epoch": 1.5921604375569736,
	"grad_norm": 1.5844073295593262,
	"learning_rate": 2.4683282650058992e-06,
	"loss": 0.3762253224849701,
	"step": 546
	},
	{
	"epoch": 1.595077484047402,
	"grad_norm": 1.8209946155548096,
	"learning_rate": 2.4349312070424258e-06,
	"loss": 0.37053319811820984,
	"step": 547
	},
	{
	"epoch": 1.5979945305378305,
	"grad_norm": 1.3752915859222412,
	"learning_rate": 2.4017302778742247e-06,
	"loss": 0.5004774332046509,
	"step": 548
	},
	{
	"epoch": 1.600911577028259,
	"grad_norm": 5.143753528594971,
	"learning_rate": 2.36872633825464e-06,
	"loss": 0.39014023542404175,
	"step": 549
	},
	{
	"epoch": 1.6038286235186874,
	"grad_norm": 1.0730944871902466,
	"learning_rate": 2.335920243829941e-06,
	"loss": 0.378440260887146,
	"step": 550
	},
	{
	"epoch": 1.6038286235186874,
	"eval_loss": 0.40037089586257935,
	"eval_runtime": 893.7411,
	"eval_samples_per_second": 0.707,
	"eval_steps_per_second": 0.707,
	"step": 550
	},
	{
	"epoch": 1.6067456700091158,
	"grad_norm": 1.5507797002792358,
	"learning_rate": 2.3033128451171548e-06,
	"loss": 0.4471960663795471,
	"step": 551
	},
	{
	"epoch": 1.6096627164995443,
	"grad_norm": 1.9462968111038208,
	"learning_rate": 2.2709049874819924e-06,
	"loss": 0.3658301830291748,
	"step": 552
	},
	{
	"epoch": 1.6125797629899727,
	"grad_norm": 1.2034238576889038,
	"learning_rate": 2.238697511116962e-06,
	"loss": 0.3911179304122925,
	"step": 553
	},
	{
	"epoch": 1.6154968094804012,
	"grad_norm": 1.3574327230453491,
	"learning_rate": 2.2066912510195636e-06,
	"loss": 0.3998897671699524,
	"step": 554
	},
	{
	"epoch": 1.6184138559708297,
	"grad_norm": 1.1973012685775757,
	"learning_rate": 2.1748870369706507e-06,
	"loss": 0.38577449321746826,
	"step": 555
	},
	{
	"epoch": 1.621330902461258,
	"grad_norm": 1.9365874528884888,
	"learning_rate": 2.1432856935129144e-06,
	"loss": 0.411307156085968,
	"step": 556
	},
	{
	"epoch": 1.6242479489516866,
	"grad_norm": 1.3558642864227295,
	"learning_rate": 2.1118880399295106e-06,
	"loss": 0.38424253463745117,
	"step": 557
	},
	{
	"epoch": 1.627164995442115,
	"grad_norm": 1.4368890523910522,
	"learning_rate": 2.0806948902228075e-06,
	"loss": 0.39943546056747437,
	"step": 558
	},
	{
	"epoch": 1.6300820419325432,
	"grad_norm": 1.6266753673553467,
	"learning_rate": 2.0497070530933084e-06,
	"loss": 0.36787641048431396,
	"step": 559
	},
	{
	"epoch": 1.6329990884229717,
	"grad_norm": 1.2600938081741333,
	"learning_rate": 2.0189253319186576e-06,
	"loss": 0.3781934380531311,
	"step": 560
	},
	{
	"epoch": 1.6359161349134002,
	"grad_norm": 1.975071907043457,
	"learning_rate": 1.9883505247328237e-06,
	"loss": 0.4132305383682251,
	"step": 561
	},
	{
	"epoch": 1.6388331814038286,
	"grad_norm": 1.4095909595489502,
	"learning_rate": 1.9579834242054154e-06,
	"loss": 0.3727574646472931,
	"step": 562
	},
	{
	"epoch": 1.641750227894257,
	"grad_norm": 1.4271371364593506,
	"learning_rate": 1.9278248176211243e-06,
	"loss": 0.33786773681640625,
	"step": 563
	},
	{
	"epoch": 1.6446672743846855,
	"grad_norm": 1.5907646417617798,
	"learning_rate": 1.8978754868593074e-06,
	"loss": 0.33035099506378174,
	"step": 564
	},
	{
	"epoch": 1.647584320875114,
	"grad_norm": 1.1315702199935913,
	"learning_rate": 1.8681362083737387e-06,
	"loss": 0.41707149147987366,
	"step": 565
	},
	{
	"epoch": 1.6505013673655424,
	"grad_norm": 1.4737143516540527,
	"learning_rate": 1.8386077531724556e-06,
	"loss": 0.43079230189323425,
	"step": 566
	},
	{
	"epoch": 1.6534184138559709,
	"grad_norm": 1.1006760597229004,
	"learning_rate": 1.8092908867977822e-06,
	"loss": 0.3524904251098633,
	"step": 567
	},
	{
	"epoch": 1.6563354603463991,
	"grad_norm": 1.4066118001937866,
	"learning_rate": 1.780186369306479e-06,
	"loss": 0.3695681691169739,
	"step": 568
	},
	{
	"epoch": 1.6592525068368276,
	"grad_norm": 1.6444640159606934,
	"learning_rate": 1.7512949552500412e-06,
	"loss": 0.35596007108688354,
	"step": 569
	},
	{
	"epoch": 1.662169553327256,
	"grad_norm": 1.159480094909668,
	"learning_rate": 1.7226173936551282e-06,
	"loss": 0.4520571827888489,
	"step": 570
	},
	{
	"epoch": 1.6650865998176845,
	"grad_norm": 1.5874221324920654,
	"learning_rate": 1.6941544280041567e-06,
	"loss": 0.4702282249927521,
	"step": 571
	},
	{
	"epoch": 1.668003646308113,
	"grad_norm": 1.6153535842895508,
	"learning_rate": 1.6659067962160157e-06,
	"loss": 0.3803800046443939,
	"step": 572
	},
	{
	"epoch": 1.6709206927985414,
	"grad_norm": 1.0748940706253052,
	"learning_rate": 1.6378752306269386e-06,
	"loss": 0.4368419051170349,
	"step": 573
	},
	{
	"epoch": 1.6738377392889698,
	"grad_norm": 1.5286788940429688,
	"learning_rate": 1.6100604579715185e-06,
	"loss": 0.4195623993873596,
	"step": 574
	},
	{
	"epoch": 1.6767547857793983,
	"grad_norm": 1.1433510780334473,
	"learning_rate": 1.5824631993638651e-06,
	"loss": 0.4366849660873413,
	"step": 575
	},
	{
	"epoch": 1.6796718322698267,
	"grad_norm": 1.9694907665252686,
	"learning_rate": 1.5550841702789122e-06,
	"loss": 0.5555303692817688,
	"step": 576
	},
	{
	"epoch": 1.6825888787602552,
	"grad_norm": 1.7587188482284546,
	"learning_rate": 1.5279240805338647e-06,
	"loss": 0.40394848585128784,
	"step": 577
	},
	{
	"epoch": 1.6855059252506837,
	"grad_norm": 1.063381314277649,
	"learning_rate": 1.5009836342697993e-06,
	"loss": 0.49564215540885925,
	"step": 578
	},
	{
	"epoch": 1.688422971741112,
	"grad_norm": 1.1742531061172485,
	"learning_rate": 1.4742635299334063e-06,
	"loss": 0.3891904950141907,
	"step": 579
	},
	{
	"epoch": 1.6913400182315406,
	"grad_norm": 1.499934196472168,
	"learning_rate": 1.4477644602588848e-06,
	"loss": 0.35497623682022095,
	"step": 580
	},
	{
	"epoch": 1.694257064721969,
	"grad_norm": 1.5112360715866089,
	"learning_rate": 1.421487112249984e-06,
	"loss": 0.4062272012233734,
	"step": 581
	},
	{
	"epoch": 1.6971741112123975,
	"grad_norm": 1.3583141565322876,
	"learning_rate": 1.3954321671621885e-06,
	"loss": 0.3655265271663666,
	"step": 582
	},
	{
	"epoch": 1.700091157702826,
	"grad_norm": 2.8181653022766113,
	"learning_rate": 1.3696003004850577e-06,
	"loss": 0.37418332695961,
	"step": 583
	},
	{
	"epoch": 1.7030082041932544,
	"grad_norm": 0.967166543006897,
	"learning_rate": 1.3439921819247138e-06,
	"loss": 0.4946930408477783,
	"step": 584
	},
	{
	"epoch": 1.7059252506836828,
	"grad_norm": 1.2773699760437012,
	"learning_rate": 1.3186084753864813e-06,
	"loss": 0.5101871490478516,
	"step": 585
	},
	{
	"epoch": 1.7088422971741113,
	"grad_norm": 1.2814991474151611,
	"learning_rate": 1.293449838957671e-06,
	"loss": 0.3688133656978607,
	"step": 586
	},
	{
	"epoch": 1.7117593436645397,
	"grad_norm": 1.594966173171997,
	"learning_rate": 1.2685169248905228e-06,
	"loss": 0.4739398956298828,
	"step": 587
	},
	{
	"epoch": 1.7146763901549682,
	"grad_norm": 1.1471531391143799,
	"learning_rate": 1.2438103795852885e-06,
	"loss": 0.3719588816165924,
	"step": 588
	},
	{
	"epoch": 1.7175934366453967,
	"grad_norm": 1.1657356023788452,
	"learning_rate": 1.2193308435734852e-06,
	"loss": 0.4119298458099365,
	"step": 589
	},
	{
	"epoch": 1.720510483135825,
	"grad_norm": 1.1239042282104492,
	"learning_rate": 1.1950789515012783e-06,
	"loss": 0.38277503848075867,
	"step": 590
	},
	{
	"epoch": 1.7234275296262536,
	"grad_norm": 1.149478554725647,
	"learning_rate": 1.1710553321130324e-06,
	"loss": 0.35080626606941223,
	"step": 591
	},
	{
	"epoch": 1.726344576116682,
	"grad_norm": 1.2020260095596313,
	"learning_rate": 1.1472606082350112e-06,
	"loss": 0.3991318345069885,
	"step": 592
	},
	{
	"epoch": 1.7292616226071102,
	"grad_norm": 1.101475477218628,
	"learning_rate": 1.123695396759229e-06,
	"loss": 0.45791420340538025,
	"step": 593
	},
	{
	"epoch": 1.7321786690975387,
	"grad_norm": 0.9617101550102234,
	"learning_rate": 1.1003603086274584e-06,
	"loss": 0.39805036783218384,
	"step": 594
	},
	{
	"epoch": 1.7350957155879672,
	"grad_norm": 1.1439731121063232,
	"learning_rate": 1.07725594881539e-06,
	"loss": 0.35753339529037476,
	"step": 595
	},
	{
	"epoch": 1.7380127620783956,
	"grad_norm": 1.0350618362426758,
	"learning_rate": 1.0543829163169516e-06,
	"loss": 0.42581748962402344,
	"step": 596
	},
	{
	"epoch": 1.740929808568824,
	"grad_norm": 1.2865227460861206,
	"learning_rate": 1.031741804128773e-06,
	"loss": 0.34685325622558594,
	"step": 597
	},
	{
	"epoch": 1.7438468550592525,
	"grad_norm": 1.2079373598098755,
	"learning_rate": 1.0093331992348154e-06,
	"loss": 0.48401936888694763,
	"step": 598
	},
	{
	"epoch": 1.746763901549681,
	"grad_norm": 1.1684436798095703,
	"learning_rate": 9.871576825911577e-07,
	"loss": 0.387456476688385,
	"step": 599
	},
	{
	"epoch": 1.7496809480401094,
	"grad_norm": 1.298045039176941,
	"learning_rate": 9.65215829110927e-07,
	"loss": 0.40196847915649414,
	"step": 600
	},
	{
	"epoch": 1.7496809480401094,
	"eval_loss": 0.3965963125228882,
	"eval_runtime": 912.3102,
	"eval_samples_per_second": 0.693,
	"eval_steps_per_second": 0.693,
	"step": 600
	},
	{
	"epoch": 1.7525979945305379,
	"grad_norm": 1.24501371383667,
	"learning_rate": 9.435082076493974e-07,
	"loss": 0.3990224003791809,
	"step": 601
	},
	{
	"epoch": 1.7555150410209661,
	"grad_norm": 1.0634632110595703,
	"learning_rate": 9.220353809892435e-07,
	"loss": 0.44232451915740967,
	"step": 602
	},
	{
	"epoch": 1.7584320875113946,
	"grad_norm": 1.0276325941085815,
	"learning_rate": 9.007979058259475e-07,
	"loss": 0.5336061716079712,
	"step": 603
	},
	{
	"epoch": 1.761349134001823,
	"grad_norm": 1.1488786935806274,
	"learning_rate": 8.797963327533698e-07,
	"loss": 0.35023194551467896,
	"step": 604
	},
	{
	"epoch": 1.7642661804922515,
	"grad_norm": 1.171109676361084,
	"learning_rate": 8.590312062494699e-07,
	"loss": 0.4461829662322998,
	"step": 605
	},
	{
	"epoch": 1.76718322698268,
	"grad_norm": 1.3948134183883667,
	"learning_rate": 8.385030646621938e-07,
	"loss": 0.3448236584663391,
	"step": 606
	},
	{
	"epoch": 1.7701002734731084,
	"grad_norm": 1.144608497619629,
	"learning_rate": 8.18212440195515e-07,
	"loss": 0.39913487434387207,
	"step": 607
	},
	{
	"epoch": 1.7730173199635368,
	"grad_norm": 1.1941088438034058,
	"learning_rate": 7.981598588956396e-07,
	"loss": 0.40005186200141907,
	"step": 608
	},
	{
	"epoch": 1.7759343664539653,
	"grad_norm": 1.1087690591812134,
	"learning_rate": 7.783458406373656e-07,
	"loss": 0.38895174860954285,
	"step": 609
	},
	{
	"epoch": 1.7788514129443938,
	"grad_norm": 1.1787676811218262,
	"learning_rate": 7.587708991106069e-07,
	"loss": 0.36259594559669495,
	"step": 610
	},
	{
	"epoch": 1.7817684594348222,
	"grad_norm": 1.1265360116958618,
	"learning_rate": 7.394355418070731e-07,
	"loss": 0.44475269317626953,
	"step": 611
	},
	{
	"epoch": 1.7846855059252507,
	"grad_norm": 1.2230898141860962,
	"learning_rate": 7.203402700071138e-07,
	"loss": 0.3823542594909668,
	"step": 612
	},
	{
	"epoch": 1.7876025524156791,
	"grad_norm": 1.0893492698669434,
	"learning_rate": 7.01485578766724e-07,
	"loss": 0.43276944756507874,
	"step": 613
	},
	{
	"epoch": 1.7905195989061076,
	"grad_norm": 1.039494514465332,
	"learning_rate": 6.828719569047082e-07,
	"loss": 0.5362570881843567,
	"step": 614
	},
	{
	"epoch": 1.793436645396536,
	"grad_norm": 1.0307413339614868,
	"learning_rate": 6.644998869900054e-07,
	"loss": 0.34828731417655945,
	"step": 615
	},
	{
	"epoch": 1.7963536918869645,
	"grad_norm": 1.1253540515899658,
	"learning_rate": 6.463698453291823e-07,
	"loss": 0.3669811487197876,
	"step": 616
	},
	{
	"epoch": 1.799270738377393,
	"grad_norm": 1.1103028059005737,
	"learning_rate": 6.28482301954082e-07,
	"loss": 0.3868233561515808,
	"step": 617
	},
	{
	"epoch": 1.8021877848678214,
	"grad_norm": 1.0804798603057861,
	"learning_rate": 6.108377206096394e-07,
	"loss": 0.4123673439025879,
	"step": 618
	},
	{
	"epoch": 1.8051048313582498,
	"grad_norm": 1.1068788766860962,
	"learning_rate": 5.934365587418567e-07,
	"loss": 0.44468799233436584,
	"step": 619
	},
	{
	"epoch": 1.8080218778486783,
	"grad_norm": 1.0318645238876343,
	"learning_rate": 5.762792674859474e-07,
	"loss": 0.3586595356464386,
	"step": 620
	},
	{
	"epoch": 1.8109389243391067,
	"grad_norm": 1.1553035974502563,
	"learning_rate": 5.593662916546361e-07,
	"loss": 0.4580552577972412,
	"step": 621
	},
	{
	"epoch": 1.8138559708295352,
	"grad_norm": 1.3010531663894653,
	"learning_rate": 5.426980697266271e-07,
	"loss": 0.42412641644477844,
	"step": 622
	},
	{
	"epoch": 1.8167730173199637,
	"grad_norm": 1.1858006715774536,
	"learning_rate": 5.262750338352418e-07,
	"loss": 0.38257676362991333,
	"step": 623
	},
	{
	"epoch": 1.8196900638103921,
	"grad_norm": 1.1341536045074463,
	"learning_rate": 5.100976097572074e-07,
	"loss": 0.48365846276283264,
	"step": 624
	},
	{
	"epoch": 1.8226071103008206,
	"grad_norm": 1.112844467163086,
	"learning_rate": 4.941662169016237e-07,
	"loss": 0.3893233835697174,
	"step": 625
	},
	{
	"epoch": 1.825524156791249,
	"grad_norm": 1.1846497058868408,
	"learning_rate": 4.784812682990903e-07,
	"loss": 0.38869139552116394,
	"step": 626
	},
	{
	"epoch": 1.8284412032816773,
	"grad_norm": 1.1383928060531616,
	"learning_rate": 4.6304317059099326e-07,
	"loss": 0.36156678199768066,
	"step": 627
	},
	{
	"epoch": 1.8313582497721057,
	"grad_norm": 1.0891298055648804,
	"learning_rate": 4.478523240189703e-07,
	"loss": 0.40910348296165466,
	"step": 628
	},
	{
	"epoch": 1.8342752962625342,
	"grad_norm": 1.1337662935256958,
	"learning_rate": 4.3290912241452545e-07,
	"loss": 0.3360365629196167,
	"step": 629
	},
	{
	"epoch": 1.8371923427529626,
	"grad_norm": 1.280463695526123,
	"learning_rate": 4.182139531888263e-07,
	"loss": 0.44318532943725586,
	"step": 630
	},
	{
	"epoch": 1.840109389243391,
	"grad_norm": 1.1408170461654663,
	"learning_rate": 4.0376719732265647e-07,
	"loss": 0.37003564834594727,
	"step": 631
	},
	{
	"epoch": 1.8430264357338195,
	"grad_norm": 0.9730168581008911,
	"learning_rate": 3.8956922935653895e-07,
	"loss": 0.355985552072525,
	"step": 632
	},
	{
	"epoch": 1.845943482224248,
	"grad_norm": 1.0643151998519897,
	"learning_rate": 3.756204173810263e-07,
	"loss": 0.3911808729171753,
	"step": 633
	},
	{
	"epoch": 1.8488605287146764,
	"grad_norm": 1.1769851446151733,
	"learning_rate": 3.61921123027158e-07,
	"loss": 0.314385324716568,
	"step": 634
	},
	{
	"epoch": 1.8517775752051049,
	"grad_norm": 0.921336829662323,
	"learning_rate": 3.484717014570838e-07,
	"loss": 0.3375144302845001,
	"step": 635
	},
	{
	"epoch": 1.8546946216955331,
	"grad_norm": 0.9904773235321045,
	"learning_rate": 3.3527250135485744e-07,
	"loss": 0.4461369514465332,
	"step": 636
	},
	{
	"epoch": 1.8576116681859616,
	"grad_norm": 1.0844534635543823,
	"learning_rate": 3.223238649173954e-07,
	"loss": 0.398414671421051,
	"step": 637
	},
	{
	"epoch": 1.86052871467639,
	"grad_norm": 0.9829220771789551,
	"learning_rate": 3.096261278456048e-07,
	"loss": 0.35938704013824463,
	"step": 638
	},
	{
	"epoch": 1.8634457611668185,
	"grad_norm": 1.13048255443573,
	"learning_rate": 2.971796193356835e-07,
	"loss": 0.3783624768257141,
	"step": 639
	},
	{
	"epoch": 1.866362807657247,
	"grad_norm": 1.4307893514633179,
	"learning_rate": 2.8498466207058095e-07,
	"loss": 0.3601874113082886,
	"step": 640
	},
	{
	"epoch": 1.8692798541476754,
	"grad_norm": 1.1835116147994995,
	"learning_rate": 2.7304157221163753e-07,
	"loss": 0.43897169828414917,
	"step": 641
	},
	{
	"epoch": 1.8721969006381038,
	"grad_norm": 1.0730469226837158,
	"learning_rate": 2.613506593903825e-07,
	"loss": 0.4407995343208313,
	"step": 642
	},
	{
	"epoch": 1.8751139471285323,
	"grad_norm": 0.9504678845405579,
	"learning_rate": 2.499122267005105e-07,
	"loss": 0.4105035960674286,
	"step": 643
	},
	{
	"epoch": 1.8780309936189608,
	"grad_norm": 1.2599385976791382,
	"learning_rate": 2.387265706900199e-07,
	"loss": 0.41521430015563965,
	"step": 644
	},
	{
	"epoch": 1.8809480401093892,
	"grad_norm": 1.035783052444458,
	"learning_rate": 2.2779398135353127e-07,
	"loss": 0.33491846919059753,
	"step": 645
	},
	{
	"epoch": 1.8838650865998177,
	"grad_norm": 1.1612690687179565,
	"learning_rate": 2.1711474212476325e-07,
	"loss": 0.3367970287799835,
	"step": 646
	},
	{
	"epoch": 1.8867821330902461,
	"grad_norm": 1.2541207075119019,
	"learning_rate": 2.066891298691831e-07,
	"loss": 0.46374717354774475,
	"step": 647
	},
	{
	"epoch": 1.8896991795806746,
	"grad_norm": 1.1037088632583618,
	"learning_rate": 1.9651741487683562e-07,
	"loss": 0.3799871802330017,
	"step": 648
	},
	{
	"epoch": 1.892616226071103,
	"grad_norm": 1.3611476421356201,
	"learning_rate": 1.8659986085532988e-07,
	"loss": 0.40523889660835266,
	"step": 649
	},
	{
	"epoch": 1.8955332725615315,
	"grad_norm": 1.1628823280334473,
	"learning_rate": 1.7693672492300473e-07,
	"loss": 0.38399839401245117,
	"step": 650
	},
	{
	"epoch": 1.8955332725615315,
	"eval_loss": 0.3949255049228668,
	"eval_runtime": 903.6455,
	"eval_samples_per_second": 0.699,
	"eval_steps_per_second": 0.699,
	"step": 650
	},
	{
	"epoch": 1.89845031905196,
	"grad_norm": 1.1185522079467773,
	"learning_rate": 1.675282576022641e-07,
	"loss": 0.4280855059623718,
	"step": 651
	},
	{
	"epoch": 1.9013673655423884,
	"grad_norm": 1.1962717771530151,
	"learning_rate": 1.5837470281307666e-07,
	"loss": 0.3026162087917328,
	"step": 652
	},
	{
	"epoch": 1.9042844120328168,
	"grad_norm": 1.1818240880966187,
	"learning_rate": 1.4947629786666084e-07,
	"loss": 0.43283963203430176,
	"step": 653
	},
	{
	"epoch": 1.9072014585232453,
	"grad_norm": 1.161944031715393,
	"learning_rate": 1.4083327345932208e-07,
	"loss": 0.435259610414505,
	"step": 654
	},
	{
	"epoch": 1.9101185050136738,
	"grad_norm": 1.1311709880828857,
	"learning_rate": 1.32445853666483e-07,
	"loss": 0.3258042633533478,
	"step": 655
	},
	{
	"epoch": 1.9130355515041022,
	"grad_norm": 1.0152852535247803,
	"learning_rate": 1.2431425593686263e-07,
	"loss": 0.40951770544052124,
	"step": 656
	},
	{
	"epoch": 1.9159525979945307,
	"grad_norm": 1.2698794603347778,
	"learning_rate": 1.164386910868498e-07,
	"loss": 0.3610893785953522,
	"step": 657
	},
	{
	"epoch": 1.9188696444849591,
	"grad_norm": 1.1092722415924072,
	"learning_rate": 1.0881936329502851e-07,
	"loss": 0.31951773166656494,
	"step": 658
	},
	{
	"epoch": 1.9217866909753876,
	"grad_norm": 1.2378597259521484,
	"learning_rate": 1.0145647009689008e-07,
	"loss": 0.3756055235862732,
	"step": 659
	},
	{
	"epoch": 1.924703737465816,
	"grad_norm": 1.0100237131118774,
	"learning_rate": 9.43502023797116e-08,
	"loss": 0.26117536425590515,
	"step": 660
	},
	{
	"epoch": 1.9276207839562443,
	"grad_norm": 1.2368487119674683,
	"learning_rate": 8.750074437760325e-08,
	"loss": 0.3092282712459564,
	"step": 661
	},
	{
	"epoch": 1.9305378304466727,
	"grad_norm": 1.0328837633132935,
	"learning_rate": 8.090827366673548e-08,
	"loss": 0.4076297879219055,
	"step": 662
	},
	{
	"epoch": 1.9334548769371012,
	"grad_norm": 0.9885771870613098,
	"learning_rate": 7.457296116073487e-08,
	"loss": 0.40007251501083374,
	"step": 663
	},
	{
	"epoch": 1.9363719234275296,
	"grad_norm": 1.19287109375,
	"learning_rate": 6.849497110625214e-08,
	"loss": 0.3751019239425659,
	"step": 664
	},
	{
	"epoch": 1.939288969917958,
	"grad_norm": 1.134682536125183,
	"learning_rate": 6.267446107870334e-08,
	"loss": 0.4558236300945282,
	"step": 665
	},
	{
	"epoch": 1.9422060164083865,
	"grad_norm": 3.414883852005005,
	"learning_rate": 5.7111581978185336e-08,
	"loss": 0.5070392489433289,
	"step": 666
	},
	{
	"epoch": 1.945123062898815,
	"grad_norm": 1.179479956626892,
	"learning_rate": 5.180647802556671e-08,
	"loss": 0.389989972114563,
	"step": 667
	},
	{
	"epoch": 1.9480401093892434,
	"grad_norm": 1.1473273038864136,
	"learning_rate": 4.675928675874186e-08,
	"loss": 0.460910826921463,
	"step": 668
	},
	{
	"epoch": 1.9509571558796717,
	"grad_norm": 0.9269355535507202,
	"learning_rate": 4.197013902907165e-08,
	"loss": 0.5488728284835815,
	"step": 669
	},
	{
	"epoch": 1.9538742023701001,
	"grad_norm": 1.1781370639801025,
	"learning_rate": 3.7439158997989445e-08,
	"loss": 0.39483463764190674,
	"step": 670
	},
	{
	"epoch": 1.9567912488605286,
	"grad_norm": 1.1759430170059204,
	"learning_rate": 3.316646413377811e-08,
	"loss": 0.38600990176200867,
	"step": 671
	},
	{
	"epoch": 1.959708295350957,
	"grad_norm": 1.1981792449951172,
	"learning_rate": 2.9152165208529147e-08,
	"loss": 0.4657193422317505,
	"step": 672
	},
	{
	"epoch": 1.9626253418413855,
	"grad_norm": 1.186043620109558,
	"learning_rate": 2.5396366295272756e-08,
	"loss": 0.46212077140808105,
	"step": 673
	},
	{
	"epoch": 1.965542388331814,
	"grad_norm": 1.115103840827942,
	"learning_rate": 2.1899164765271096e-08,
	"loss": 0.4416077733039856,
	"step": 674
	},
	{
	"epoch": 1.9684594348222424,
	"grad_norm": 1.2150691747665405,
	"learning_rate": 1.866065128550365e-08,
	"loss": 0.3557685911655426,
	"step": 675
	},
	{
	"epoch": 1.9713764813126708,
	"grad_norm": 1.096506953239441,
	"learning_rate": 1.5680909816309098e-08,
	"loss": 0.32865390181541443,
	"step": 676
	},
	{
	"epoch": 1.9742935278030993,
	"grad_norm": 1.0974191427230835,
	"learning_rate": 1.2960017609213727e-08,
	"loss": 0.37568721175193787,
	"step": 677
	},
	{
	"epoch": 1.9772105742935278,
	"grad_norm": 1.1290082931518555,
	"learning_rate": 1.0498045204924145e-08,
	"loss": 0.329836905002594,
	"step": 678
	},
	{
	"epoch": 1.9801276207839562,
	"grad_norm": 1.0609803199768066,
	"learning_rate": 8.295056431504301e-09,
	"loss": 0.2694982886314392,
	"step": 679
	},
	{
	"epoch": 1.9830446672743847,
	"grad_norm": 0.9838472604751587,
	"learning_rate": 6.3511084027156885e-09,
	"loss": 0.4270719587802887,
	"step": 680
	},
	{
	"epoch": 1.9859617137648131,
	"grad_norm": 1.1900098323822021,
	"learning_rate": 4.666251516536324e-09,
	"loss": 0.4060650169849396,
	"step": 681
	},
	{
	"epoch": 1.9888787602552416,
	"grad_norm": 0.9812174439430237,
	"learning_rate": 3.2405294538606637e-09,
	"loss": 0.3900409936904907,
	"step": 682
	},
	{
	"epoch": 1.99179580674567,
	"grad_norm": 1.1988210678100586,
	"learning_rate": 2.073979177357188e-09,
	"loss": 0.3999583125114441,
	"step": 683
	},
	{
	"epoch": 1.9947128532360985,
	"grad_norm": 0.9738736152648926,
	"learning_rate": 1.1666309305202738e-09,
	"loss": 0.46780622005462646,
	"step": 684
	},
	{
	"epoch": 1.997629899726527,
	"grad_norm": 0.9841824173927307,
	"learning_rate": 5.18508236878601e-10,
	"loss": 0.4595794975757599,
	"step": 685
	},
	{
	"epoch": 2.0,
	"grad_norm": 1.0865421295166016,
	"learning_rate": 1.2962789938897323e-10,
	"loss": 0.5136060118675232,
	"step": 686
	}
	],
	"logging_steps": 1,
	"max_steps": 686,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 2,
	"save_steps": 100,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 6.317102071220797e+18,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}