1epoch_CuratedThoughts / trainer_state.json

End of training

d21d7d1 verified about 1 year ago

163 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.999288256227758,
	"eval_steps": 500,
	"global_step": 936,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0010676156583629894,
	"grad_norm": 6.073639869689941,
	"learning_rate": 1.0638297872340426e-07,
	"loss": 0.8861,
	"step": 1
	},
	{
	"epoch": 0.002135231316725979,
	"grad_norm": 5.964370250701904,
	"learning_rate": 2.1276595744680852e-07,
	"loss": 0.8784,
	"step": 2
	},
	{
	"epoch": 0.003202846975088968,
	"grad_norm": 5.9699530601501465,
	"learning_rate": 3.1914893617021275e-07,
	"loss": 0.9081,
	"step": 3
	},
	{
	"epoch": 0.004270462633451958,
	"grad_norm": 6.123816013336182,
	"learning_rate": 4.2553191489361704e-07,
	"loss": 0.923,
	"step": 4
	},
	{
	"epoch": 0.005338078291814947,
	"grad_norm": 6.031068801879883,
	"learning_rate": 5.319148936170213e-07,
	"loss": 0.8834,
	"step": 5
	},
	{
	"epoch": 0.006405693950177936,
	"grad_norm": 5.705842018127441,
	"learning_rate": 6.382978723404255e-07,
	"loss": 0.8708,
	"step": 6
	},
	{
	"epoch": 0.007473309608540925,
	"grad_norm": 5.794719696044922,
	"learning_rate": 7.446808510638298e-07,
	"loss": 0.8466,
	"step": 7
	},
	{
	"epoch": 0.008540925266903915,
	"grad_norm": 5.5866618156433105,
	"learning_rate": 8.510638297872341e-07,
	"loss": 0.8647,
	"step": 8
	},
	{
	"epoch": 0.009608540925266904,
	"grad_norm": 5.529083251953125,
	"learning_rate": 9.574468085106384e-07,
	"loss": 0.8451,
	"step": 9
	},
	{
	"epoch": 0.010676156583629894,
	"grad_norm": 5.221846580505371,
	"learning_rate": 1.0638297872340427e-06,
	"loss": 0.8676,
	"step": 10
	},
	{
	"epoch": 0.011743772241992882,
	"grad_norm": 4.504139423370361,
	"learning_rate": 1.170212765957447e-06,
	"loss": 0.8504,
	"step": 11
	},
	{
	"epoch": 0.012811387900355872,
	"grad_norm": 4.460880756378174,
	"learning_rate": 1.276595744680851e-06,
	"loss": 0.85,
	"step": 12
	},
	{
	"epoch": 0.013879003558718862,
	"grad_norm": 4.31349515914917,
	"learning_rate": 1.3829787234042555e-06,
	"loss": 0.8676,
	"step": 13
	},
	{
	"epoch": 0.01494661921708185,
	"grad_norm": 2.5565595626831055,
	"learning_rate": 1.4893617021276596e-06,
	"loss": 0.8101,
	"step": 14
	},
	{
	"epoch": 0.01601423487544484,
	"grad_norm": 2.412811040878296,
	"learning_rate": 1.595744680851064e-06,
	"loss": 0.7941,
	"step": 15
	},
	{
	"epoch": 0.01708185053380783,
	"grad_norm": 2.3634886741638184,
	"learning_rate": 1.7021276595744682e-06,
	"loss": 0.7672,
	"step": 16
	},
	{
	"epoch": 0.018149466192170817,
	"grad_norm": 2.1130712032318115,
	"learning_rate": 1.8085106382978727e-06,
	"loss": 0.7964,
	"step": 17
	},
	{
	"epoch": 0.019217081850533807,
	"grad_norm": 1.9730169773101807,
	"learning_rate": 1.9148936170212767e-06,
	"loss": 0.7533,
	"step": 18
	},
	{
	"epoch": 0.020284697508896797,
	"grad_norm": 2.553852081298828,
	"learning_rate": 2.021276595744681e-06,
	"loss": 0.7736,
	"step": 19
	},
	{
	"epoch": 0.021352313167259787,
	"grad_norm": 3.0640649795532227,
	"learning_rate": 2.1276595744680853e-06,
	"loss": 0.7367,
	"step": 20
	},
	{
	"epoch": 0.022419928825622777,
	"grad_norm": 3.216430902481079,
	"learning_rate": 2.2340425531914894e-06,
	"loss": 0.7172,
	"step": 21
	},
	{
	"epoch": 0.023487544483985764,
	"grad_norm": 3.115963935852051,
	"learning_rate": 2.340425531914894e-06,
	"loss": 0.722,
	"step": 22
	},
	{
	"epoch": 0.024555160142348754,
	"grad_norm": 2.9504928588867188,
	"learning_rate": 2.446808510638298e-06,
	"loss": 0.7265,
	"step": 23
	},
	{
	"epoch": 0.025622775800711744,
	"grad_norm": 2.530184030532837,
	"learning_rate": 2.553191489361702e-06,
	"loss": 0.7168,
	"step": 24
	},
	{
	"epoch": 0.026690391459074734,
	"grad_norm": 2.288259506225586,
	"learning_rate": 2.6595744680851065e-06,
	"loss": 0.7317,
	"step": 25
	},
	{
	"epoch": 0.027758007117437724,
	"grad_norm": 1.7040042877197266,
	"learning_rate": 2.765957446808511e-06,
	"loss": 0.7177,
	"step": 26
	},
	{
	"epoch": 0.02882562277580071,
	"grad_norm": 1.2607332468032837,
	"learning_rate": 2.8723404255319155e-06,
	"loss": 0.6854,
	"step": 27
	},
	{
	"epoch": 0.0298932384341637,
	"grad_norm": 1.2629083395004272,
	"learning_rate": 2.978723404255319e-06,
	"loss": 0.6923,
	"step": 28
	},
	{
	"epoch": 0.03096085409252669,
	"grad_norm": 1.2417811155319214,
	"learning_rate": 3.0851063829787237e-06,
	"loss": 0.6781,
	"step": 29
	},
	{
	"epoch": 0.03202846975088968,
	"grad_norm": 1.1789079904556274,
	"learning_rate": 3.191489361702128e-06,
	"loss": 0.6828,
	"step": 30
	},
	{
	"epoch": 0.03309608540925267,
	"grad_norm": 1.0594401359558105,
	"learning_rate": 3.297872340425532e-06,
	"loss": 0.6351,
	"step": 31
	},
	{
	"epoch": 0.03416370106761566,
	"grad_norm": 1.0672959089279175,
	"learning_rate": 3.4042553191489363e-06,
	"loss": 0.6465,
	"step": 32
	},
	{
	"epoch": 0.03523131672597865,
	"grad_norm": 0.9413697123527527,
	"learning_rate": 3.510638297872341e-06,
	"loss": 0.6452,
	"step": 33
	},
	{
	"epoch": 0.036298932384341634,
	"grad_norm": 0.8563829064369202,
	"learning_rate": 3.6170212765957453e-06,
	"loss": 0.6293,
	"step": 34
	},
	{
	"epoch": 0.037366548042704624,
	"grad_norm": 0.7698128819465637,
	"learning_rate": 3.723404255319149e-06,
	"loss": 0.6168,
	"step": 35
	},
	{
	"epoch": 0.038434163701067614,
	"grad_norm": 0.9001553654670715,
	"learning_rate": 3.8297872340425535e-06,
	"loss": 0.6169,
	"step": 36
	},
	{
	"epoch": 0.039501779359430604,
	"grad_norm": 1.0053948163986206,
	"learning_rate": 3.936170212765958e-06,
	"loss": 0.6171,
	"step": 37
	},
	{
	"epoch": 0.040569395017793594,
	"grad_norm": 1.0858631134033203,
	"learning_rate": 4.042553191489362e-06,
	"loss": 0.651,
	"step": 38
	},
	{
	"epoch": 0.041637010676156584,
	"grad_norm": 0.7921259999275208,
	"learning_rate": 4.148936170212766e-06,
	"loss": 0.6447,
	"step": 39
	},
	{
	"epoch": 0.042704626334519574,
	"grad_norm": 0.6242907643318176,
	"learning_rate": 4.255319148936171e-06,
	"loss": 0.5966,
	"step": 40
	},
	{
	"epoch": 0.043772241992882564,
	"grad_norm": 0.6965751051902771,
	"learning_rate": 4.361702127659575e-06,
	"loss": 0.5909,
	"step": 41
	},
	{
	"epoch": 0.044839857651245554,
	"grad_norm": 0.7059489488601685,
	"learning_rate": 4.468085106382979e-06,
	"loss": 0.607,
	"step": 42
	},
	{
	"epoch": 0.045907473309608544,
	"grad_norm": 0.6813053488731384,
	"learning_rate": 4.574468085106383e-06,
	"loss": 0.5946,
	"step": 43
	},
	{
	"epoch": 0.04697508896797153,
	"grad_norm": 0.6372105479240417,
	"learning_rate": 4.680851063829788e-06,
	"loss": 0.5817,
	"step": 44
	},
	{
	"epoch": 0.04804270462633452,
	"grad_norm": 0.5932055711746216,
	"learning_rate": 4.787234042553192e-06,
	"loss": 0.5916,
	"step": 45
	},
	{
	"epoch": 0.04911032028469751,
	"grad_norm": 0.5361504554748535,
	"learning_rate": 4.893617021276596e-06,
	"loss": 0.6004,
	"step": 46
	},
	{
	"epoch": 0.0501779359430605,
	"grad_norm": 0.5340394973754883,
	"learning_rate": 5e-06,
	"loss": 0.5828,
	"step": 47
	},
	{
	"epoch": 0.05124555160142349,
	"grad_norm": 0.7338045835494995,
	"learning_rate": 5.106382978723404e-06,
	"loss": 0.622,
	"step": 48
	},
	{
	"epoch": 0.05231316725978648,
	"grad_norm": 0.6164150834083557,
	"learning_rate": 5.212765957446809e-06,
	"loss": 0.5792,
	"step": 49
	},
	{
	"epoch": 0.05338078291814947,
	"grad_norm": 0.5131736397743225,
	"learning_rate": 5.319148936170213e-06,
	"loss": 0.5769,
	"step": 50
	},
	{
	"epoch": 0.05444839857651246,
	"grad_norm": 0.5779881477355957,
	"learning_rate": 5.425531914893617e-06,
	"loss": 0.6085,
	"step": 51
	},
	{
	"epoch": 0.05551601423487545,
	"grad_norm": 0.652091383934021,
	"learning_rate": 5.531914893617022e-06,
	"loss": 0.6063,
	"step": 52
	},
	{
	"epoch": 0.05658362989323843,
	"grad_norm": 0.5679817199707031,
	"learning_rate": 5.638297872340426e-06,
	"loss": 0.5642,
	"step": 53
	},
	{
	"epoch": 0.05765124555160142,
	"grad_norm": 0.564539909362793,
	"learning_rate": 5.744680851063831e-06,
	"loss": 0.5881,
	"step": 54
	},
	{
	"epoch": 0.05871886120996441,
	"grad_norm": 0.5641509294509888,
	"learning_rate": 5.851063829787235e-06,
	"loss": 0.575,
	"step": 55
	},
	{
	"epoch": 0.0597864768683274,
	"grad_norm": 0.5606682300567627,
	"learning_rate": 5.957446808510638e-06,
	"loss": 0.5476,
	"step": 56
	},
	{
	"epoch": 0.06085409252669039,
	"grad_norm": 0.573742151260376,
	"learning_rate": 6.063829787234044e-06,
	"loss": 0.5857,
	"step": 57
	},
	{
	"epoch": 0.06192170818505338,
	"grad_norm": 0.574886679649353,
	"learning_rate": 6.170212765957447e-06,
	"loss": 0.5638,
	"step": 58
	},
	{
	"epoch": 0.06298932384341636,
	"grad_norm": 0.5414725542068481,
	"learning_rate": 6.276595744680851e-06,
	"loss": 0.5927,
	"step": 59
	},
	{
	"epoch": 0.06405693950177936,
	"grad_norm": 0.5933969020843506,
	"learning_rate": 6.382978723404256e-06,
	"loss": 0.55,
	"step": 60
	},
	{
	"epoch": 0.06512455516014234,
	"grad_norm": 0.4871617257595062,
	"learning_rate": 6.48936170212766e-06,
	"loss": 0.5433,
	"step": 61
	},
	{
	"epoch": 0.06619217081850534,
	"grad_norm": 0.55656498670578,
	"learning_rate": 6.595744680851064e-06,
	"loss": 0.5599,
	"step": 62
	},
	{
	"epoch": 0.06725978647686832,
	"grad_norm": 0.5835067629814148,
	"learning_rate": 6.702127659574469e-06,
	"loss": 0.5549,
	"step": 63
	},
	{
	"epoch": 0.06832740213523132,
	"grad_norm": 0.4503428637981415,
	"learning_rate": 6.808510638297873e-06,
	"loss": 0.573,
	"step": 64
	},
	{
	"epoch": 0.0693950177935943,
	"grad_norm": 0.5671048164367676,
	"learning_rate": 6.914893617021278e-06,
	"loss": 0.5565,
	"step": 65
	},
	{
	"epoch": 0.0704626334519573,
	"grad_norm": 0.4813767075538635,
	"learning_rate": 7.021276595744682e-06,
	"loss": 0.575,
	"step": 66
	},
	{
	"epoch": 0.07153024911032028,
	"grad_norm": 0.5659592151641846,
	"learning_rate": 7.127659574468085e-06,
	"loss": 0.5181,
	"step": 67
	},
	{
	"epoch": 0.07259786476868327,
	"grad_norm": 0.5178795456886292,
	"learning_rate": 7.234042553191491e-06,
	"loss": 0.5566,
	"step": 68
	},
	{
	"epoch": 0.07366548042704626,
	"grad_norm": 0.5484414100646973,
	"learning_rate": 7.340425531914894e-06,
	"loss": 0.5409,
	"step": 69
	},
	{
	"epoch": 0.07473309608540925,
	"grad_norm": 0.5428405404090881,
	"learning_rate": 7.446808510638298e-06,
	"loss": 0.5962,
	"step": 70
	},
	{
	"epoch": 0.07580071174377224,
	"grad_norm": 0.4844944179058075,
	"learning_rate": 7.553191489361703e-06,
	"loss": 0.571,
	"step": 71
	},
	{
	"epoch": 0.07686832740213523,
	"grad_norm": 0.590509831905365,
	"learning_rate": 7.659574468085107e-06,
	"loss": 0.5348,
	"step": 72
	},
	{
	"epoch": 0.07793594306049823,
	"grad_norm": 0.4901210367679596,
	"learning_rate": 7.765957446808511e-06,
	"loss": 0.5472,
	"step": 73
	},
	{
	"epoch": 0.07900355871886121,
	"grad_norm": 0.4863327443599701,
	"learning_rate": 7.872340425531916e-06,
	"loss": 0.5249,
	"step": 74
	},
	{
	"epoch": 0.0800711743772242,
	"grad_norm": 0.5700340270996094,
	"learning_rate": 7.97872340425532e-06,
	"loss": 0.5875,
	"step": 75
	},
	{
	"epoch": 0.08113879003558719,
	"grad_norm": 0.4684799015522003,
	"learning_rate": 8.085106382978723e-06,
	"loss": 0.5293,
	"step": 76
	},
	{
	"epoch": 0.08220640569395017,
	"grad_norm": 0.6248029470443726,
	"learning_rate": 8.191489361702128e-06,
	"loss": 0.5562,
	"step": 77
	},
	{
	"epoch": 0.08327402135231317,
	"grad_norm": 0.5804619789123535,
	"learning_rate": 8.297872340425532e-06,
	"loss": 0.544,
	"step": 78
	},
	{
	"epoch": 0.08434163701067615,
	"grad_norm": 0.4794471561908722,
	"learning_rate": 8.404255319148937e-06,
	"loss": 0.5629,
	"step": 79
	},
	{
	"epoch": 0.08540925266903915,
	"grad_norm": 0.5686808824539185,
	"learning_rate": 8.510638297872341e-06,
	"loss": 0.5605,
	"step": 80
	},
	{
	"epoch": 0.08647686832740213,
	"grad_norm": 0.6154677867889404,
	"learning_rate": 8.617021276595746e-06,
	"loss": 0.5632,
	"step": 81
	},
	{
	"epoch": 0.08754448398576513,
	"grad_norm": 0.599371612071991,
	"learning_rate": 8.72340425531915e-06,
	"loss": 0.5118,
	"step": 82
	},
	{
	"epoch": 0.08861209964412811,
	"grad_norm": 0.6383739709854126,
	"learning_rate": 8.829787234042555e-06,
	"loss": 0.5584,
	"step": 83
	},
	{
	"epoch": 0.08967971530249111,
	"grad_norm": 0.6114341616630554,
	"learning_rate": 8.936170212765958e-06,
	"loss": 0.5475,
	"step": 84
	},
	{
	"epoch": 0.09074733096085409,
	"grad_norm": 0.5422399044036865,
	"learning_rate": 9.042553191489362e-06,
	"loss": 0.5356,
	"step": 85
	},
	{
	"epoch": 0.09181494661921709,
	"grad_norm": 0.5314775109291077,
	"learning_rate": 9.148936170212767e-06,
	"loss": 0.5241,
	"step": 86
	},
	{
	"epoch": 0.09288256227758007,
	"grad_norm": 0.592779278755188,
	"learning_rate": 9.255319148936171e-06,
	"loss": 0.5339,
	"step": 87
	},
	{
	"epoch": 0.09395017793594305,
	"grad_norm": 0.6122350096702576,
	"learning_rate": 9.361702127659576e-06,
	"loss": 0.5434,
	"step": 88
	},
	{
	"epoch": 0.09501779359430605,
	"grad_norm": 0.5250897407531738,
	"learning_rate": 9.46808510638298e-06,
	"loss": 0.5459,
	"step": 89
	},
	{
	"epoch": 0.09608540925266904,
	"grad_norm": 0.592778205871582,
	"learning_rate": 9.574468085106385e-06,
	"loss": 0.5578,
	"step": 90
	},
	{
	"epoch": 0.09715302491103203,
	"grad_norm": 0.47788286209106445,
	"learning_rate": 9.680851063829787e-06,
	"loss": 0.5471,
	"step": 91
	},
	{
	"epoch": 0.09822064056939502,
	"grad_norm": 0.5285771489143372,
	"learning_rate": 9.787234042553192e-06,
	"loss": 0.5281,
	"step": 92
	},
	{
	"epoch": 0.09928825622775801,
	"grad_norm": 0.47819527983665466,
	"learning_rate": 9.893617021276596e-06,
	"loss": 0.5269,
	"step": 93
	},
	{
	"epoch": 0.100355871886121,
	"grad_norm": 0.48683878779411316,
	"learning_rate": 1e-05,
	"loss": 0.5286,
	"step": 94
	},
	{
	"epoch": 0.10142348754448399,
	"grad_norm": 0.4826238751411438,
	"learning_rate": 9.999965197129365e-06,
	"loss": 0.5338,
	"step": 95
	},
	{
	"epoch": 0.10249110320284698,
	"grad_norm": 0.5617088675498962,
	"learning_rate": 9.999860789001947e-06,
	"loss": 0.5396,
	"step": 96
	},
	{
	"epoch": 0.10355871886120996,
	"grad_norm": 0.46838635206222534,
	"learning_rate": 9.999686777071233e-06,
	"loss": 0.5162,
	"step": 97
	},
	{
	"epoch": 0.10462633451957296,
	"grad_norm": 0.5251678228378296,
	"learning_rate": 9.999443163759669e-06,
	"loss": 0.5158,
	"step": 98
	},
	{
	"epoch": 0.10569395017793594,
	"grad_norm": 0.4968458116054535,
	"learning_rate": 9.999129952458628e-06,
	"loss": 0.5348,
	"step": 99
	},
	{
	"epoch": 0.10676156583629894,
	"grad_norm": 0.5481524467468262,
	"learning_rate": 9.998747147528375e-06,
	"loss": 0.5245,
	"step": 100
	},
	{
	"epoch": 0.10782918149466192,
	"grad_norm": 0.495601624250412,
	"learning_rate": 9.998294754297992e-06,
	"loss": 0.4902,
	"step": 101
	},
	{
	"epoch": 0.10889679715302492,
	"grad_norm": 0.5450451374053955,
	"learning_rate": 9.997772779065312e-06,
	"loss": 0.5487,
	"step": 102
	},
	{
	"epoch": 0.1099644128113879,
	"grad_norm": 0.5144025087356567,
	"learning_rate": 9.997181229096831e-06,
	"loss": 0.5088,
	"step": 103
	},
	{
	"epoch": 0.1110320284697509,
	"grad_norm": 0.5595222115516663,
	"learning_rate": 9.996520112627602e-06,
	"loss": 0.5327,
	"step": 104
	},
	{
	"epoch": 0.11209964412811388,
	"grad_norm": 0.6185320615768433,
	"learning_rate": 9.995789438861128e-06,
	"loss": 0.529,
	"step": 105
	},
	{
	"epoch": 0.11316725978647686,
	"grad_norm": 0.5363855957984924,
	"learning_rate": 9.994989217969224e-06,
	"loss": 0.5566,
	"step": 106
	},
	{
	"epoch": 0.11423487544483986,
	"grad_norm": 0.598929762840271,
	"learning_rate": 9.994119461091885e-06,
	"loss": 0.5024,
	"step": 107
	},
	{
	"epoch": 0.11530249110320284,
	"grad_norm": 0.49212321639060974,
	"learning_rate": 9.993180180337126e-06,
	"loss": 0.5165,
	"step": 108
	},
	{
	"epoch": 0.11637010676156584,
	"grad_norm": 0.5540521740913391,
	"learning_rate": 9.992171388780814e-06,
	"loss": 0.545,
	"step": 109
	},
	{
	"epoch": 0.11743772241992882,
	"grad_norm": 0.45905211567878723,
	"learning_rate": 9.991093100466482e-06,
	"loss": 0.4976,
	"step": 110
	},
	{
	"epoch": 0.11850533807829182,
	"grad_norm": 0.6659161448478699,
	"learning_rate": 9.989945330405146e-06,
	"loss": 0.5297,
	"step": 111
	},
	{
	"epoch": 0.1195729537366548,
	"grad_norm": 0.5286558866500854,
	"learning_rate": 9.988728094575082e-06,
	"loss": 0.5029,
	"step": 112
	},
	{
	"epoch": 0.1206405693950178,
	"grad_norm": 0.615146279335022,
	"learning_rate": 9.98744140992161e-06,
	"loss": 0.4897,
	"step": 113
	},
	{
	"epoch": 0.12170818505338078,
	"grad_norm": 0.5887618064880371,
	"learning_rate": 9.986085294356858e-06,
	"loss": 0.5802,
	"step": 114
	},
	{
	"epoch": 0.12277580071174377,
	"grad_norm": 0.5688331723213196,
	"learning_rate": 9.98465976675951e-06,
	"loss": 0.5015,
	"step": 115
	},
	{
	"epoch": 0.12384341637010676,
	"grad_norm": 0.548701822757721,
	"learning_rate": 9.983164846974549e-06,
	"loss": 0.5154,
	"step": 116
	},
	{
	"epoch": 0.12491103202846975,
	"grad_norm": 0.5815207362174988,
	"learning_rate": 9.981600555812975e-06,
	"loss": 0.5134,
	"step": 117
	},
	{
	"epoch": 0.12597864768683273,
	"grad_norm": 0.5351188778877258,
	"learning_rate": 9.979966915051517e-06,
	"loss": 0.4912,
	"step": 118
	},
	{
	"epoch": 0.12704626334519573,
	"grad_norm": 0.5330350399017334,
	"learning_rate": 9.978263947432331e-06,
	"loss": 0.5283,
	"step": 119
	},
	{
	"epoch": 0.12811387900355872,
	"grad_norm": 0.5946553349494934,
	"learning_rate": 9.976491676662679e-06,
	"loss": 0.5365,
	"step": 120
	},
	{
	"epoch": 0.12918149466192172,
	"grad_norm": 0.4562559723854065,
	"learning_rate": 9.974650127414609e-06,
	"loss": 0.5257,
	"step": 121
	},
	{
	"epoch": 0.1302491103202847,
	"grad_norm": 0.6122528910636902,
	"learning_rate": 9.972739325324596e-06,
	"loss": 0.5068,
	"step": 122
	},
	{
	"epoch": 0.13131672597864769,
	"grad_norm": 0.5213277339935303,
	"learning_rate": 9.970759296993205e-06,
	"loss": 0.4931,
	"step": 123
	},
	{
	"epoch": 0.13238434163701068,
	"grad_norm": 0.5232741236686707,
	"learning_rate": 9.968710069984699e-06,
	"loss": 0.5208,
	"step": 124
	},
	{
	"epoch": 0.13345195729537365,
	"grad_norm": 0.5642791390419006,
	"learning_rate": 9.966591672826674e-06,
	"loss": 0.5277,
	"step": 125
	},
	{
	"epoch": 0.13451957295373665,
	"grad_norm": 0.5566534996032715,
	"learning_rate": 9.964404135009649e-06,
	"loss": 0.5485,
	"step": 126
	},
	{
	"epoch": 0.13558718861209965,
	"grad_norm": 0.512524425983429,
	"learning_rate": 9.962147486986664e-06,
	"loss": 0.5566,
	"step": 127
	},
	{
	"epoch": 0.13665480427046264,
	"grad_norm": 0.5945698618888855,
	"learning_rate": 9.959821760172849e-06,
	"loss": 0.5323,
	"step": 128
	},
	{
	"epoch": 0.1377224199288256,
	"grad_norm": 0.519640326499939,
	"learning_rate": 9.957426986944994e-06,
	"loss": 0.5002,
	"step": 129
	},
	{
	"epoch": 0.1387900355871886,
	"grad_norm": 0.5728665590286255,
	"learning_rate": 9.95496320064109e-06,
	"loss": 0.4939,
	"step": 130
	},
	{
	"epoch": 0.1398576512455516,
	"grad_norm": 0.5529624819755554,
	"learning_rate": 9.952430435559873e-06,
	"loss": 0.4971,
	"step": 131
	},
	{
	"epoch": 0.1409252669039146,
	"grad_norm": 0.5441509485244751,
	"learning_rate": 9.94982872696034e-06,
	"loss": 0.5287,
	"step": 132
	},
	{
	"epoch": 0.14199288256227757,
	"grad_norm": 0.5497064590454102,
	"learning_rate": 9.947158111061263e-06,
	"loss": 0.5063,
	"step": 133
	},
	{
	"epoch": 0.14306049822064057,
	"grad_norm": 0.5112823843955994,
	"learning_rate": 9.94441862504068e-06,
	"loss": 0.5122,
	"step": 134
	},
	{
	"epoch": 0.14412811387900357,
	"grad_norm": 0.588614284992218,
	"learning_rate": 9.941610307035385e-06,
	"loss": 0.5098,
	"step": 135
	},
	{
	"epoch": 0.14519572953736654,
	"grad_norm": 0.4941340386867523,
	"learning_rate": 9.938733196140386e-06,
	"loss": 0.5082,
	"step": 136
	},
	{
	"epoch": 0.14626334519572953,
	"grad_norm": 0.566385805606842,
	"learning_rate": 9.935787332408375e-06,
	"loss": 0.4837,
	"step": 137
	},
	{
	"epoch": 0.14733096085409253,
	"grad_norm": 0.5272175073623657,
	"learning_rate": 9.932772756849152e-06,
	"loss": 0.5014,
	"step": 138
	},
	{
	"epoch": 0.14839857651245553,
	"grad_norm": 0.5560716986656189,
	"learning_rate": 9.929689511429075e-06,
	"loss": 0.5203,
	"step": 139
	},
	{
	"epoch": 0.1494661921708185,
	"grad_norm": 0.6580199003219604,
	"learning_rate": 9.926537639070457e-06,
	"loss": 0.5088,
	"step": 140
	},
	{
	"epoch": 0.1505338078291815,
	"grad_norm": 0.5059327483177185,
	"learning_rate": 9.923317183650985e-06,
	"loss": 0.5139,
	"step": 141
	},
	{
	"epoch": 0.1516014234875445,
	"grad_norm": 0.54743891954422,
	"learning_rate": 9.92002819000309e-06,
	"loss": 0.5079,
	"step": 142
	},
	{
	"epoch": 0.1526690391459075,
	"grad_norm": 0.5422698259353638,
	"learning_rate": 9.916670703913345e-06,
	"loss": 0.5176,
	"step": 143
	},
	{
	"epoch": 0.15373665480427046,
	"grad_norm": 0.5230839848518372,
	"learning_rate": 9.913244772121811e-06,
	"loss": 0.5,
	"step": 144
	},
	{
	"epoch": 0.15480427046263345,
	"grad_norm": 0.4665907025337219,
	"learning_rate": 9.90975044232139e-06,
	"loss": 0.5053,
	"step": 145
	},
	{
	"epoch": 0.15587188612099645,
	"grad_norm": 0.6438184380531311,
	"learning_rate": 9.90618776315717e-06,
	"loss": 0.5266,
	"step": 146
	},
	{
	"epoch": 0.15693950177935942,
	"grad_norm": 0.4731660485267639,
	"learning_rate": 9.902556784225729e-06,
	"loss": 0.4834,
	"step": 147
	},
	{
	"epoch": 0.15800711743772242,
	"grad_norm": 0.5352628827095032,
	"learning_rate": 9.898857556074469e-06,
	"loss": 0.5099,
	"step": 148
	},
	{
	"epoch": 0.1590747330960854,
	"grad_norm": 0.5462168455123901,
	"learning_rate": 9.895090130200889e-06,
	"loss": 0.5195,
	"step": 149
	},
	{
	"epoch": 0.1601423487544484,
	"grad_norm": 0.4784468710422516,
	"learning_rate": 9.891254559051886e-06,
	"loss": 0.5173,
	"step": 150
	},
	{
	"epoch": 0.16120996441281138,
	"grad_norm": 0.498097687959671,
	"learning_rate": 9.887350896023015e-06,
	"loss": 0.5065,
	"step": 151
	},
	{
	"epoch": 0.16227758007117438,
	"grad_norm": 0.4685448706150055,
	"learning_rate": 9.883379195457747e-06,
	"loss": 0.4687,
	"step": 152
	},
	{
	"epoch": 0.16334519572953737,
	"grad_norm": 0.5289403200149536,
	"learning_rate": 9.879339512646714e-06,
	"loss": 0.5154,
	"step": 153
	},
	{
	"epoch": 0.16441281138790034,
	"grad_norm": 0.5611624121665955,
	"learning_rate": 9.875231903826936e-06,
	"loss": 0.5305,
	"step": 154
	},
	{
	"epoch": 0.16548042704626334,
	"grad_norm": 0.5301553010940552,
	"learning_rate": 9.871056426181052e-06,
	"loss": 0.5316,
	"step": 155
	},
	{
	"epoch": 0.16654804270462634,
	"grad_norm": 0.6103717684745789,
	"learning_rate": 9.8668131378365e-06,
	"loss": 0.5185,
	"step": 156
	},
	{
	"epoch": 0.16761565836298933,
	"grad_norm": 0.5421136021614075,
	"learning_rate": 9.862502097864726e-06,
	"loss": 0.518,
	"step": 157
	},
	{
	"epoch": 0.1686832740213523,
	"grad_norm": 0.5964006185531616,
	"learning_rate": 9.858123366280358e-06,
	"loss": 0.5073,
	"step": 158
	},
	{
	"epoch": 0.1697508896797153,
	"grad_norm": 0.5336704254150391,
	"learning_rate": 9.853677004040368e-06,
	"loss": 0.5178,
	"step": 159
	},
	{
	"epoch": 0.1708185053380783,
	"grad_norm": 0.5406745076179504,
	"learning_rate": 9.849163073043223e-06,
	"loss": 0.5046,
	"step": 160
	},
	{
	"epoch": 0.1718861209964413,
	"grad_norm": 0.5165396928787231,
	"learning_rate": 9.844581636128025e-06,
	"loss": 0.497,
	"step": 161
	},
	{
	"epoch": 0.17295373665480426,
	"grad_norm": 0.5873040556907654,
	"learning_rate": 9.83993275707364e-06,
	"loss": 0.5206,
	"step": 162
	},
	{
	"epoch": 0.17402135231316726,
	"grad_norm": 0.5253546237945557,
	"learning_rate": 9.835216500597797e-06,
	"loss": 0.515,
	"step": 163
	},
	{
	"epoch": 0.17508896797153026,
	"grad_norm": 0.5812190175056458,
	"learning_rate": 9.830432932356207e-06,
	"loss": 0.5192,
	"step": 164
	},
	{
	"epoch": 0.17615658362989323,
	"grad_norm": 0.4591503143310547,
	"learning_rate": 9.82558211894163e-06,
	"loss": 0.5025,
	"step": 165
	},
	{
	"epoch": 0.17722419928825622,
	"grad_norm": 0.6000644564628601,
	"learning_rate": 9.820664127882958e-06,
	"loss": 0.4817,
	"step": 166
	},
	{
	"epoch": 0.17829181494661922,
	"grad_norm": 0.5603543519973755,
	"learning_rate": 9.815679027644273e-06,
	"loss": 0.4793,
	"step": 167
	},
	{
	"epoch": 0.17935943060498222,
	"grad_norm": 0.5255252122879028,
	"learning_rate": 9.8106268876239e-06,
	"loss": 0.494,
	"step": 168
	},
	{
	"epoch": 0.1804270462633452,
	"grad_norm": 0.6187337040901184,
	"learning_rate": 9.805507778153423e-06,
	"loss": 0.5069,
	"step": 169
	},
	{
	"epoch": 0.18149466192170818,
	"grad_norm": 0.5259950160980225,
	"learning_rate": 9.800321770496726e-06,
	"loss": 0.5192,
	"step": 170
	},
	{
	"epoch": 0.18256227758007118,
	"grad_norm": 0.5141558051109314,
	"learning_rate": 9.79506893684899e-06,
	"loss": 0.488,
	"step": 171
	},
	{
	"epoch": 0.18362989323843418,
	"grad_norm": 0.5964564681053162,
	"learning_rate": 9.789749350335693e-06,
	"loss": 0.501,
	"step": 172
	},
	{
	"epoch": 0.18469750889679715,
	"grad_norm": 0.5745047330856323,
	"learning_rate": 9.784363085011587e-06,
	"loss": 0.5174,
	"step": 173
	},
	{
	"epoch": 0.18576512455516014,
	"grad_norm": 0.44916895031929016,
	"learning_rate": 9.778910215859666e-06,
	"loss": 0.4964,
	"step": 174
	},
	{
	"epoch": 0.18683274021352314,
	"grad_norm": 0.5034676790237427,
	"learning_rate": 9.773390818790136e-06,
	"loss": 0.4729,
	"step": 175
	},
	{
	"epoch": 0.1879003558718861,
	"grad_norm": 0.5329164266586304,
	"learning_rate": 9.767804970639338e-06,
	"loss": 0.4945,
	"step": 176
	},
	{
	"epoch": 0.1889679715302491,
	"grad_norm": 0.4742647409439087,
	"learning_rate": 9.762152749168693e-06,
	"loss": 0.5445,
	"step": 177
	},
	{
	"epoch": 0.1900355871886121,
	"grad_norm": 0.4610464572906494,
	"learning_rate": 9.756434233063616e-06,
	"loss": 0.4924,
	"step": 178
	},
	{
	"epoch": 0.1911032028469751,
	"grad_norm": 0.5255376696586609,
	"learning_rate": 9.750649501932414e-06,
	"loss": 0.5241,
	"step": 179
	},
	{
	"epoch": 0.19217081850533807,
	"grad_norm": 0.5016917586326599,
	"learning_rate": 9.744798636305189e-06,
	"loss": 0.5058,
	"step": 180
	},
	{
	"epoch": 0.19323843416370107,
	"grad_norm": 0.6196140646934509,
	"learning_rate": 9.738881717632709e-06,
	"loss": 0.5042,
	"step": 181
	},
	{
	"epoch": 0.19430604982206406,
	"grad_norm": 0.5428318977355957,
	"learning_rate": 9.732898828285273e-06,
	"loss": 0.5129,
	"step": 182
	},
	{
	"epoch": 0.19537366548042703,
	"grad_norm": 0.5006230473518372,
	"learning_rate": 9.726850051551575e-06,
	"loss": 0.4631,
	"step": 183
	},
	{
	"epoch": 0.19644128113879003,
	"grad_norm": 0.5109187960624695,
	"learning_rate": 9.72073547163753e-06,
	"loss": 0.4773,
	"step": 184
	},
	{
	"epoch": 0.19750889679715303,
	"grad_norm": 0.5989903807640076,
	"learning_rate": 9.714555173665112e-06,
	"loss": 0.5078,
	"step": 185
	},
	{
	"epoch": 0.19857651245551602,
	"grad_norm": 0.5101140737533569,
	"learning_rate": 9.708309243671167e-06,
	"loss": 0.5248,
	"step": 186
	},
	{
	"epoch": 0.199644128113879,
	"grad_norm": 0.4500106871128082,
	"learning_rate": 9.701997768606209e-06,
	"loss": 0.4814,
	"step": 187
	},
	{
	"epoch": 0.200711743772242,
	"grad_norm": 0.5334274172782898,
	"learning_rate": 9.695620836333219e-06,
	"loss": 0.4939,
	"step": 188
	},
	{
	"epoch": 0.201779359430605,
	"grad_norm": 0.5067172050476074,
	"learning_rate": 9.68917853562642e-06,
	"loss": 0.5177,
	"step": 189
	},
	{
	"epoch": 0.20284697508896798,
	"grad_norm": 0.5605948567390442,
	"learning_rate": 9.68267095617003e-06,
	"loss": 0.5021,
	"step": 190
	},
	{
	"epoch": 0.20391459074733095,
	"grad_norm": 0.536536455154419,
	"learning_rate": 9.676098188557032e-06,
	"loss": 0.4814,
	"step": 191
	},
	{
	"epoch": 0.20498220640569395,
	"grad_norm": 0.5245672464370728,
	"learning_rate": 9.669460324287899e-06,
	"loss": 0.4853,
	"step": 192
	},
	{
	"epoch": 0.20604982206405695,
	"grad_norm": 0.6165151596069336,
	"learning_rate": 9.662757455769317e-06,
	"loss": 0.4744,
	"step": 193
	},
	{
	"epoch": 0.20711743772241992,
	"grad_norm": 0.5017523169517517,
	"learning_rate": 9.655989676312918e-06,
	"loss": 0.5089,
	"step": 194
	},
	{
	"epoch": 0.20818505338078291,
	"grad_norm": 0.6126395463943481,
	"learning_rate": 9.649157080133962e-06,
	"loss": 0.5089,
	"step": 195
	},
	{
	"epoch": 0.2092526690391459,
	"grad_norm": 0.520261824131012,
	"learning_rate": 9.642259762350034e-06,
	"loss": 0.4986,
	"step": 196
	},
	{
	"epoch": 0.2103202846975089,
	"grad_norm": 0.5865549445152283,
	"learning_rate": 9.635297818979715e-06,
	"loss": 0.5336,
	"step": 197
	},
	{
	"epoch": 0.21138790035587188,
	"grad_norm": 0.5497699975967407,
	"learning_rate": 9.628271346941252e-06,
	"loss": 0.5195,
	"step": 198
	},
	{
	"epoch": 0.21245551601423487,
	"grad_norm": 0.5673022866249084,
	"learning_rate": 9.621180444051206e-06,
	"loss": 0.5036,
	"step": 199
	},
	{
	"epoch": 0.21352313167259787,
	"grad_norm": 0.5429431796073914,
	"learning_rate": 9.614025209023084e-06,
	"loss": 0.5244,
	"step": 200
	},
	{
	"epoch": 0.21459074733096084,
	"grad_norm": 0.5560723543167114,
	"learning_rate": 9.606805741465977e-06,
	"loss": 0.5,
	"step": 201
	},
	{
	"epoch": 0.21565836298932384,
	"grad_norm": 0.5545246005058289,
	"learning_rate": 9.59952214188316e-06,
	"loss": 0.4939,
	"step": 202
	},
	{
	"epoch": 0.21672597864768683,
	"grad_norm": 0.6207299828529358,
	"learning_rate": 9.592174511670704e-06,
	"loss": 0.5191,
	"step": 203
	},
	{
	"epoch": 0.21779359430604983,
	"grad_norm": 0.5119560360908508,
	"learning_rate": 9.58476295311606e-06,
	"loss": 0.4974,
	"step": 204
	},
	{
	"epoch": 0.2188612099644128,
	"grad_norm": 0.5543833374977112,
	"learning_rate": 9.577287569396632e-06,
	"loss": 0.4777,
	"step": 205
	},
	{
	"epoch": 0.2199288256227758,
	"grad_norm": 0.5279098153114319,
	"learning_rate": 9.569748464578343e-06,
	"loss": 0.5012,
	"step": 206
	},
	{
	"epoch": 0.2209964412811388,
	"grad_norm": 0.5337633490562439,
	"learning_rate": 9.562145743614193e-06,
	"loss": 0.4872,
	"step": 207
	},
	{
	"epoch": 0.2220640569395018,
	"grad_norm": 0.534850001335144,
	"learning_rate": 9.554479512342785e-06,
	"loss": 0.4928,
	"step": 208
	},
	{
	"epoch": 0.22313167259786476,
	"grad_norm": 0.48084014654159546,
	"learning_rate": 9.54674987748686e-06,
	"loss": 0.4863,
	"step": 209
	},
	{
	"epoch": 0.22419928825622776,
	"grad_norm": 0.6603854298591614,
	"learning_rate": 9.538956946651816e-06,
	"loss": 0.5256,
	"step": 210
	},
	{
	"epoch": 0.22526690391459075,
	"grad_norm": 0.5027628540992737,
	"learning_rate": 9.531100828324191e-06,
	"loss": 0.5022,
	"step": 211
	},
	{
	"epoch": 0.22633451957295372,
	"grad_norm": 0.5168050527572632,
	"learning_rate": 9.52318163187018e-06,
	"loss": 0.4878,
	"step": 212
	},
	{
	"epoch": 0.22740213523131672,
	"grad_norm": 0.5213115215301514,
	"learning_rate": 9.515199467534086e-06,
	"loss": 0.527,
	"step": 213
	},
	{
	"epoch": 0.22846975088967972,
	"grad_norm": 0.49242091178894043,
	"learning_rate": 9.507154446436806e-06,
	"loss": 0.4916,
	"step": 214
	},
	{
	"epoch": 0.22953736654804271,
	"grad_norm": 0.5438655018806458,
	"learning_rate": 9.499046680574267e-06,
	"loss": 0.4751,
	"step": 215
	},
	{
	"epoch": 0.23060498220640568,
	"grad_norm": 0.5265784859657288,
	"learning_rate": 9.490876282815884e-06,
	"loss": 0.4805,
	"step": 216
	},
	{
	"epoch": 0.23167259786476868,
	"grad_norm": 0.5454720258712769,
	"learning_rate": 9.482643366902972e-06,
	"loss": 0.5312,
	"step": 217
	},
	{
	"epoch": 0.23274021352313168,
	"grad_norm": 0.6158825159072876,
	"learning_rate": 9.474348047447177e-06,
	"loss": 0.5209,
	"step": 218
	},
	{
	"epoch": 0.23380782918149468,
	"grad_norm": 0.49415621161460876,
	"learning_rate": 9.465990439928868e-06,
	"loss": 0.4835,
	"step": 219
	},
	{
	"epoch": 0.23487544483985764,
	"grad_norm": 0.5915224552154541,
	"learning_rate": 9.457570660695542e-06,
	"loss": 0.486,
	"step": 220
	},
	{
	"epoch": 0.23594306049822064,
	"grad_norm": 0.5715787410736084,
	"learning_rate": 9.449088826960187e-06,
	"loss": 0.4949,
	"step": 221
	},
	{
	"epoch": 0.23701067615658364,
	"grad_norm": 0.6309436559677124,
	"learning_rate": 9.440545056799677e-06,
	"loss": 0.5237,
	"step": 222
	},
	{
	"epoch": 0.2380782918149466,
	"grad_norm": 0.6128714084625244,
	"learning_rate": 9.431939469153096e-06,
	"loss": 0.4709,
	"step": 223
	},
	{
	"epoch": 0.2391459074733096,
	"grad_norm": 0.5757558345794678,
	"learning_rate": 9.423272183820109e-06,
	"loss": 0.5063,
	"step": 224
	},
	{
	"epoch": 0.2402135231316726,
	"grad_norm": 0.5617343187332153,
	"learning_rate": 9.41454332145928e-06,
	"loss": 0.4868,
	"step": 225
	},
	{
	"epoch": 0.2412811387900356,
	"grad_norm": 0.5010789036750793,
	"learning_rate": 9.405753003586396e-06,
	"loss": 0.5037,
	"step": 226
	},
	{
	"epoch": 0.24234875444839857,
	"grad_norm": 0.49613580107688904,
	"learning_rate": 9.396901352572771e-06,
	"loss": 0.4892,
	"step": 227
	},
	{
	"epoch": 0.24341637010676156,
	"grad_norm": 0.6001424789428711,
	"learning_rate": 9.387988491643558e-06,
	"loss": 0.5054,
	"step": 228
	},
	{
	"epoch": 0.24448398576512456,
	"grad_norm": 0.5321950316429138,
	"learning_rate": 9.379014544876011e-06,
	"loss": 0.5082,
	"step": 229
	},
	{
	"epoch": 0.24555160142348753,
	"grad_norm": 0.5619071125984192,
	"learning_rate": 9.369979637197774e-06,
	"loss": 0.5071,
	"step": 230
	},
	{
	"epoch": 0.24661921708185053,
	"grad_norm": 0.4910016357898712,
	"learning_rate": 9.360883894385137e-06,
	"loss": 0.4774,
	"step": 231
	},
	{
	"epoch": 0.24768683274021353,
	"grad_norm": 0.5721420645713806,
	"learning_rate": 9.351727443061284e-06,
	"loss": 0.4978,
	"step": 232
	},
	{
	"epoch": 0.24875444839857652,
	"grad_norm": 0.5795683264732361,
	"learning_rate": 9.342510410694529e-06,
	"loss": 0.5085,
	"step": 233
	},
	{
	"epoch": 0.2498220640569395,
	"grad_norm": 0.5288822054862976,
	"learning_rate": 9.33323292559655e-06,
	"loss": 0.4864,
	"step": 234
	},
	{
	"epoch": 0.2508896797153025,
	"grad_norm": 0.5554943680763245,
	"learning_rate": 9.323895116920591e-06,
	"loss": 0.4998,
	"step": 235
	},
	{
	"epoch": 0.25195729537366546,
	"grad_norm": 0.5668061971664429,
	"learning_rate": 9.31449711465967e-06,
	"loss": 0.477,
	"step": 236
	},
	{
	"epoch": 0.25302491103202845,
	"grad_norm": 0.5568402409553528,
	"learning_rate": 9.305039049644772e-06,
	"loss": 0.5175,
	"step": 237
	},
	{
	"epoch": 0.25409252669039145,
	"grad_norm": 0.5518472790718079,
	"learning_rate": 9.29552105354302e-06,
	"loss": 0.4745,
	"step": 238
	},
	{
	"epoch": 0.25516014234875445,
	"grad_norm": 0.6117028594017029,
	"learning_rate": 9.28594325885585e-06,
	"loss": 0.5148,
	"step": 239
	},
	{
	"epoch": 0.25622775800711745,
	"grad_norm": 0.5180391073226929,
	"learning_rate": 9.27630579891716e-06,
	"loss": 0.4837,
	"step": 240
	},
	{
	"epoch": 0.25729537366548044,
	"grad_norm": 0.5480329990386963,
	"learning_rate": 9.266608807891459e-06,
	"loss": 0.501,
	"step": 241
	},
	{
	"epoch": 0.25836298932384344,
	"grad_norm": 0.4984034597873688,
	"learning_rate": 9.256852420771999e-06,
	"loss": 0.4946,
	"step": 242
	},
	{
	"epoch": 0.2594306049822064,
	"grad_norm": 0.5542665123939514,
	"learning_rate": 9.24703677337889e-06,
	"loss": 0.4815,
	"step": 243
	},
	{
	"epoch": 0.2604982206405694,
	"grad_norm": 0.4799808859825134,
	"learning_rate": 9.237162002357214e-06,
	"loss": 0.4838,
	"step": 244
	},
	{
	"epoch": 0.2615658362989324,
	"grad_norm": 0.49428969621658325,
	"learning_rate": 9.227228245175127e-06,
	"loss": 0.4865,
	"step": 245
	},
	{
	"epoch": 0.26263345195729537,
	"grad_norm": 0.4643561840057373,
	"learning_rate": 9.217235640121927e-06,
	"loss": 0.4722,
	"step": 246
	},
	{
	"epoch": 0.26370106761565837,
	"grad_norm": 0.48922228813171387,
	"learning_rate": 9.207184326306155e-06,
	"loss": 0.5024,
	"step": 247
	},
	{
	"epoch": 0.26476868327402137,
	"grad_norm": 0.5658605098724365,
	"learning_rate": 9.197074443653643e-06,
	"loss": 0.4878,
	"step": 248
	},
	{
	"epoch": 0.26583629893238436,
	"grad_norm": 0.4450552761554718,
	"learning_rate": 9.186906132905563e-06,
	"loss": 0.4621,
	"step": 249
	},
	{
	"epoch": 0.2669039145907473,
	"grad_norm": 0.5502617955207825,
	"learning_rate": 9.176679535616477e-06,
	"loss": 0.4836,
	"step": 250
	},
	{
	"epoch": 0.2679715302491103,
	"grad_norm": 0.4923563599586487,
	"learning_rate": 9.166394794152363e-06,
	"loss": 0.5166,
	"step": 251
	},
	{
	"epoch": 0.2690391459074733,
	"grad_norm": 0.5220004916191101,
	"learning_rate": 9.156052051688633e-06,
	"loss": 0.464,
	"step": 252
	},
	{
	"epoch": 0.2701067615658363,
	"grad_norm": 0.5749658942222595,
	"learning_rate": 9.145651452208133e-06,
	"loss": 0.493,
	"step": 253
	},
	{
	"epoch": 0.2711743772241993,
	"grad_norm": 0.4788929522037506,
	"learning_rate": 9.135193140499155e-06,
	"loss": 0.506,
	"step": 254
	},
	{
	"epoch": 0.2722419928825623,
	"grad_norm": 0.5826008915901184,
	"learning_rate": 9.124677262153405e-06,
	"loss": 0.481,
	"step": 255
	},
	{
	"epoch": 0.2733096085409253,
	"grad_norm": 0.5467514395713806,
	"learning_rate": 9.114103963563986e-06,
	"loss": 0.4821,
	"step": 256
	},
	{
	"epoch": 0.2743772241992883,
	"grad_norm": 0.5301008224487305,
	"learning_rate": 9.103473391923354e-06,
	"loss": 0.4727,
	"step": 257
	},
	{
	"epoch": 0.2754448398576512,
	"grad_norm": 0.5102054476737976,
	"learning_rate": 9.092785695221271e-06,
	"loss": 0.4828,
	"step": 258
	},
	{
	"epoch": 0.2765124555160142,
	"grad_norm": 0.6430336236953735,
	"learning_rate": 9.08204102224275e-06,
	"loss": 0.4909,
	"step": 259
	},
	{
	"epoch": 0.2775800711743772,
	"grad_norm": 0.5367814898490906,
	"learning_rate": 9.071239522565978e-06,
	"loss": 0.4805,
	"step": 260
	},
	{
	"epoch": 0.2786476868327402,
	"grad_norm": 0.561622142791748,
	"learning_rate": 9.06038134656023e-06,
	"loss": 0.4643,
	"step": 261
	},
	{
	"epoch": 0.2797153024911032,
	"grad_norm": 0.5907300710678101,
	"learning_rate": 9.049466645383785e-06,
	"loss": 0.5223,
	"step": 262
	},
	{
	"epoch": 0.2807829181494662,
	"grad_norm": 0.5875605940818787,
	"learning_rate": 9.038495570981814e-06,
	"loss": 0.4932,
	"step": 263
	},
	{
	"epoch": 0.2818505338078292,
	"grad_norm": 0.5611529350280762,
	"learning_rate": 9.027468276084274e-06,
	"loss": 0.4901,
	"step": 264
	},
	{
	"epoch": 0.28291814946619215,
	"grad_norm": 0.6816518902778625,
	"learning_rate": 9.016384914203771e-06,
	"loss": 0.5165,
	"step": 265
	},
	{
	"epoch": 0.28398576512455515,
	"grad_norm": 0.68822181224823,
	"learning_rate": 9.00524563963343e-06,
	"loss": 0.4756,
	"step": 266
	},
	{
	"epoch": 0.28505338078291814,
	"grad_norm": 0.5975049138069153,
	"learning_rate": 8.99405060744474e-06,
	"loss": 0.4945,
	"step": 267
	},
	{
	"epoch": 0.28612099644128114,
	"grad_norm": 0.7125190496444702,
	"learning_rate": 8.982799973485407e-06,
	"loss": 0.4962,
	"step": 268
	},
	{
	"epoch": 0.28718861209964414,
	"grad_norm": 0.6332557201385498,
	"learning_rate": 8.971493894377174e-06,
	"loss": 0.4869,
	"step": 269
	},
	{
	"epoch": 0.28825622775800713,
	"grad_norm": 0.5689089894294739,
	"learning_rate": 8.960132527513642e-06,
	"loss": 0.5099,
	"step": 270
	},
	{
	"epoch": 0.28932384341637013,
	"grad_norm": 0.5326068997383118,
	"learning_rate": 8.94871603105809e-06,
	"loss": 0.4912,
	"step": 271
	},
	{
	"epoch": 0.29039145907473307,
	"grad_norm": 0.5300759077072144,
	"learning_rate": 8.937244563941248e-06,
	"loss": 0.5066,
	"step": 272
	},
	{
	"epoch": 0.29145907473309607,
	"grad_norm": 0.5240178108215332,
	"learning_rate": 8.925718285859118e-06,
	"loss": 0.5005,
	"step": 273
	},
	{
	"epoch": 0.29252669039145907,
	"grad_norm": 0.47631746530532837,
	"learning_rate": 8.914137357270723e-06,
	"loss": 0.5008,
	"step": 274
	},
	{
	"epoch": 0.29359430604982206,
	"grad_norm": 0.49288827180862427,
	"learning_rate": 8.902501939395887e-06,
	"loss": 0.4866,
	"step": 275
	},
	{
	"epoch": 0.29466192170818506,
	"grad_norm": 0.5662288069725037,
	"learning_rate": 8.890812194212987e-06,
	"loss": 0.5421,
	"step": 276
	},
	{
	"epoch": 0.29572953736654806,
	"grad_norm": 0.4656676650047302,
	"learning_rate": 8.879068284456702e-06,
	"loss": 0.4997,
	"step": 277
	},
	{
	"epoch": 0.29679715302491105,
	"grad_norm": 0.5733962059020996,
	"learning_rate": 8.867270373615735e-06,
	"loss": 0.501,
	"step": 278
	},
	{
	"epoch": 0.297864768683274,
	"grad_norm": 0.5234590172767639,
	"learning_rate": 8.855418625930556e-06,
	"loss": 0.4848,
	"step": 279
	},
	{
	"epoch": 0.298932384341637,
	"grad_norm": 0.5430875420570374,
	"learning_rate": 8.8435132063911e-06,
	"loss": 0.5157,
	"step": 280
	},
	{
	"epoch": 0.3,
	"grad_norm": 0.5232681035995483,
	"learning_rate": 8.83155428073448e-06,
	"loss": 0.4854,
	"step": 281
	},
	{
	"epoch": 0.301067615658363,
	"grad_norm": 0.5697162747383118,
	"learning_rate": 8.81954201544267e-06,
	"loss": 0.4928,
	"step": 282
	},
	{
	"epoch": 0.302135231316726,
	"grad_norm": 0.462223619222641,
	"learning_rate": 8.8074765777402e-06,
	"loss": 0.4856,
	"step": 283
	},
	{
	"epoch": 0.303202846975089,
	"grad_norm": 0.518064022064209,
	"learning_rate": 8.79535813559181e-06,
	"loss": 0.5049,
	"step": 284
	},
	{
	"epoch": 0.304270462633452,
	"grad_norm": 0.46611088514328003,
	"learning_rate": 8.783186857700137e-06,
	"loss": 0.4837,
	"step": 285
	},
	{
	"epoch": 0.305338078291815,
	"grad_norm": 0.519318699836731,
	"learning_rate": 8.77096291350334e-06,
	"loss": 0.4947,
	"step": 286
	},
	{
	"epoch": 0.3064056939501779,
	"grad_norm": 0.46297067403793335,
	"learning_rate": 8.75868647317276e-06,
	"loss": 0.4985,
	"step": 287
	},
	{
	"epoch": 0.3074733096085409,
	"grad_norm": 0.4645700752735138,
	"learning_rate": 8.746357707610544e-06,
	"loss": 0.4659,
	"step": 288
	},
	{
	"epoch": 0.3085409252669039,
	"grad_norm": 0.463349848985672,
	"learning_rate": 8.733976788447265e-06,
	"loss": 0.5017,
	"step": 289
	},
	{
	"epoch": 0.3096085409252669,
	"grad_norm": 0.5248959064483643,
	"learning_rate": 8.721543888039534e-06,
	"loss": 0.5002,
	"step": 290
	},
	{
	"epoch": 0.3106761565836299,
	"grad_norm": 0.514178991317749,
	"learning_rate": 8.709059179467598e-06,
	"loss": 0.4693,
	"step": 291
	},
	{
	"epoch": 0.3117437722419929,
	"grad_norm": 0.49520182609558105,
	"learning_rate": 8.69652283653294e-06,
	"loss": 0.4899,
	"step": 292
	},
	{
	"epoch": 0.3128113879003559,
	"grad_norm": 0.4822703003883362,
	"learning_rate": 8.683935033755848e-06,
	"loss": 0.4944,
	"step": 293
	},
	{
	"epoch": 0.31387900355871884,
	"grad_norm": 0.5043975710868835,
	"learning_rate": 8.671295946372989e-06,
	"loss": 0.4725,
	"step": 294
	},
	{
	"epoch": 0.31494661921708184,
	"grad_norm": 0.4966917932033539,
	"learning_rate": 8.658605750334972e-06,
	"loss": 0.4764,
	"step": 295
	},
	{
	"epoch": 0.31601423487544483,
	"grad_norm": 0.48992806673049927,
	"learning_rate": 8.6458646223039e-06,
	"loss": 0.4899,
	"step": 296
	},
	{
	"epoch": 0.31708185053380783,
	"grad_norm": 0.5476608872413635,
	"learning_rate": 8.6330727396509e-06,
	"loss": 0.488,
	"step": 297
	},
	{
	"epoch": 0.3181494661921708,
	"grad_norm": 0.6118818521499634,
	"learning_rate": 8.620230280453672e-06,
	"loss": 0.5071,
	"step": 298
	},
	{
	"epoch": 0.3192170818505338,
	"grad_norm": 0.45298174023628235,
	"learning_rate": 8.607337423493996e-06,
	"loss": 0.471,
	"step": 299
	},
	{
	"epoch": 0.3202846975088968,
	"grad_norm": 0.5458585023880005,
	"learning_rate": 8.594394348255239e-06,
	"loss": 0.5012,
	"step": 300
	},
	{
	"epoch": 0.32135231316725976,
	"grad_norm": 0.5509236454963684,
	"learning_rate": 8.581401234919873e-06,
	"loss": 0.497,
	"step": 301
	},
	{
	"epoch": 0.32241992882562276,
	"grad_norm": 0.520375669002533,
	"learning_rate": 8.568358264366958e-06,
	"loss": 0.4948,
	"step": 302
	},
	{
	"epoch": 0.32348754448398576,
	"grad_norm": 0.46900251507759094,
	"learning_rate": 8.555265618169615e-06,
	"loss": 0.4987,
	"step": 303
	},
	{
	"epoch": 0.32455516014234875,
	"grad_norm": 0.44442543387413025,
	"learning_rate": 8.542123478592518e-06,
	"loss": 0.4898,
	"step": 304
	},
	{
	"epoch": 0.32562277580071175,
	"grad_norm": 0.43564245104789734,
	"learning_rate": 8.528932028589337e-06,
	"loss": 0.4587,
	"step": 305
	},
	{
	"epoch": 0.32669039145907475,
	"grad_norm": 0.6464988589286804,
	"learning_rate": 8.515691451800206e-06,
	"loss": 0.511,
	"step": 306
	},
	{
	"epoch": 0.32775800711743774,
	"grad_norm": 0.485740602016449,
	"learning_rate": 8.502401932549154e-06,
	"loss": 0.4917,
	"step": 307
	},
	{
	"epoch": 0.3288256227758007,
	"grad_norm": 0.5098385214805603,
	"learning_rate": 8.489063655841552e-06,
	"loss": 0.4796,
	"step": 308
	},
	{
	"epoch": 0.3298932384341637,
	"grad_norm": 0.5981292724609375,
	"learning_rate": 8.475676807361526e-06,
	"loss": 0.5112,
	"step": 309
	},
	{
	"epoch": 0.3309608540925267,
	"grad_norm": 0.499467670917511,
	"learning_rate": 8.462241573469378e-06,
	"loss": 0.4924,
	"step": 310
	},
	{
	"epoch": 0.3320284697508897,
	"grad_norm": 0.5141733884811401,
	"learning_rate": 8.448758141198991e-06,
	"loss": 0.4856,
	"step": 311
	},
	{
	"epoch": 0.3330960854092527,
	"grad_norm": 0.49083369970321655,
	"learning_rate": 8.435226698255228e-06,
	"loss": 0.4927,
	"step": 312
	},
	{
	"epoch": 0.33416370106761567,
	"grad_norm": 0.5083484053611755,
	"learning_rate": 8.421647433011306e-06,
	"loss": 0.4963,
	"step": 313
	},
	{
	"epoch": 0.33523131672597867,
	"grad_norm": 0.5530070066452026,
	"learning_rate": 8.408020534506195e-06,
	"loss": 0.5088,
	"step": 314
	},
	{
	"epoch": 0.33629893238434166,
	"grad_norm": 0.5097641944885254,
	"learning_rate": 8.394346192441967e-06,
	"loss": 0.4999,
	"step": 315
	},
	{
	"epoch": 0.3373665480427046,
	"grad_norm": 0.5912004709243774,
	"learning_rate": 8.380624597181165e-06,
	"loss": 0.5071,
	"step": 316
	},
	{
	"epoch": 0.3384341637010676,
	"grad_norm": 0.5386204123497009,
	"learning_rate": 8.366855939744152e-06,
	"loss": 0.5018,
	"step": 317
	},
	{
	"epoch": 0.3395017793594306,
	"grad_norm": 0.6744493246078491,
	"learning_rate": 8.353040411806449e-06,
	"loss": 0.5036,
	"step": 318
	},
	{
	"epoch": 0.3405693950177936,
	"grad_norm": 0.5442379117012024,
	"learning_rate": 8.339178205696067e-06,
	"loss": 0.5192,
	"step": 319
	},
	{
	"epoch": 0.3416370106761566,
	"grad_norm": 0.4711393117904663,
	"learning_rate": 8.325269514390835e-06,
	"loss": 0.4805,
	"step": 320
	},
	{
	"epoch": 0.3427046263345196,
	"grad_norm": 0.5519885420799255,
	"learning_rate": 8.311314531515707e-06,
	"loss": 0.4606,
	"step": 321
	},
	{
	"epoch": 0.3437722419928826,
	"grad_norm": 0.48979809880256653,
	"learning_rate": 8.297313451340064e-06,
	"loss": 0.4683,
	"step": 322
	},
	{
	"epoch": 0.34483985765124553,
	"grad_norm": 0.45639723539352417,
	"learning_rate": 8.283266468775024e-06,
	"loss": 0.4899,
	"step": 323
	},
	{
	"epoch": 0.3459074733096085,
	"grad_norm": 0.559330940246582,
	"learning_rate": 8.269173779370712e-06,
	"loss": 0.4993,
	"step": 324
	},
	{
	"epoch": 0.3469750889679715,
	"grad_norm": 0.5538395047187805,
	"learning_rate": 8.255035579313545e-06,
	"loss": 0.4826,
	"step": 325
	},
	{
	"epoch": 0.3480427046263345,
	"grad_norm": 0.5136542320251465,
	"learning_rate": 8.240852065423507e-06,
	"loss": 0.4979,
	"step": 326
	},
	{
	"epoch": 0.3491103202846975,
	"grad_norm": 0.5399389863014221,
	"learning_rate": 8.226623435151389e-06,
	"loss": 0.4782,
	"step": 327
	},
	{
	"epoch": 0.3501779359430605,
	"grad_norm": 0.535988450050354,
	"learning_rate": 8.21234988657607e-06,
	"loss": 0.507,
	"step": 328
	},
	{
	"epoch": 0.3512455516014235,
	"grad_norm": 0.4826440215110779,
	"learning_rate": 8.198031618401733e-06,
	"loss": 0.4858,
	"step": 329
	},
	{
	"epoch": 0.35231316725978645,
	"grad_norm": 0.541845440864563,
	"learning_rate": 8.183668829955111e-06,
	"loss": 0.4436,
	"step": 330
	},
	{
	"epoch": 0.35338078291814945,
	"grad_norm": 0.5265049338340759,
	"learning_rate": 8.169261721182715e-06,
	"loss": 0.4608,
	"step": 331
	},
	{
	"epoch": 0.35444839857651245,
	"grad_norm": 0.5588465332984924,
	"learning_rate": 8.154810492648038e-06,
	"loss": 0.5055,
	"step": 332
	},
	{
	"epoch": 0.35551601423487544,
	"grad_norm": 0.4561479091644287,
	"learning_rate": 8.140315345528778e-06,
	"loss": 0.4939,
	"step": 333
	},
	{
	"epoch": 0.35658362989323844,
	"grad_norm": 0.4961983263492584,
	"learning_rate": 8.125776481614025e-06,
	"loss": 0.5079,
	"step": 334
	},
	{
	"epoch": 0.35765124555160144,
	"grad_norm": 0.4646869897842407,
	"learning_rate": 8.111194103301461e-06,
	"loss": 0.4641,
	"step": 335
	},
	{
	"epoch": 0.35871886120996443,
	"grad_norm": 0.5100634694099426,
	"learning_rate": 8.096568413594533e-06,
	"loss": 0.5032,
	"step": 336
	},
	{
	"epoch": 0.3597864768683274,
	"grad_norm": 0.5835485458374023,
	"learning_rate": 8.081899616099638e-06,
	"loss": 0.4585,
	"step": 337
	},
	{
	"epoch": 0.3608540925266904,
	"grad_norm": 0.39481019973754883,
	"learning_rate": 8.067187915023283e-06,
	"loss": 0.5012,
	"step": 338
	},
	{
	"epoch": 0.36192170818505337,
	"grad_norm": 0.55184006690979,
	"learning_rate": 8.052433515169235e-06,
	"loss": 0.4703,
	"step": 339
	},
	{
	"epoch": 0.36298932384341637,
	"grad_norm": 0.471427321434021,
	"learning_rate": 8.037636621935686e-06,
	"loss": 0.478,
	"step": 340
	},
	{
	"epoch": 0.36405693950177936,
	"grad_norm": 0.47815489768981934,
	"learning_rate": 8.022797441312376e-06,
	"loss": 0.4687,
	"step": 341
	},
	{
	"epoch": 0.36512455516014236,
	"grad_norm": 0.48546668887138367,
	"learning_rate": 8.007916179877742e-06,
	"loss": 0.5058,
	"step": 342
	},
	{
	"epoch": 0.36619217081850536,
	"grad_norm": 0.48870334029197693,
	"learning_rate": 7.99299304479603e-06,
	"loss": 0.4874,
	"step": 343
	},
	{
	"epoch": 0.36725978647686836,
	"grad_norm": 0.4691154658794403,
	"learning_rate": 7.978028243814416e-06,
	"loss": 0.4834,
	"step": 344
	},
	{
	"epoch": 0.3683274021352313,
	"grad_norm": 0.49752214550971985,
	"learning_rate": 7.96302198526011e-06,
	"loss": 0.4959,
	"step": 345
	},
	{
	"epoch": 0.3693950177935943,
	"grad_norm": 0.5052193403244019,
	"learning_rate": 7.947974478037468e-06,
	"loss": 0.4817,
	"step": 346
	},
	{
	"epoch": 0.3704626334519573,
	"grad_norm": 0.5181514620780945,
	"learning_rate": 7.932885931625063e-06,
	"loss": 0.4578,
	"step": 347
	},
	{
	"epoch": 0.3715302491103203,
	"grad_norm": 0.482715368270874,
	"learning_rate": 7.917756556072792e-06,
	"loss": 0.4587,
	"step": 348
	},
	{
	"epoch": 0.3725978647686833,
	"grad_norm": 0.4123336672782898,
	"learning_rate": 7.902586561998928e-06,
	"loss": 0.454,
	"step": 349
	},
	{
	"epoch": 0.3736654804270463,
	"grad_norm": 0.5441368222236633,
	"learning_rate": 7.887376160587214e-06,
	"loss": 0.4759,
	"step": 350
	},
	{
	"epoch": 0.3747330960854093,
	"grad_norm": 0.48946669697761536,
	"learning_rate": 7.8721255635839e-06,
	"loss": 0.4942,
	"step": 351
	},
	{
	"epoch": 0.3758007117437722,
	"grad_norm": 0.4664275348186493,
	"learning_rate": 7.85683498329481e-06,
	"loss": 0.4775,
	"step": 352
	},
	{
	"epoch": 0.3768683274021352,
	"grad_norm": 0.5947299599647522,
	"learning_rate": 7.841504632582378e-06,
	"loss": 0.4781,
	"step": 353
	},
	{
	"epoch": 0.3779359430604982,
	"grad_norm": 0.43907010555267334,
	"learning_rate": 7.826134724862687e-06,
	"loss": 0.4785,
	"step": 354
	},
	{
	"epoch": 0.3790035587188612,
	"grad_norm": 0.49153631925582886,
	"learning_rate": 7.810725474102504e-06,
	"loss": 0.4623,
	"step": 355
	},
	{
	"epoch": 0.3800711743772242,
	"grad_norm": 0.5009203553199768,
	"learning_rate": 7.795277094816292e-06,
	"loss": 0.4878,
	"step": 356
	},
	{
	"epoch": 0.3811387900355872,
	"grad_norm": 0.5319011211395264,
	"learning_rate": 7.779789802063229e-06,
	"loss": 0.4535,
	"step": 357
	},
	{
	"epoch": 0.3822064056939502,
	"grad_norm": 0.5173964500427246,
	"learning_rate": 7.764263811444214e-06,
	"loss": 0.4956,
	"step": 358
	},
	{
	"epoch": 0.38327402135231314,
	"grad_norm": 0.4726311266422272,
	"learning_rate": 7.748699339098864e-06,
	"loss": 0.4771,
	"step": 359
	},
	{
	"epoch": 0.38434163701067614,
	"grad_norm": 0.5030087232589722,
	"learning_rate": 7.733096601702508e-06,
	"loss": 0.4995,
	"step": 360
	},
	{
	"epoch": 0.38540925266903914,
	"grad_norm": 0.4362412989139557,
	"learning_rate": 7.717455816463161e-06,
	"loss": 0.483,
	"step": 361
	},
	{
	"epoch": 0.38647686832740213,
	"grad_norm": 0.45854416489601135,
	"learning_rate": 7.70177720111852e-06,
	"loss": 0.4828,
	"step": 362
	},
	{
	"epoch": 0.38754448398576513,
	"grad_norm": 0.4099372327327728,
	"learning_rate": 7.68606097393291e-06,
	"loss": 0.4601,
	"step": 363
	},
	{
	"epoch": 0.38861209964412813,
	"grad_norm": 0.5316334962844849,
	"learning_rate": 7.67030735369426e-06,
	"loss": 0.5109,
	"step": 364
	},
	{
	"epoch": 0.3896797153024911,
	"grad_norm": 0.5196130871772766,
	"learning_rate": 7.654516559711053e-06,
	"loss": 0.4849,
	"step": 365
	},
	{
	"epoch": 0.39074733096085407,
	"grad_norm": 0.4411613941192627,
	"learning_rate": 7.638688811809274e-06,
	"loss": 0.4807,
	"step": 366
	},
	{
	"epoch": 0.39181494661921706,
	"grad_norm": 0.508170485496521,
	"learning_rate": 7.622824330329345e-06,
	"loss": 0.4694,
	"step": 367
	},
	{
	"epoch": 0.39288256227758006,
	"grad_norm": 0.42211753129959106,
	"learning_rate": 7.6069233361230696e-06,
	"loss": 0.4573,
	"step": 368
	},
	{
	"epoch": 0.39395017793594306,
	"grad_norm": 0.4601055085659027,
	"learning_rate": 7.590986050550542e-06,
	"loss": 0.4752,
	"step": 369
	},
	{
	"epoch": 0.39501779359430605,
	"grad_norm": 0.4858173131942749,
	"learning_rate": 7.575012695477076e-06,
	"loss": 0.4706,
	"step": 370
	},
	{
	"epoch": 0.39608540925266905,
	"grad_norm": 0.42238175868988037,
	"learning_rate": 7.55900349327012e-06,
	"loss": 0.4828,
	"step": 371
	},
	{
	"epoch": 0.39715302491103205,
	"grad_norm": 0.4975998103618622,
	"learning_rate": 7.542958666796149e-06,
	"loss": 0.4884,
	"step": 372
	},
	{
	"epoch": 0.398220640569395,
	"grad_norm": 0.48582613468170166,
	"learning_rate": 7.526878439417572e-06,
	"loss": 0.4961,
	"step": 373
	},
	{
	"epoch": 0.399288256227758,
	"grad_norm": 0.4576529562473297,
	"learning_rate": 7.510763034989616e-06,
	"loss": 0.4311,
	"step": 374
	},
	{
	"epoch": 0.400355871886121,
	"grad_norm": 0.48702099919319153,
	"learning_rate": 7.494612677857218e-06,
	"loss": 0.4955,
	"step": 375
	},
	{
	"epoch": 0.401423487544484,
	"grad_norm": 0.4474165737628937,
	"learning_rate": 7.478427592851894e-06,
	"loss": 0.4615,
	"step": 376
	},
	{
	"epoch": 0.402491103202847,
	"grad_norm": 0.4888235032558441,
	"learning_rate": 7.462208005288609e-06,
	"loss": 0.4711,
	"step": 377
	},
	{
	"epoch": 0.40355871886121,
	"grad_norm": 0.5036333799362183,
	"learning_rate": 7.44595414096265e-06,
	"loss": 0.4885,
	"step": 378
	},
	{
	"epoch": 0.40462633451957297,
	"grad_norm": 0.4840095639228821,
	"learning_rate": 7.429666226146468e-06,
	"loss": 0.4932,
	"step": 379
	},
	{
	"epoch": 0.40569395017793597,
	"grad_norm": 0.4943961203098297,
	"learning_rate": 7.413344487586542e-06,
	"loss": 0.4874,
	"step": 380
	},
	{
	"epoch": 0.4067615658362989,
	"grad_norm": 0.535376250743866,
	"learning_rate": 7.396989152500215e-06,
	"loss": 0.4982,
	"step": 381
	},
	{
	"epoch": 0.4078291814946619,
	"grad_norm": 0.4504840672016144,
	"learning_rate": 7.380600448572532e-06,
	"loss": 0.436,
	"step": 382
	},
	{
	"epoch": 0.4088967971530249,
	"grad_norm": 0.5047032833099365,
	"learning_rate": 7.364178603953066e-06,
	"loss": 0.4702,
	"step": 383
	},
	{
	"epoch": 0.4099644128113879,
	"grad_norm": 0.4717814028263092,
	"learning_rate": 7.347723847252756e-06,
	"loss": 0.4783,
	"step": 384
	},
	{
	"epoch": 0.4110320284697509,
	"grad_norm": 0.4659929871559143,
	"learning_rate": 7.331236407540704e-06,
	"loss": 0.4612,
	"step": 385
	},
	{
	"epoch": 0.4120996441281139,
	"grad_norm": 0.47856637835502625,
	"learning_rate": 7.314716514341007e-06,
	"loss": 0.4766,
	"step": 386
	},
	{
	"epoch": 0.4131672597864769,
	"grad_norm": 0.4641667902469635,
	"learning_rate": 7.298164397629545e-06,
	"loss": 0.4708,
	"step": 387
	},
	{
	"epoch": 0.41423487544483983,
	"grad_norm": 0.5396067500114441,
	"learning_rate": 7.28158028783079e-06,
	"loss": 0.4809,
	"step": 388
	},
	{
	"epoch": 0.41530249110320283,
	"grad_norm": 0.5329163670539856,
	"learning_rate": 7.2649644158145925e-06,
	"loss": 0.4829,
	"step": 389
	},
	{
	"epoch": 0.41637010676156583,
	"grad_norm": 0.450914204120636,
	"learning_rate": 7.248317012892969e-06,
	"loss": 0.4527,
	"step": 390
	},
	{
	"epoch": 0.4174377224199288,
	"grad_norm": 0.5790780782699585,
	"learning_rate": 7.231638310816888e-06,
	"loss": 0.4893,
	"step": 391
	},
	{
	"epoch": 0.4185053380782918,
	"grad_norm": 0.5594152212142944,
	"learning_rate": 7.214928541773027e-06,
	"loss": 0.4794,
	"step": 392
	},
	{
	"epoch": 0.4195729537366548,
	"grad_norm": 0.46533674001693726,
	"learning_rate": 7.198187938380565e-06,
	"loss": 0.466,
	"step": 393
	},
	{
	"epoch": 0.4206405693950178,
	"grad_norm": 0.5824273228645325,
	"learning_rate": 7.1814167336879195e-06,
	"loss": 0.4833,
	"step": 394
	},
	{
	"epoch": 0.42170818505338076,
	"grad_norm": 0.4478416442871094,
	"learning_rate": 7.164615161169518e-06,
	"loss": 0.5013,
	"step": 395
	},
	{
	"epoch": 0.42277580071174375,
	"grad_norm": 0.6205080151557922,
	"learning_rate": 7.147783454722545e-06,
	"loss": 0.4905,
	"step": 396
	},
	{
	"epoch": 0.42384341637010675,
	"grad_norm": 0.4739533066749573,
	"learning_rate": 7.130921848663678e-06,
	"loss": 0.4834,
	"step": 397
	},
	{
	"epoch": 0.42491103202846975,
	"grad_norm": 0.4931207597255707,
	"learning_rate": 7.1140305777258355e-06,
	"loss": 0.5142,
	"step": 398
	},
	{
	"epoch": 0.42597864768683275,
	"grad_norm": 0.5040392279624939,
	"learning_rate": 7.097109877054906e-06,
	"loss": 0.4679,
	"step": 399
	},
	{
	"epoch": 0.42704626334519574,
	"grad_norm": 0.4795084595680237,
	"learning_rate": 7.080159982206471e-06,
	"loss": 0.4869,
	"step": 400
	},
	{
	"epoch": 0.42811387900355874,
	"grad_norm": 0.5009298920631409,
	"learning_rate": 7.06318112914253e-06,
	"loss": 0.4786,
	"step": 401
	},
	{
	"epoch": 0.4291814946619217,
	"grad_norm": 0.5377593040466309,
	"learning_rate": 7.046173554228213e-06,
	"loss": 0.4968,
	"step": 402
	},
	{
	"epoch": 0.4302491103202847,
	"grad_norm": 0.4396429657936096,
	"learning_rate": 7.029137494228491e-06,
	"loss": 0.5166,
	"step": 403
	},
	{
	"epoch": 0.4313167259786477,
	"grad_norm": 0.4758850336074829,
	"learning_rate": 7.012073186304885e-06,
	"loss": 0.4896,
	"step": 404
	},
	{
	"epoch": 0.43238434163701067,
	"grad_norm": 0.4826003611087799,
	"learning_rate": 6.994980868012151e-06,
	"loss": 0.5043,
	"step": 405
	},
	{
	"epoch": 0.43345195729537367,
	"grad_norm": 0.4461214244365692,
	"learning_rate": 6.9778607772949894e-06,
	"loss": 0.4657,
	"step": 406
	},
	{
	"epoch": 0.43451957295373667,
	"grad_norm": 0.4717596769332886,
	"learning_rate": 6.9607131524847175e-06,
	"loss": 0.4889,
	"step": 407
	},
	{
	"epoch": 0.43558718861209966,
	"grad_norm": 0.41522154211997986,
	"learning_rate": 6.943538232295965e-06,
	"loss": 0.4716,
	"step": 408
	},
	{
	"epoch": 0.43665480427046266,
	"grad_norm": 0.5176120400428772,
	"learning_rate": 6.926336255823341e-06,
	"loss": 0.4855,
	"step": 409
	},
	{
	"epoch": 0.4377224199288256,
	"grad_norm": 0.4708162248134613,
	"learning_rate": 6.909107462538113e-06,
	"loss": 0.4839,
	"step": 410
	},
	{
	"epoch": 0.4387900355871886,
	"grad_norm": 0.39738133549690247,
	"learning_rate": 6.891852092284863e-06,
	"loss": 0.4911,
	"step": 411
	},
	{
	"epoch": 0.4398576512455516,
	"grad_norm": 0.4732625186443329,
	"learning_rate": 6.874570385278161e-06,
	"loss": 0.4938,
	"step": 412
	},
	{
	"epoch": 0.4409252669039146,
	"grad_norm": 0.5151704549789429,
	"learning_rate": 6.857262582099209e-06,
	"loss": 0.504,
	"step": 413
	},
	{
	"epoch": 0.4419928825622776,
	"grad_norm": 0.49842819571495056,
	"learning_rate": 6.839928923692505e-06,
	"loss": 0.5116,
	"step": 414
	},
	{
	"epoch": 0.4430604982206406,
	"grad_norm": 0.4782036244869232,
	"learning_rate": 6.822569651362475e-06,
	"loss": 0.4888,
	"step": 415
	},
	{
	"epoch": 0.4441281138790036,
	"grad_norm": 0.4534831941127777,
	"learning_rate": 6.805185006770125e-06,
	"loss": 0.4548,
	"step": 416
	},
	{
	"epoch": 0.4451957295373665,
	"grad_norm": 0.5043431520462036,
	"learning_rate": 6.787775231929666e-06,
	"loss": 0.5011,
	"step": 417
	},
	{
	"epoch": 0.4462633451957295,
	"grad_norm": 0.47425511479377747,
	"learning_rate": 6.7703405692051585e-06,
	"loss": 0.4861,
	"step": 418
	},
	{
	"epoch": 0.4473309608540925,
	"grad_norm": 0.4268990159034729,
	"learning_rate": 6.752881261307125e-06,
	"loss": 0.4773,
	"step": 419
	},
	{
	"epoch": 0.4483985765124555,
	"grad_norm": 0.459902822971344,
	"learning_rate": 6.735397551289179e-06,
	"loss": 0.4815,
	"step": 420
	},
	{
	"epoch": 0.4494661921708185,
	"grad_norm": 0.5495928525924683,
	"learning_rate": 6.717889682544641e-06,
	"loss": 0.5039,
	"step": 421
	},
	{
	"epoch": 0.4505338078291815,
	"grad_norm": 0.4123859703540802,
	"learning_rate": 6.700357898803146e-06,
	"loss": 0.487,
	"step": 422
	},
	{
	"epoch": 0.4516014234875445,
	"grad_norm": 0.44671013951301575,
	"learning_rate": 6.6828024441272554e-06,
	"loss": 0.4913,
	"step": 423
	},
	{
	"epoch": 0.45266903914590745,
	"grad_norm": 0.4648853838443756,
	"learning_rate": 6.665223562909058e-06,
	"loss": 0.4852,
	"step": 424
	},
	{
	"epoch": 0.45373665480427045,
	"grad_norm": 0.494157075881958,
	"learning_rate": 6.647621499866762e-06,
	"loss": 0.4851,
	"step": 425
	},
	{
	"epoch": 0.45480427046263344,
	"grad_norm": 0.5244255661964417,
	"learning_rate": 6.629996500041299e-06,
	"loss": 0.4945,
	"step": 426
	},
	{
	"epoch": 0.45587188612099644,
	"grad_norm": 0.48558488488197327,
	"learning_rate": 6.612348808792904e-06,
	"loss": 0.4829,
	"step": 427
	},
	{
	"epoch": 0.45693950177935944,
	"grad_norm": 0.46548742055892944,
	"learning_rate": 6.5946786717977026e-06,
	"loss": 0.5057,
	"step": 428
	},
	{
	"epoch": 0.45800711743772243,
	"grad_norm": 0.49716660380363464,
	"learning_rate": 6.576986335044292e-06,
	"loss": 0.4682,
	"step": 429
	},
	{
	"epoch": 0.45907473309608543,
	"grad_norm": 0.427898108959198,
	"learning_rate": 6.5592720448303174e-06,
	"loss": 0.4922,
	"step": 430
	},
	{
	"epoch": 0.46014234875444837,
	"grad_norm": 0.46051132678985596,
	"learning_rate": 6.541536047759034e-06,
	"loss": 0.4756,
	"step": 431
	},
	{
	"epoch": 0.46120996441281137,
	"grad_norm": 0.4844045639038086,
	"learning_rate": 6.523778590735892e-06,
	"loss": 0.5199,
	"step": 432
	},
	{
	"epoch": 0.46227758007117437,
	"grad_norm": 0.4431370496749878,
	"learning_rate": 6.5059999209650795e-06,
	"loss": 0.4744,
	"step": 433
	},
	{
	"epoch": 0.46334519572953736,
	"grad_norm": 0.4615848958492279,
	"learning_rate": 6.488200285946094e-06,
	"loss": 0.4459,
	"step": 434
	},
	{
	"epoch": 0.46441281138790036,
	"grad_norm": 0.5034524202346802,
	"learning_rate": 6.470379933470296e-06,
	"loss": 0.4859,
	"step": 435
	},
	{
	"epoch": 0.46548042704626336,
	"grad_norm": 0.42077118158340454,
	"learning_rate": 6.452539111617454e-06,
	"loss": 0.4703,
	"step": 436
	},
	{
	"epoch": 0.46654804270462635,
	"grad_norm": 0.5283306241035461,
	"learning_rate": 6.434678068752293e-06,
	"loss": 0.4733,
	"step": 437
	},
	{
	"epoch": 0.46761565836298935,
	"grad_norm": 0.48218491673469543,
	"learning_rate": 6.416797053521039e-06,
	"loss": 0.4779,
	"step": 438
	},
	{
	"epoch": 0.4686832740213523,
	"grad_norm": 0.4461103677749634,
	"learning_rate": 6.398896314847954e-06,
	"loss": 0.4851,
	"step": 439
	},
	{
	"epoch": 0.4697508896797153,
	"grad_norm": 0.47475722432136536,
	"learning_rate": 6.380976101931879e-06,
	"loss": 0.4747,
	"step": 440
	},
	{
	"epoch": 0.4708185053380783,
	"grad_norm": 0.4456132650375366,
	"learning_rate": 6.363036664242751e-06,
	"loss": 0.4364,
	"step": 441
	},
	{
	"epoch": 0.4718861209964413,
	"grad_norm": 0.4457268714904785,
	"learning_rate": 6.345078251518144e-06,
	"loss": 0.4487,
	"step": 442
	},
	{
	"epoch": 0.4729537366548043,
	"grad_norm": 0.4818935990333557,
	"learning_rate": 6.327101113759783e-06,
	"loss": 0.5008,
	"step": 443
	},
	{
	"epoch": 0.4740213523131673,
	"grad_norm": 0.44397759437561035,
	"learning_rate": 6.3091055012300675e-06,
	"loss": 0.4546,
	"step": 444
	},
	{
	"epoch": 0.4750889679715303,
	"grad_norm": 0.4248422086238861,
	"learning_rate": 6.291091664448589e-06,
	"loss": 0.4797,
	"step": 445
	},
	{
	"epoch": 0.4761565836298932,
	"grad_norm": 0.48325735330581665,
	"learning_rate": 6.273059854188636e-06,
	"loss": 0.4949,
	"step": 446
	},
	{
	"epoch": 0.4772241992882562,
	"grad_norm": 0.44900190830230713,
	"learning_rate": 6.25501032147372e-06,
	"loss": 0.4731,
	"step": 447
	},
	{
	"epoch": 0.4782918149466192,
	"grad_norm": 0.4795812964439392,
	"learning_rate": 6.236943317574054e-06,
	"loss": 0.466,
	"step": 448
	},
	{
	"epoch": 0.4793594306049822,
	"grad_norm": 0.49573490023612976,
	"learning_rate": 6.218859094003082e-06,
	"loss": 0.4884,
	"step": 449
	},
	{
	"epoch": 0.4804270462633452,
	"grad_norm": 0.40788835287094116,
	"learning_rate": 6.200757902513962e-06,
	"loss": 0.4572,
	"step": 450
	},
	{
	"epoch": 0.4814946619217082,
	"grad_norm": 0.44407787919044495,
	"learning_rate": 6.182639995096061e-06,
	"loss": 0.5016,
	"step": 451
	},
	{
	"epoch": 0.4825622775800712,
	"grad_norm": 0.43770918250083923,
	"learning_rate": 6.164505623971458e-06,
	"loss": 0.4699,
	"step": 452
	},
	{
	"epoch": 0.48362989323843414,
	"grad_norm": 0.41643866896629333,
	"learning_rate": 6.146355041591419e-06,
	"loss": 0.4783,
	"step": 453
	},
	{
	"epoch": 0.48469750889679714,
	"grad_norm": 0.44599294662475586,
	"learning_rate": 6.128188500632892e-06,
	"loss": 0.4764,
	"step": 454
	},
	{
	"epoch": 0.48576512455516013,
	"grad_norm": 0.4716036319732666,
	"learning_rate": 6.11000625399499e-06,
	"loss": 0.4683,
	"step": 455
	},
	{
	"epoch": 0.48683274021352313,
	"grad_norm": 0.49038171768188477,
	"learning_rate": 6.091808554795462e-06,
	"loss": 0.4716,
	"step": 456
	},
	{
	"epoch": 0.4879003558718861,
	"grad_norm": 0.43345335125923157,
	"learning_rate": 6.073595656367175e-06,
	"loss": 0.4742,
	"step": 457
	},
	{
	"epoch": 0.4889679715302491,
	"grad_norm": 0.4429580569267273,
	"learning_rate": 6.055367812254592e-06,
	"loss": 0.4951,
	"step": 458
	},
	{
	"epoch": 0.4900355871886121,
	"grad_norm": 0.510330319404602,
	"learning_rate": 6.037125276210229e-06,
	"loss": 0.4771,
	"step": 459
	},
	{
	"epoch": 0.49110320284697506,
	"grad_norm": 0.42020678520202637,
	"learning_rate": 6.0188683021911394e-06,
	"loss": 0.4939,
	"step": 460
	},
	{
	"epoch": 0.49217081850533806,
	"grad_norm": 0.45770880579948425,
	"learning_rate": 6.000597144355361e-06,
	"loss": 0.4931,
	"step": 461
	},
	{
	"epoch": 0.49323843416370106,
	"grad_norm": 0.3960902690887451,
	"learning_rate": 5.982312057058392e-06,
	"loss": 0.4706,
	"step": 462
	},
	{
	"epoch": 0.49430604982206405,
	"grad_norm": 0.5214159488677979,
	"learning_rate": 5.964013294849646e-06,
	"loss": 0.4777,
	"step": 463
	},
	{
	"epoch": 0.49537366548042705,
	"grad_norm": 0.43403932452201843,
	"learning_rate": 5.9457011124689025e-06,
	"loss": 0.4688,
	"step": 464
	},
	{
	"epoch": 0.49644128113879005,
	"grad_norm": 0.4650368392467499,
	"learning_rate": 5.927375764842766e-06,
	"loss": 0.467,
	"step": 465
	},
	{
	"epoch": 0.49750889679715304,
	"grad_norm": 0.4884885847568512,
	"learning_rate": 5.9090375070811215e-06,
	"loss": 0.4872,
	"step": 466
	},
	{
	"epoch": 0.49857651245551604,
	"grad_norm": 0.4051380157470703,
	"learning_rate": 5.890686594473571e-06,
	"loss": 0.4685,
	"step": 467
	},
	{
	"epoch": 0.499644128113879,
	"grad_norm": 0.443988561630249,
	"learning_rate": 5.872323282485889e-06,
	"loss": 0.4981,
	"step": 468
	},
	{
	"epoch": 0.500711743772242,
	"grad_norm": 0.444369375705719,
	"learning_rate": 5.853947826756465e-06,
	"loss": 0.465,
	"step": 469
	},
	{
	"epoch": 0.501779359430605,
	"grad_norm": 0.42520400881767273,
	"learning_rate": 5.835560483092743e-06,
	"loss": 0.484,
	"step": 470
	},
	{
	"epoch": 0.5028469750889679,
	"grad_norm": 0.45270073413848877,
	"learning_rate": 5.8171615074676615e-06,
	"loss": 0.4886,
	"step": 471
	},
	{
	"epoch": 0.5039145907473309,
	"grad_norm": 0.47045156359672546,
	"learning_rate": 5.798751156016085e-06,
	"loss": 0.4733,
	"step": 472
	},
	{
	"epoch": 0.5049822064056939,
	"grad_norm": 0.49486202001571655,
	"learning_rate": 5.780329685031247e-06,
	"loss": 0.4799,
	"step": 473
	},
	{
	"epoch": 0.5060498220640569,
	"grad_norm": 0.495645135641098,
	"learning_rate": 5.7618973509611755e-06,
	"loss": 0.483,
	"step": 474
	},
	{
	"epoch": 0.5071174377224199,
	"grad_norm": 0.4936763048171997,
	"learning_rate": 5.743454410405126e-06,
	"loss": 0.495,
	"step": 475
	},
	{
	"epoch": 0.5081850533807829,
	"grad_norm": 0.3758457899093628,
	"learning_rate": 5.72500112011001e-06,
	"loss": 0.4616,
	"step": 476
	},
	{
	"epoch": 0.5092526690391459,
	"grad_norm": 0.45885196328163147,
	"learning_rate": 5.706537736966814e-06,
	"loss": 0.4808,
	"step": 477
	},
	{
	"epoch": 0.5103202846975089,
	"grad_norm": 0.46448948979377747,
	"learning_rate": 5.688064518007036e-06,
	"loss": 0.495,
	"step": 478
	},
	{
	"epoch": 0.5113879003558719,
	"grad_norm": 0.43365931510925293,
	"learning_rate": 5.669581720399094e-06,
	"loss": 0.4811,
	"step": 479
	},
	{
	"epoch": 0.5124555160142349,
	"grad_norm": 0.4774491786956787,
	"learning_rate": 5.651089601444752e-06,
	"loss": 0.4794,
	"step": 480
	},
	{
	"epoch": 0.5135231316725979,
	"grad_norm": 0.48784658312797546,
	"learning_rate": 5.632588418575542e-06,
	"loss": 0.4799,
	"step": 481
	},
	{
	"epoch": 0.5145907473309609,
	"grad_norm": 0.49221184849739075,
	"learning_rate": 5.614078429349172e-06,
	"loss": 0.4921,
	"step": 482
	},
	{
	"epoch": 0.5156583629893239,
	"grad_norm": 0.45859670639038086,
	"learning_rate": 5.5955598914459465e-06,
	"loss": 0.481,
	"step": 483
	},
	{
	"epoch": 0.5167259786476869,
	"grad_norm": 0.5400739908218384,
	"learning_rate": 5.577033062665179e-06,
	"loss": 0.4904,
	"step": 484
	},
	{
	"epoch": 0.5177935943060499,
	"grad_norm": 0.4636092483997345,
	"learning_rate": 5.558498200921597e-06,
	"loss": 0.4493,
	"step": 485
	},
	{
	"epoch": 0.5188612099644128,
	"grad_norm": 0.4300142228603363,
	"learning_rate": 5.53995556424176e-06,
	"loss": 0.4679,
	"step": 486
	},
	{
	"epoch": 0.5199288256227758,
	"grad_norm": 0.4838177561759949,
	"learning_rate": 5.521405410760462e-06,
	"loss": 0.4625,
	"step": 487
	},
	{
	"epoch": 0.5209964412811388,
	"grad_norm": 0.47749972343444824,
	"learning_rate": 5.50284799871714e-06,
	"loss": 0.4488,
	"step": 488
	},
	{
	"epoch": 0.5220640569395018,
	"grad_norm": 0.4752497673034668,
	"learning_rate": 5.484283586452279e-06,
	"loss": 0.5103,
	"step": 489
	},
	{
	"epoch": 0.5231316725978647,
	"grad_norm": 0.463785856962204,
	"learning_rate": 5.465712432403812e-06,
	"loss": 0.4624,
	"step": 490
	},
	{
	"epoch": 0.5241992882562277,
	"grad_norm": 0.4545430839061737,
	"learning_rate": 5.447134795103531e-06,
	"loss": 0.4719,
	"step": 491
	},
	{
	"epoch": 0.5252669039145907,
	"grad_norm": 0.41529300808906555,
	"learning_rate": 5.428550933173476e-06,
	"loss": 0.4708,
	"step": 492
	},
	{
	"epoch": 0.5263345195729537,
	"grad_norm": 0.4432843327522278,
	"learning_rate": 5.409961105322347e-06,
	"loss": 0.4675,
	"step": 493
	},
	{
	"epoch": 0.5274021352313167,
	"grad_norm": 0.48375219106674194,
	"learning_rate": 5.391365570341893e-06,
	"loss": 0.4847,
	"step": 494
	},
	{
	"epoch": 0.5284697508896797,
	"grad_norm": 0.40725329518318176,
	"learning_rate": 5.372764587103309e-06,
	"loss": 0.4477,
	"step": 495
	},
	{
	"epoch": 0.5295373665480427,
	"grad_norm": 0.4455367624759674,
	"learning_rate": 5.3541584145536475e-06,
	"loss": 0.4819,
	"step": 496
	},
	{
	"epoch": 0.5306049822064057,
	"grad_norm": 0.45164966583251953,
	"learning_rate": 5.335547311712188e-06,
	"loss": 0.4642,
	"step": 497
	},
	{
	"epoch": 0.5316725978647687,
	"grad_norm": 0.49471500515937805,
	"learning_rate": 5.3169315376668566e-06,
	"loss": 0.4823,
	"step": 498
	},
	{
	"epoch": 0.5327402135231317,
	"grad_norm": 0.4399643838405609,
	"learning_rate": 5.2983113515706045e-06,
	"loss": 0.4819,
	"step": 499
	},
	{
	"epoch": 0.5338078291814946,
	"grad_norm": 0.5442211627960205,
	"learning_rate": 5.279687012637798e-06,
	"loss": 0.4677,
	"step": 500
	},
	{
	"epoch": 0.5348754448398576,
	"grad_norm": 0.45155906677246094,
	"learning_rate": 5.2610587801406256e-06,
	"loss": 0.4878,
	"step": 501
	},
	{
	"epoch": 0.5359430604982206,
	"grad_norm": 0.5040996670722961,
	"learning_rate": 5.242426913405471e-06,
	"loss": 0.482,
	"step": 502
	},
	{
	"epoch": 0.5370106761565836,
	"grad_norm": 0.4809477925300598,
	"learning_rate": 5.223791671809314e-06,
	"loss": 0.4697,
	"step": 503
	},
	{
	"epoch": 0.5380782918149466,
	"grad_norm": 0.5347772240638733,
	"learning_rate": 5.2051533147761155e-06,
	"loss": 0.4574,
	"step": 504
	},
	{
	"epoch": 0.5391459074733096,
	"grad_norm": 0.48782646656036377,
	"learning_rate": 5.186512101773206e-06,
	"loss": 0.4747,
	"step": 505
	},
	{
	"epoch": 0.5402135231316726,
	"grad_norm": 0.46589890122413635,
	"learning_rate": 5.167868292307679e-06,
	"loss": 0.4814,
	"step": 506
	},
	{
	"epoch": 0.5412811387900356,
	"grad_norm": 0.5483913421630859,
	"learning_rate": 5.149222145922765e-06,
	"loss": 0.4807,
	"step": 507
	},
	{
	"epoch": 0.5423487544483986,
	"grad_norm": 0.4894302487373352,
	"learning_rate": 5.130573922194236e-06,
	"loss": 0.4881,
	"step": 508
	},
	{
	"epoch": 0.5434163701067616,
	"grad_norm": 0.41597887873649597,
	"learning_rate": 5.111923880726779e-06,
	"loss": 0.4766,
	"step": 509
	},
	{
	"epoch": 0.5444839857651246,
	"grad_norm": 0.5004387497901917,
	"learning_rate": 5.093272281150383e-06,
	"loss": 0.4656,
	"step": 510
	},
	{
	"epoch": 0.5455516014234876,
	"grad_norm": 0.4926692843437195,
	"learning_rate": 5.074619383116733e-06,
	"loss": 0.4579,
	"step": 511
	},
	{
	"epoch": 0.5466192170818506,
	"grad_norm": 0.4545387029647827,
	"learning_rate": 5.05596544629559e-06,
	"loss": 0.4748,
	"step": 512
	},
	{
	"epoch": 0.5476868327402136,
	"grad_norm": 0.4115523397922516,
	"learning_rate": 5.03731073037117e-06,
	"loss": 0.4856,
	"step": 513
	},
	{
	"epoch": 0.5487544483985766,
	"grad_norm": 0.4478975236415863,
	"learning_rate": 5.018655495038542e-06,
	"loss": 0.4728,
	"step": 514
	},
	{
	"epoch": 0.5498220640569395,
	"grad_norm": 0.4211094081401825,
	"learning_rate": 5e-06,
	"loss": 0.4614,
	"step": 515
	},
	{
	"epoch": 0.5508896797153024,
	"grad_norm": 0.45692694187164307,
	"learning_rate": 4.981344504961459e-06,
	"loss": 0.4711,
	"step": 516
	},
	{
	"epoch": 0.5519572953736654,
	"grad_norm": 0.41460829973220825,
	"learning_rate": 4.962689269628832e-06,
	"loss": 0.467,
	"step": 517
	},
	{
	"epoch": 0.5530249110320284,
	"grad_norm": 0.4291308522224426,
	"learning_rate": 4.944034553704412e-06,
	"loss": 0.4901,
	"step": 518
	},
	{
	"epoch": 0.5540925266903914,
	"grad_norm": 0.4243936538696289,
	"learning_rate": 4.9253806168832685e-06,
	"loss": 0.4966,
	"step": 519
	},
	{
	"epoch": 0.5551601423487544,
	"grad_norm": 0.42817196249961853,
	"learning_rate": 4.906727718849619e-06,
	"loss": 0.46,
	"step": 520
	},
	{
	"epoch": 0.5562277580071174,
	"grad_norm": 0.419493168592453,
	"learning_rate": 4.888076119273223e-06,
	"loss": 0.4788,
	"step": 521
	},
	{
	"epoch": 0.5572953736654804,
	"grad_norm": 0.4330461919307709,
	"learning_rate": 4.8694260778057655e-06,
	"loss": 0.4875,
	"step": 522
	},
	{
	"epoch": 0.5583629893238434,
	"grad_norm": 0.44664815068244934,
	"learning_rate": 4.850777854077235e-06,
	"loss": 0.4645,
	"step": 523
	},
	{
	"epoch": 0.5594306049822064,
	"grad_norm": 0.4051723778247833,
	"learning_rate": 4.832131707692322e-06,
	"loss": 0.4596,
	"step": 524
	},
	{
	"epoch": 0.5604982206405694,
	"grad_norm": 0.4329952895641327,
	"learning_rate": 4.813487898226794e-06,
	"loss": 0.4652,
	"step": 525
	},
	{
	"epoch": 0.5615658362989324,
	"grad_norm": 0.4694920480251312,
	"learning_rate": 4.7948466852238844e-06,
	"loss": 0.4751,
	"step": 526
	},
	{
	"epoch": 0.5626334519572954,
	"grad_norm": 0.42388251423835754,
	"learning_rate": 4.7762083281906864e-06,
	"loss": 0.457,
	"step": 527
	},
	{
	"epoch": 0.5637010676156584,
	"grad_norm": 0.4349200129508972,
	"learning_rate": 4.757573086594529e-06,
	"loss": 0.4655,
	"step": 528
	},
	{
	"epoch": 0.5647686832740213,
	"grad_norm": 0.42134931683540344,
	"learning_rate": 4.738941219859375e-06,
	"loss": 0.4806,
	"step": 529
	},
	{
	"epoch": 0.5658362989323843,
	"grad_norm": 0.4428733289241791,
	"learning_rate": 4.720312987362204e-06,
	"loss": 0.4581,
	"step": 530
	},
	{
	"epoch": 0.5669039145907473,
	"grad_norm": 0.4444166123867035,
	"learning_rate": 4.701688648429399e-06,
	"loss": 0.4592,
	"step": 531
	},
	{
	"epoch": 0.5679715302491103,
	"grad_norm": 0.37343311309814453,
	"learning_rate": 4.683068462333144e-06,
	"loss": 0.4742,
	"step": 532
	},
	{
	"epoch": 0.5690391459074733,
	"grad_norm": 0.4210268557071686,
	"learning_rate": 4.6644526882878145e-06,
	"loss": 0.4853,
	"step": 533
	},
	{
	"epoch": 0.5701067615658363,
	"grad_norm": 0.46207836270332336,
	"learning_rate": 4.645841585446356e-06,
	"loss": 0.4698,
	"step": 534
	},
	{
	"epoch": 0.5711743772241993,
	"grad_norm": 0.469249963760376,
	"learning_rate": 4.6272354128966924e-06,
	"loss": 0.4578,
	"step": 535
	},
	{
	"epoch": 0.5722419928825623,
	"grad_norm": 0.45976918935775757,
	"learning_rate": 4.6086344296581095e-06,
	"loss": 0.4904,
	"step": 536
	},
	{
	"epoch": 0.5733096085409253,
	"grad_norm": 0.4256848096847534,
	"learning_rate": 4.590038894677653e-06,
	"loss": 0.4615,
	"step": 537
	},
	{
	"epoch": 0.5743772241992883,
	"grad_norm": 0.4688819348812103,
	"learning_rate": 4.5714490668265245e-06,
	"loss": 0.4806,
	"step": 538
	},
	{
	"epoch": 0.5754448398576513,
	"grad_norm": 0.44800180196762085,
	"learning_rate": 4.55286520489647e-06,
	"loss": 0.4964,
	"step": 539
	},
	{
	"epoch": 0.5765124555160143,
	"grad_norm": 0.42129072546958923,
	"learning_rate": 4.534287567596189e-06,
	"loss": 0.4693,
	"step": 540
	},
	{
	"epoch": 0.5775800711743773,
	"grad_norm": 0.41702598333358765,
	"learning_rate": 4.515716413547722e-06,
	"loss": 0.4818,
	"step": 541
	},
	{
	"epoch": 0.5786476868327403,
	"grad_norm": 0.46011829376220703,
	"learning_rate": 4.497152001282861e-06,
	"loss": 0.4997,
	"step": 542
	},
	{
	"epoch": 0.5797153024911033,
	"grad_norm": 0.4624707102775574,
	"learning_rate": 4.478594589239539e-06,
	"loss": 0.5302,
	"step": 543
	},
	{
	"epoch": 0.5807829181494661,
	"grad_norm": 0.4008091688156128,
	"learning_rate": 4.460044435758241e-06,
	"loss": 0.4739,
	"step": 544
	},
	{
	"epoch": 0.5818505338078291,
	"grad_norm": 0.41396379470825195,
	"learning_rate": 4.441501799078405e-06,
	"loss": 0.4919,
	"step": 545
	},
	{
	"epoch": 0.5829181494661921,
	"grad_norm": 0.4313451945781708,
	"learning_rate": 4.4229669373348225e-06,
	"loss": 0.4872,
	"step": 546
	},
	{
	"epoch": 0.5839857651245551,
	"grad_norm": 0.41983485221862793,
	"learning_rate": 4.404440108554055e-06,
	"loss": 0.492,
	"step": 547
	},
	{
	"epoch": 0.5850533807829181,
	"grad_norm": 0.4576341211795807,
	"learning_rate": 4.3859215706508295e-06,
	"loss": 0.4676,
	"step": 548
	},
	{
	"epoch": 0.5861209964412811,
	"grad_norm": 0.4995148181915283,
	"learning_rate": 4.3674115814244595e-06,
	"loss": 0.5213,
	"step": 549
	},
	{
	"epoch": 0.5871886120996441,
	"grad_norm": 0.45019280910491943,
	"learning_rate": 4.348910398555249e-06,
	"loss": 0.4792,
	"step": 550
	},
	{
	"epoch": 0.5882562277580071,
	"grad_norm": 0.4817792475223541,
	"learning_rate": 4.330418279600907e-06,
	"loss": 0.4968,
	"step": 551
	},
	{
	"epoch": 0.5893238434163701,
	"grad_norm": 0.4851461946964264,
	"learning_rate": 4.311935481992965e-06,
	"loss": 0.4855,
	"step": 552
	},
	{
	"epoch": 0.5903914590747331,
	"grad_norm": 0.3923802673816681,
	"learning_rate": 4.2934622630331855e-06,
	"loss": 0.4775,
	"step": 553
	},
	{
	"epoch": 0.5914590747330961,
	"grad_norm": 0.46750932931900024,
	"learning_rate": 4.274998879889991e-06,
	"loss": 0.4677,
	"step": 554
	},
	{
	"epoch": 0.5925266903914591,
	"grad_norm": 0.456074982881546,
	"learning_rate": 4.2565455895948745e-06,
	"loss": 0.4664,
	"step": 555
	},
	{
	"epoch": 0.5935943060498221,
	"grad_norm": 0.5120862126350403,
	"learning_rate": 4.238102649038825e-06,
	"loss": 0.4831,
	"step": 556
	},
	{
	"epoch": 0.5946619217081851,
	"grad_norm": 0.3992975950241089,
	"learning_rate": 4.219670314968754e-06,
	"loss": 0.4801,
	"step": 557
	},
	{
	"epoch": 0.595729537366548,
	"grad_norm": 0.4378175437450409,
	"learning_rate": 4.2012488439839185e-06,
	"loss": 0.4724,
	"step": 558
	},
	{
	"epoch": 0.596797153024911,
	"grad_norm": 0.4528578221797943,
	"learning_rate": 4.182838492532342e-06,
	"loss": 0.449,
	"step": 559
	},
	{
	"epoch": 0.597864768683274,
	"grad_norm": 0.46270951628685,
	"learning_rate": 4.164439516907258e-06,
	"loss": 0.483,
	"step": 560
	},
	{
	"epoch": 0.598932384341637,
	"grad_norm": 0.4630880057811737,
	"learning_rate": 4.146052173243538e-06,
	"loss": 0.4694,
	"step": 561
	},
	{
	"epoch": 0.6,
	"grad_norm": 0.44219690561294556,
	"learning_rate": 4.127676717514114e-06,
	"loss": 0.5014,
	"step": 562
	},
	{
	"epoch": 0.601067615658363,
	"grad_norm": 0.41033241152763367,
	"learning_rate": 4.109313405526433e-06,
	"loss": 0.4957,
	"step": 563
	},
	{
	"epoch": 0.602135231316726,
	"grad_norm": 0.4031945765018463,
	"learning_rate": 4.090962492918881e-06,
	"loss": 0.4555,
	"step": 564
	},
	{
	"epoch": 0.603202846975089,
	"grad_norm": 0.5318504571914673,
	"learning_rate": 4.072624235157234e-06,
	"loss": 0.4834,
	"step": 565
	},
	{
	"epoch": 0.604270462633452,
	"grad_norm": 0.39881038665771484,
	"learning_rate": 4.054298887531099e-06,
	"loss": 0.4665,
	"step": 566
	},
	{
	"epoch": 0.605338078291815,
	"grad_norm": 0.4450599253177643,
	"learning_rate": 4.035986705150355e-06,
	"loss": 0.4724,
	"step": 567
	},
	{
	"epoch": 0.606405693950178,
	"grad_norm": 0.43651196360588074,
	"learning_rate": 4.017687942941609e-06,
	"loss": 0.5019,
	"step": 568
	},
	{
	"epoch": 0.607473309608541,
	"grad_norm": 0.41378405690193176,
	"learning_rate": 3.9994028556446404e-06,
	"loss": 0.4942,
	"step": 569
	},
	{
	"epoch": 0.608540925266904,
	"grad_norm": 0.45917779207229614,
	"learning_rate": 3.981131697808862e-06,
	"loss": 0.476,
	"step": 570
	},
	{
	"epoch": 0.609608540925267,
	"grad_norm": 0.3615592420101166,
	"learning_rate": 3.9628747237897715e-06,
	"loss": 0.4678,
	"step": 571
	},
	{
	"epoch": 0.61067615658363,
	"grad_norm": 0.4037294387817383,
	"learning_rate": 3.94463218774541e-06,
	"loss": 0.4717,
	"step": 572
	},
	{
	"epoch": 0.6117437722419928,
	"grad_norm": 0.4695199429988861,
	"learning_rate": 3.926404343632826e-06,
	"loss": 0.4758,
	"step": 573
	},
	{
	"epoch": 0.6128113879003558,
	"grad_norm": 0.45771774649620056,
	"learning_rate": 3.90819144520454e-06,
	"loss": 0.4931,
	"step": 574
	},
	{
	"epoch": 0.6138790035587188,
	"grad_norm": 0.36958596110343933,
	"learning_rate": 3.889993746005011e-06,
	"loss": 0.4487,
	"step": 575
	},
	{
	"epoch": 0.6149466192170818,
	"grad_norm": 0.4408724904060364,
	"learning_rate": 3.8718114993671086e-06,
	"loss": 0.4563,
	"step": 576
	},
	{
	"epoch": 0.6160142348754448,
	"grad_norm": 0.4657142162322998,
	"learning_rate": 3.853644958408582e-06,
	"loss": 0.4743,
	"step": 577
	},
	{
	"epoch": 0.6170818505338078,
	"grad_norm": 0.42271625995635986,
	"learning_rate": 3.835494376028544e-06,
	"loss": 0.494,
	"step": 578
	},
	{
	"epoch": 0.6181494661921708,
	"grad_norm": 0.4289335608482361,
	"learning_rate": 3.817360004903939e-06,
	"loss": 0.4617,
	"step": 579
	},
	{
	"epoch": 0.6192170818505338,
	"grad_norm": 0.4913620352745056,
	"learning_rate": 3.799242097486038e-06,
	"loss": 0.4606,
	"step": 580
	},
	{
	"epoch": 0.6202846975088968,
	"grad_norm": 0.4116392731666565,
	"learning_rate": 3.7811409059969177e-06,
	"loss": 0.4623,
	"step": 581
	},
	{
	"epoch": 0.6213523131672598,
	"grad_norm": 0.4178345799446106,
	"learning_rate": 3.7630566824259456e-06,
	"loss": 0.5072,
	"step": 582
	},
	{
	"epoch": 0.6224199288256228,
	"grad_norm": 0.4855571687221527,
	"learning_rate": 3.7449896785262817e-06,
	"loss": 0.4737,
	"step": 583
	},
	{
	"epoch": 0.6234875444839858,
	"grad_norm": 0.46843597292900085,
	"learning_rate": 3.726940145811363e-06,
	"loss": 0.4703,
	"step": 584
	},
	{
	"epoch": 0.6245551601423488,
	"grad_norm": 0.38505470752716064,
	"learning_rate": 3.708908335551412e-06,
	"loss": 0.4872,
	"step": 585
	},
	{
	"epoch": 0.6256227758007118,
	"grad_norm": 0.42972132563591003,
	"learning_rate": 3.6908944987699346e-06,
	"loss": 0.4792,
	"step": 586
	},
	{
	"epoch": 0.6266903914590747,
	"grad_norm": 0.5449157357215881,
	"learning_rate": 3.67289888624022e-06,
	"loss": 0.5233,
	"step": 587
	},
	{
	"epoch": 0.6277580071174377,
	"grad_norm": 0.4144046902656555,
	"learning_rate": 3.6549217484818576e-06,
	"loss": 0.4798,
	"step": 588
	},
	{
	"epoch": 0.6288256227758007,
	"grad_norm": 0.42087435722351074,
	"learning_rate": 3.6369633357572514e-06,
	"loss": 0.4573,
	"step": 589
	},
	{
	"epoch": 0.6298932384341637,
	"grad_norm": 0.42363405227661133,
	"learning_rate": 3.6190238980681235e-06,
	"loss": 0.4652,
	"step": 590
	},
	{
	"epoch": 0.6309608540925267,
	"grad_norm": 0.4286684989929199,
	"learning_rate": 3.6011036851520465e-06,
	"loss": 0.4637,
	"step": 591
	},
	{
	"epoch": 0.6320284697508897,
	"grad_norm": 0.4206468462944031,
	"learning_rate": 3.583202946478963e-06,
	"loss": 0.4761,
	"step": 592
	},
	{
	"epoch": 0.6330960854092527,
	"grad_norm": 0.3857564926147461,
	"learning_rate": 3.5653219312477085e-06,
	"loss": 0.4771,
	"step": 593
	},
	{
	"epoch": 0.6341637010676157,
	"grad_norm": 0.42064541578292847,
	"learning_rate": 3.5474608883825475e-06,
	"loss": 0.499,
	"step": 594
	},
	{
	"epoch": 0.6352313167259787,
	"grad_norm": 0.35660263895988464,
	"learning_rate": 3.529620066529704e-06,
	"loss": 0.4626,
	"step": 595
	},
	{
	"epoch": 0.6362989323843417,
	"grad_norm": 0.4862718880176544,
	"learning_rate": 3.5117997140539073e-06,
	"loss": 0.5183,
	"step": 596
	},
	{
	"epoch": 0.6373665480427047,
	"grad_norm": 0.44003114104270935,
	"learning_rate": 3.4940000790349226e-06,
	"loss": 0.4649,
	"step": 597
	},
	{
	"epoch": 0.6384341637010676,
	"grad_norm": 0.38733163475990295,
	"learning_rate": 3.47622140926411e-06,
	"loss": 0.4378,
	"step": 598
	},
	{
	"epoch": 0.6395017793594306,
	"grad_norm": 0.41804930567741394,
	"learning_rate": 3.458463952240967e-06,
	"loss": 0.4664,
	"step": 599
	},
	{
	"epoch": 0.6405693950177936,
	"grad_norm": 0.44392499327659607,
	"learning_rate": 3.4407279551696846e-06,
	"loss": 0.4655,
	"step": 600
	},
	{
	"epoch": 0.6416370106761566,
	"grad_norm": 0.39837706089019775,
	"learning_rate": 3.4230136649557087e-06,
	"loss": 0.4701,
	"step": 601
	},
	{
	"epoch": 0.6427046263345195,
	"grad_norm": 0.41694167256355286,
	"learning_rate": 3.4053213282022983e-06,
	"loss": 0.4716,
	"step": 602
	},
	{
	"epoch": 0.6437722419928825,
	"grad_norm": 0.41177675127983093,
	"learning_rate": 3.387651191207097e-06,
	"loss": 0.4802,
	"step": 603
	},
	{
	"epoch": 0.6448398576512455,
	"grad_norm": 0.4301503300666809,
	"learning_rate": 3.370003499958703e-06,
	"loss": 0.4546,
	"step": 604
	},
	{
	"epoch": 0.6459074733096085,
	"grad_norm": 0.37474584579467773,
	"learning_rate": 3.352378500133239e-06,
	"loss": 0.477,
	"step": 605
	},
	{
	"epoch": 0.6469750889679715,
	"grad_norm": 0.4323018491268158,
	"learning_rate": 3.334776437090944e-06,
	"loss": 0.4656,
	"step": 606
	},
	{
	"epoch": 0.6480427046263345,
	"grad_norm": 0.41514450311660767,
	"learning_rate": 3.317197555872745e-06,
	"loss": 0.4198,
	"step": 607
	},
	{
	"epoch": 0.6491103202846975,
	"grad_norm": 0.3888489007949829,
	"learning_rate": 3.2996421011968546e-06,
	"loss": 0.4535,
	"step": 608
	},
	{
	"epoch": 0.6501779359430605,
	"grad_norm": 0.4327705204486847,
	"learning_rate": 3.28211031745536e-06,
	"loss": 0.4983,
	"step": 609
	},
	{
	"epoch": 0.6512455516014235,
	"grad_norm": 0.4344913065433502,
	"learning_rate": 3.264602448710822e-06,
	"loss": 0.4947,
	"step": 610
	},
	{
	"epoch": 0.6523131672597865,
	"grad_norm": 0.3991352915763855,
	"learning_rate": 3.2471187386928766e-06,
	"loss": 0.4805,
	"step": 611
	},
	{
	"epoch": 0.6533807829181495,
	"grad_norm": 0.39237743616104126,
	"learning_rate": 3.2296594307948428e-06,
	"loss": 0.4891,
	"step": 612
	},
	{
	"epoch": 0.6544483985765125,
	"grad_norm": 0.40971338748931885,
	"learning_rate": 3.212224768070334e-06,
	"loss": 0.453,
	"step": 613
	},
	{
	"epoch": 0.6555160142348755,
	"grad_norm": 0.41694802045822144,
	"learning_rate": 3.194814993229878e-06,
	"loss": 0.4718,
	"step": 614
	},
	{
	"epoch": 0.6565836298932385,
	"grad_norm": 0.429420530796051,
	"learning_rate": 3.177430348637527e-06,
	"loss": 0.4929,
	"step": 615
	},
	{
	"epoch": 0.6576512455516014,
	"grad_norm": 0.39137008786201477,
	"learning_rate": 3.1600710763074972e-06,
	"loss": 0.4672,
	"step": 616
	},
	{
	"epoch": 0.6587188612099644,
	"grad_norm": 0.40734052658081055,
	"learning_rate": 3.142737417900793e-06,
	"loss": 0.4999,
	"step": 617
	},
	{
	"epoch": 0.6597864768683274,
	"grad_norm": 0.36672934889793396,
	"learning_rate": 3.125429614721842e-06,
	"loss": 0.466,
	"step": 618
	},
	{
	"epoch": 0.6608540925266904,
	"grad_norm": 0.36196407675743103,
	"learning_rate": 3.1081479077151387e-06,
	"loss": 0.4425,
	"step": 619
	},
	{
	"epoch": 0.6619217081850534,
	"grad_norm": 0.3950616717338562,
	"learning_rate": 3.090892537461889e-06,
	"loss": 0.4726,
	"step": 620
	},
	{
	"epoch": 0.6629893238434164,
	"grad_norm": 0.42815542221069336,
	"learning_rate": 3.0736637441766594e-06,
	"loss": 0.4753,
	"step": 621
	},
	{
	"epoch": 0.6640569395017794,
	"grad_norm": 0.3979141116142273,
	"learning_rate": 3.056461767704037e-06,
	"loss": 0.4799,
	"step": 622
	},
	{
	"epoch": 0.6651245551601424,
	"grad_norm": 0.37764808535575867,
	"learning_rate": 3.039286847515284e-06,
	"loss": 0.4752,
	"step": 623
	},
	{
	"epoch": 0.6661921708185053,
	"grad_norm": 0.38070034980773926,
	"learning_rate": 3.0221392227050126e-06,
	"loss": 0.4782,
	"step": 624
	},
	{
	"epoch": 0.6672597864768683,
	"grad_norm": 0.40708160400390625,
	"learning_rate": 3.00501913198785e-06,
	"loss": 0.4533,
	"step": 625
	},
	{
	"epoch": 0.6683274021352313,
	"grad_norm": 0.41723665595054626,
	"learning_rate": 2.9879268136951163e-06,
	"loss": 0.4827,
	"step": 626
	},
	{
	"epoch": 0.6693950177935943,
	"grad_norm": 0.41290441155433655,
	"learning_rate": 2.970862505771509e-06,
	"loss": 0.4443,
	"step": 627
	},
	{
	"epoch": 0.6704626334519573,
	"grad_norm": 0.4340071678161621,
	"learning_rate": 2.953826445771788e-06,
	"loss": 0.48,
	"step": 628
	},
	{
	"epoch": 0.6715302491103203,
	"grad_norm": 0.35983264446258545,
	"learning_rate": 2.9368188708574706e-06,
	"loss": 0.4415,
	"step": 629
	},
	{
	"epoch": 0.6725978647686833,
	"grad_norm": 0.3808664381504059,
	"learning_rate": 2.9198400177935303e-06,
	"loss": 0.4683,
	"step": 630
	},
	{
	"epoch": 0.6736654804270462,
	"grad_norm": 0.3902174234390259,
	"learning_rate": 2.902890122945096e-06,
	"loss": 0.4984,
	"step": 631
	},
	{
	"epoch": 0.6747330960854092,
	"grad_norm": 0.38310402631759644,
	"learning_rate": 2.8859694222741653e-06,
	"loss": 0.5024,
	"step": 632
	},
	{
	"epoch": 0.6758007117437722,
	"grad_norm": 0.407287061214447,
	"learning_rate": 2.869078151336323e-06,
	"loss": 0.474,
	"step": 633
	},
	{
	"epoch": 0.6768683274021352,
	"grad_norm": 0.38502153754234314,
	"learning_rate": 2.852216545277456e-06,
	"loss": 0.4786,
	"step": 634
	},
	{
	"epoch": 0.6779359430604982,
	"grad_norm": 0.3770993649959564,
	"learning_rate": 2.835384838830481e-06,
	"loss": 0.4876,
	"step": 635
	},
	{
	"epoch": 0.6790035587188612,
	"grad_norm": 0.3542179763317108,
	"learning_rate": 2.8185832663120817e-06,
	"loss": 0.4748,
	"step": 636
	},
	{
	"epoch": 0.6800711743772242,
	"grad_norm": 0.3789761960506439,
	"learning_rate": 2.8018120616194356e-06,
	"loss": 0.4936,
	"step": 637
	},
	{
	"epoch": 0.6811387900355872,
	"grad_norm": 0.3685765564441681,
	"learning_rate": 2.785071458226972e-06,
	"loss": 0.4749,
	"step": 638
	},
	{
	"epoch": 0.6822064056939502,
	"grad_norm": 0.35032930970191956,
	"learning_rate": 2.768361689183113e-06,
	"loss": 0.4439,
	"step": 639
	},
	{
	"epoch": 0.6832740213523132,
	"grad_norm": 0.3704805374145508,
	"learning_rate": 2.7516829871070295e-06,
	"loss": 0.4622,
	"step": 640
	},
	{
	"epoch": 0.6843416370106762,
	"grad_norm": 0.3895471692085266,
	"learning_rate": 2.735035584185409e-06,
	"loss": 0.4826,
	"step": 641
	},
	{
	"epoch": 0.6854092526690392,
	"grad_norm": 0.38154760003089905,
	"learning_rate": 2.718419712169213e-06,
	"loss": 0.4544,
	"step": 642
	},
	{
	"epoch": 0.6864768683274022,
	"grad_norm": 0.3842725157737732,
	"learning_rate": 2.7018356023704574e-06,
	"loss": 0.4961,
	"step": 643
	},
	{
	"epoch": 0.6875444839857652,
	"grad_norm": 0.3748033940792084,
	"learning_rate": 2.685283485658995e-06,
	"loss": 0.4642,
	"step": 644
	},
	{
	"epoch": 0.6886120996441281,
	"grad_norm": 0.36127620935440063,
	"learning_rate": 2.668763592459297e-06,
	"loss": 0.4591,
	"step": 645
	},
	{
	"epoch": 0.6896797153024911,
	"grad_norm": 0.3470078110694885,
	"learning_rate": 2.6522761527472464e-06,
	"loss": 0.4559,
	"step": 646
	},
	{
	"epoch": 0.6907473309608541,
	"grad_norm": 0.38986238837242126,
	"learning_rate": 2.6358213960469357e-06,
	"loss": 0.4881,
	"step": 647
	},
	{
	"epoch": 0.691814946619217,
	"grad_norm": 0.3686830699443817,
	"learning_rate": 2.6193995514274705e-06,
	"loss": 0.4754,
	"step": 648
	},
	{
	"epoch": 0.69288256227758,
	"grad_norm": 0.36502450704574585,
	"learning_rate": 2.6030108474997854e-06,
	"loss": 0.4739,
	"step": 649
	},
	{
	"epoch": 0.693950177935943,
	"grad_norm": 0.3817600905895233,
	"learning_rate": 2.586655512413458e-06,
	"loss": 0.4406,
	"step": 650
	},
	{
	"epoch": 0.695017793594306,
	"grad_norm": 0.3689401149749756,
	"learning_rate": 2.5703337738535324e-06,
	"loss": 0.4461,
	"step": 651
	},
	{
	"epoch": 0.696085409252669,
	"grad_norm": 0.39199331402778625,
	"learning_rate": 2.554045859037353e-06,
	"loss": 0.4631,
	"step": 652
	},
	{
	"epoch": 0.697153024911032,
	"grad_norm": 0.35440245270729065,
	"learning_rate": 2.5377919947113917e-06,
	"loss": 0.4523,
	"step": 653
	},
	{
	"epoch": 0.698220640569395,
	"grad_norm": 0.3502133786678314,
	"learning_rate": 2.521572407148107e-06,
	"loss": 0.4592,
	"step": 654
	},
	{
	"epoch": 0.699288256227758,
	"grad_norm": 0.37463781237602234,
	"learning_rate": 2.505387322142782e-06,
	"loss": 0.4719,
	"step": 655
	},
	{
	"epoch": 0.700355871886121,
	"grad_norm": 0.391875296831131,
	"learning_rate": 2.4892369650103837e-06,
	"loss": 0.4656,
	"step": 656
	},
	{
	"epoch": 0.701423487544484,
	"grad_norm": 0.3908476233482361,
	"learning_rate": 2.4731215605824304e-06,
	"loss": 0.4962,
	"step": 657
	},
	{
	"epoch": 0.702491103202847,
	"grad_norm": 0.3876582086086273,
	"learning_rate": 2.4570413332038523e-06,
	"loss": 0.4776,
	"step": 658
	},
	{
	"epoch": 0.70355871886121,
	"grad_norm": 0.36631351709365845,
	"learning_rate": 2.440996506729881e-06,
	"loss": 0.4603,
	"step": 659
	},
	{
	"epoch": 0.7046263345195729,
	"grad_norm": 0.40206146240234375,
	"learning_rate": 2.4249873045229244e-06,
	"loss": 0.456,
	"step": 660
	},
	{
	"epoch": 0.7056939501779359,
	"grad_norm": 0.3983338475227356,
	"learning_rate": 2.4090139494494596e-06,
	"loss": 0.4664,
	"step": 661
	},
	{
	"epoch": 0.7067615658362989,
	"grad_norm": 0.37411966919898987,
	"learning_rate": 2.3930766638769325e-06,
	"loss": 0.4738,
	"step": 662
	},
	{
	"epoch": 0.7078291814946619,
	"grad_norm": 0.42127808928489685,
	"learning_rate": 2.3771756696706553e-06,
	"loss": 0.4782,
	"step": 663
	},
	{
	"epoch": 0.7088967971530249,
	"grad_norm": 0.4144476354122162,
	"learning_rate": 2.3613111881907273e-06,
	"loss": 0.4737,
	"step": 664
	},
	{
	"epoch": 0.7099644128113879,
	"grad_norm": 0.40858951210975647,
	"learning_rate": 2.345483440288947e-06,
	"loss": 0.4516,
	"step": 665
	},
	{
	"epoch": 0.7110320284697509,
	"grad_norm": 0.3829437792301178,
	"learning_rate": 2.3296926463057396e-06,
	"loss": 0.4509,
	"step": 666
	},
	{
	"epoch": 0.7120996441281139,
	"grad_norm": 0.37926656007766724,
	"learning_rate": 2.313939026067091e-06,
	"loss": 0.4628,
	"step": 667
	},
	{
	"epoch": 0.7131672597864769,
	"grad_norm": 0.36293280124664307,
	"learning_rate": 2.29822279888148e-06,
	"loss": 0.4454,
	"step": 668
	},
	{
	"epoch": 0.7142348754448399,
	"grad_norm": 0.40881264209747314,
	"learning_rate": 2.2825441835368377e-06,
	"loss": 0.4754,
	"step": 669
	},
	{
	"epoch": 0.7153024911032029,
	"grad_norm": 0.3915267884731293,
	"learning_rate": 2.2669033982974946e-06,
	"loss": 0.4869,
	"step": 670
	},
	{
	"epoch": 0.7163701067615659,
	"grad_norm": 0.34906652569770813,
	"learning_rate": 2.2513006609011365e-06,
	"loss": 0.4686,
	"step": 671
	},
	{
	"epoch": 0.7174377224199289,
	"grad_norm": 0.4089764952659607,
	"learning_rate": 2.235736188555787e-06,
	"loss": 0.4766,
	"step": 672
	},
	{
	"epoch": 0.7185053380782919,
	"grad_norm": 0.35783180594444275,
	"learning_rate": 2.2202101979367735e-06,
	"loss": 0.4816,
	"step": 673
	},
	{
	"epoch": 0.7195729537366548,
	"grad_norm": 0.3813284635543823,
	"learning_rate": 2.2047229051837107e-06,
	"loss": 0.5012,
	"step": 674
	},
	{
	"epoch": 0.7206405693950177,
	"grad_norm": 0.34306350350379944,
	"learning_rate": 2.189274525897498e-06,
	"loss": 0.5031,
	"step": 675
	},
	{
	"epoch": 0.7217081850533807,
	"grad_norm": 0.3745080530643463,
	"learning_rate": 2.173865275137314e-06,
	"loss": 0.4705,
	"step": 676
	},
	{
	"epoch": 0.7227758007117437,
	"grad_norm": 0.3763768672943115,
	"learning_rate": 2.158495367417625e-06,
	"loss": 0.4748,
	"step": 677
	},
	{
	"epoch": 0.7238434163701067,
	"grad_norm": 0.3732641935348511,
	"learning_rate": 2.143165016705192e-06,
	"loss": 0.485,
	"step": 678
	},
	{
	"epoch": 0.7249110320284697,
	"grad_norm": 0.41331830620765686,
	"learning_rate": 2.1278744364161007e-06,
	"loss": 0.5154,
	"step": 679
	},
	{
	"epoch": 0.7259786476868327,
	"grad_norm": 0.3479762077331543,
	"learning_rate": 2.1126238394127868e-06,
	"loss": 0.4668,
	"step": 680
	},
	{
	"epoch": 0.7270462633451957,
	"grad_norm": 0.3638448417186737,
	"learning_rate": 2.0974134380010726e-06,
	"loss": 0.479,
	"step": 681
	},
	{
	"epoch": 0.7281138790035587,
	"grad_norm": 0.3845721185207367,
	"learning_rate": 2.082243443927212e-06,
	"loss": 0.4757,
	"step": 682
	},
	{
	"epoch": 0.7291814946619217,
	"grad_norm": 0.3670172095298767,
	"learning_rate": 2.0671140683749386e-06,
	"loss": 0.4841,
	"step": 683
	},
	{
	"epoch": 0.7302491103202847,
	"grad_norm": 0.4244895279407501,
	"learning_rate": 2.052025521962534e-06,
	"loss": 0.4964,
	"step": 684
	},
	{
	"epoch": 0.7313167259786477,
	"grad_norm": 0.37311217188835144,
	"learning_rate": 2.03697801473989e-06,
	"loss": 0.4675,
	"step": 685
	},
	{
	"epoch": 0.7323843416370107,
	"grad_norm": 0.40401390194892883,
	"learning_rate": 2.0219717561855857e-06,
	"loss": 0.4787,
	"step": 686
	},
	{
	"epoch": 0.7334519572953737,
	"grad_norm": 0.4272782802581787,
	"learning_rate": 2.0070069552039722e-06,
	"loss": 0.4704,
	"step": 687
	},
	{
	"epoch": 0.7345195729537367,
	"grad_norm": 0.41608813405036926,
	"learning_rate": 1.992083820122259e-06,
	"loss": 0.4982,
	"step": 688
	},
	{
	"epoch": 0.7355871886120996,
	"grad_norm": 0.38170090317726135,
	"learning_rate": 1.9772025586876252e-06,
	"loss": 0.468,
	"step": 689
	},
	{
	"epoch": 0.7366548042704626,
	"grad_norm": 0.40004512667655945,
	"learning_rate": 1.962363378064316e-06,
	"loss": 0.4606,
	"step": 690
	},
	{
	"epoch": 0.7377224199288256,
	"grad_norm": 0.3620181679725647,
	"learning_rate": 1.947566484830765e-06,
	"loss": 0.4608,
	"step": 691
	},
	{
	"epoch": 0.7387900355871886,
	"grad_norm": 0.378568559885025,
	"learning_rate": 1.9328120849767198e-06,
	"loss": 0.4974,
	"step": 692
	},
	{
	"epoch": 0.7398576512455516,
	"grad_norm": 0.4036838412284851,
	"learning_rate": 1.9181003839003627e-06,
	"loss": 0.4859,
	"step": 693
	},
	{
	"epoch": 0.7409252669039146,
	"grad_norm": 0.3742115795612335,
	"learning_rate": 1.9034315864054682e-06,
	"loss": 0.445,
	"step": 694
	},
	{
	"epoch": 0.7419928825622776,
	"grad_norm": 0.45754826068878174,
	"learning_rate": 1.8888058966985407e-06,
	"loss": 0.4882,
	"step": 695
	},
	{
	"epoch": 0.7430604982206406,
	"grad_norm": 0.3731890320777893,
	"learning_rate": 1.8742235183859747e-06,
	"loss": 0.4656,
	"step": 696
	},
	{
	"epoch": 0.7441281138790036,
	"grad_norm": 0.35599714517593384,
	"learning_rate": 1.8596846544712233e-06,
	"loss": 0.4508,
	"step": 697
	},
	{
	"epoch": 0.7451957295373666,
	"grad_norm": 0.3616451621055603,
	"learning_rate": 1.8451895073519643e-06,
	"loss": 0.4636,
	"step": 698
	},
	{
	"epoch": 0.7462633451957296,
	"grad_norm": 0.36844977736473083,
	"learning_rate": 1.8307382788172877e-06,
	"loss": 0.4858,
	"step": 699
	},
	{
	"epoch": 0.7473309608540926,
	"grad_norm": 0.37101319432258606,
	"learning_rate": 1.8163311700448899e-06,
	"loss": 0.4542,
	"step": 700
	},
	{
	"epoch": 0.7483985765124556,
	"grad_norm": 0.34689757227897644,
	"learning_rate": 1.8019683815982691e-06,
	"loss": 0.4336,
	"step": 701
	},
	{
	"epoch": 0.7494661921708186,
	"grad_norm": 0.36886388063430786,
	"learning_rate": 1.7876501134239316e-06,
	"loss": 0.4688,
	"step": 702
	},
	{
	"epoch": 0.7505338078291814,
	"grad_norm": 0.40008699893951416,
	"learning_rate": 1.7733765648486134e-06,
	"loss": 0.4842,
	"step": 703
	},
	{
	"epoch": 0.7516014234875444,
	"grad_norm": 0.3825279772281647,
	"learning_rate": 1.7591479345764972e-06,
	"loss": 0.4843,
	"step": 704
	},
	{
	"epoch": 0.7526690391459074,
	"grad_norm": 0.33588531613349915,
	"learning_rate": 1.7449644206864564e-06,
	"loss": 0.4673,
	"step": 705
	},
	{
	"epoch": 0.7537366548042704,
	"grad_norm": 0.3410935699939728,
	"learning_rate": 1.7308262206292898e-06,
	"loss": 0.4593,
	"step": 706
	},
	{
	"epoch": 0.7548042704626334,
	"grad_norm": 0.3688999116420746,
	"learning_rate": 1.7167335312249766e-06,
	"loss": 0.4669,
	"step": 707
	},
	{
	"epoch": 0.7558718861209964,
	"grad_norm": 0.3429146409034729,
	"learning_rate": 1.7026865486599375e-06,
	"loss": 0.4686,
	"step": 708
	},
	{
	"epoch": 0.7569395017793594,
	"grad_norm": 0.3735763728618622,
	"learning_rate": 1.6886854684842962e-06,
	"loss": 0.4414,
	"step": 709
	},
	{
	"epoch": 0.7580071174377224,
	"grad_norm": 0.3942524790763855,
	"learning_rate": 1.6747304856091662e-06,
	"loss": 0.4921,
	"step": 710
	},
	{
	"epoch": 0.7590747330960854,
	"grad_norm": 0.3756312131881714,
	"learning_rate": 1.660821794303934e-06,
	"loss": 0.4729,
	"step": 711
	},
	{
	"epoch": 0.7601423487544484,
	"grad_norm": 0.3681127727031708,
	"learning_rate": 1.6469595881935523e-06,
	"loss": 0.4657,
	"step": 712
	},
	{
	"epoch": 0.7612099644128114,
	"grad_norm": 0.3375697135925293,
	"learning_rate": 1.6331440602558501e-06,
	"loss": 0.46,
	"step": 713
	},
	{
	"epoch": 0.7622775800711744,
	"grad_norm": 0.3568233549594879,
	"learning_rate": 1.6193754028188363e-06,
	"loss": 0.4758,
	"step": 714
	},
	{
	"epoch": 0.7633451957295374,
	"grad_norm": 0.3790285587310791,
	"learning_rate": 1.6056538075580342e-06,
	"loss": 0.4669,
	"step": 715
	},
	{
	"epoch": 0.7644128113879004,
	"grad_norm": 0.3637920022010803,
	"learning_rate": 1.591979465493806e-06,
	"loss": 0.4688,
	"step": 716
	},
	{
	"epoch": 0.7654804270462633,
	"grad_norm": 0.36419907212257385,
	"learning_rate": 1.5783525669886934e-06,
	"loss": 0.4705,
	"step": 717
	},
	{
	"epoch": 0.7665480427046263,
	"grad_norm": 0.40734171867370605,
	"learning_rate": 1.5647733017447741e-06,
	"loss": 0.4984,
	"step": 718
	},
	{
	"epoch": 0.7676156583629893,
	"grad_norm": 0.3663610816001892,
	"learning_rate": 1.5512418588010086e-06,
	"loss": 0.4833,
	"step": 719
	},
	{
	"epoch": 0.7686832740213523,
	"grad_norm": 0.3341020345687866,
	"learning_rate": 1.5377584265306222e-06,
	"loss": 0.4512,
	"step": 720
	},
	{
	"epoch": 0.7697508896797153,
	"grad_norm": 0.3661962151527405,
	"learning_rate": 1.5243231926384744e-06,
	"loss": 0.4722,
	"step": 721
	},
	{
	"epoch": 0.7708185053380783,
	"grad_norm": 0.36284494400024414,
	"learning_rate": 1.510936344158448e-06,
	"loss": 0.4475,
	"step": 722
	},
	{
	"epoch": 0.7718861209964413,
	"grad_norm": 0.3552328646183014,
	"learning_rate": 1.4975980674508472e-06,
	"loss": 0.4568,
	"step": 723
	},
	{
	"epoch": 0.7729537366548043,
	"grad_norm": 0.3626512885093689,
	"learning_rate": 1.484308548199796e-06,
	"loss": 0.4832,
	"step": 724
	},
	{
	"epoch": 0.7740213523131673,
	"grad_norm": 0.35424965620040894,
	"learning_rate": 1.4710679714106635e-06,
	"loss": 0.4741,
	"step": 725
	},
	{
	"epoch": 0.7750889679715303,
	"grad_norm": 0.3459206223487854,
	"learning_rate": 1.4578765214074842e-06,
	"loss": 0.4401,
	"step": 726
	},
	{
	"epoch": 0.7761565836298933,
	"grad_norm": 0.38151949644088745,
	"learning_rate": 1.444734381830386e-06,
	"loss": 0.459,
	"step": 727
	},
	{
	"epoch": 0.7772241992882563,
	"grad_norm": 0.3755812346935272,
	"learning_rate": 1.4316417356330441e-06,
	"loss": 0.4612,
	"step": 728
	},
	{
	"epoch": 0.7782918149466193,
	"grad_norm": 0.3835029900074005,
	"learning_rate": 1.4185987650801286e-06,
	"loss": 0.4556,
	"step": 729
	},
	{
	"epoch": 0.7793594306049823,
	"grad_norm": 0.3661644756793976,
	"learning_rate": 1.4056056517447637e-06,
	"loss": 0.491,
	"step": 730
	},
	{
	"epoch": 0.7804270462633452,
	"grad_norm": 0.3670632541179657,
	"learning_rate": 1.392662576506007e-06,
	"loss": 0.4821,
	"step": 731
	},
	{
	"epoch": 0.7814946619217081,
	"grad_norm": 0.3170434832572937,
	"learning_rate": 1.3797697195463278e-06,
	"loss": 0.4571,
	"step": 732
	},
	{
	"epoch": 0.7825622775800711,
	"grad_norm": 0.37059327960014343,
	"learning_rate": 1.3669272603491002e-06,
	"loss": 0.472,
	"step": 733
	},
	{
	"epoch": 0.7836298932384341,
	"grad_norm": 0.3722604513168335,
	"learning_rate": 1.3541353776961035e-06,
	"loss": 0.4716,
	"step": 734
	},
	{
	"epoch": 0.7846975088967971,
	"grad_norm": 0.3722414970397949,
	"learning_rate": 1.3413942496650301e-06,
	"loss": 0.4824,
	"step": 735
	},
	{
	"epoch": 0.7857651245551601,
	"grad_norm": 0.3409653306007385,
	"learning_rate": 1.3287040536270135e-06,
	"loss": 0.4605,
	"step": 736
	},
	{
	"epoch": 0.7868327402135231,
	"grad_norm": 0.3402983546257019,
	"learning_rate": 1.3160649662441532e-06,
	"loss": 0.4756,
	"step": 737
	},
	{
	"epoch": 0.7879003558718861,
	"grad_norm": 0.34389257431030273,
	"learning_rate": 1.30347716346706e-06,
	"loss": 0.491,
	"step": 738
	},
	{
	"epoch": 0.7889679715302491,
	"grad_norm": 0.35902342200279236,
	"learning_rate": 1.290940820532403e-06,
	"loss": 0.4962,
	"step": 739
	},
	{
	"epoch": 0.7900355871886121,
	"grad_norm": 0.3977390229701996,
	"learning_rate": 1.2784561119604683e-06,
	"loss": 0.4772,
	"step": 740
	},
	{
	"epoch": 0.7911032028469751,
	"grad_norm": 0.3474990427494049,
	"learning_rate": 1.266023211552736e-06,
	"loss": 0.4722,
	"step": 741
	},
	{
	"epoch": 0.7921708185053381,
	"grad_norm": 0.3343373239040375,
	"learning_rate": 1.2536422923894565e-06,
	"loss": 0.4693,
	"step": 742
	},
	{
	"epoch": 0.7932384341637011,
	"grad_norm": 0.3417350649833679,
	"learning_rate": 1.2413135268272403e-06,
	"loss": 0.4557,
	"step": 743
	},
	{
	"epoch": 0.7943060498220641,
	"grad_norm": 0.35946568846702576,
	"learning_rate": 1.2290370864966623e-06,
	"loss": 0.4719,
	"step": 744
	},
	{
	"epoch": 0.7953736654804271,
	"grad_norm": 0.3475436866283417,
	"learning_rate": 1.2168131422998653e-06,
	"loss": 0.4822,
	"step": 745
	},
	{
	"epoch": 0.79644128113879,
	"grad_norm": 0.34873461723327637,
	"learning_rate": 1.2046418644081904e-06,
	"loss": 0.469,
	"step": 746
	},
	{
	"epoch": 0.797508896797153,
	"grad_norm": 0.37052375078201294,
	"learning_rate": 1.192523422259802e-06,
	"loss": 0.4926,
	"step": 747
	},
	{
	"epoch": 0.798576512455516,
	"grad_norm": 0.40255382657051086,
	"learning_rate": 1.1804579845573288e-06,
	"loss": 0.4759,
	"step": 748
	},
	{
	"epoch": 0.799644128113879,
	"grad_norm": 0.35330265760421753,
	"learning_rate": 1.1684457192655207e-06,
	"loss": 0.4904,
	"step": 749
	},
	{
	"epoch": 0.800711743772242,
	"grad_norm": 0.34803614020347595,
	"learning_rate": 1.156486793608899e-06,
	"loss": 0.4786,
	"step": 750
	},
	{
	"epoch": 0.801779359430605,
	"grad_norm": 0.3456575572490692,
	"learning_rate": 1.144581374069444e-06,
	"loss": 0.4493,
	"step": 751
	},
	{
	"epoch": 0.802846975088968,
	"grad_norm": 0.3717256188392639,
	"learning_rate": 1.1327296263842653e-06,
	"loss": 0.4414,
	"step": 752
	},
	{
	"epoch": 0.803914590747331,
	"grad_norm": 0.35381019115448,
	"learning_rate": 1.120931715543299e-06,
	"loss": 0.4235,
	"step": 753
	},
	{
	"epoch": 0.804982206405694,
	"grad_norm": 0.37933510541915894,
	"learning_rate": 1.1091878057870137e-06,
	"loss": 0.4721,
	"step": 754
	},
	{
	"epoch": 0.806049822064057,
	"grad_norm": 0.3646122217178345,
	"learning_rate": 1.0974980606041152e-06,
	"loss": 0.4799,
	"step": 755
	},
	{
	"epoch": 0.80711743772242,
	"grad_norm": 0.34057337045669556,
	"learning_rate": 1.0858626427292796e-06,
	"loss": 0.4549,
	"step": 756
	},
	{
	"epoch": 0.808185053380783,
	"grad_norm": 0.35293883085250854,
	"learning_rate": 1.074281714140884e-06,
	"loss": 0.4939,
	"step": 757
	},
	{
	"epoch": 0.8092526690391459,
	"grad_norm": 0.35031718015670776,
	"learning_rate": 1.0627554360587533e-06,
	"loss": 0.4707,
	"step": 758
	},
	{
	"epoch": 0.8103202846975089,
	"grad_norm": 0.36572709679603577,
	"learning_rate": 1.0512839689419124e-06,
	"loss": 0.473,
	"step": 759
	},
	{
	"epoch": 0.8113879003558719,
	"grad_norm": 0.3748714327812195,
	"learning_rate": 1.0398674724863584e-06,
	"loss": 0.4637,
	"step": 760
	},
	{
	"epoch": 0.8124555160142348,
	"grad_norm": 0.35171017050743103,
	"learning_rate": 1.0285061056228273e-06,
	"loss": 0.4651,
	"step": 761
	},
	{
	"epoch": 0.8135231316725978,
	"grad_norm": 0.3429271876811981,
	"learning_rate": 1.0172000265145938e-06,
	"loss": 0.484,
	"step": 762
	},
	{
	"epoch": 0.8145907473309608,
	"grad_norm": 0.33533966541290283,
	"learning_rate": 1.0059493925552604e-06,
	"loss": 0.4695,
	"step": 763
	},
	{
	"epoch": 0.8156583629893238,
	"grad_norm": 0.40435880422592163,
	"learning_rate": 9.947543603665711e-07,
	"loss": 0.4899,
	"step": 764
	},
	{
	"epoch": 0.8167259786476868,
	"grad_norm": 0.35124266147613525,
	"learning_rate": 9.836150857962296e-07,
	"loss": 0.4515,
	"step": 765
	},
	{
	"epoch": 0.8177935943060498,
	"grad_norm": 0.3399527370929718,
	"learning_rate": 9.72531723915726e-07,
	"loss": 0.4715,
	"step": 766
	},
	{
	"epoch": 0.8188612099644128,
	"grad_norm": 0.35184887051582336,
	"learning_rate": 9.615044290181863e-07,
	"loss": 0.4596,
	"step": 767
	},
	{
	"epoch": 0.8199288256227758,
	"grad_norm": 0.39761510491371155,
	"learning_rate": 9.505333546162171e-07,
	"loss": 0.4723,
	"step": 768
	},
	{
	"epoch": 0.8209964412811388,
	"grad_norm": 0.39027488231658936,
	"learning_rate": 9.396186534397711e-07,
	"loss": 0.4922,
	"step": 769
	},
	{
	"epoch": 0.8220640569395018,
	"grad_norm": 0.3433700203895569,
	"learning_rate": 9.287604774340236e-07,
	"loss": 0.5038,
	"step": 770
	},
	{
	"epoch": 0.8231316725978648,
	"grad_norm": 0.37167125940322876,
	"learning_rate": 9.179589777572496e-07,
	"loss": 0.4837,
	"step": 771
	},
	{
	"epoch": 0.8241992882562278,
	"grad_norm": 0.3502262532711029,
	"learning_rate": 9.07214304778729e-07,
	"loss": 0.4589,
	"step": 772
	},
	{
	"epoch": 0.8252669039145908,
	"grad_norm": 0.3304504454135895,
	"learning_rate": 8.965266080766471e-07,
	"loss": 0.4718,
	"step": 773
	},
	{
	"epoch": 0.8263345195729538,
	"grad_norm": 0.3667429983615875,
	"learning_rate": 8.858960364360142e-07,
	"loss": 0.4946,
	"step": 774
	},
	{
	"epoch": 0.8274021352313167,
	"grad_norm": 0.38245144486427307,
	"learning_rate": 8.753227378465956e-07,
	"loss": 0.4551,
	"step": 775
	},
	{
	"epoch": 0.8284697508896797,
	"grad_norm": 0.3940775394439697,
	"learning_rate": 8.648068595008458e-07,
	"loss": 0.4492,
	"step": 776
	},
	{
	"epoch": 0.8295373665480427,
	"grad_norm": 0.3834594488143921,
	"learning_rate": 8.543485477918672e-07,
	"loss": 0.4642,
	"step": 777
	},
	{
	"epoch": 0.8306049822064057,
	"grad_norm": 0.35629889369010925,
	"learning_rate": 8.439479483113683e-07,
	"loss": 0.4479,
	"step": 778
	},
	{
	"epoch": 0.8316725978647687,
	"grad_norm": 0.38858264684677124,
	"learning_rate": 8.336052058476374e-07,
	"loss": 0.4774,
	"step": 779
	},
	{
	"epoch": 0.8327402135231317,
	"grad_norm": 0.3532935380935669,
	"learning_rate": 8.233204643835235e-07,
	"loss": 0.4941,
	"step": 780
	},
	{
	"epoch": 0.8338078291814947,
	"grad_norm": 0.34240975975990295,
	"learning_rate": 8.130938670944377e-07,
	"loss": 0.4695,
	"step": 781
	},
	{
	"epoch": 0.8348754448398576,
	"grad_norm": 0.3459632396697998,
	"learning_rate": 8.029255563463589e-07,
	"loss": 0.4913,
	"step": 782
	},
	{
	"epoch": 0.8359430604982206,
	"grad_norm": 0.3634418547153473,
	"learning_rate": 7.928156736938458e-07,
	"loss": 0.4515,
	"step": 783
	},
	{
	"epoch": 0.8370106761565836,
	"grad_norm": 0.3613983690738678,
	"learning_rate": 7.827643598780748e-07,
	"loss": 0.4654,
	"step": 784
	},
	{
	"epoch": 0.8380782918149466,
	"grad_norm": 0.35897570848464966,
	"learning_rate": 7.72771754824877e-07,
	"loss": 0.4687,
	"step": 785
	},
	{
	"epoch": 0.8391459074733096,
	"grad_norm": 0.3587648570537567,
	"learning_rate": 7.628379976427868e-07,
	"loss": 0.4862,
	"step": 786
	},
	{
	"epoch": 0.8402135231316726,
	"grad_norm": 0.3191976249217987,
	"learning_rate": 7.529632266211112e-07,
	"loss": 0.4501,
	"step": 787
	},
	{
	"epoch": 0.8412811387900356,
	"grad_norm": 0.36679914593696594,
	"learning_rate": 7.431475792280018e-07,
	"loss": 0.4668,
	"step": 788
	},
	{
	"epoch": 0.8423487544483986,
	"grad_norm": 0.34455785155296326,
	"learning_rate": 7.333911921085418e-07,
	"loss": 0.4621,
	"step": 789
	},
	{
	"epoch": 0.8434163701067615,
	"grad_norm": 0.326860249042511,
	"learning_rate": 7.23694201082843e-07,
	"loss": 0.4336,
	"step": 790
	},
	{
	"epoch": 0.8444839857651245,
	"grad_norm": 0.34012243151664734,
	"learning_rate": 7.140567411441529e-07,
	"loss": 0.4742,
	"step": 791
	},
	{
	"epoch": 0.8455516014234875,
	"grad_norm": 0.3265022933483124,
	"learning_rate": 7.044789464569817e-07,
	"loss": 0.4561,
	"step": 792
	},
	{
	"epoch": 0.8466192170818505,
	"grad_norm": 0.36320456862449646,
	"learning_rate": 6.94960950355229e-07,
	"loss": 0.4812,
	"step": 793
	},
	{
	"epoch": 0.8476868327402135,
	"grad_norm": 0.3391510546207428,
	"learning_rate": 6.855028853403295e-07,
	"loss": 0.4705,
	"step": 794
	},
	{
	"epoch": 0.8487544483985765,
	"grad_norm": 0.34259894490242004,
	"learning_rate": 6.761048830794098e-07,
	"loss": 0.4889,
	"step": 795
	},
	{
	"epoch": 0.8498220640569395,
	"grad_norm": 0.37212345004081726,
	"learning_rate": 6.667670744034498e-07,
	"loss": 0.4869,
	"step": 796
	},
	{
	"epoch": 0.8508896797153025,
	"grad_norm": 0.34556707739830017,
	"learning_rate": 6.574895893054711e-07,
	"loss": 0.507,
	"step": 797
	},
	{
	"epoch": 0.8519572953736655,
	"grad_norm": 0.3274592459201813,
	"learning_rate": 6.482725569387171e-07,
	"loss": 0.4678,
	"step": 798
	},
	{
	"epoch": 0.8530249110320285,
	"grad_norm": 0.3611302971839905,
	"learning_rate": 6.391161056148637e-07,
	"loss": 0.4792,
	"step": 799
	},
	{
	"epoch": 0.8540925266903915,
	"grad_norm": 0.36246782541275024,
	"learning_rate": 6.300203628022272e-07,
	"loss": 0.4867,
	"step": 800
	},
	{
	"epoch": 0.8551601423487545,
	"grad_norm": 0.37306517362594604,
	"learning_rate": 6.209854551239902e-07,
	"loss": 0.4795,
	"step": 801
	},
	{
	"epoch": 0.8562277580071175,
	"grad_norm": 0.3382475972175598,
	"learning_rate": 6.120115083564432e-07,
	"loss": 0.437,
	"step": 802
	},
	{
	"epoch": 0.8572953736654805,
	"grad_norm": 0.33135363459587097,
	"learning_rate": 6.030986474272288e-07,
	"loss": 0.4715,
	"step": 803
	},
	{
	"epoch": 0.8583629893238434,
	"grad_norm": 0.3751276135444641,
	"learning_rate": 5.942469964136055e-07,
	"loss": 0.4808,
	"step": 804
	},
	{
	"epoch": 0.8594306049822064,
	"grad_norm": 0.3444526493549347,
	"learning_rate": 5.854566785407212e-07,
	"loss": 0.4636,
	"step": 805
	},
	{
	"epoch": 0.8604982206405694,
	"grad_norm": 0.3411964178085327,
	"learning_rate": 5.767278161798912e-07,
	"loss": 0.4396,
	"step": 806
	},
	{
	"epoch": 0.8615658362989324,
	"grad_norm": 0.33897465467453003,
	"learning_rate": 5.680605308469045e-07,
	"loss": 0.4747,
	"step": 807
	},
	{
	"epoch": 0.8626334519572953,
	"grad_norm": 0.3335667550563812,
	"learning_rate": 5.594549432003244e-07,
	"loss": 0.4449,
	"step": 808
	},
	{
	"epoch": 0.8637010676156583,
	"grad_norm": 0.35737693309783936,
	"learning_rate": 5.509111730398125e-07,
	"loss": 0.4713,
	"step": 809
	},
	{
	"epoch": 0.8647686832740213,
	"grad_norm": 0.3388114869594574,
	"learning_rate": 5.42429339304461e-07,
	"loss": 0.4657,
	"step": 810
	},
	{
	"epoch": 0.8658362989323843,
	"grad_norm": 0.36129823327064514,
	"learning_rate": 5.340095600711343e-07,
	"loss": 0.4817,
	"step": 811
	},
	{
	"epoch": 0.8669039145907473,
	"grad_norm": 0.32177579402923584,
	"learning_rate": 5.256519525528254e-07,
	"loss": 0.486,
	"step": 812
	},
	{
	"epoch": 0.8679715302491103,
	"grad_norm": 0.351857453584671,
	"learning_rate": 5.173566330970286e-07,
	"loss": 0.4574,
	"step": 813
	},
	{
	"epoch": 0.8690391459074733,
	"grad_norm": 0.34854841232299805,
	"learning_rate": 5.091237171841173e-07,
	"loss": 0.4603,
	"step": 814
	},
	{
	"epoch": 0.8701067615658363,
	"grad_norm": 0.36344021558761597,
	"learning_rate": 5.009533194257332e-07,
	"loss": 0.4655,
	"step": 815
	},
	{
	"epoch": 0.8711743772241993,
	"grad_norm": 0.3396829068660736,
	"learning_rate": 4.92845553563196e-07,
	"loss": 0.4776,
	"step": 816
	},
	{
	"epoch": 0.8722419928825623,
	"grad_norm": 0.35948312282562256,
	"learning_rate": 4.848005324659144e-07,
	"loss": 0.4879,
	"step": 817
	},
	{
	"epoch": 0.8733096085409253,
	"grad_norm": 0.3061416447162628,
	"learning_rate": 4.768183681298211e-07,
	"loss": 0.4335,
	"step": 818
	},
	{
	"epoch": 0.8743772241992882,
	"grad_norm": 0.35700371861457825,
	"learning_rate": 4.6889917167580903e-07,
	"loss": 0.4757,
	"step": 819
	},
	{
	"epoch": 0.8754448398576512,
	"grad_norm": 0.3622047007083893,
	"learning_rate": 4.6104305334818577e-07,
	"loss": 0.4792,
	"step": 820
	},
	{
	"epoch": 0.8765124555160142,
	"grad_norm": 0.3496834337711334,
	"learning_rate": 4.532501225131408e-07,
	"loss": 0.4821,
	"step": 821
	},
	{
	"epoch": 0.8775800711743772,
	"grad_norm": 0.3690001666545868,
	"learning_rate": 4.455204876572172e-07,
	"loss": 0.4789,
	"step": 822
	},
	{
	"epoch": 0.8786476868327402,
	"grad_norm": 0.320921391248703,
	"learning_rate": 4.3785425638580847e-07,
	"loss": 0.4792,
	"step": 823
	},
	{
	"epoch": 0.8797153024911032,
	"grad_norm": 0.320486843585968,
	"learning_rate": 4.3025153542165744e-07,
	"loss": 0.4707,
	"step": 824
	},
	{
	"epoch": 0.8807829181494662,
	"grad_norm": 0.34054213762283325,
	"learning_rate": 4.2271243060336976e-07,
	"loss": 0.466,
	"step": 825
	},
	{
	"epoch": 0.8818505338078292,
	"grad_norm": 0.33979448676109314,
	"learning_rate": 4.1523704688394176e-07,
	"loss": 0.4562,
	"step": 826
	},
	{
	"epoch": 0.8829181494661922,
	"grad_norm": 0.3499307632446289,
	"learning_rate": 4.0782548832929646e-07,
	"loss": 0.4653,
	"step": 827
	},
	{
	"epoch": 0.8839857651245552,
	"grad_norm": 0.3363668620586395,
	"learning_rate": 4.0047785811684116e-07,
	"loss": 0.451,
	"step": 828
	},
	{
	"epoch": 0.8850533807829182,
	"grad_norm": 0.3545955717563629,
	"learning_rate": 3.931942585340243e-07,
	"loss": 0.4769,
	"step": 829
	},
	{
	"epoch": 0.8861209964412812,
	"grad_norm": 0.38059499859809875,
	"learning_rate": 3.8597479097691626e-07,
	"loss": 0.4946,
	"step": 830
	},
	{
	"epoch": 0.8871886120996442,
	"grad_norm": 0.36763712763786316,
	"learning_rate": 3.788195559487956e-07,
	"loss": 0.4554,
	"step": 831
	},
	{
	"epoch": 0.8882562277580072,
	"grad_norm": 0.3406812250614166,
	"learning_rate": 3.717286530587483e-07,
	"loss": 0.4469,
	"step": 832
	},
	{
	"epoch": 0.88932384341637,
	"grad_norm": 0.3243533670902252,
	"learning_rate": 3.6470218102028607e-07,
	"loss": 0.4283,
	"step": 833
	},
	{
	"epoch": 0.890391459074733,
	"grad_norm": 0.34269580245018005,
	"learning_rate": 3.577402376499672e-07,
	"loss": 0.4439,
	"step": 834
	},
	{
	"epoch": 0.891459074733096,
	"grad_norm": 0.3207905888557434,
	"learning_rate": 3.508429198660379e-07,
	"loss": 0.4562,
	"step": 835
	},
	{
	"epoch": 0.892526690391459,
	"grad_norm": 0.34439972043037415,
	"learning_rate": 3.440103236870823e-07,
	"loss": 0.4705,
	"step": 836
	},
	{
	"epoch": 0.893594306049822,
	"grad_norm": 0.34473180770874023,
	"learning_rate": 3.372425442306837e-07,
	"loss": 0.4747,
	"step": 837
	},
	{
	"epoch": 0.894661921708185,
	"grad_norm": 0.3256348669528961,
	"learning_rate": 3.3053967571210375e-07,
	"loss": 0.4461,
	"step": 838
	},
	{
	"epoch": 0.895729537366548,
	"grad_norm": 0.3985244929790497,
	"learning_rate": 3.2390181144296815e-07,
	"loss": 0.5082,
	"step": 839
	},
	{
	"epoch": 0.896797153024911,
	"grad_norm": 0.3613927364349365,
	"learning_rate": 3.1732904382996975e-07,
	"loss": 0.4701,
	"step": 840
	},
	{
	"epoch": 0.897864768683274,
	"grad_norm": 0.34537020325660706,
	"learning_rate": 3.108214643735813e-07,
	"loss": 0.4683,
	"step": 841
	},
	{
	"epoch": 0.898932384341637,
	"grad_norm": 0.3321053385734558,
	"learning_rate": 3.04379163666782e-07,
	"loss": 0.4609,
	"step": 842
	},
	{
	"epoch": 0.9,
	"grad_norm": 0.3575867712497711,
	"learning_rate": 2.98002231393793e-07,
	"loss": 0.4571,
	"step": 843
	},
	{
	"epoch": 0.901067615658363,
	"grad_norm": 0.34244054555892944,
	"learning_rate": 2.916907563288357e-07,
	"loss": 0.4798,
	"step": 844
	},
	{
	"epoch": 0.902135231316726,
	"grad_norm": 0.3529646694660187,
	"learning_rate": 2.854448263348891e-07,
	"loss": 0.4861,
	"step": 845
	},
	{
	"epoch": 0.903202846975089,
	"grad_norm": 0.3687219023704529,
	"learning_rate": 2.792645283624712e-07,
	"loss": 0.4688,
	"step": 846
	},
	{
	"epoch": 0.904270462633452,
	"grad_norm": 0.3753871023654938,
	"learning_rate": 2.7314994844842623e-07,
	"loss": 0.4744,
	"step": 847
	},
	{
	"epoch": 0.9053380782918149,
	"grad_norm": 0.31958386301994324,
	"learning_rate": 2.671011717147276e-07,
	"loss": 0.4667,
	"step": 848
	},
	{
	"epoch": 0.9064056939501779,
	"grad_norm": 0.34946852922439575,
	"learning_rate": 2.611182823672931e-07,
	"loss": 0.4763,
	"step": 849
	},
	{
	"epoch": 0.9074733096085409,
	"grad_norm": 0.32950615882873535,
	"learning_rate": 2.5520136369481194e-07,
	"loss": 0.4814,
	"step": 850
	},
	{
	"epoch": 0.9085409252669039,
	"grad_norm": 0.35894763469696045,
	"learning_rate": 2.493504980675865e-07,
	"loss": 0.4643,
	"step": 851
	},
	{
	"epoch": 0.9096085409252669,
	"grad_norm": 0.3291400671005249,
	"learning_rate": 2.4356576693638555e-07,
	"loss": 0.4618,
	"step": 852
	},
	{
	"epoch": 0.9106761565836299,
	"grad_norm": 0.37263375520706177,
	"learning_rate": 2.3784725083130678e-07,
	"loss": 0.4765,
	"step": 853
	},
	{
	"epoch": 0.9117437722419929,
	"grad_norm": 0.346204936504364,
	"learning_rate": 2.3219502936066228e-07,
	"loss": 0.4684,
	"step": 854
	},
	{
	"epoch": 0.9128113879003559,
	"grad_norm": 0.3411816656589508,
	"learning_rate": 2.266091812098642e-07,
	"loss": 0.4665,
	"step": 855
	},
	{
	"epoch": 0.9138790035587189,
	"grad_norm": 0.39055925607681274,
	"learning_rate": 2.210897841403331e-07,
	"loss": 0.4752,
	"step": 856
	},
	{
	"epoch": 0.9149466192170819,
	"grad_norm": 0.3565220236778259,
	"learning_rate": 2.1563691498841465e-07,
	"loss": 0.4269,
	"step": 857
	},
	{
	"epoch": 0.9160142348754449,
	"grad_norm": 0.3413132131099701,
	"learning_rate": 2.1025064966430697e-07,
	"loss": 0.4569,
	"step": 858
	},
	{
	"epoch": 0.9170818505338079,
	"grad_norm": 0.3309057354927063,
	"learning_rate": 2.0493106315100987e-07,
	"loss": 0.458,
	"step": 859
	},
	{
	"epoch": 0.9181494661921709,
	"grad_norm": 0.34652769565582275,
	"learning_rate": 1.9967822950327453e-07,
	"loss": 0.4765,
	"step": 860
	},
	{
	"epoch": 0.9192170818505339,
	"grad_norm": 0.34112629294395447,
	"learning_rate": 1.944922218465778e-07,
	"loss": 0.4573,
	"step": 861
	},
	{
	"epoch": 0.9202846975088967,
	"grad_norm": 0.35271042585372925,
	"learning_rate": 1.8937311237610168e-07,
	"loss": 0.4485,
	"step": 862
	},
	{
	"epoch": 0.9213523131672597,
	"grad_norm": 0.3256247639656067,
	"learning_rate": 1.8432097235572655e-07,
	"loss": 0.4762,
	"step": 863
	},
	{
	"epoch": 0.9224199288256227,
	"grad_norm": 0.33354514837265015,
	"learning_rate": 1.793358721170435e-07,
	"loss": 0.4764,
	"step": 864
	},
	{
	"epoch": 0.9234875444839857,
	"grad_norm": 0.36107322573661804,
	"learning_rate": 1.7441788105837133e-07,
	"loss": 0.4675,
	"step": 865
	},
	{
	"epoch": 0.9245551601423487,
	"grad_norm": 0.36529216170310974,
	"learning_rate": 1.6956706764379438e-07,
	"loss": 0.4663,
	"step": 866
	},
	{
	"epoch": 0.9256227758007117,
	"grad_norm": 0.387478232383728,
	"learning_rate": 1.6478349940220294e-07,
	"loss": 0.4626,
	"step": 867
	},
	{
	"epoch": 0.9266903914590747,
	"grad_norm": 0.33364489674568176,
	"learning_rate": 1.6006724292636166e-07,
	"loss": 0.4636,
	"step": 868
	},
	{
	"epoch": 0.9277580071174377,
	"grad_norm": 0.3466110825538635,
	"learning_rate": 1.5541836387197528e-07,
	"loss": 0.4599,
	"step": 869
	},
	{
	"epoch": 0.9288256227758007,
	"grad_norm": 0.3230234384536743,
	"learning_rate": 1.508369269567783e-07,
	"loss": 0.4628,
	"step": 870
	},
	{
	"epoch": 0.9298932384341637,
	"grad_norm": 0.34074848890304565,
	"learning_rate": 1.4632299595963294e-07,
	"loss": 0.5069,
	"step": 871
	},
	{
	"epoch": 0.9309608540925267,
	"grad_norm": 0.3386795222759247,
	"learning_rate": 1.418766337196431e-07,
	"loss": 0.4608,
	"step": 872
	},
	{
	"epoch": 0.9320284697508897,
	"grad_norm": 0.35128504037857056,
	"learning_rate": 1.374979021352757e-07,
	"loss": 0.4636,
	"step": 873
	},
	{
	"epoch": 0.9330960854092527,
	"grad_norm": 0.3676503598690033,
	"learning_rate": 1.3318686216350241e-07,
	"loss": 0.5208,
	"step": 874
	},
	{
	"epoch": 0.9341637010676157,
	"grad_norm": 0.3126872479915619,
	"learning_rate": 1.2894357381894984e-07,
	"loss": 0.4391,
	"step": 875
	},
	{
	"epoch": 0.9352313167259787,
	"grad_norm": 0.32956287264823914,
	"learning_rate": 1.2476809617306408e-07,
	"loss": 0.4585,
	"step": 876
	},
	{
	"epoch": 0.9362989323843416,
	"grad_norm": 0.3517782688140869,
	"learning_rate": 1.206604873532885e-07,
	"loss": 0.4854,
	"step": 877
	},
	{
	"epoch": 0.9373665480427046,
	"grad_norm": 0.37964025139808655,
	"learning_rate": 1.166208045422551e-07,
	"loss": 0.4637,
	"step": 878
	},
	{
	"epoch": 0.9384341637010676,
	"grad_norm": 0.3676295876502991,
	"learning_rate": 1.1264910397698614e-07,
	"loss": 0.4779,
	"step": 879
	},
	{
	"epoch": 0.9395017793594306,
	"grad_norm": 0.3368426561355591,
	"learning_rate": 1.0874544094811424e-07,
	"loss": 0.4594,
	"step": 880
	},
	{
	"epoch": 0.9405693950177936,
	"grad_norm": 0.35099488496780396,
	"learning_rate": 1.0490986979911189e-07,
	"loss": 0.4465,
	"step": 881
	},
	{
	"epoch": 0.9416370106761566,
	"grad_norm": 0.3372381925582886,
	"learning_rate": 1.0114244392553318e-07,
	"loss": 0.4676,
	"step": 882
	},
	{
	"epoch": 0.9427046263345196,
	"grad_norm": 0.33478647470474243,
	"learning_rate": 9.744321577427218e-08,
	"loss": 0.4646,
	"step": 883
	},
	{
	"epoch": 0.9437722419928826,
	"grad_norm": 0.359651654958725,
	"learning_rate": 9.381223684283291e-08,
	"loss": 0.4623,
	"step": 884
	},
	{
	"epoch": 0.9448398576512456,
	"grad_norm": 0.3485049605369568,
	"learning_rate": 9.024955767861054e-08,
	"loss": 0.4644,
	"step": 885
	},
	{
	"epoch": 0.9459074733096086,
	"grad_norm": 0.3376001715660095,
	"learning_rate": 8.675522787819023e-08,
	"loss": 0.4353,
	"step": 886
	},
	{
	"epoch": 0.9469750889679716,
	"grad_norm": 0.3420683741569519,
	"learning_rate": 8.332929608665553e-08,
	"loss": 0.4268,
	"step": 887
	},
	{
	"epoch": 0.9480427046263346,
	"grad_norm": 0.33343154191970825,
	"learning_rate": 7.997180999691101e-08,
	"loss": 0.4584,
	"step": 888
	},
	{
	"epoch": 0.9491103202846976,
	"grad_norm": 0.32583436369895935,
	"learning_rate": 7.668281634901686e-08,
	"loss": 0.4625,
	"step": 889
	},
	{
	"epoch": 0.9501779359430605,
	"grad_norm": 0.33751362562179565,
	"learning_rate": 7.346236092954318e-08,
	"loss": 0.46,
	"step": 890
	},
	{
	"epoch": 0.9512455516014234,
	"grad_norm": 0.329089879989624,
	"learning_rate": 7.031048857092604e-08,
	"loss": 0.4536,
	"step": 891
	},
	{
	"epoch": 0.9523131672597864,
	"grad_norm": 0.3587329685688019,
	"learning_rate": 6.722724315084805e-08,
	"loss": 0.4767,
	"step": 892
	},
	{
	"epoch": 0.9533807829181494,
	"grad_norm": 0.3284720480442047,
	"learning_rate": 6.421266759162659e-08,
	"loss": 0.4491,
	"step": 893
	},
	{
	"epoch": 0.9544483985765124,
	"grad_norm": 0.3474853038787842,
	"learning_rate": 6.12668038596137e-08,
	"loss": 0.461,
	"step": 894
	},
	{
	"epoch": 0.9555160142348754,
	"grad_norm": 0.31584909558296204,
	"learning_rate": 5.838969296461605e-08,
	"loss": 0.4404,
	"step": 895
	},
	{
	"epoch": 0.9565836298932384,
	"grad_norm": 0.3233558237552643,
	"learning_rate": 5.5581374959320366e-08,
	"loss": 0.453,
	"step": 896
	},
	{
	"epoch": 0.9576512455516014,
	"grad_norm": 0.3326091468334198,
	"learning_rate": 5.2841888938738314e-08,
	"loss": 0.4507,
	"step": 897
	},
	{
	"epoch": 0.9587188612099644,
	"grad_norm": 0.35787636041641235,
	"learning_rate": 5.017127303966085e-08,
	"loss": 0.4835,
	"step": 898
	},
	{
	"epoch": 0.9597864768683274,
	"grad_norm": 0.33811962604522705,
	"learning_rate": 4.7569564440128055e-08,
	"loss": 0.4424,
	"step": 899
	},
	{
	"epoch": 0.9608540925266904,
	"grad_norm": 0.3393824100494385,
	"learning_rate": 4.50367993589107e-08,
	"loss": 0.4733,
	"step": 900
	},
	{
	"epoch": 0.9619217081850534,
	"grad_norm": 0.3107040822505951,
	"learning_rate": 4.257301305500672e-08,
	"loss": 0.4453,
	"step": 901
	},
	{
	"epoch": 0.9629893238434164,
	"grad_norm": 0.336866557598114,
	"learning_rate": 4.0178239827151077e-08,
	"loss": 0.4726,
	"step": 902
	},
	{
	"epoch": 0.9640569395017794,
	"grad_norm": 0.33734455704689026,
	"learning_rate": 3.785251301333726e-08,
	"loss": 0.4609,
	"step": 903
	},
	{
	"epoch": 0.9651245551601424,
	"grad_norm": 0.3539280593395233,
	"learning_rate": 3.559586499035206e-08,
	"loss": 0.4769,
	"step": 904
	},
	{
	"epoch": 0.9661921708185054,
	"grad_norm": 0.3523450791835785,
	"learning_rate": 3.340832717332765e-08,
	"loss": 0.4701,
	"step": 905
	},
	{
	"epoch": 0.9672597864768683,
	"grad_norm": 0.33282899856567383,
	"learning_rate": 3.128993001530245e-08,
	"loss": 0.4708,
	"step": 906
	},
	{
	"epoch": 0.9683274021352313,
	"grad_norm": 0.32930752635002136,
	"learning_rate": 2.9240703006797044e-08,
	"loss": 0.479,
	"step": 907
	},
	{
	"epoch": 0.9693950177935943,
	"grad_norm": 0.3469620943069458,
	"learning_rate": 2.7260674675404498e-08,
	"loss": 0.4634,
	"step": 908
	},
	{
	"epoch": 0.9704626334519573,
	"grad_norm": 0.3198079466819763,
	"learning_rate": 2.5349872585392898e-08,
	"loss": 0.4599,
	"step": 909
	},
	{
	"epoch": 0.9715302491103203,
	"grad_norm": 0.353118896484375,
	"learning_rate": 2.3508323337321225e-08,
	"loss": 0.4737,
	"step": 910
	},
	{
	"epoch": 0.9725978647686833,
	"grad_norm": 0.3712465763092041,
	"learning_rate": 2.1736052567670195e-08,
	"loss": 0.4837,
	"step": 911
	},
	{
	"epoch": 0.9736654804270463,
	"grad_norm": 0.32326361536979675,
	"learning_rate": 2.0033084948483104e-08,
	"loss": 0.4392,
	"step": 912
	},
	{
	"epoch": 0.9747330960854093,
	"grad_norm": 0.3160242736339569,
	"learning_rate": 1.8399444187024995e-08,
	"loss": 0.4778,
	"step": 913
	},
	{
	"epoch": 0.9758007117437723,
	"grad_norm": 0.3436198830604553,
	"learning_rate": 1.6835153025451246e-08,
	"loss": 0.4531,
	"step": 914
	},
	{
	"epoch": 0.9768683274021353,
	"grad_norm": 0.3504072427749634,
	"learning_rate": 1.534023324049061e-08,
	"loss": 0.458,
	"step": 915
	},
	{
	"epoch": 0.9779359430604982,
	"grad_norm": 0.3485338091850281,
	"learning_rate": 1.3914705643143788e-08,
	"loss": 0.4405,
	"step": 916
	},
	{
	"epoch": 0.9790035587188612,
	"grad_norm": 0.3303447961807251,
	"learning_rate": 1.2558590078390886e-08,
	"loss": 0.4714,
	"step": 917
	},
	{
	"epoch": 0.9800711743772242,
	"grad_norm": 0.31479117274284363,
	"learning_rate": 1.1271905424918294e-08,
	"loss": 0.4798,
	"step": 918
	},
	{
	"epoch": 0.9811387900355872,
	"grad_norm": 0.31873440742492676,
	"learning_rate": 1.0054669594853905e-08,
	"loss": 0.4448,
	"step": 919
	},
	{
	"epoch": 0.9822064056939501,
	"grad_norm": 0.35837072134017944,
	"learning_rate": 8.906899533517866e-09,
	"loss": 0.4583,
	"step": 920
	},
	{
	"epoch": 0.9832740213523131,
	"grad_norm": 0.33332061767578125,
	"learning_rate": 7.828611219187765e-09,
	"loss": 0.4802,
	"step": 921
	},
	{
	"epoch": 0.9843416370106761,
	"grad_norm": 0.3198853135108948,
	"learning_rate": 6.819819662874372e-09,
	"loss": 0.448,
	"step": 922
	},
	{
	"epoch": 0.9854092526690391,
	"grad_norm": 0.35830771923065186,
	"learning_rate": 5.88053890811513e-09,
	"loss": 0.494,
	"step": 923
	},
	{
	"epoch": 0.9864768683274021,
	"grad_norm": 0.3175657093524933,
	"learning_rate": 5.0107820307770945e-09,
	"loss": 0.4736,
	"step": 924
	},
	{
	"epoch": 0.9875444839857651,
	"grad_norm": 0.3394733965396881,
	"learning_rate": 4.210561138873193e-09,
	"loss": 0.4817,
	"step": 925
	},
	{
	"epoch": 0.9886120996441281,
	"grad_norm": 0.33911213278770447,
	"learning_rate": 3.4798873723984604e-09,
	"loss": 0.4372,
	"step": 926
	},
	{
	"epoch": 0.9896797153024911,
	"grad_norm": 0.34297052025794983,
	"learning_rate": 2.818770903170176e-09,
	"loss": 0.4613,
	"step": 927
	},
	{
	"epoch": 0.9907473309608541,
	"grad_norm": 0.3289053738117218,
	"learning_rate": 2.2272209346885233e-09,
	"loss": 0.4486,
	"step": 928
	},
	{
	"epoch": 0.9918149466192171,
	"grad_norm": 0.3399280905723572,
	"learning_rate": 1.7052457020089175e-09,
	"loss": 0.4625,
	"step": 929
	},
	{
	"epoch": 0.9928825622775801,
	"grad_norm": 0.3539047837257385,
	"learning_rate": 1.2528524716259872e-09,
	"loss": 0.4833,
	"step": 930
	},
	{
	"epoch": 0.9939501779359431,
	"grad_norm": 0.34324121475219727,
	"learning_rate": 8.700475413719877e-10,
	"loss": 0.4721,
	"step": 931
	},
	{
	"epoch": 0.9950177935943061,
	"grad_norm": 0.34528717398643494,
	"learning_rate": 5.568362403318706e-10,
	"loss": 0.4494,
	"step": 932
	},
	{
	"epoch": 0.9960854092526691,
	"grad_norm": 0.313473105430603,
	"learning_rate": 3.132229287666766e-10,
	"loss": 0.4741,
	"step": 933
	},
	{
	"epoch": 0.9971530249110321,
	"grad_norm": 0.35655054450035095,
	"learning_rate": 1.3921099805302985e-10,
	"loss": 0.4796,
	"step": 934
	},
	{
	"epoch": 0.998220640569395,
	"grad_norm": 0.3347904086112976,
	"learning_rate": 3.480287063706289e-11,
	"loss": 0.4614,
	"step": 935
	},
	{
	"epoch": 0.999288256227758,
	"grad_norm": 0.3562867343425751,
	"learning_rate": 0.0,
	"loss": 0.4649,
	"step": 936
	},
	{
	"epoch": 0.999288256227758,
	"step": 936,
	"total_flos": 1106993868636160.0,
	"train_loss": 0.49742555408141553,
	"train_runtime": 30683.4136,
	"train_samples_per_second": 2.93,
	"train_steps_per_second": 0.031
	}
	],
	"logging_steps": 1.0,
	"max_steps": 936,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 1106993868636160.0,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}