dhavani-1b-base / trainer_state.json

Upload folder using huggingface_hub

ab6a1c0 verified 9 months ago

188 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.0,
	"eval_steps": 500,
	"global_step": 1079,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0009267840593141798,
	"grad_norm": 356.406982421875,
	"learning_rate": 0.005,
	"loss": 15.9,
	"step": 1
	},
	{
	"epoch": 0.0018535681186283596,
	"grad_norm": 32.9332389831543,
	"learning_rate": 0.0049999894033994794,
	"loss": 13.6,
	"step": 2
	},
	{
	"epoch": 0.0027803521779425394,
	"grad_norm": 10.453313827514648,
	"learning_rate": 0.004999957613687751,
	"loss": 21.425,
	"step": 3
	},
	{
	"epoch": 0.0037071362372567192,
	"grad_norm": 3.510478973388672,
	"learning_rate": 0.004999904631134301,
	"loss": 15.225,
	"step": 4
	},
	{
	"epoch": 0.004633920296570899,
	"grad_norm": 35.607364654541016,
	"learning_rate": 0.004999830456188281,
	"loss": 18.325,
	"step": 5
	},
	{
	"epoch": 0.005560704355885079,
	"grad_norm": 4.46471643447876,
	"learning_rate": 0.004999735089478491,
	"loss": 19.7,
	"step": 6
	},
	{
	"epoch": 0.006487488415199258,
	"grad_norm": 1.207599401473999,
	"learning_rate": 0.004999618531813382,
	"loss": 14.125,
	"step": 7
	},
	{
	"epoch": 0.0074142724745134385,
	"grad_norm": 46.56653594970703,
	"learning_rate": 0.004999480784181046,
	"loss": 32.7,
	"step": 8
	},
	{
	"epoch": 0.008341056533827619,
	"grad_norm": 2.0620079040527344,
	"learning_rate": 0.004999321847749208,
	"loss": 13.4,
	"step": 9
	},
	{
	"epoch": 0.009267840593141797,
	"grad_norm": 3.376063823699951,
	"learning_rate": 0.0049991417238652155,
	"loss": 13.3,
	"step": 10
	},
	{
	"epoch": 0.010194624652455977,
	"grad_norm": 0.6672539710998535,
	"learning_rate": 0.004998940414056032,
	"loss": 13.4375,
	"step": 11
	},
	{
	"epoch": 0.011121408711770158,
	"grad_norm": 0.4186709523200989,
	"learning_rate": 0.004998717920028215,
	"loss": 12.6375,
	"step": 12
	},
	{
	"epoch": 0.012048192771084338,
	"grad_norm": 0.4992158114910126,
	"learning_rate": 0.00499847424366791,
	"loss": 11.6625,
	"step": 13
	},
	{
	"epoch": 0.012974976830398516,
	"grad_norm": 0.21440155804157257,
	"learning_rate": 0.004998209387040828,
	"loss": 10.5375,
	"step": 14
	},
	{
	"epoch": 0.013901760889712697,
	"grad_norm": 2.2223408222198486,
	"learning_rate": 0.004997923352392236,
	"loss": 11.6,
	"step": 15
	},
	{
	"epoch": 0.014828544949026877,
	"grad_norm": 1.4461462497711182,
	"learning_rate": 0.004997616142146927,
	"loss": 12.7125,
	"step": 16
	},
	{
	"epoch": 0.015755329008341055,
	"grad_norm": 1.9746646881103516,
	"learning_rate": 0.004997287758909209,
	"loss": 12.2125,
	"step": 17
	},
	{
	"epoch": 0.016682113067655237,
	"grad_norm": 8.858609199523926,
	"learning_rate": 0.004996938205462881,
	"loss": 14.0625,
	"step": 18
	},
	{
	"epoch": 0.017608897126969416,
	"grad_norm": 0.9914843440055847,
	"learning_rate": 0.004996567484771203,
	"loss": 11.35,
	"step": 19
	},
	{
	"epoch": 0.018535681186283594,
	"grad_norm": 0.8945605158805847,
	"learning_rate": 0.004996175599976878,
	"loss": 11.725,
	"step": 20
	},
	{
	"epoch": 0.019462465245597776,
	"grad_norm": 1.340647578239441,
	"learning_rate": 0.004995762554402026,
	"loss": 12.8875,
	"step": 21
	},
	{
	"epoch": 0.020389249304911955,
	"grad_norm": 0.6224690079689026,
	"learning_rate": 0.004995328351548148,
	"loss": 11.7,
	"step": 22
	},
	{
	"epoch": 0.021316033364226137,
	"grad_norm": 0.6904886960983276,
	"learning_rate": 0.004994872995096104,
	"loss": 10.6375,
	"step": 23
	},
	{
	"epoch": 0.022242817423540315,
	"grad_norm": 0.7552493214607239,
	"learning_rate": 0.004994396488906078,
	"loss": 13.275,
	"step": 24
	},
	{
	"epoch": 0.023169601482854494,
	"grad_norm": 0.1830722540616989,
	"learning_rate": 0.004993898837017547,
	"loss": 10.225,
	"step": 25
	},
	{
	"epoch": 0.024096385542168676,
	"grad_norm": 0.31753918528556824,
	"learning_rate": 0.004993380043649245,
	"loss": 10.0875,
	"step": 26
	},
	{
	"epoch": 0.025023169601482854,
	"grad_norm": 0.17651186883449554,
	"learning_rate": 0.00499284011319913,
	"loss": 9.675,
	"step": 27
	},
	{
	"epoch": 0.025949953660797033,
	"grad_norm": 0.1835695058107376,
	"learning_rate": 0.004992279050244343,
	"loss": 9.625,
	"step": 28
	},
	{
	"epoch": 0.026876737720111215,
	"grad_norm": 0.15531466901302338,
	"learning_rate": 0.004991696859541173,
	"loss": 9.525,
	"step": 29
	},
	{
	"epoch": 0.027803521779425393,
	"grad_norm": 0.1167324110865593,
	"learning_rate": 0.004991093546025012,
	"loss": 9.3375,
	"step": 30
	},
	{
	"epoch": 0.028730305838739572,
	"grad_norm": 0.06774014979600906,
	"learning_rate": 0.004990469114810318,
	"loss": 9.275,
	"step": 31
	},
	{
	"epoch": 0.029657089898053754,
	"grad_norm": 0.11318591982126236,
	"learning_rate": 0.004989823571190571,
	"loss": 9.2875,
	"step": 32
	},
	{
	"epoch": 0.030583873957367932,
	"grad_norm": 0.039967115968465805,
	"learning_rate": 0.004989156920638226,
	"loss": 9.225,
	"step": 33
	},
	{
	"epoch": 0.03151065801668211,
	"grad_norm": 0.07919777184724808,
	"learning_rate": 0.004988469168804664,
	"loss": 9.2375,
	"step": 34
	},
	{
	"epoch": 0.03243744207599629,
	"grad_norm": 0.04368596524000168,
	"learning_rate": 0.0049877603215201525,
	"loss": 9.1875,
	"step": 35
	},
	{
	"epoch": 0.033364226135310475,
	"grad_norm": 0.04921940341591835,
	"learning_rate": 0.004987030384793787,
	"loss": 9.1875,
	"step": 36
	},
	{
	"epoch": 0.03429101019462465,
	"grad_norm": 0.040833037346601486,
	"learning_rate": 0.0049862793648134465,
	"loss": 9.1625,
	"step": 37
	},
	{
	"epoch": 0.03521779425393883,
	"grad_norm": 0.03423991799354553,
	"learning_rate": 0.004985507267945738,
	"loss": 9.1125,
	"step": 38
	},
	{
	"epoch": 0.03614457831325301,
	"grad_norm": 0.04628804698586464,
	"learning_rate": 0.004984714100735943,
	"loss": 9.1375,
	"step": 39
	},
	{
	"epoch": 0.03707136237256719,
	"grad_norm": 0.02513456903398037,
	"learning_rate": 0.0049838998699079625,
	"loss": 9.125,
	"step": 40
	},
	{
	"epoch": 0.037998146431881374,
	"grad_norm": 0.04390294477343559,
	"learning_rate": 0.00498306458236426,
	"loss": 9.125,
	"step": 41
	},
	{
	"epoch": 0.03892493049119555,
	"grad_norm": 0.02223977819085121,
	"learning_rate": 0.004982208245185801,
	"loss": 9.1125,
	"step": 42
	},
	{
	"epoch": 0.03985171455050973,
	"grad_norm": 0.03464260324835777,
	"learning_rate": 0.004981330865631997,
	"loss": 9.1125,
	"step": 43
	},
	{
	"epoch": 0.04077849860982391,
	"grad_norm": 0.0259235929697752,
	"learning_rate": 0.00498043245114064,
	"loss": 9.0625,
	"step": 44
	},
	{
	"epoch": 0.04170528266913809,
	"grad_norm": 0.023725276812911034,
	"learning_rate": 0.004979513009327842,
	"loss": 9.1,
	"step": 45
	},
	{
	"epoch": 0.042632066728452274,
	"grad_norm": 0.022491367533802986,
	"learning_rate": 0.004978572547987968,
	"loss": 9.05,
	"step": 46
	},
	{
	"epoch": 0.04355885078776645,
	"grad_norm": 0.018162831664085388,
	"learning_rate": 0.004977611075093574,
	"loss": 9.0875,
	"step": 47
	},
	{
	"epoch": 0.04448563484708063,
	"grad_norm": 0.033248819410800934,
	"learning_rate": 0.004976628598795336,
	"loss": 9.025,
	"step": 48
	},
	{
	"epoch": 0.04541241890639481,
	"grad_norm": 0.015689486637711525,
	"learning_rate": 0.0049756251274219775,
	"loss": 9.0625,
	"step": 49
	},
	{
	"epoch": 0.04633920296570899,
	"grad_norm": 0.022721588611602783,
	"learning_rate": 0.00497460066948021,
	"loss": 9.0375,
	"step": 50
	},
	{
	"epoch": 0.047265987025023166,
	"grad_norm": 0.020086370408535004,
	"learning_rate": 0.00497355523365465,
	"loss": 9.0625,
	"step": 51
	},
	{
	"epoch": 0.04819277108433735,
	"grad_norm": 0.01713702268898487,
	"learning_rate": 0.00497248882880775,
	"loss": 9.0375,
	"step": 52
	},
	{
	"epoch": 0.04911955514365153,
	"grad_norm": 0.01819983310997486,
	"learning_rate": 0.004971401463979721,
	"loss": 9.0375,
	"step": 53
	},
	{
	"epoch": 0.05004633920296571,
	"grad_norm": 0.01858202926814556,
	"learning_rate": 0.004970293148388463,
	"loss": 9.0125,
	"step": 54
	},
	{
	"epoch": 0.05097312326227989,
	"grad_norm": 0.016383878886699677,
	"learning_rate": 0.004969163891429476,
	"loss": 9.0,
	"step": 55
	},
	{
	"epoch": 0.051899907321594066,
	"grad_norm": 0.01655055209994316,
	"learning_rate": 0.0049680137026757885,
	"loss": 9.025,
	"step": 56
	},
	{
	"epoch": 0.05282669138090825,
	"grad_norm": 0.01438821293413639,
	"learning_rate": 0.004966842591877872,
	"loss": 9.0,
	"step": 57
	},
	{
	"epoch": 0.05375347544022243,
	"grad_norm": 0.01816794089972973,
	"learning_rate": 0.004965650568963563,
	"loss": 9.0,
	"step": 58
	},
	{
	"epoch": 0.05468025949953661,
	"grad_norm": 0.017415305599570274,
	"learning_rate": 0.004964437644037973,
	"loss": 8.9625,
	"step": 59
	},
	{
	"epoch": 0.05560704355885079,
	"grad_norm": 0.017612161114811897,
	"learning_rate": 0.004963203827383406,
	"loss": 8.975,
	"step": 60
	},
	{
	"epoch": 0.056533827618164965,
	"grad_norm": 0.014700948260724545,
	"learning_rate": 0.0049619491294592725,
	"loss": 9.0,
	"step": 61
	},
	{
	"epoch": 0.057460611677479144,
	"grad_norm": 0.0167540330439806,
	"learning_rate": 0.004960673560901999,
	"loss": 8.9875,
	"step": 62
	},
	{
	"epoch": 0.05838739573679333,
	"grad_norm": 0.029445504769682884,
	"learning_rate": 0.004959377132524938,
	"loss": 8.9625,
	"step": 63
	},
	{
	"epoch": 0.05931417979610751,
	"grad_norm": 0.013282664120197296,
	"learning_rate": 0.004958059855318275,
	"loss": 8.9625,
	"step": 64
	},
	{
	"epoch": 0.060240963855421686,
	"grad_norm": 0.019158177077770233,
	"learning_rate": 0.00495672174044894,
	"loss": 8.9,
	"step": 65
	},
	{
	"epoch": 0.061167747914735865,
	"grad_norm": 0.02090335451066494,
	"learning_rate": 0.004955362799260506,
	"loss": 8.9125,
	"step": 66
	},
	{
	"epoch": 0.06209453197405004,
	"grad_norm": 0.019786162301898003,
	"learning_rate": 0.004953983043273102,
	"loss": 8.95,
	"step": 67
	},
	{
	"epoch": 0.06302131603336422,
	"grad_norm": 0.0192793570458889,
	"learning_rate": 0.004952582484183302,
	"loss": 8.925,
	"step": 68
	},
	{
	"epoch": 0.0639481000926784,
	"grad_norm": 0.029085692018270493,
	"learning_rate": 0.0049511611338640404,
	"loss": 8.9625,
	"step": 69
	},
	{
	"epoch": 0.06487488415199258,
	"grad_norm": 0.028297357261180878,
	"learning_rate": 0.004949719004364503,
	"loss": 8.925,
	"step": 70
	},
	{
	"epoch": 0.06580166821130677,
	"grad_norm": 0.013140903785824776,
	"learning_rate": 0.0049482561079100245,
	"loss": 8.925,
	"step": 71
	},
	{
	"epoch": 0.06672845227062095,
	"grad_norm": 0.016508571803569794,
	"learning_rate": 0.004946772456901989,
	"loss": 8.95,
	"step": 72
	},
	{
	"epoch": 0.06765523632993513,
	"grad_norm": 0.028362734243273735,
	"learning_rate": 0.004945268063917723,
	"loss": 8.9375,
	"step": 73
	},
	{
	"epoch": 0.0685820203892493,
	"grad_norm": 0.028645526617765427,
	"learning_rate": 0.004943742941710386,
	"loss": 8.9375,
	"step": 74
	},
	{
	"epoch": 0.06950880444856349,
	"grad_norm": 0.010765830054879189,
	"learning_rate": 0.004942197103208867,
	"loss": 8.925,
	"step": 75
	},
	{
	"epoch": 0.07043558850787766,
	"grad_norm": 0.022227909415960312,
	"learning_rate": 0.004940630561517674,
	"loss": 8.9375,
	"step": 76
	},
	{
	"epoch": 0.07136237256719184,
	"grad_norm": 0.020959695801138878,
	"learning_rate": 0.004939043329916819,
	"loss": 8.95,
	"step": 77
	},
	{
	"epoch": 0.07228915662650602,
	"grad_norm": 0.01679840497672558,
	"learning_rate": 0.00493743542186171,
	"loss": 8.925,
	"step": 78
	},
	{
	"epoch": 0.0732159406858202,
	"grad_norm": 0.01441862341016531,
	"learning_rate": 0.004935806850983033,
	"loss": 8.9125,
	"step": 79
	},
	{
	"epoch": 0.07414272474513438,
	"grad_norm": 0.014738287776708603,
	"learning_rate": 0.004934157631086642,
	"loss": 8.9,
	"step": 80
	},
	{
	"epoch": 0.07506950880444857,
	"grad_norm": 0.013974464498460293,
	"learning_rate": 0.004932487776153435,
	"loss": 8.875,
	"step": 81
	},
	{
	"epoch": 0.07599629286376275,
	"grad_norm": 0.014242907054722309,
	"learning_rate": 0.004930797300339241,
	"loss": 8.8875,
	"step": 82
	},
	{
	"epoch": 0.07692307692307693,
	"grad_norm": 0.014142482541501522,
	"learning_rate": 0.004929086217974697,
	"loss": 8.875,
	"step": 83
	},
	{
	"epoch": 0.0778498609823911,
	"grad_norm": 0.011345421895384789,
	"learning_rate": 0.0049273545435651305,
	"loss": 8.9,
	"step": 84
	},
	{
	"epoch": 0.07877664504170528,
	"grad_norm": 0.01937839388847351,
	"learning_rate": 0.004925602291790427,
	"loss": 8.875,
	"step": 85
	},
	{
	"epoch": 0.07970342910101946,
	"grad_norm": 0.019322404637932777,
	"learning_rate": 0.0049238294775049195,
	"loss": 8.875,
	"step": 86
	},
	{
	"epoch": 0.08063021316033364,
	"grad_norm": 0.02427850104868412,
	"learning_rate": 0.004922036115737251,
	"loss": 8.875,
	"step": 87
	},
	{
	"epoch": 0.08155699721964782,
	"grad_norm": 0.02773062139749527,
	"learning_rate": 0.0049202222216902505,
	"loss": 8.875,
	"step": 88
	},
	{
	"epoch": 0.082483781278962,
	"grad_norm": 0.022121064364910126,
	"learning_rate": 0.0049183878107408084,
	"loss": 8.875,
	"step": 89
	},
	{
	"epoch": 0.08341056533827618,
	"grad_norm": 0.014306942000985146,
	"learning_rate": 0.00491653289843974,
	"loss": 8.85,
	"step": 90
	},
	{
	"epoch": 0.08433734939759036,
	"grad_norm": 0.01174082513898611,
	"learning_rate": 0.004914657500511657,
	"loss": 8.85,
	"step": 91
	},
	{
	"epoch": 0.08526413345690455,
	"grad_norm": 0.017720786854624748,
	"learning_rate": 0.004912761632854833,
	"loss": 8.8625,
	"step": 92
	},
	{
	"epoch": 0.08619091751621873,
	"grad_norm": 0.023863809183239937,
	"learning_rate": 0.004910845311541071,
	"loss": 8.8625,
	"step": 93
	},
	{
	"epoch": 0.0871177015755329,
	"grad_norm": 0.034596893936395645,
	"learning_rate": 0.004908908552815563,
	"loss": 8.8625,
	"step": 94
	},
	{
	"epoch": 0.08804448563484708,
	"grad_norm": 0.04321544989943504,
	"learning_rate": 0.004906951373096757,
	"loss": 8.85,
	"step": 95
	},
	{
	"epoch": 0.08897126969416126,
	"grad_norm": 0.05180607736110687,
	"learning_rate": 0.004904973788976213,
	"loss": 8.8625,
	"step": 96
	},
	{
	"epoch": 0.08989805375347544,
	"grad_norm": 0.04927121847867966,
	"learning_rate": 0.004902975817218467,
	"loss": 8.825,
	"step": 97
	},
	{
	"epoch": 0.09082483781278962,
	"grad_norm": 0.030304012820124626,
	"learning_rate": 0.004900957474760885,
	"loss": 8.825,
	"step": 98
	},
	{
	"epoch": 0.0917516218721038,
	"grad_norm": 0.018640510737895966,
	"learning_rate": 0.004898918778713524,
	"loss": 8.8,
	"step": 99
	},
	{
	"epoch": 0.09267840593141798,
	"grad_norm": 0.033853888511657715,
	"learning_rate": 0.004896859746358979,
	"loss": 8.7875,
	"step": 100
	},
	{
	"epoch": 0.09360518999073215,
	"grad_norm": 0.04043276980519295,
	"learning_rate": 0.004894780395152247,
	"loss": 8.775,
	"step": 101
	},
	{
	"epoch": 0.09453197405004633,
	"grad_norm": 0.0534222349524498,
	"learning_rate": 0.004892680742720571,
	"loss": 8.7375,
	"step": 102
	},
	{
	"epoch": 0.09545875810936053,
	"grad_norm": 0.082061268389225,
	"learning_rate": 0.004890560806863293,
	"loss": 8.8,
	"step": 103
	},
	{
	"epoch": 0.0963855421686747,
	"grad_norm": 0.05508153885602951,
	"learning_rate": 0.004888420605551703,
	"loss": 8.775,
	"step": 104
	},
	{
	"epoch": 0.09731232622798888,
	"grad_norm": 0.04220907762646675,
	"learning_rate": 0.004886260156928888,
	"loss": 8.7625,
	"step": 105
	},
	{
	"epoch": 0.09823911028730306,
	"grad_norm": 0.04727254807949066,
	"learning_rate": 0.004884079479309578,
	"loss": 8.7875,
	"step": 106
	},
	{
	"epoch": 0.09916589434661724,
	"grad_norm": 0.04981837049126625,
	"learning_rate": 0.004881878591179988,
	"loss": 8.75,
	"step": 107
	},
	{
	"epoch": 0.10009267840593142,
	"grad_norm": 0.039716847240924835,
	"learning_rate": 0.004879657511197662,
	"loss": 8.675,
	"step": 108
	},
	{
	"epoch": 0.1010194624652456,
	"grad_norm": 0.028658628463745117,
	"learning_rate": 0.0048774162581913215,
	"loss": 8.675,
	"step": 109
	},
	{
	"epoch": 0.10194624652455977,
	"grad_norm": 0.03913936764001846,
	"learning_rate": 0.0048751548511606945,
	"loss": 8.6625,
	"step": 110
	},
	{
	"epoch": 0.10287303058387395,
	"grad_norm": 0.027623698115348816,
	"learning_rate": 0.004872873309276362,
	"loss": 8.6625,
	"step": 111
	},
	{
	"epoch": 0.10379981464318813,
	"grad_norm": 0.0399942547082901,
	"learning_rate": 0.004870571651879596,
	"loss": 8.6625,
	"step": 112
	},
	{
	"epoch": 0.10472659870250231,
	"grad_norm": 0.02140922099351883,
	"learning_rate": 0.00486824989848219,
	"loss": 8.5875,
	"step": 113
	},
	{
	"epoch": 0.1056533827618165,
	"grad_norm": 0.0371641181409359,
	"learning_rate": 0.0048659080687663,
	"loss": 8.6,
	"step": 114
	},
	{
	"epoch": 0.10658016682113068,
	"grad_norm": 0.018301891162991524,
	"learning_rate": 0.004863546182584273,
	"loss": 8.575,
	"step": 115
	},
	{
	"epoch": 0.10750695088044486,
	"grad_norm": 0.029274851083755493,
	"learning_rate": 0.0048611642599584795,
	"loss": 8.55,
	"step": 116
	},
	{
	"epoch": 0.10843373493975904,
	"grad_norm": 0.025735612958669662,
	"learning_rate": 0.004858762321081146,
	"loss": 8.525,
	"step": 117
	},
	{
	"epoch": 0.10936051899907322,
	"grad_norm": 0.036481715738773346,
	"learning_rate": 0.004856340386314182,
	"loss": 8.4875,
	"step": 118
	},
	{
	"epoch": 0.1102873030583874,
	"grad_norm": 0.11254877597093582,
	"learning_rate": 0.004853898476189007,
	"loss": 8.5375,
	"step": 119
	},
	{
	"epoch": 0.11121408711770157,
	"grad_norm": 0.19445450603961945,
	"learning_rate": 0.00485143661140638,
	"loss": 8.85,
	"step": 120
	},
	{
	"epoch": 0.11214087117701575,
	"grad_norm": 0.16596297919750214,
	"learning_rate": 0.004848954812836217,
	"loss": 8.7625,
	"step": 121
	},
	{
	"epoch": 0.11306765523632993,
	"grad_norm": 0.044869761914014816,
	"learning_rate": 0.004846453101517421,
	"loss": 8.5125,
	"step": 122
	},
	{
	"epoch": 0.11399443929564411,
	"grad_norm": 0.08229261636734009,
	"learning_rate": 0.0048439314986577,
	"loss": 8.6,
	"step": 123
	},
	{
	"epoch": 0.11492122335495829,
	"grad_norm": 0.04814854636788368,
	"learning_rate": 0.00484139002563339,
	"loss": 8.475,
	"step": 124
	},
	{
	"epoch": 0.11584800741427248,
	"grad_norm": 0.07902152091264725,
	"learning_rate": 0.004838828703989269,
	"loss": 8.55,
	"step": 125
	},
	{
	"epoch": 0.11677479147358666,
	"grad_norm": 0.02725468948483467,
	"learning_rate": 0.0048362475554383786,
	"loss": 8.4,
	"step": 126
	},
	{
	"epoch": 0.11770157553290084,
	"grad_norm": 0.05269164219498634,
	"learning_rate": 0.004833646601861841,
	"loss": 8.4375,
	"step": 127
	},
	{
	"epoch": 0.11862835959221502,
	"grad_norm": 0.03333018347620964,
	"learning_rate": 0.004831025865308667,
	"loss": 8.3625,
	"step": 128
	},
	{
	"epoch": 0.1195551436515292,
	"grad_norm": 0.040032755583524704,
	"learning_rate": 0.004828385367995575,
	"loss": 8.325,
	"step": 129
	},
	{
	"epoch": 0.12048192771084337,
	"grad_norm": 0.03257158771157265,
	"learning_rate": 0.004825725132306803,
	"loss": 8.2625,
	"step": 130
	},
	{
	"epoch": 0.12140871177015755,
	"grad_norm": 0.03259531036019325,
	"learning_rate": 0.0048230451807939135,
	"loss": 8.225,
	"step": 131
	},
	{
	"epoch": 0.12233549582947173,
	"grad_norm": 0.03383934497833252,
	"learning_rate": 0.004820345536175607,
	"loss": 8.2,
	"step": 132
	},
	{
	"epoch": 0.12326227988878591,
	"grad_norm": 0.02867773361504078,
	"learning_rate": 0.004817626221337529,
	"loss": 8.15,
	"step": 133
	},
	{
	"epoch": 0.12418906394810009,
	"grad_norm": 0.03943765163421631,
	"learning_rate": 0.004814887259332073,
	"loss": 8.125,
	"step": 134
	},
	{
	"epoch": 0.12511584800741427,
	"grad_norm": 0.034471139311790466,
	"learning_rate": 0.004812128673378188,
	"loss": 7.9875,
	"step": 135
	},
	{
	"epoch": 0.12604263206672844,
	"grad_norm": 0.03869534283876419,
	"learning_rate": 0.004809350486861181,
	"loss": 7.95,
	"step": 136
	},
	{
	"epoch": 0.12696941612604262,
	"grad_norm": 0.03380202502012253,
	"learning_rate": 0.0048065527233325175,
	"loss": 7.875,
	"step": 137
	},
	{
	"epoch": 0.1278962001853568,
	"grad_norm": 0.03459366410970688,
	"learning_rate": 0.004803735406509625,
	"loss": 7.7812,
	"step": 138
	},
	{
	"epoch": 0.12882298424467098,
	"grad_norm": 0.0600280836224556,
	"learning_rate": 0.0048008985602756874,
	"loss": 7.65,
	"step": 139
	},
	{
	"epoch": 0.12974976830398516,
	"grad_norm": 0.11870339512825012,
	"learning_rate": 0.004798042208679445,
	"loss": 7.6375,
	"step": 140
	},
	{
	"epoch": 0.13067655236329936,
	"grad_norm": 0.1849852204322815,
	"learning_rate": 0.0047951663759349915,
	"loss": 7.7,
	"step": 141
	},
	{
	"epoch": 0.13160333642261354,
	"grad_norm": 0.15893682837486267,
	"learning_rate": 0.0047922710864215685,
	"loss": 7.6375,
	"step": 142
	},
	{
	"epoch": 0.13253012048192772,
	"grad_norm": 0.10825814306735992,
	"learning_rate": 0.004789356364683356,
	"loss": 7.4437,
	"step": 143
	},
	{
	"epoch": 0.1334569045412419,
	"grad_norm": 0.12936848402023315,
	"learning_rate": 0.004786422235429268,
	"loss": 7.3688,
	"step": 144
	},
	{
	"epoch": 0.13438368860055608,
	"grad_norm": 0.07664606720209122,
	"learning_rate": 0.0047834687235327415,
	"loss": 7.2625,
	"step": 145
	},
	{
	"epoch": 0.13531047265987026,
	"grad_norm": 0.1079607829451561,
	"learning_rate": 0.0047804958540315235,
	"loss": 7.2125,
	"step": 146
	},
	{
	"epoch": 0.13623725671918444,
	"grad_norm": 0.04593510553240776,
	"learning_rate": 0.004777503652127464,
	"loss": 7.0687,
	"step": 147
	},
	{
	"epoch": 0.1371640407784986,
	"grad_norm": 0.06448942422866821,
	"learning_rate": 0.004774492143186296,
	"loss": 7.075,
	"step": 148
	},
	{
	"epoch": 0.1380908248378128,
	"grad_norm": 0.04284033551812172,
	"learning_rate": 0.004771461352737427,
	"loss": 6.9688,
	"step": 149
	},
	{
	"epoch": 0.13901760889712697,
	"grad_norm": 0.048541247844696045,
	"learning_rate": 0.004768411306473717,
	"loss": 6.9125,
	"step": 150
	},
	{
	"epoch": 0.13994439295644115,
	"grad_norm": 0.0369611531496048,
	"learning_rate": 0.004765342030251263,
	"loss": 6.8875,
	"step": 151
	},
	{
	"epoch": 0.14087117701575533,
	"grad_norm": 0.07809454202651978,
	"learning_rate": 0.004762253550089181,
	"loss": 6.8375,
	"step": 152
	},
	{
	"epoch": 0.1417979610750695,
	"grad_norm": 0.030714238062500954,
	"learning_rate": 0.004759145892169382,
	"loss": 6.8063,
	"step": 153
	},
	{
	"epoch": 0.14272474513438368,
	"grad_norm": 0.030746718868613243,
	"learning_rate": 0.004756019082836354,
	"loss": 6.7875,
	"step": 154
	},
	{
	"epoch": 0.14365152919369786,
	"grad_norm": 0.026088058948516846,
	"learning_rate": 0.004752873148596938,
	"loss": 6.7438,
	"step": 155
	},
	{
	"epoch": 0.14457831325301204,
	"grad_norm": 0.017927952110767365,
	"learning_rate": 0.004749708116120099,
	"loss": 6.7688,
	"step": 156
	},
	{
	"epoch": 0.14550509731232622,
	"grad_norm": 0.023661252111196518,
	"learning_rate": 0.004746524012236706,
	"loss": 6.725,
	"step": 157
	},
	{
	"epoch": 0.1464318813716404,
	"grad_norm": 0.018965313211083412,
	"learning_rate": 0.004743320863939299,
	"loss": 6.725,
	"step": 158
	},
	{
	"epoch": 0.14735866543095458,
	"grad_norm": 0.022316887974739075,
	"learning_rate": 0.004740098698381866,
	"loss": 6.675,
	"step": 159
	},
	{
	"epoch": 0.14828544949026876,
	"grad_norm": 0.019958553835749626,
	"learning_rate": 0.004736857542879608,
	"loss": 6.6875,
	"step": 160
	},
	{
	"epoch": 0.14921223354958293,
	"grad_norm": 0.016147589311003685,
	"learning_rate": 0.004733597424908707,
	"loss": 6.6875,
	"step": 161
	},
	{
	"epoch": 0.15013901760889714,
	"grad_norm": 0.020692575722932816,
	"learning_rate": 0.004730318372106099,
	"loss": 6.6438,
	"step": 162
	},
	{
	"epoch": 0.15106580166821132,
	"grad_norm": 0.014802551828324795,
	"learning_rate": 0.004727020412269234,
	"loss": 6.6312,
	"step": 163
	},
	{
	"epoch": 0.1519925857275255,
	"grad_norm": 0.01826154999434948,
	"learning_rate": 0.004723703573355842,
	"loss": 6.6375,
	"step": 164
	},
	{
	"epoch": 0.15291936978683968,
	"grad_norm": 0.014861056581139565,
	"learning_rate": 0.004720367883483697,
	"loss": 6.6562,
	"step": 165
	},
	{
	"epoch": 0.15384615384615385,
	"grad_norm": 0.0160931795835495,
	"learning_rate": 0.004717013370930377,
	"loss": 6.6,
	"step": 166
	},
	{
	"epoch": 0.15477293790546803,
	"grad_norm": 0.02078167535364628,
	"learning_rate": 0.004713640064133024,
	"loss": 6.6063,
	"step": 167
	},
	{
	"epoch": 0.1556997219647822,
	"grad_norm": 0.01577616296708584,
	"learning_rate": 0.004710247991688109,
	"loss": 6.5563,
	"step": 168
	},
	{
	"epoch": 0.1566265060240964,
	"grad_norm": 0.019711369648575783,
	"learning_rate": 0.0047068371823511795,
	"loss": 6.575,
	"step": 169
	},
	{
	"epoch": 0.15755329008341057,
	"grad_norm": 0.01820039190351963,
	"learning_rate": 0.004703407665036622,
	"loss": 6.5813,
	"step": 170
	},
	{
	"epoch": 0.15848007414272475,
	"grad_norm": 0.015363371931016445,
	"learning_rate": 0.004699959468817417,
	"loss": 6.5375,
	"step": 171
	},
	{
	"epoch": 0.15940685820203893,
	"grad_norm": 0.015872852876782417,
	"learning_rate": 0.004696492622924892,
	"loss": 6.5687,
	"step": 172
	},
	{
	"epoch": 0.1603336422613531,
	"grad_norm": 0.016906000673770905,
	"learning_rate": 0.004693007156748471,
	"loss": 6.5125,
	"step": 173
	},
	{
	"epoch": 0.16126042632066728,
	"grad_norm": 0.016961950808763504,
	"learning_rate": 0.0046895030998354275,
	"loss": 6.525,
	"step": 174
	},
	{
	"epoch": 0.16218721037998146,
	"grad_norm": 0.016262684017419815,
	"learning_rate": 0.004685980481890634,
	"loss": 6.5062,
	"step": 175
	},
	{
	"epoch": 0.16311399443929564,
	"grad_norm": 0.014922458678483963,
	"learning_rate": 0.004682439332776313,
	"loss": 6.4688,
	"step": 176
	},
	{
	"epoch": 0.16404077849860982,
	"grad_norm": 0.022018995136022568,
	"learning_rate": 0.004678879682511777,
	"loss": 6.5188,
	"step": 177
	},
	{
	"epoch": 0.164967562557924,
	"grad_norm": 0.014819780364632607,
	"learning_rate": 0.004675301561273179,
	"loss": 6.4437,
	"step": 178
	},
	{
	"epoch": 0.16589434661723818,
	"grad_norm": 0.0183818731456995,
	"learning_rate": 0.004671704999393256,
	"loss": 6.4563,
	"step": 179
	},
	{
	"epoch": 0.16682113067655235,
	"grad_norm": 0.020285405218601227,
	"learning_rate": 0.004668090027361074,
	"loss": 6.4563,
	"step": 180
	},
	{
	"epoch": 0.16774791473586653,
	"grad_norm": 0.0204929132014513,
	"learning_rate": 0.004664456675821761,
	"loss": 6.4813,
	"step": 181
	},
	{
	"epoch": 0.1686746987951807,
	"grad_norm": 0.022332845255732536,
	"learning_rate": 0.0046608049755762606,
	"loss": 6.4563,
	"step": 182
	},
	{
	"epoch": 0.1696014828544949,
	"grad_norm": 0.014836137183010578,
	"learning_rate": 0.004657134957581057,
	"loss": 6.4625,
	"step": 183
	},
	{
	"epoch": 0.1705282669138091,
	"grad_norm": 0.024512965232133865,
	"learning_rate": 0.0046534466529479235,
	"loss": 6.4563,
	"step": 184
	},
	{
	"epoch": 0.17145505097312327,
	"grad_norm": 0.025079630315303802,
	"learning_rate": 0.004649740092943651,
	"loss": 6.4188,
	"step": 185
	},
	{
	"epoch": 0.17238183503243745,
	"grad_norm": 0.032594986259937286,
	"learning_rate": 0.00464601530898979,
	"loss": 6.4125,
	"step": 186
	},
	{
	"epoch": 0.17330861909175163,
	"grad_norm": 0.028524870052933693,
	"learning_rate": 0.004642272332662377,
	"loss": 6.4125,
	"step": 187
	},
	{
	"epoch": 0.1742354031510658,
	"grad_norm": 0.02017652988433838,
	"learning_rate": 0.0046385111956916735,
	"loss": 6.3938,
	"step": 188
	},
	{
	"epoch": 0.17516218721038,
	"grad_norm": 0.023051844909787178,
	"learning_rate": 0.004634731929961891,
	"loss": 6.4062,
	"step": 189
	},
	{
	"epoch": 0.17608897126969417,
	"grad_norm": 0.025438351556658745,
	"learning_rate": 0.004630934567510925,
	"loss": 6.3812,
	"step": 190
	},
	{
	"epoch": 0.17701575532900835,
	"grad_norm": 0.037845317274332047,
	"learning_rate": 0.004627119140530083,
	"loss": 6.4062,
	"step": 191
	},
	{
	"epoch": 0.17794253938832252,
	"grad_norm": 0.05386321246623993,
	"learning_rate": 0.004623285681363807,
	"loss": 6.4062,
	"step": 192
	},
	{
	"epoch": 0.1788693234476367,
	"grad_norm": 0.0913223922252655,
	"learning_rate": 0.004619434222509408,
	"loss": 6.3875,
	"step": 193
	},
	{
	"epoch": 0.17979610750695088,
	"grad_norm": 0.1158546730875969,
	"learning_rate": 0.00461556479661678,
	"loss": 6.4563,
	"step": 194
	},
	{
	"epoch": 0.18072289156626506,
	"grad_norm": 0.08018877357244492,
	"learning_rate": 0.0046116774364881345,
	"loss": 6.375,
	"step": 195
	},
	{
	"epoch": 0.18164967562557924,
	"grad_norm": 0.03276560455560684,
	"learning_rate": 0.0046077721750777114,
	"loss": 6.3812,
	"step": 196
	},
	{
	"epoch": 0.18257645968489342,
	"grad_norm": 0.07004847377538681,
	"learning_rate": 0.0046038490454915065,
	"loss": 6.3875,
	"step": 197
	},
	{
	"epoch": 0.1835032437442076,
	"grad_norm": 0.03939942270517349,
	"learning_rate": 0.004599908080986991,
	"loss": 6.325,
	"step": 198
	},
	{
	"epoch": 0.18443002780352177,
	"grad_norm": 0.0445321649312973,
	"learning_rate": 0.004595949314972824,
	"loss": 6.3125,
	"step": 199
	},
	{
	"epoch": 0.18535681186283595,
	"grad_norm": 0.04666861146688461,
	"learning_rate": 0.004591972781008576,
	"loss": 6.3375,
	"step": 200
	},
	{
	"epoch": 0.18628359592215013,
	"grad_norm": 0.032554373145103455,
	"learning_rate": 0.0045879785128044425,
	"loss": 6.3187,
	"step": 201
	},
	{
	"epoch": 0.1872103799814643,
	"grad_norm": 0.03748049587011337,
	"learning_rate": 0.004583966544220952,
	"loss": 6.3313,
	"step": 202
	},
	{
	"epoch": 0.1881371640407785,
	"grad_norm": 0.02630574069917202,
	"learning_rate": 0.00457993690926869,
	"loss": 6.3563,
	"step": 203
	},
	{
	"epoch": 0.18906394810009267,
	"grad_norm": 0.04539572447538376,
	"learning_rate": 0.004575889642107998,
	"loss": 6.3063,
	"step": 204
	},
	{
	"epoch": 0.18999073215940684,
	"grad_norm": 0.02216522768139839,
	"learning_rate": 0.0045718247770487,
	"loss": 6.2812,
	"step": 205
	},
	{
	"epoch": 0.19091751621872105,
	"grad_norm": 0.05376052483916283,
	"learning_rate": 0.004567742348549793,
	"loss": 6.35,
	"step": 206
	},
	{
	"epoch": 0.19184430027803523,
	"grad_norm": 0.02676314301788807,
	"learning_rate": 0.004563642391219168,
	"loss": 6.3,
	"step": 207
	},
	{
	"epoch": 0.1927710843373494,
	"grad_norm": 0.039810191839933395,
	"learning_rate": 0.004559524939813316,
	"loss": 6.2875,
	"step": 208
	},
	{
	"epoch": 0.1936978683966636,
	"grad_norm": 0.03783705458045006,
	"learning_rate": 0.0045553900292370254,
	"loss": 6.2625,
	"step": 209
	},
	{
	"epoch": 0.19462465245597776,
	"grad_norm": 0.02999858744442463,
	"learning_rate": 0.004551237694543092,
	"loss": 6.2438,
	"step": 210
	},
	{
	"epoch": 0.19555143651529194,
	"grad_norm": 0.0282985121011734,
	"learning_rate": 0.004547067970932022,
	"loss": 6.2438,
	"step": 211
	},
	{
	"epoch": 0.19647822057460612,
	"grad_norm": 0.03198060020804405,
	"learning_rate": 0.004542880893751732,
	"loss": 6.2625,
	"step": 212
	},
	{
	"epoch": 0.1974050046339203,
	"grad_norm": 0.03950299322605133,
	"learning_rate": 0.00453867649849725,
	"loss": 6.2188,
	"step": 213
	},
	{
	"epoch": 0.19833178869323448,
	"grad_norm": 0.026990199461579323,
	"learning_rate": 0.004534454820810412,
	"loss": 6.2063,
	"step": 214
	},
	{
	"epoch": 0.19925857275254866,
	"grad_norm": 0.0420188382267952,
	"learning_rate": 0.004530215896479564,
	"loss": 6.2625,
	"step": 215
	},
	{
	"epoch": 0.20018535681186284,
	"grad_norm": 0.04251977428793907,
	"learning_rate": 0.004525959761439257,
	"loss": 6.2063,
	"step": 216
	},
	{
	"epoch": 0.20111214087117701,
	"grad_norm": 0.06442005932331085,
	"learning_rate": 0.0045216864517699405,
	"loss": 6.2125,
	"step": 217
	},
	{
	"epoch": 0.2020389249304912,
	"grad_norm": 0.05594475567340851,
	"learning_rate": 0.004517396003697659,
	"loss": 6.1562,
	"step": 218
	},
	{
	"epoch": 0.20296570898980537,
	"grad_norm": 0.038938529789447784,
	"learning_rate": 0.004513088453593744,
	"loss": 6.1937,
	"step": 219
	},
	{
	"epoch": 0.20389249304911955,
	"grad_norm": 0.057002611458301544,
	"learning_rate": 0.0045087638379745065,
	"loss": 6.175,
	"step": 220
	},
	{
	"epoch": 0.20481927710843373,
	"grad_norm": 0.047009214758872986,
	"learning_rate": 0.004504422193500925,
	"loss": 6.1688,
	"step": 221
	},
	{
	"epoch": 0.2057460611677479,
	"grad_norm": 0.05817709118127823,
	"learning_rate": 0.004500063556978336,
	"loss": 6.1375,
	"step": 222
	},
	{
	"epoch": 0.20667284522706209,
	"grad_norm": 0.05288264900445938,
	"learning_rate": 0.004495687965356126,
	"loss": 6.1688,
	"step": 223
	},
	{
	"epoch": 0.20759962928637626,
	"grad_norm": 0.03736674785614014,
	"learning_rate": 0.00449129545572741,
	"loss": 6.175,
	"step": 224
	},
	{
	"epoch": 0.20852641334569044,
	"grad_norm": 0.034431926906108856,
	"learning_rate": 0.004486886065328725,
	"loss": 6.1125,
	"step": 225
	},
	{
	"epoch": 0.20945319740500462,
	"grad_norm": 0.03445250913500786,
	"learning_rate": 0.004482459831539709,
	"loss": 6.1625,
	"step": 226
	},
	{
	"epoch": 0.21037998146431883,
	"grad_norm": 0.035410068929195404,
	"learning_rate": 0.004478016791882787,
	"loss": 6.0875,
	"step": 227
	},
	{
	"epoch": 0.211306765523633,
	"grad_norm": 0.026350026950240135,
	"learning_rate": 0.004473556984022854,
	"loss": 6.125,
	"step": 228
	},
	{
	"epoch": 0.21223354958294718,
	"grad_norm": 0.028956936672329903,
	"learning_rate": 0.0044690804457669505,
	"loss": 6.1063,
	"step": 229
	},
	{
	"epoch": 0.21316033364226136,
	"grad_norm": 0.03521239385008812,
	"learning_rate": 0.004464587215063946,
	"loss": 6.0875,
	"step": 230
	},
	{
	"epoch": 0.21408711770157554,
	"grad_norm": 0.04613986983895302,
	"learning_rate": 0.004460077330004218,
	"loss": 6.1312,
	"step": 231
	},
	{
	"epoch": 0.21501390176088972,
	"grad_norm": 0.05228109285235405,
	"learning_rate": 0.0044555508288193265,
	"loss": 6.1063,
	"step": 232
	},
	{
	"epoch": 0.2159406858202039,
	"grad_norm": 0.045205965638160706,
	"learning_rate": 0.004451007749881691,
	"loss": 6.1,
	"step": 233
	},
	{
	"epoch": 0.21686746987951808,
	"grad_norm": 0.028526296839118004,
	"learning_rate": 0.004446448131704267,
	"loss": 6.0813,
	"step": 234
	},
	{
	"epoch": 0.21779425393883226,
	"grad_norm": 0.027809731662273407,
	"learning_rate": 0.004441872012940214,
	"loss": 6.075,
	"step": 235
	},
	{
	"epoch": 0.21872103799814643,
	"grad_norm": 0.04913929104804993,
	"learning_rate": 0.004437279432382576,
	"loss": 6.075,
	"step": 236
	},
	{
	"epoch": 0.2196478220574606,
	"grad_norm": 0.046848297119140625,
	"learning_rate": 0.004432670428963946,
	"loss": 6.0938,
	"step": 237
	},
	{
	"epoch": 0.2205746061167748,
	"grad_norm": 0.0395938940346241,
	"learning_rate": 0.004428045041756137,
	"loss": 6.075,
	"step": 238
	},
	{
	"epoch": 0.22150139017608897,
	"grad_norm": 0.0638502761721611,
	"learning_rate": 0.004423403309969855,
	"loss": 6.025,
	"step": 239
	},
	{
	"epoch": 0.22242817423540315,
	"grad_norm": 0.06795669347047806,
	"learning_rate": 0.004418745272954361,
	"loss": 6.0438,
	"step": 240
	},
	{
	"epoch": 0.22335495829471733,
	"grad_norm": 0.052847135812044144,
	"learning_rate": 0.004414070970197141,
	"loss": 6.0625,
	"step": 241
	},
	{
	"epoch": 0.2242817423540315,
	"grad_norm": 0.04967901483178139,
	"learning_rate": 0.0044093804413235715,
	"loss": 6.0375,
	"step": 242
	},
	{
	"epoch": 0.22520852641334568,
	"grad_norm": 0.0682300478219986,
	"learning_rate": 0.004404673726096578,
	"loss": 6.0625,
	"step": 243
	},
	{
	"epoch": 0.22613531047265986,
	"grad_norm": 0.0553511306643486,
	"learning_rate": 0.00439995086441631,
	"loss": 5.9813,
	"step": 244
	},
	{
	"epoch": 0.22706209453197404,
	"grad_norm": 0.028195617720484734,
	"learning_rate": 0.004395211896319786,
	"loss": 6.025,
	"step": 245
	},
	{
	"epoch": 0.22798887859128822,
	"grad_norm": 0.04402211681008339,
	"learning_rate": 0.00439045686198057,
	"loss": 6.0125,
	"step": 246
	},
	{
	"epoch": 0.2289156626506024,
	"grad_norm": 0.03047800622880459,
	"learning_rate": 0.00438568580170842,
	"loss": 5.9938,
	"step": 247
	},
	{
	"epoch": 0.22984244670991658,
	"grad_norm": 0.03843539580702782,
	"learning_rate": 0.004380898755948953,
	"loss": 5.9813,
	"step": 248
	},
	{
	"epoch": 0.23076923076923078,
	"grad_norm": 0.0366608090698719,
	"learning_rate": 0.004376095765283298,
	"loss": 6.0,
	"step": 249
	},
	{
	"epoch": 0.23169601482854496,
	"grad_norm": 0.06157747656106949,
	"learning_rate": 0.004371276870427753,
	"loss": 6.025,
	"step": 250
	},
	{
	"epoch": 0.23262279888785914,
	"grad_norm": 0.055426549166440964,
	"learning_rate": 0.004366442112233441,
	"loss": 5.975,
	"step": 251
	},
	{
	"epoch": 0.23354958294717332,
	"grad_norm": 0.03506896272301674,
	"learning_rate": 0.004361591531685964,
	"loss": 5.9813,
	"step": 252
	},
	{
	"epoch": 0.2344763670064875,
	"grad_norm": 0.03997468575835228,
	"learning_rate": 0.004356725169905052,
	"loss": 5.95,
	"step": 253
	},
	{
	"epoch": 0.23540315106580167,
	"grad_norm": 0.06662409007549286,
	"learning_rate": 0.0043518430681442205,
	"loss": 5.9625,
	"step": 254
	},
	{
	"epoch": 0.23632993512511585,
	"grad_norm": 0.0542214997112751,
	"learning_rate": 0.004346945267790413,
	"loss": 5.9625,
	"step": 255
	},
	{
	"epoch": 0.23725671918443003,
	"grad_norm": 0.05418306961655617,
	"learning_rate": 0.004342031810363658,
	"loss": 5.9625,
	"step": 256
	},
	{
	"epoch": 0.2381835032437442,
	"grad_norm": 0.08298410475254059,
	"learning_rate": 0.004337102737516711,
	"loss": 5.9563,
	"step": 257
	},
	{
	"epoch": 0.2391102873030584,
	"grad_norm": 0.051485590636730194,
	"learning_rate": 0.004332158091034705,
	"loss": 5.9938,
	"step": 258
	},
	{
	"epoch": 0.24003707136237257,
	"grad_norm": 0.041104063391685486,
	"learning_rate": 0.004327197912834795,
	"loss": 5.9125,
	"step": 259
	},
	{
	"epoch": 0.24096385542168675,
	"grad_norm": 0.06750784069299698,
	"learning_rate": 0.0043222222449658025,
	"loss": 5.9563,
	"step": 260
	},
	{
	"epoch": 0.24189063948100092,
	"grad_norm": 0.05327602103352547,
	"learning_rate": 0.0043172311296078595,
	"loss": 5.8812,
	"step": 261
	},
	{
	"epoch": 0.2428174235403151,
	"grad_norm": 0.05027195066213608,
	"learning_rate": 0.00431222460907205,
	"loss": 5.9125,
	"step": 262
	},
	{
	"epoch": 0.24374420759962928,
	"grad_norm": 0.06142845377326012,
	"learning_rate": 0.004307202725800052,
	"loss": 5.9,
	"step": 263
	},
	{
	"epoch": 0.24467099165894346,
	"grad_norm": 0.06710369884967804,
	"learning_rate": 0.004302165522363779,
	"loss": 5.9437,
	"step": 264
	},
	{
	"epoch": 0.24559777571825764,
	"grad_norm": 0.06705372035503387,
	"learning_rate": 0.004297113041465017,
	"loss": 5.9062,
	"step": 265
	},
	{
	"epoch": 0.24652455977757182,
	"grad_norm": 0.06116189435124397,
	"learning_rate": 0.004292045325935063,
	"loss": 5.9,
	"step": 266
	},
	{
	"epoch": 0.247451343836886,
	"grad_norm": 0.054194726049900055,
	"learning_rate": 0.004286962418734364,
	"loss": 5.875,
	"step": 267
	},
	{
	"epoch": 0.24837812789620017,
	"grad_norm": 0.0627150684595108,
	"learning_rate": 0.004281864362952147,
	"loss": 5.8875,
	"step": 268
	},
	{
	"epoch": 0.24930491195551435,
	"grad_norm": 0.0440673902630806,
	"learning_rate": 0.004276751201806063,
	"loss": 5.8938,
	"step": 269
	},
	{
	"epoch": 0.25023169601482853,
	"grad_norm": 0.034663740545511246,
	"learning_rate": 0.004271622978641812,
	"loss": 5.8625,
	"step": 270
	},
	{
	"epoch": 0.2511584800741427,
	"grad_norm": 0.04779878258705139,
	"learning_rate": 0.004266479736932779,
	"loss": 5.8563,
	"step": 271
	},
	{
	"epoch": 0.2520852641334569,
	"grad_norm": 0.060510262846946716,
	"learning_rate": 0.004261321520279666,
	"loss": 5.8563,
	"step": 272
	},
	{
	"epoch": 0.25301204819277107,
	"grad_norm": 0.05226600542664528,
	"learning_rate": 0.004256148372410125,
	"loss": 5.8375,
	"step": 273
	},
	{
	"epoch": 0.25393883225208524,
	"grad_norm": 0.05810929834842682,
	"learning_rate": 0.004250960337178377,
	"loss": 5.8625,
	"step": 274
	},
	{
	"epoch": 0.2548656163113994,
	"grad_norm": 0.07357963919639587,
	"learning_rate": 0.004245757458564855,
	"loss": 5.8688,
	"step": 275
	},
	{
	"epoch": 0.2557924003707136,
	"grad_norm": 0.07380347698926926,
	"learning_rate": 0.004240539780675817,
	"loss": 5.8563,
	"step": 276
	},
	{
	"epoch": 0.2567191844300278,
	"grad_norm": 0.05101478099822998,
	"learning_rate": 0.0042353073477429835,
	"loss": 5.825,
	"step": 277
	},
	{
	"epoch": 0.25764596848934196,
	"grad_norm": 0.03864740952849388,
	"learning_rate": 0.004230060204123156,
	"loss": 5.8688,
	"step": 278
	},
	{
	"epoch": 0.25857275254865614,
	"grad_norm": 0.06766132265329361,
	"learning_rate": 0.004224798394297841,
	"loss": 5.85,
	"step": 279
	},
	{
	"epoch": 0.2594995366079703,
	"grad_norm": 0.06980055570602417,
	"learning_rate": 0.004219521962872876,
	"loss": 5.875,
	"step": 280
	},
	{
	"epoch": 0.26042632066728455,
	"grad_norm": 0.04153401404619217,
	"learning_rate": 0.004214230954578051,
	"loss": 5.8313,
	"step": 281
	},
	{
	"epoch": 0.26135310472659873,
	"grad_norm": 0.045340005308389664,
	"learning_rate": 0.004208925414266726,
	"loss": 5.8125,
	"step": 282
	},
	{
	"epoch": 0.2622798887859129,
	"grad_norm": 0.04986559599637985,
	"learning_rate": 0.004203605386915454,
	"loss": 5.825,
	"step": 283
	},
	{
	"epoch": 0.2632066728452271,
	"grad_norm": 0.04970383271574974,
	"learning_rate": 0.004198270917623599,
	"loss": 5.7688,
	"step": 284
	},
	{
	"epoch": 0.26413345690454126,
	"grad_norm": 0.05129897966980934,
	"learning_rate": 0.004192922051612953,
	"loss": 5.8,
	"step": 285
	},
	{
	"epoch": 0.26506024096385544,
	"grad_norm": 0.03994636610150337,
	"learning_rate": 0.004187558834227354,
	"loss": 5.8,
	"step": 286
	},
	{
	"epoch": 0.2659870250231696,
	"grad_norm": 0.05204310640692711,
	"learning_rate": 0.004182181310932297,
	"loss": 5.7938,
	"step": 287
	},
	{
	"epoch": 0.2669138090824838,
	"grad_norm": 0.03257805109024048,
	"learning_rate": 0.004176789527314558,
	"loss": 5.7562,
	"step": 288
	},
	{
	"epoch": 0.267840593141798,
	"grad_norm": 0.035661760717630386,
	"learning_rate": 0.004171383529081797,
	"loss": 5.7812,
	"step": 289
	},
	{
	"epoch": 0.26876737720111216,
	"grad_norm": 0.04478088766336441,
	"learning_rate": 0.004165963362062177,
	"loss": 5.7562,
	"step": 290
	},
	{
	"epoch": 0.26969416126042633,
	"grad_norm": 0.03838647902011871,
	"learning_rate": 0.004160529072203974,
	"loss": 5.7688,
	"step": 291
	},
	{
	"epoch": 0.2706209453197405,
	"grad_norm": 0.040849462151527405,
	"learning_rate": 0.004155080705575188,
	"loss": 5.7438,
	"step": 292
	},
	{
	"epoch": 0.2715477293790547,
	"grad_norm": 0.051210496574640274,
	"learning_rate": 0.004149618308363149,
	"loss": 5.7375,
	"step": 293
	},
	{
	"epoch": 0.27247451343836887,
	"grad_norm": 0.07401825487613678,
	"learning_rate": 0.00414414192687413,
	"loss": 5.7812,
	"step": 294
	},
	{
	"epoch": 0.27340129749768305,
	"grad_norm": 0.10748963057994843,
	"learning_rate": 0.004138651607532954,
	"loss": 5.75,
	"step": 295
	},
	{
	"epoch": 0.2743280815569972,
	"grad_norm": 0.07754500955343246,
	"learning_rate": 0.004133147396882597,
	"loss": 5.7562,
	"step": 296
	},
	{
	"epoch": 0.2752548656163114,
	"grad_norm": 0.04524754732847214,
	"learning_rate": 0.004127629341583795,
	"loss": 5.7375,
	"step": 297
	},
	{
	"epoch": 0.2761816496756256,
	"grad_norm": 0.06774584203958511,
	"learning_rate": 0.004122097488414652,
	"loss": 5.7375,
	"step": 298
	},
	{
	"epoch": 0.27710843373493976,
	"grad_norm": 0.050472185015678406,
	"learning_rate": 0.004116551884270237,
	"loss": 5.6937,
	"step": 299
	},
	{
	"epoch": 0.27803521779425394,
	"grad_norm": 0.040967270731925964,
	"learning_rate": 0.0041109925761621926,
	"loss": 5.7313,
	"step": 300
	},
	{
	"epoch": 0.2789620018535681,
	"grad_norm": 0.03739303722977638,
	"learning_rate": 0.004105419611218332,
	"loss": 5.7188,
	"step": 301
	},
	{
	"epoch": 0.2798887859128823,
	"grad_norm": 0.04636852815747261,
	"learning_rate": 0.004099833036682241,
	"loss": 5.725,
	"step": 302
	},
	{
	"epoch": 0.2808155699721965,
	"grad_norm": 0.08012169599533081,
	"learning_rate": 0.00409423289991288,
	"loss": 5.7313,
	"step": 303
	},
	{
	"epoch": 0.28174235403151066,
	"grad_norm": 0.05987093225121498,
	"learning_rate": 0.004088619248384178,
	"loss": 5.7125,
	"step": 304
	},
	{
	"epoch": 0.28266913809082483,
	"grad_norm": 0.07735589891672134,
	"learning_rate": 0.0040829921296846325,
	"loss": 5.7,
	"step": 305
	},
	{
	"epoch": 0.283595922150139,
	"grad_norm": 0.09283655136823654,
	"learning_rate": 0.004077351591516908,
	"loss": 5.675,
	"step": 306
	},
	{
	"epoch": 0.2845227062094532,
	"grad_norm": 0.09337766468524933,
	"learning_rate": 0.004071697681697427,
	"loss": 5.7375,
	"step": 307
	},
	{
	"epoch": 0.28544949026876737,
	"grad_norm": 0.06437985599040985,
	"learning_rate": 0.00406603044815597,
	"loss": 5.6875,
	"step": 308
	},
	{
	"epoch": 0.28637627432808155,
	"grad_norm": 0.04110102728009224,
	"learning_rate": 0.004060349938935264,
	"loss": 5.6937,
	"step": 309
	},
	{
	"epoch": 0.2873030583873957,
	"grad_norm": 0.06071547046303749,
	"learning_rate": 0.004054656202190578,
	"loss": 5.7375,
	"step": 310
	},
	{
	"epoch": 0.2882298424467099,
	"grad_norm": 0.05311071500182152,
	"learning_rate": 0.004048949286189315,
	"loss": 5.65,
	"step": 311
	},
	{
	"epoch": 0.2891566265060241,
	"grad_norm": 0.031259018927812576,
	"learning_rate": 0.004043229239310603,
	"loss": 5.6688,
	"step": 312
	},
	{
	"epoch": 0.29008341056533826,
	"grad_norm": 0.03335728868842125,
	"learning_rate": 0.0040374961100448845,
	"loss": 5.675,
	"step": 313
	},
	{
	"epoch": 0.29101019462465244,
	"grad_norm": 0.035077281296253204,
	"learning_rate": 0.004031749946993501,
	"loss": 5.675,
	"step": 314
	},
	{
	"epoch": 0.2919369786839666,
	"grad_norm": 0.030766339972615242,
	"learning_rate": 0.004025990798868291,
	"loss": 5.6688,
	"step": 315
	},
	{
	"epoch": 0.2928637627432808,
	"grad_norm": 0.03741341829299927,
	"learning_rate": 0.004020218714491166,
	"loss": 5.6625,
	"step": 316
	},
	{
	"epoch": 0.293790546802595,
	"grad_norm": 0.044073686003685,
	"learning_rate": 0.0040144337427937046,
	"loss": 5.6375,
	"step": 317
	},
	{
	"epoch": 0.29471733086190915,
	"grad_norm": 0.05024448409676552,
	"learning_rate": 0.004008635932816734,
	"loss": 5.6813,
	"step": 318
	},
	{
	"epoch": 0.29564411492122333,
	"grad_norm": 0.045678358525037766,
	"learning_rate": 0.004002825333709915,
	"loss": 5.5938,
	"step": 319
	},
	{
	"epoch": 0.2965708989805375,
	"grad_norm": 0.05762135609984398,
	"learning_rate": 0.003997001994731328,
	"loss": 5.6438,
	"step": 320
	},
	{
	"epoch": 0.2974976830398517,
	"grad_norm": 0.07177098840475082,
	"learning_rate": 0.003991165965247046,
	"loss": 5.6375,
	"step": 321
	},
	{
	"epoch": 0.29842446709916587,
	"grad_norm": 0.07682537287473679,
	"learning_rate": 0.003985317294730731,
	"loss": 5.675,
	"step": 322
	},
	{
	"epoch": 0.29935125115848005,
	"grad_norm": 0.08128990978002548,
	"learning_rate": 0.003979456032763201,
	"loss": 5.675,
	"step": 323
	},
	{
	"epoch": 0.3002780352177943,
	"grad_norm": 0.08135168999433517,
	"learning_rate": 0.003973582229032019,
	"loss": 5.7125,
	"step": 324
	},
	{
	"epoch": 0.30120481927710846,
	"grad_norm": 0.10176597535610199,
	"learning_rate": 0.003967695933331064,
	"loss": 5.6875,
	"step": 325
	},
	{
	"epoch": 0.30213160333642264,
	"grad_norm": 0.10529598593711853,
	"learning_rate": 0.003961797195560118,
	"loss": 5.675,
	"step": 326
	},
	{
	"epoch": 0.3030583873957368,
	"grad_norm": 0.06495360285043716,
	"learning_rate": 0.003955886065724433,
	"loss": 5.6312,
	"step": 327
	},
	{
	"epoch": 0.303985171455051,
	"grad_norm": 0.06810038536787033,
	"learning_rate": 0.003949962593934316,
	"loss": 5.6312,
	"step": 328
	},
	{
	"epoch": 0.3049119555143652,
	"grad_norm": 0.058491405099630356,
	"learning_rate": 0.003944026830404698,
	"loss": 5.5813,
	"step": 329
	},
	{
	"epoch": 0.30583873957367935,
	"grad_norm": 0.05078050121665001,
	"learning_rate": 0.003938078825454709,
	"loss": 5.575,
	"step": 330
	},
	{
	"epoch": 0.30676552363299353,
	"grad_norm": 0.06602590531110764,
	"learning_rate": 0.003932118629507257,
	"loss": 5.5875,
	"step": 331
	},
	{
	"epoch": 0.3076923076923077,
	"grad_norm": 0.0416589193046093,
	"learning_rate": 0.0039261462930885935,
	"loss": 5.6,
	"step": 332
	},
	{
	"epoch": 0.3086190917516219,
	"grad_norm": 0.04823141545057297,
	"learning_rate": 0.003920161866827889,
	"loss": 5.5813,
	"step": 333
	},
	{
	"epoch": 0.30954587581093607,
	"grad_norm": 0.03508712351322174,
	"learning_rate": 0.003914165401456804,
	"loss": 5.5875,
	"step": 334
	},
	{
	"epoch": 0.31047265987025024,
	"grad_norm": 0.03729189559817314,
	"learning_rate": 0.003908156947809056,
	"loss": 5.575,
	"step": 335
	},
	{
	"epoch": 0.3113994439295644,
	"grad_norm": 0.047349270433187485,
	"learning_rate": 0.0039021365568199917,
	"loss": 5.5625,
	"step": 336
	},
	{
	"epoch": 0.3123262279888786,
	"grad_norm": 0.04627249017357826,
	"learning_rate": 0.0038961042795261536,
	"loss": 5.5375,
	"step": 337
	},
	{
	"epoch": 0.3132530120481928,
	"grad_norm": 0.03604106232523918,
	"learning_rate": 0.0038900601670648484,
	"loss": 5.575,
	"step": 338
	},
	{
	"epoch": 0.31417979610750696,
	"grad_norm": 0.040808554738759995,
	"learning_rate": 0.0038840042706737112,
	"loss": 5.5563,
	"step": 339
	},
	{
	"epoch": 0.31510658016682114,
	"grad_norm": 0.027617141604423523,
	"learning_rate": 0.003877936641690275,
	"loss": 5.5813,
	"step": 340
	},
	{
	"epoch": 0.3160333642261353,
	"grad_norm": 0.03513359650969505,
	"learning_rate": 0.0038718573315515317,
	"loss": 5.5438,
	"step": 341
	},
	{
	"epoch": 0.3169601482854495,
	"grad_norm": 0.03978215530514717,
	"learning_rate": 0.0038657663917934983,
	"loss": 5.575,
	"step": 342
	},
	{
	"epoch": 0.3178869323447637,
	"grad_norm": 0.025322776287794113,
	"learning_rate": 0.0038596638740507785,
	"loss": 5.525,
	"step": 343
	},
	{
	"epoch": 0.31881371640407785,
	"grad_norm": 0.04898100346326828,
	"learning_rate": 0.0038535498300561266,
	"loss": 5.525,
	"step": 344
	},
	{
	"epoch": 0.31974050046339203,
	"grad_norm": 0.0469982884824276,
	"learning_rate": 0.003847424311640009,
	"loss": 5.5438,
	"step": 345
	},
	{
	"epoch": 0.3206672845227062,
	"grad_norm": 0.03919081762433052,
	"learning_rate": 0.0038412873707301615,
	"loss": 5.5312,
	"step": 346
	},
	{
	"epoch": 0.3215940685820204,
	"grad_norm": 0.04740371182560921,
	"learning_rate": 0.0038351390593511546,
	"loss": 5.5,
	"step": 347
	},
	{
	"epoch": 0.32252085264133457,
	"grad_norm": 0.05560089647769928,
	"learning_rate": 0.003828979429623947,
	"loss": 5.5125,
	"step": 348
	},
	{
	"epoch": 0.32344763670064874,
	"grad_norm": 0.060783710330724716,
	"learning_rate": 0.0038228085337654472,
	"loss": 5.5312,
	"step": 349
	},
	{
	"epoch": 0.3243744207599629,
	"grad_norm": 0.0725303441286087,
	"learning_rate": 0.00381662642408807,
	"loss": 5.5,
	"step": 350
	},
	{
	"epoch": 0.3253012048192771,
	"grad_norm": 0.07496823370456696,
	"learning_rate": 0.003810433152999293,
	"loss": 5.5,
	"step": 351
	},
	{
	"epoch": 0.3262279888785913,
	"grad_norm": 0.06248985975980759,
	"learning_rate": 0.0038042287730012114,
	"loss": 5.525,
	"step": 352
	},
	{
	"epoch": 0.32715477293790546,
	"grad_norm": 0.06995397806167603,
	"learning_rate": 0.003798013336690095,
	"loss": 5.5188,
	"step": 353
	},
	{
	"epoch": 0.32808155699721964,
	"grad_norm": 0.04727565497159958,
	"learning_rate": 0.0037917868967559387,
	"loss": 5.525,
	"step": 354
	},
	{
	"epoch": 0.3290083410565338,
	"grad_norm": 0.05960770696401596,
	"learning_rate": 0.0037855495059820215,
	"loss": 5.5,
	"step": 355
	},
	{
	"epoch": 0.329935125115848,
	"grad_norm": 0.049259670078754425,
	"learning_rate": 0.0037793012172444534,
	"loss": 5.4813,
	"step": 356
	},
	{
	"epoch": 0.33086190917516217,
	"grad_norm": 0.06020974740386009,
	"learning_rate": 0.003773042083511731,
	"loss": 5.4625,
	"step": 357
	},
	{
	"epoch": 0.33178869323447635,
	"grad_norm": 0.0410022996366024,
	"learning_rate": 0.003766772157844284,
	"loss": 5.4813,
	"step": 358
	},
	{
	"epoch": 0.33271547729379053,
	"grad_norm": 0.04682173952460289,
	"learning_rate": 0.003760491493394032,
	"loss": 5.5,
	"step": 359
	},
	{
	"epoch": 0.3336422613531047,
	"grad_norm": 0.055474553257226944,
	"learning_rate": 0.003754200143403929,
	"loss": 5.4938,
	"step": 360
	},
	{
	"epoch": 0.3345690454124189,
	"grad_norm": 0.04533625394105911,
	"learning_rate": 0.0037478981612075126,
	"loss": 5.4625,
	"step": 361
	},
	{
	"epoch": 0.33549582947173306,
	"grad_norm": 0.0564807690680027,
	"learning_rate": 0.0037415856002284524,
	"loss": 5.4188,
	"step": 362
	},
	{
	"epoch": 0.33642261353104724,
	"grad_norm": 0.056940093636512756,
	"learning_rate": 0.003735262513980099,
	"loss": 5.4313,
	"step": 363
	},
	{
	"epoch": 0.3373493975903614,
	"grad_norm": 0.03561275824904442,
	"learning_rate": 0.003728928956065027,
	"loss": 5.4313,
	"step": 364
	},
	{
	"epoch": 0.3382761816496756,
	"grad_norm": 0.04059695452451706,
	"learning_rate": 0.003722584980174583,
	"loss": 5.425,
	"step": 365
	},
	{
	"epoch": 0.3392029657089898,
	"grad_norm": 0.05738742649555206,
	"learning_rate": 0.0037162306400884307,
	"loss": 5.45,
	"step": 366
	},
	{
	"epoch": 0.340129749768304,
	"grad_norm": 0.057356227189302444,
	"learning_rate": 0.0037098659896740906,
	"loss": 5.45,
	"step": 367
	},
	{
	"epoch": 0.3410565338276182,
	"grad_norm": 0.049577098339796066,
	"learning_rate": 0.0037034910828864904,
	"loss": 5.4625,
	"step": 368
	},
	{
	"epoch": 0.34198331788693237,
	"grad_norm": 0.03639480471611023,
	"learning_rate": 0.003697105973767503,
	"loss": 5.3875,
	"step": 369
	},
	{
	"epoch": 0.34291010194624655,
	"grad_norm": 0.0382065586745739,
	"learning_rate": 0.003690710716445488,
	"loss": 5.4437,
	"step": 370
	},
	{
	"epoch": 0.3438368860055607,
	"grad_norm": 0.06564627587795258,
	"learning_rate": 0.0036843053651348357,
	"loss": 5.4062,
	"step": 371
	},
	{
	"epoch": 0.3447636700648749,
	"grad_norm": 0.08808669447898865,
	"learning_rate": 0.003677889974135504,
	"loss": 5.4062,
	"step": 372
	},
	{
	"epoch": 0.3456904541241891,
	"grad_norm": 0.05307735130190849,
	"learning_rate": 0.0036714645978325636,
	"loss": 5.4,
	"step": 373
	},
	{
	"epoch": 0.34661723818350326,
	"grad_norm": 0.05861683562397957,
	"learning_rate": 0.0036650292906957294,
	"loss": 5.4563,
	"step": 374
	},
	{
	"epoch": 0.34754402224281744,
	"grad_norm": 0.06583855301141739,
	"learning_rate": 0.003658584107278905,
	"loss": 5.3938,
	"step": 375
	},
	{
	"epoch": 0.3484708063021316,
	"grad_norm": 0.038819484412670135,
	"learning_rate": 0.0036521291022197184,
	"loss": 5.3625,
	"step": 376
	},
	{
	"epoch": 0.3493975903614458,
	"grad_norm": 0.0668378546833992,
	"learning_rate": 0.0036456643302390564,
	"loss": 5.3688,
	"step": 377
	},
	{
	"epoch": 0.35032437442076,
	"grad_norm": 0.06500761210918427,
	"learning_rate": 0.0036391898461406043,
	"loss": 5.3688,
	"step": 378
	},
	{
	"epoch": 0.35125115848007415,
	"grad_norm": 0.06566040962934494,
	"learning_rate": 0.003632705704810379,
	"loss": 5.3875,
	"step": 379
	},
	{
	"epoch": 0.35217794253938833,
	"grad_norm": 0.04046965390443802,
	"learning_rate": 0.0036262119612162657,
	"loss": 5.3563,
	"step": 380
	},
	{
	"epoch": 0.3531047265987025,
	"grad_norm": 0.04664246365427971,
	"learning_rate": 0.0036197086704075495,
	"loss": 5.35,
	"step": 381
	},
	{
	"epoch": 0.3540315106580167,
	"grad_norm": 0.06433206051588058,
	"learning_rate": 0.0036131958875144496,
	"loss": 5.3938,
	"step": 382
	},
	{
	"epoch": 0.35495829471733087,
	"grad_norm": 0.06552179157733917,
	"learning_rate": 0.003606673667747653,
	"loss": 5.375,
	"step": 383
	},
	{
	"epoch": 0.35588507877664505,
	"grad_norm": 0.0640706792473793,
	"learning_rate": 0.0036001420663978466,
	"loss": 5.3938,
	"step": 384
	},
	{
	"epoch": 0.3568118628359592,
	"grad_norm": 0.0631820559501648,
	"learning_rate": 0.003593601138835246,
	"loss": 5.3375,
	"step": 385
	},
	{
	"epoch": 0.3577386468952734,
	"grad_norm": 0.0694313570857048,
	"learning_rate": 0.0035870509405091272,
	"loss": 5.3812,
	"step": 386
	},
	{
	"epoch": 0.3586654309545876,
	"grad_norm": 0.05696525424718857,
	"learning_rate": 0.0035804915269473598,
	"loss": 5.3563,
	"step": 387
	},
	{
	"epoch": 0.35959221501390176,
	"grad_norm": 0.041316401213407516,
	"learning_rate": 0.0035739229537559316,
	"loss": 5.3313,
	"step": 388
	},
	{
	"epoch": 0.36051899907321594,
	"grad_norm": 0.05180737376213074,
	"learning_rate": 0.003567345276618479,
	"loss": 5.3625,
	"step": 389
	},
	{
	"epoch": 0.3614457831325301,
	"grad_norm": 0.06132522597908974,
	"learning_rate": 0.003560758551295816,
	"loss": 5.3375,
	"step": 390
	},
	{
	"epoch": 0.3623725671918443,
	"grad_norm": 0.0825105607509613,
	"learning_rate": 0.00355416283362546,
	"loss": 5.3625,
	"step": 391
	},
	{
	"epoch": 0.3632993512511585,
	"grad_norm": 0.09952400624752045,
	"learning_rate": 0.0035475581795211594,
	"loss": 5.375,
	"step": 392
	},
	{
	"epoch": 0.36422613531047265,
	"grad_norm": 0.11159048974514008,
	"learning_rate": 0.0035409446449724187,
	"loss": 5.3875,
	"step": 393
	},
	{
	"epoch": 0.36515291936978683,
	"grad_norm": 0.06153342127799988,
	"learning_rate": 0.0035343222860440247,
	"loss": 5.35,
	"step": 394
	},
	{
	"epoch": 0.366079703429101,
	"grad_norm": 0.055650901049375534,
	"learning_rate": 0.0035276911588755723,
	"loss": 5.2938,
	"step": 395
	},
	{
	"epoch": 0.3670064874884152,
	"grad_norm": 0.05008624121546745,
	"learning_rate": 0.003521051319680984,
	"loss": 5.3375,
	"step": 396
	},
	{
	"epoch": 0.36793327154772937,
	"grad_norm": 0.04708503931760788,
	"learning_rate": 0.0035144028247480405,
	"loss": 5.3438,
	"step": 397
	},
	{
	"epoch": 0.36886005560704355,
	"grad_norm": 0.041482266038656235,
	"learning_rate": 0.0035077457304378964,
	"loss": 5.2875,
	"step": 398
	},
	{
	"epoch": 0.3697868396663577,
	"grad_norm": 0.056157998740673065,
	"learning_rate": 0.003501080093184607,
	"loss": 5.3,
	"step": 399
	},
	{
	"epoch": 0.3707136237256719,
	"grad_norm": 0.047049764543771744,
	"learning_rate": 0.0034944059694946494,
	"loss": 5.3,
	"step": 400
	},
	{
	"epoch": 0.3716404077849861,
	"grad_norm": 0.0425553135573864,
	"learning_rate": 0.0034877234159464412,
	"loss": 5.325,
	"step": 401
	},
	{
	"epoch": 0.37256719184430026,
	"grad_norm": 0.036974068731069565,
	"learning_rate": 0.003481032489189862,
	"loss": 5.275,
	"step": 402
	},
	{
	"epoch": 0.37349397590361444,
	"grad_norm": 0.038740385323762894,
	"learning_rate": 0.003474333245945775,
	"loss": 5.2438,
	"step": 403
	},
	{
	"epoch": 0.3744207599629286,
	"grad_norm": 0.037295546382665634,
	"learning_rate": 0.0034676257430055436,
	"loss": 5.2688,
	"step": 404
	},
	{
	"epoch": 0.3753475440222428,
	"grad_norm": 0.04598161205649376,
	"learning_rate": 0.00346091003723055,
	"loss": 5.2812,
	"step": 405
	},
	{
	"epoch": 0.376274328081557,
	"grad_norm": 0.052688293159008026,
	"learning_rate": 0.003454186185551717,
	"loss": 5.2625,
	"step": 406
	},
	{
	"epoch": 0.37720111214087115,
	"grad_norm": 0.0431685745716095,
	"learning_rate": 0.0034474542449690203,
	"loss": 5.2313,
	"step": 407
	},
	{
	"epoch": 0.37812789620018533,
	"grad_norm": 0.047002580016851425,
	"learning_rate": 0.0034407142725510075,
	"loss": 5.25,
	"step": 408
	},
	{
	"epoch": 0.3790546802594995,
	"grad_norm": 0.034174490720033646,
	"learning_rate": 0.003433966325434315,
	"loss": 5.2438,
	"step": 409
	},
	{
	"epoch": 0.3799814643188137,
	"grad_norm": 0.037927597761154175,
	"learning_rate": 0.0034272104608231825,
	"loss": 5.2562,
	"step": 410
	},
	{
	"epoch": 0.3809082483781279,
	"grad_norm": 0.040478792041540146,
	"learning_rate": 0.003420446735988969,
	"loss": 5.25,
	"step": 411
	},
	{
	"epoch": 0.3818350324374421,
	"grad_norm": 0.043072253465652466,
	"learning_rate": 0.0034136752082696664,
	"loss": 5.1688,
	"step": 412
	},
	{
	"epoch": 0.3827618164967563,
	"grad_norm": 0.04011726379394531,
	"learning_rate": 0.003406895935069414,
	"loss": 5.2375,
	"step": 413
	},
	{
	"epoch": 0.38368860055607046,
	"grad_norm": 0.056565847247838974,
	"learning_rate": 0.0034001089738580127,
	"loss": 5.2562,
	"step": 414
	},
	{
	"epoch": 0.38461538461538464,
	"grad_norm": 0.045512937009334564,
	"learning_rate": 0.0033933143821704343,
	"loss": 5.25,
	"step": 415
	},
	{
	"epoch": 0.3855421686746988,
	"grad_norm": 0.05256471410393715,
	"learning_rate": 0.003386512217606339,
	"loss": 5.2375,
	"step": 416
	},
	{
	"epoch": 0.386468952734013,
	"grad_norm": 0.055981192737817764,
	"learning_rate": 0.0033797025378295826,
	"loss": 5.2438,
	"step": 417
	},
	{
	"epoch": 0.3873957367933272,
	"grad_norm": 0.06136908382177353,
	"learning_rate": 0.003372885400567731,
	"loss": 5.2375,
	"step": 418
	},
	{
	"epoch": 0.38832252085264135,
	"grad_norm": 0.07198972254991531,
	"learning_rate": 0.003366060863611567,
	"loss": 5.225,
	"step": 419
	},
	{
	"epoch": 0.38924930491195553,
	"grad_norm": 0.05037841945886612,
	"learning_rate": 0.003359228984814605,
	"loss": 5.1937,
	"step": 420
	},
	{
	"epoch": 0.3901760889712697,
	"grad_norm": 0.0768144503235817,
	"learning_rate": 0.0033523898220925974,
	"loss": 5.1875,
	"step": 421
	},
	{
	"epoch": 0.3911028730305839,
	"grad_norm": 0.08858561515808105,
	"learning_rate": 0.003345543433423044,
	"loss": 5.2625,
	"step": 422
	},
	{
	"epoch": 0.39202965708989806,
	"grad_norm": 0.10811244696378708,
	"learning_rate": 0.0033386898768447016,
	"loss": 5.2375,
	"step": 423
	},
	{
	"epoch": 0.39295644114921224,
	"grad_norm": 0.11364039778709412,
	"learning_rate": 0.003331829210457091,
	"loss": 5.2812,
	"step": 424
	},
	{
	"epoch": 0.3938832252085264,
	"grad_norm": 0.08991072326898575,
	"learning_rate": 0.0033249614924200054,
	"loss": 5.2188,
	"step": 425
	},
	{
	"epoch": 0.3948100092678406,
	"grad_norm": 0.0634012222290039,
	"learning_rate": 0.003318086780953016,
	"loss": 5.1813,
	"step": 426
	},
	{
	"epoch": 0.3957367933271548,
	"grad_norm": 0.07201571762561798,
	"learning_rate": 0.003311205134334979,
	"loss": 5.2,
	"step": 427
	},
	{
	"epoch": 0.39666357738646896,
	"grad_norm": 0.0652351826429367,
	"learning_rate": 0.0033043166109035446,
	"loss": 5.2,
	"step": 428
	},
	{
	"epoch": 0.39759036144578314,
	"grad_norm": 0.04549067094922066,
	"learning_rate": 0.0032974212690546558,
	"loss": 5.1875,
	"step": 429
	},
	{
	"epoch": 0.3985171455050973,
	"grad_norm": 0.06608382612466812,
	"learning_rate": 0.0032905191672420596,
	"loss": 5.2313,
	"step": 430
	},
	{
	"epoch": 0.3994439295644115,
	"grad_norm": 0.04941621795296669,
	"learning_rate": 0.003283610363976809,
	"loss": 5.1375,
	"step": 431
	},
	{
	"epoch": 0.40037071362372567,
	"grad_norm": 0.05331863835453987,
	"learning_rate": 0.0032766949178267657,
	"loss": 5.1188,
	"step": 432
	},
	{
	"epoch": 0.40129749768303985,
	"grad_norm": 0.04874474182724953,
	"learning_rate": 0.003269772887416106,
	"loss": 5.1562,
	"step": 433
	},
	{
	"epoch": 0.40222428174235403,
	"grad_norm": 0.05278300493955612,
	"learning_rate": 0.0032628443314248233,
	"loss": 5.1438,
	"step": 434
	},
	{
	"epoch": 0.4031510658016682,
	"grad_norm": 0.04638415202498436,
	"learning_rate": 0.003255909308588229,
	"loss": 5.1438,
	"step": 435
	},
	{
	"epoch": 0.4040778498609824,
	"grad_norm": 0.06462404876947403,
	"learning_rate": 0.003248967877696457,
	"loss": 5.1875,
	"step": 436
	},
	{
	"epoch": 0.40500463392029656,
	"grad_norm": 0.04122454300522804,
	"learning_rate": 0.0032420200975939633,
	"loss": 5.1375,
	"step": 437
	},
	{
	"epoch": 0.40593141797961074,
	"grad_norm": 0.05846314877271652,
	"learning_rate": 0.003235066027179028,
	"loss": 5.15,
	"step": 438
	},
	{
	"epoch": 0.4068582020389249,
	"grad_norm": 0.06503690779209137,
	"learning_rate": 0.0032281057254032563,
	"loss": 5.1375,
	"step": 439
	},
	{
	"epoch": 0.4077849860982391,
	"grad_norm": 0.05073606222867966,
	"learning_rate": 0.0032211392512710773,
	"loss": 5.0875,
	"step": 440
	},
	{
	"epoch": 0.4087117701575533,
	"grad_norm": 0.06046286225318909,
	"learning_rate": 0.003214166663839247,
	"loss": 5.1188,
	"step": 441
	},
	{
	"epoch": 0.40963855421686746,
	"grad_norm": 0.03978972136974335,
	"learning_rate": 0.003207188022216343,
	"loss": 5.125,
	"step": 442
	},
	{
	"epoch": 0.41056533827618164,
	"grad_norm": 0.04392355680465698,
	"learning_rate": 0.0032002033855622683,
	"loss": 5.125,
	"step": 443
	},
	{
	"epoch": 0.4114921223354958,
	"grad_norm": 0.039449259638786316,
	"learning_rate": 0.003193212813087745,
	"loss": 5.125,
	"step": 444
	},
	{
	"epoch": 0.41241890639481,
	"grad_norm": 0.04521370679140091,
	"learning_rate": 0.003186216364053818,
	"loss": 5.0813,
	"step": 445
	},
	{
	"epoch": 0.41334569045412417,
	"grad_norm": 0.06002253293991089,
	"learning_rate": 0.003179214097771346,
	"loss": 5.0875,
	"step": 446
	},
	{
	"epoch": 0.41427247451343835,
	"grad_norm": 0.07361883670091629,
	"learning_rate": 0.0031722060736005054,
	"loss": 5.1312,
	"step": 447
	},
	{
	"epoch": 0.4151992585727525,
	"grad_norm": 0.06389747560024261,
	"learning_rate": 0.0031651923509502817,
	"loss": 5.0875,
	"step": 448
	},
	{
	"epoch": 0.4161260426320667,
	"grad_norm": 0.07580303400754929,
	"learning_rate": 0.003158172989277968,
	"loss": 5.1438,
	"step": 449
	},
	{
	"epoch": 0.4170528266913809,
	"grad_norm": 0.06630785763263702,
	"learning_rate": 0.0031511480480886623,
	"loss": 5.125,
	"step": 450
	},
	{
	"epoch": 0.41797961075069506,
	"grad_norm": 0.05100114271044731,
	"learning_rate": 0.0031441175869347604,
	"loss": 5.0563,
	"step": 451
	},
	{
	"epoch": 0.41890639481000924,
	"grad_norm": 0.044168341904878616,
	"learning_rate": 0.003137081665415453,
	"loss": 5.1063,
	"step": 452
	},
	{
	"epoch": 0.4198331788693234,
	"grad_norm": 0.036300163716077805,
	"learning_rate": 0.0031300403431762202,
	"loss": 5.0938,
	"step": 453
	},
	{
	"epoch": 0.42075996292863765,
	"grad_norm": 0.03885301947593689,
	"learning_rate": 0.003122993679908325,
	"loss": 5.075,
	"step": 454
	},
	{
	"epoch": 0.42168674698795183,
	"grad_norm": 0.047411106526851654,
	"learning_rate": 0.0031159417353483075,
	"loss": 5.0813,
	"step": 455
	},
	{
	"epoch": 0.422613531047266,
	"grad_norm": 0.04042837396264076,
	"learning_rate": 0.00310888456927748,
	"loss": 5.025,
	"step": 456
	},
	{
	"epoch": 0.4235403151065802,
	"grad_norm": 0.0529557429254055,
	"learning_rate": 0.0031018222415214176,
	"loss": 5.0938,
	"step": 457
	},
	{
	"epoch": 0.42446709916589437,
	"grad_norm": 0.03582127019762993,
	"learning_rate": 0.003094754811949453,
	"loss": 5.05,
	"step": 458
	},
	{
	"epoch": 0.42539388322520855,
	"grad_norm": 0.04631989449262619,
	"learning_rate": 0.0030876823404741693,
	"loss": 5.0625,
	"step": 459
	},
	{
	"epoch": 0.4263206672845227,
	"grad_norm": 0.05943077430129051,
	"learning_rate": 0.0030806048870508896,
	"loss": 5.0375,
	"step": 460
	},
	{
	"epoch": 0.4272474513438369,
	"grad_norm": 0.04641159623861313,
	"learning_rate": 0.003073522511677171,
	"loss": 5.0687,
	"step": 461
	},
	{
	"epoch": 0.4281742354031511,
	"grad_norm": 0.04967037960886955,
	"learning_rate": 0.0030664352743922964,
	"loss": 5.05,
	"step": 462
	},
	{
	"epoch": 0.42910101946246526,
	"grad_norm": 0.05452379956841469,
	"learning_rate": 0.0030593432352767637,
	"loss": 5.0563,
	"step": 463
	},
	{
	"epoch": 0.43002780352177944,
	"grad_norm": 0.05275031551718712,
	"learning_rate": 0.003052246454451776,
	"loss": 5.05,
	"step": 464
	},
	{
	"epoch": 0.4309545875810936,
	"grad_norm": 0.0582866407930851,
	"learning_rate": 0.0030451449920787356,
	"loss": 5.0375,
	"step": 465
	},
	{
	"epoch": 0.4318813716404078,
	"grad_norm": 0.07089794427156448,
	"learning_rate": 0.00303803890835873,
	"loss": 5.0813,
	"step": 466
	},
	{
	"epoch": 0.432808155699722,
	"grad_norm": 0.05818159505724907,
	"learning_rate": 0.0030309282635320235,
	"loss": 5.025,
	"step": 467
	},
	{
	"epoch": 0.43373493975903615,
	"grad_norm": 0.05577028915286064,
	"learning_rate": 0.0030238131178775465,
	"loss": 5.0312,
	"step": 468
	},
	{
	"epoch": 0.43466172381835033,
	"grad_norm": 0.0684211254119873,
	"learning_rate": 0.0030166935317123824,
	"loss": 5.0,
	"step": 469
	},
	{
	"epoch": 0.4355885078776645,
	"grad_norm": 0.06801000237464905,
	"learning_rate": 0.0030095695653912617,
	"loss": 5.0687,
	"step": 470
	},
	{
	"epoch": 0.4365152919369787,
	"grad_norm": 0.07714419811964035,
	"learning_rate": 0.0030024412793060442,
	"loss": 5.05,
	"step": 471
	},
	{
	"epoch": 0.43744207599629287,
	"grad_norm": 0.07117122411727905,
	"learning_rate": 0.0029953087338852086,
	"loss": 5.0375,
	"step": 472
	},
	{
	"epoch": 0.43836886005560705,
	"grad_norm": 0.05810219794511795,
	"learning_rate": 0.002988171989593344,
	"loss": 5.0125,
	"step": 473
	},
	{
	"epoch": 0.4392956441149212,
	"grad_norm": 0.0630822405219078,
	"learning_rate": 0.002981031106930632,
	"loss": 4.9938,
	"step": 474
	},
	{
	"epoch": 0.4402224281742354,
	"grad_norm": 0.09144022315740585,
	"learning_rate": 0.002973886146432338,
	"loss": 5.05,
	"step": 475
	},
	{
	"epoch": 0.4411492122335496,
	"grad_norm": 0.07084767520427704,
	"learning_rate": 0.002966737168668295,
	"loss": 5.0062,
	"step": 476
	},
	{
	"epoch": 0.44207599629286376,
	"grad_norm": 0.048369865864515305,
	"learning_rate": 0.0029595842342423936,
	"loss": 4.9313,
	"step": 477
	},
	{
	"epoch": 0.44300278035217794,
	"grad_norm": 0.05783843249082565,
	"learning_rate": 0.002952427403792063,
	"loss": 4.9375,
	"step": 478
	},
	{
	"epoch": 0.4439295644114921,
	"grad_norm": 0.05991849675774574,
	"learning_rate": 0.002945266737987763,
	"loss": 4.9688,
	"step": 479
	},
	{
	"epoch": 0.4448563484708063,
	"grad_norm": 0.05597536638379097,
	"learning_rate": 0.0029381022975324645,
	"loss": 5.0,
	"step": 480
	},
	{
	"epoch": 0.4457831325301205,
	"grad_norm": 0.0695003792643547,
	"learning_rate": 0.0029309341431611397,
	"loss": 5.0125,
	"step": 481
	},
	{
	"epoch": 0.44670991658943465,
	"grad_norm": 0.08234460651874542,
	"learning_rate": 0.002923762335640242,
	"loss": 5.0125,
	"step": 482
	},
	{
	"epoch": 0.44763670064874883,
	"grad_norm": 0.07713950425386429,
	"learning_rate": 0.002916586935767195,
	"loss": 5.0125,
	"step": 483
	},
	{
	"epoch": 0.448563484708063,
	"grad_norm": 0.07240517437458038,
	"learning_rate": 0.002909408004369877,
	"loss": 5.0125,
	"step": 484
	},
	{
	"epoch": 0.4494902687673772,
	"grad_norm": 0.0547131672501564,
	"learning_rate": 0.0029022256023061004,
	"loss": 4.9625,
	"step": 485
	},
	{
	"epoch": 0.45041705282669137,
	"grad_norm": 0.045404303818941116,
	"learning_rate": 0.0028950397904631033,
	"loss": 5.0,
	"step": 486
	},
	{
	"epoch": 0.45134383688600554,
	"grad_norm": 0.05781068280339241,
	"learning_rate": 0.002887850629757026,
	"loss": 4.9563,
	"step": 487
	},
	{
	"epoch": 0.4522706209453197,
	"grad_norm": 0.048498354852199554,
	"learning_rate": 0.0028806581811324007,
	"loss": 4.925,
	"step": 488
	},
	{
	"epoch": 0.4531974050046339,
	"grad_norm": 0.039063528180122375,
	"learning_rate": 0.002873462505561632,
	"loss": 4.9688,
	"step": 489
	},
	{
	"epoch": 0.4541241890639481,
	"grad_norm": 0.038773953914642334,
	"learning_rate": 0.002866263664044479,
	"loss": 4.9437,
	"step": 490
	},
	{
	"epoch": 0.45505097312326226,
	"grad_norm": 0.058951422572135925,
	"learning_rate": 0.002859061717607539,
	"loss": 4.95,
	"step": 491
	},
	{
	"epoch": 0.45597775718257644,
	"grad_norm": 0.058964647352695465,
	"learning_rate": 0.0028518567273037327,
	"loss": 4.9313,
	"step": 492
	},
	{
	"epoch": 0.4569045412418906,
	"grad_norm": 0.05438453331589699,
	"learning_rate": 0.002844648754211783,
	"loss": 4.95,
	"step": 493
	},
	{
	"epoch": 0.4578313253012048,
	"grad_norm": 0.04710723087191582,
	"learning_rate": 0.002837437859435698,
	"loss": 4.9062,
	"step": 494
	},
	{
	"epoch": 0.458758109360519,
	"grad_norm": 0.0365031473338604,
	"learning_rate": 0.0028302241041042566,
	"loss": 4.9688,
	"step": 495
	},
	{
	"epoch": 0.45968489341983315,
	"grad_norm": 0.03951582312583923,
	"learning_rate": 0.0028230075493704838,
	"loss": 4.9563,
	"step": 496
	},
	{
	"epoch": 0.4606116774791474,
	"grad_norm": 0.04623804986476898,
	"learning_rate": 0.0028157882564111385,
	"loss": 4.9375,
	"step": 497
	},
	{
	"epoch": 0.46153846153846156,
	"grad_norm": 0.040012940764427185,
	"learning_rate": 0.002808566286426191,
	"loss": 4.925,
	"step": 498
	},
	{
	"epoch": 0.46246524559777574,
	"grad_norm": 0.04338626191020012,
	"learning_rate": 0.0028013417006383075,
	"loss": 4.95,
	"step": 499
	},
	{
	"epoch": 0.4633920296570899,
	"grad_norm": 0.0410669781267643,
	"learning_rate": 0.0027941145602923267,
	"loss": 4.9125,
	"step": 500
	},
	{
	"epoch": 0.4643188137164041,
	"grad_norm": 0.03322385624051094,
	"learning_rate": 0.0027868849266547437,
	"loss": 4.8875,
	"step": 501
	},
	{
	"epoch": 0.4652455977757183,
	"grad_norm": 0.036676980555057526,
	"learning_rate": 0.00277965286101319,
	"loss": 4.95,
	"step": 502
	},
	{
	"epoch": 0.46617238183503246,
	"grad_norm": 0.044222161173820496,
	"learning_rate": 0.0027724184246759147,
	"loss": 4.9125,
	"step": 503
	},
	{
	"epoch": 0.46709916589434664,
	"grad_norm": 0.06456394493579865,
	"learning_rate": 0.002765181678971263,
	"loss": 4.9062,
	"step": 504
	},
	{
	"epoch": 0.4680259499536608,
	"grad_norm": 0.0746362954378128,
	"learning_rate": 0.0027579426852471574,
	"loss": 4.8875,
	"step": 505
	},
	{
	"epoch": 0.468952734012975,
	"grad_norm": 0.08617927134037018,
	"learning_rate": 0.0027507015048705776,
	"loss": 4.8938,
	"step": 506
	},
	{
	"epoch": 0.46987951807228917,
	"grad_norm": 0.07306444644927979,
	"learning_rate": 0.00274345819922704,
	"loss": 4.9,
	"step": 507
	},
	{
	"epoch": 0.47080630213160335,
	"grad_norm": 0.04307616129517555,
	"learning_rate": 0.0027362128297200783,
	"loss": 4.9062,
	"step": 508
	},
	{
	"epoch": 0.4717330861909175,
	"grad_norm": 0.06619231402873993,
	"learning_rate": 0.0027289654577707214,
	"loss": 4.8938,
	"step": 509
	},
	{
	"epoch": 0.4726598702502317,
	"grad_norm": 0.07649318128824234,
	"learning_rate": 0.002721716144816973,
	"loss": 4.8938,
	"step": 510
	},
	{
	"epoch": 0.4735866543095459,
	"grad_norm": 0.0643559917807579,
	"learning_rate": 0.002714464952313292,
	"loss": 4.825,
	"step": 511
	},
	{
	"epoch": 0.47451343836886006,
	"grad_norm": 0.07730736583471298,
	"learning_rate": 0.0027072119417300713,
	"loss": 4.8812,
	"step": 512
	},
	{
	"epoch": 0.47544022242817424,
	"grad_norm": 0.08054769784212112,
	"learning_rate": 0.002699957174553115,
	"loss": 4.9062,
	"step": 513
	},
	{
	"epoch": 0.4763670064874884,
	"grad_norm": 0.06001604348421097,
	"learning_rate": 0.002692700712283119,
	"loss": 4.8938,
	"step": 514
	},
	{
	"epoch": 0.4772937905468026,
	"grad_norm": 0.04911705106496811,
	"learning_rate": 0.0026854426164351483,
	"loss": 4.8625,
	"step": 515
	},
	{
	"epoch": 0.4782205746061168,
	"grad_norm": 0.04762764275074005,
	"learning_rate": 0.002678182948538117,
	"loss": 4.8375,
	"step": 516
	},
	{
	"epoch": 0.47914735866543096,
	"grad_norm": 0.045550934970378876,
	"learning_rate": 0.002670921770134266,
	"loss": 4.8938,
	"step": 517
	},
	{
	"epoch": 0.48007414272474513,
	"grad_norm": 0.057238396257162094,
	"learning_rate": 0.00266365914277864,
	"loss": 4.8875,
	"step": 518
	},
	{
	"epoch": 0.4810009267840593,
	"grad_norm": 0.053200677037239075,
	"learning_rate": 0.002656395128038568,
	"loss": 4.8438,
	"step": 519
	},
	{
	"epoch": 0.4819277108433735,
	"grad_norm": 0.047585804015398026,
	"learning_rate": 0.00264912978749314,
	"loss": 4.8063,
	"step": 520
	},
	{
	"epoch": 0.48285449490268767,
	"grad_norm": 0.05673938989639282,
	"learning_rate": 0.0026418631827326857,
	"loss": 4.8875,
	"step": 521
	},
	{
	"epoch": 0.48378127896200185,
	"grad_norm": 0.05663244426250458,
	"learning_rate": 0.0026345953753582497,
	"loss": 4.9,
	"step": 522
	},
	{
	"epoch": 0.484708063021316,
	"grad_norm": 0.04882281646132469,
	"learning_rate": 0.0026273264269810743,
	"loss": 4.8313,
	"step": 523
	},
	{
	"epoch": 0.4856348470806302,
	"grad_norm": 0.0483589768409729,
	"learning_rate": 0.0026200563992220733,
	"loss": 4.8438,
	"step": 524
	},
	{
	"epoch": 0.4865616311399444,
	"grad_norm": 0.05800378695130348,
	"learning_rate": 0.00261278535371131,
	"loss": 4.8125,
	"step": 525
	},
	{
	"epoch": 0.48748841519925856,
	"grad_norm": 0.04723868519067764,
	"learning_rate": 0.002605513352087477,
	"loss": 4.7812,
	"step": 526
	},
	{
	"epoch": 0.48841519925857274,
	"grad_norm": 0.051099590957164764,
	"learning_rate": 0.0025982404559973704,
	"loss": 4.8125,
	"step": 527
	},
	{
	"epoch": 0.4893419833178869,
	"grad_norm": 0.05315464735031128,
	"learning_rate": 0.00259096672709537,
	"loss": 4.775,
	"step": 528
	},
	{
	"epoch": 0.4902687673772011,
	"grad_norm": 0.05382310971617699,
	"learning_rate": 0.002583692227042916,
	"loss": 4.7812,
	"step": 529
	},
	{
	"epoch": 0.4911955514365153,
	"grad_norm": 0.05870763957500458,
	"learning_rate": 0.002576417017507983,
	"loss": 4.8625,
	"step": 530
	},
	{
	"epoch": 0.49212233549582945,
	"grad_norm": 0.03859548643231392,
	"learning_rate": 0.0025691411601645657,
	"loss": 4.7938,
	"step": 531
	},
	{
	"epoch": 0.49304911955514363,
	"grad_norm": 0.05789710581302643,
	"learning_rate": 0.002561864716692145,
	"loss": 4.8438,
	"step": 532
	},
	{
	"epoch": 0.4939759036144578,
	"grad_norm": 0.04865971952676773,
	"learning_rate": 0.0025545877487751735,
	"loss": 4.7812,
	"step": 533
	},
	{
	"epoch": 0.494902687673772,
	"grad_norm": 0.05406877398490906,
	"learning_rate": 0.0025473103181025475,
	"loss": 4.8313,
	"step": 534
	},
	{
	"epoch": 0.49582947173308617,
	"grad_norm": 0.051227353513240814,
	"learning_rate": 0.002540032486367089,
	"loss": 4.7562,
	"step": 535
	},
	{
	"epoch": 0.49675625579240035,
	"grad_norm": 0.05123087763786316,
	"learning_rate": 0.002532754315265018,
	"loss": 4.8187,
	"step": 536
	},
	{
	"epoch": 0.4976830398517145,
	"grad_norm": 0.04913110285997391,
	"learning_rate": 0.0025254758664954306,
	"loss": 4.8125,
	"step": 537
	},
	{
	"epoch": 0.4986098239110287,
	"grad_norm": 0.04741792008280754,
	"learning_rate": 0.0025181972017597806,
	"loss": 4.7875,
	"step": 538
	},
	{
	"epoch": 0.4995366079703429,
	"grad_norm": 0.055246248841285706,
	"learning_rate": 0.0025109183827613474,
	"loss": 4.8063,
	"step": 539
	},
	{
	"epoch": 0.5004633920296571,
	"grad_norm": 0.037354640662670135,
	"learning_rate": 0.002503639471204722,
	"loss": 4.75,
	"step": 540
	},
	{
	"epoch": 0.5013901760889713,
	"grad_norm": 0.04416719824075699,
	"learning_rate": 0.002496360528795279,
	"loss": 4.7812,
	"step": 541
	},
	{
	"epoch": 0.5023169601482854,
	"grad_norm": 0.04072472080588341,
	"learning_rate": 0.0024890816172386527,
	"loss": 4.75,
	"step": 542
	},
	{
	"epoch": 0.5032437442075997,
	"grad_norm": 0.048542048782110214,
	"learning_rate": 0.002481802798240221,
	"loss": 4.7688,
	"step": 543
	},
	{
	"epoch": 0.5041705282669138,
	"grad_norm": 0.05309506133198738,
	"learning_rate": 0.0024745241335045695,
	"loss": 4.775,
	"step": 544
	},
	{
	"epoch": 0.505097312326228,
	"grad_norm": 0.037804365158081055,
	"learning_rate": 0.0024672456847349834,
	"loss": 4.75,
	"step": 545
	},
	{
	"epoch": 0.5060240963855421,
	"grad_norm": 0.045449260622262955,
	"learning_rate": 0.0024599675136329113,
	"loss": 4.7625,
	"step": 546
	},
	{
	"epoch": 0.5069508804448564,
	"grad_norm": 0.046078864485025406,
	"learning_rate": 0.002452689681897453,
	"loss": 4.7688,
	"step": 547
	},
	{
	"epoch": 0.5078776645041705,
	"grad_norm": 0.04518760368227959,
	"learning_rate": 0.002445412251224827,
	"loss": 4.7375,
	"step": 548
	},
	{
	"epoch": 0.5088044485634847,
	"grad_norm": 0.03942165523767471,
	"learning_rate": 0.002438135283307855,
	"loss": 4.75,
	"step": 549
	},
	{
	"epoch": 0.5097312326227988,
	"grad_norm": 0.045819394290447235,
	"learning_rate": 0.0024308588398354344,
	"loss": 4.7313,
	"step": 550
	},
	{
	"epoch": 0.5106580166821131,
	"grad_norm": 0.06149514392018318,
	"learning_rate": 0.002423582982492017,
	"loss": 4.7313,
	"step": 551
	},
	{
	"epoch": 0.5115848007414272,
	"grad_norm": 0.06028604507446289,
	"learning_rate": 0.002416307772957085,
	"loss": 4.7438,
	"step": 552
	},
	{
	"epoch": 0.5125115848007414,
	"grad_norm": 0.043709807097911835,
	"learning_rate": 0.002409033272904631,
	"loss": 4.7625,
	"step": 553
	},
	{
	"epoch": 0.5134383688600556,
	"grad_norm": 0.042988523840904236,
	"learning_rate": 0.00240175954400263,
	"loss": 4.7562,
	"step": 554
	},
	{
	"epoch": 0.5143651529193698,
	"grad_norm": 0.053336091339588165,
	"learning_rate": 0.002394486647912524,
	"loss": 4.6875,
	"step": 555
	},
	{
	"epoch": 0.5152919369786839,
	"grad_norm": 0.061223022639751434,
	"learning_rate": 0.00238721464628869,
	"loss": 4.725,
	"step": 556
	},
	{
	"epoch": 0.5162187210379982,
	"grad_norm": 0.0704147219657898,
	"learning_rate": 0.0023799436007779277,
	"loss": 4.6813,
	"step": 557
	},
	{
	"epoch": 0.5171455050973123,
	"grad_norm": 0.06097421795129776,
	"learning_rate": 0.002372673573018926,
	"loss": 4.7625,
	"step": 558
	},
	{
	"epoch": 0.5180722891566265,
	"grad_norm": 0.04165394976735115,
	"learning_rate": 0.0023654046246417513,
	"loss": 4.7125,
	"step": 559
	},
	{
	"epoch": 0.5189990732159406,
	"grad_norm": 0.040571633726358414,
	"learning_rate": 0.0023581368172673153,
	"loss": 4.7625,
	"step": 560
	},
	{
	"epoch": 0.5199258572752549,
	"grad_norm": 0.04544011875987053,
	"learning_rate": 0.0023508702125068608,
	"loss": 4.7625,
	"step": 561
	},
	{
	"epoch": 0.5208526413345691,
	"grad_norm": 0.04342002421617508,
	"learning_rate": 0.0023436048719614323,
	"loss": 4.7313,
	"step": 562
	},
	{
	"epoch": 0.5217794253938832,
	"grad_norm": 0.041976965963840485,
	"learning_rate": 0.00233634085722136,
	"loss": 4.7313,
	"step": 563
	},
	{
	"epoch": 0.5227062094531975,
	"grad_norm": 0.0512029230594635,
	"learning_rate": 0.0023290782298657346,
	"loss": 4.6937,
	"step": 564
	},
	{
	"epoch": 0.5236329935125116,
	"grad_norm": 0.06346142292022705,
	"learning_rate": 0.002321817051461883,
	"loss": 4.675,
	"step": 565
	},
	{
	"epoch": 0.5245597775718258,
	"grad_norm": 0.05272765830159187,
	"learning_rate": 0.002314557383564852,
	"loss": 4.75,
	"step": 566
	},
	{
	"epoch": 0.5254865616311399,
	"grad_norm": 0.038122035562992096,
	"learning_rate": 0.002307299287716881,
	"loss": 4.7125,
	"step": 567
	},
	{
	"epoch": 0.5264133456904542,
	"grad_norm": 0.042520515620708466,
	"learning_rate": 0.0023000428254468853,
	"loss": 4.6875,
	"step": 568
	},
	{
	"epoch": 0.5273401297497683,
	"grad_norm": 0.05327059328556061,
	"learning_rate": 0.0022927880582699284,
	"loss": 4.7438,
	"step": 569
	},
	{
	"epoch": 0.5282669138090825,
	"grad_norm": 0.10062926262617111,
	"learning_rate": 0.0022855350476867083,
	"loss": 5.4125,
	"step": 570
	},
	{
	"epoch": 0.5291936978683967,
	"grad_norm": 0.19139476120471954,
	"learning_rate": 0.002278283855183027,
	"loss": 5.9375,
	"step": 571
	},
	{
	"epoch": 0.5301204819277109,
	"grad_norm": 0.30302053689956665,
	"learning_rate": 0.002271034542229279,
	"loss": 6.1438,
	"step": 572
	},
	{
	"epoch": 0.531047265987025,
	"grad_norm": 0.3599642515182495,
	"learning_rate": 0.002263787170279922,
	"loss": 6.125,
	"step": 573
	},
	{
	"epoch": 0.5319740500463392,
	"grad_norm": 0.2241661548614502,
	"learning_rate": 0.00225654180077296,
	"loss": 5.9938,
	"step": 574
	},
	{
	"epoch": 0.5329008341056534,
	"grad_norm": 0.10801433026790619,
	"learning_rate": 0.0022492984951294225,
	"loss": 5.7938,
	"step": 575
	},
	{
	"epoch": 0.5338276181649676,
	"grad_norm": 0.11764154583215714,
	"learning_rate": 0.0022420573147528436,
	"loss": 5.7812,
	"step": 576
	},
	{
	"epoch": 0.5347544022242817,
	"grad_norm": 0.08790837973356247,
	"learning_rate": 0.002234818321028737,
	"loss": 5.7375,
	"step": 577
	},
	{
	"epoch": 0.535681186283596,
	"grad_norm": 0.06823479384183884,
	"learning_rate": 0.002227581575324086,
	"loss": 5.6438,
	"step": 578
	},
	{
	"epoch": 0.5366079703429101,
	"grad_norm": 0.0775035172700882,
	"learning_rate": 0.00222034713898681,
	"loss": 5.6375,
	"step": 579
	},
	{
	"epoch": 0.5375347544022243,
	"grad_norm": 0.05802862346172333,
	"learning_rate": 0.0022131150733452573,
	"loss": 5.5687,
	"step": 580
	},
	{
	"epoch": 0.5384615384615384,
	"grad_norm": 0.058500614017248154,
	"learning_rate": 0.0022058854397076734,
	"loss": 5.5438,
	"step": 581
	},
	{
	"epoch": 0.5393883225208527,
	"grad_norm": 0.055464208126068115,
	"learning_rate": 0.0021986582993616926,
	"loss": 5.5,
	"step": 582
	},
	{
	"epoch": 0.5403151065801668,
	"grad_norm": 0.041989766061306,
	"learning_rate": 0.0021914337135738086,
	"loss": 5.4563,
	"step": 583
	},
	{
	"epoch": 0.541241890639481,
	"grad_norm": 0.05176004022359848,
	"learning_rate": 0.0021842117435888625,
	"loss": 5.45,
	"step": 584
	},
	{
	"epoch": 0.5421686746987951,
	"grad_norm": 0.058837149292230606,
	"learning_rate": 0.0021769924506295168,
	"loss": 5.4563,
	"step": 585
	},
	{
	"epoch": 0.5430954587581094,
	"grad_norm": 0.04392680153250694,
	"learning_rate": 0.002169775895895745,
	"loss": 5.4062,
	"step": 586
	},
	{
	"epoch": 0.5440222428174235,
	"grad_norm": 0.05528188496828079,
	"learning_rate": 0.002162562140564302,
	"loss": 5.375,
	"step": 587
	},
	{
	"epoch": 0.5449490268767377,
	"grad_norm": 0.04781576246023178,
	"learning_rate": 0.002155351245788218,
	"loss": 5.3938,
	"step": 588
	},
	{
	"epoch": 0.5458758109360519,
	"grad_norm": 0.0435294434428215,
	"learning_rate": 0.002148143272696268,
	"loss": 5.3,
	"step": 589
	},
	{
	"epoch": 0.5468025949953661,
	"grad_norm": 0.04509313404560089,
	"learning_rate": 0.002140938282392461,
	"loss": 5.35,
	"step": 590
	},
	{
	"epoch": 0.5477293790546802,
	"grad_norm": 0.03679104149341583,
	"learning_rate": 0.002133736335955522,
	"loss": 5.2688,
	"step": 591
	},
	{
	"epoch": 0.5486561631139945,
	"grad_norm": 0.05090980976819992,
	"learning_rate": 0.0021265374944383682,
	"loss": 5.2812,
	"step": 592
	},
	{
	"epoch": 0.5495829471733086,
	"grad_norm": 0.03438156098127365,
	"learning_rate": 0.0021193418188675994,
	"loss": 5.2688,
	"step": 593
	},
	{
	"epoch": 0.5505097312326228,
	"grad_norm": 0.03302653878927231,
	"learning_rate": 0.002112149370242975,
	"loss": 5.25,
	"step": 594
	},
	{
	"epoch": 0.5514365152919369,
	"grad_norm": 0.039244670420885086,
	"learning_rate": 0.0021049602095368973,
	"loss": 5.2063,
	"step": 595
	},
	{
	"epoch": 0.5523632993512512,
	"grad_norm": 0.03585642948746681,
	"learning_rate": 0.0020977743976939005,
	"loss": 5.275,
	"step": 596
	},
	{
	"epoch": 0.5532900834105653,
	"grad_norm": 0.03510696068406105,
	"learning_rate": 0.0020905919956301236,
	"loss": 5.2438,
	"step": 597
	},
	{
	"epoch": 0.5542168674698795,
	"grad_norm": 0.03569590672850609,
	"learning_rate": 0.0020834130642328054,
	"loss": 5.175,
	"step": 598
	},
	{
	"epoch": 0.5551436515291936,
	"grad_norm": 0.030981766059994698,
	"learning_rate": 0.0020762376643597585,
	"loss": 5.2,
	"step": 599
	},
	{
	"epoch": 0.5560704355885079,
	"grad_norm": 0.04017426446080208,
	"learning_rate": 0.0020690658568388613,
	"loss": 5.15,
	"step": 600
	},
	{
	"epoch": 0.556997219647822,
	"grad_norm": 0.039772696793079376,
	"learning_rate": 0.0020618977024675356,
	"loss": 5.125,
	"step": 601
	},
	{
	"epoch": 0.5579240037071362,
	"grad_norm": 0.043551571667194366,
	"learning_rate": 0.002054733262012238,
	"loss": 5.1438,
	"step": 602
	},
	{
	"epoch": 0.5588507877664504,
	"grad_norm": 0.03988911956548691,
	"learning_rate": 0.0020475725962079373,
	"loss": 5.1688,
	"step": 603
	},
	{
	"epoch": 0.5597775718257646,
	"grad_norm": 0.03845544904470444,
	"learning_rate": 0.0020404157657576073,
	"loss": 5.1375,
	"step": 604
	},
	{
	"epoch": 0.5607043558850788,
	"grad_norm": 0.048617441207170486,
	"learning_rate": 0.002033262831331705,
	"loss": 5.15,
	"step": 605
	},
	{
	"epoch": 0.561631139944393,
	"grad_norm": 0.03950534015893936,
	"learning_rate": 0.0020261138535676614,
	"loss": 5.1312,
	"step": 606
	},
	{
	"epoch": 0.5625579240037072,
	"grad_norm": 0.04601586237549782,
	"learning_rate": 0.002018968893069368,
	"loss": 5.0687,
	"step": 607
	},
	{
	"epoch": 0.5634847080630213,
	"grad_norm": 0.048377152532339096,
	"learning_rate": 0.002011828010406656,
	"loss": 5.0625,
	"step": 608
	},
	{
	"epoch": 0.5644114921223355,
	"grad_norm": 0.04253297671675682,
	"learning_rate": 0.0020046912661147915,
	"loss": 5.1,
	"step": 609
	},
	{
	"epoch": 0.5653382761816497,
	"grad_norm": 0.04242146387696266,
	"learning_rate": 0.001997558720693956,
	"loss": 5.0813,
	"step": 610
	},
	{
	"epoch": 0.5662650602409639,
	"grad_norm": 0.042660947889089584,
	"learning_rate": 0.001990430434608739,
	"loss": 5.1188,
	"step": 611
	},
	{
	"epoch": 0.567191844300278,
	"grad_norm": 0.03864769637584686,
	"learning_rate": 0.0019833064682876177,
	"loss": 5.0625,
	"step": 612
	},
	{
	"epoch": 0.5681186283595923,
	"grad_norm": 0.03322991728782654,
	"learning_rate": 0.0019761868821224545,
	"loss": 5.0375,
	"step": 613
	},
	{
	"epoch": 0.5690454124189064,
	"grad_norm": 0.032155055552721024,
	"learning_rate": 0.001969071736467977,
	"loss": 5.0687,
	"step": 614
	},
	{
	"epoch": 0.5699721964782206,
	"grad_norm": 0.04553236439824104,
	"learning_rate": 0.0019619610916412704,
	"loss": 5.1,
	"step": 615
	},
	{
	"epoch": 0.5708989805375347,
	"grad_norm": 0.039135731756687164,
	"learning_rate": 0.001954855007921265,
	"loss": 5.025,
	"step": 616
	},
	{
	"epoch": 0.571825764596849,
	"grad_norm": 0.03503022342920303,
	"learning_rate": 0.0019477535455482242,
	"loss": 5.0312,
	"step": 617
	},
	{
	"epoch": 0.5727525486561631,
	"grad_norm": 0.02648424543440342,
	"learning_rate": 0.0019406567647232366,
	"loss": 5.0125,
	"step": 618
	},
	{
	"epoch": 0.5736793327154773,
	"grad_norm": 0.030889399349689484,
	"learning_rate": 0.0019335647256077037,
	"loss": 5.0312,
	"step": 619
	},
	{
	"epoch": 0.5746061167747915,
	"grad_norm": 0.028193505480885506,
	"learning_rate": 0.0019264774883228286,
	"loss": 5.0563,
	"step": 620
	},
	{
	"epoch": 0.5755329008341057,
	"grad_norm": 0.039721377193927765,
	"learning_rate": 0.0019193951129491112,
	"loss": 4.9563,
	"step": 621
	},
	{
	"epoch": 0.5764596848934198,
	"grad_norm": 0.0343133881688118,
	"learning_rate": 0.0019123176595258306,
	"loss": 5.0,
	"step": 622
	},
	{
	"epoch": 0.577386468952734,
	"grad_norm": 0.03925079479813576,
	"learning_rate": 0.0019052451880505472,
	"loss": 5.05,
	"step": 623
	},
	{
	"epoch": 0.5783132530120482,
	"grad_norm": 0.061298515647649765,
	"learning_rate": 0.0018981777584785823,
	"loss": 5.0,
	"step": 624
	},
	{
	"epoch": 0.5792400370713624,
	"grad_norm": 0.045300450176000595,
	"learning_rate": 0.0018911154307225204,
	"loss": 4.975,
	"step": 625
	},
	{
	"epoch": 0.5801668211306765,
	"grad_norm": 0.03320182114839554,
	"learning_rate": 0.0018840582646516924,
	"loss": 4.9938,
	"step": 626
	},
	{
	"epoch": 0.5810936051899908,
	"grad_norm": 0.04246627911925316,
	"learning_rate": 0.0018770063200916757,
	"loss": 4.9625,
	"step": 627
	},
	{
	"epoch": 0.5820203892493049,
	"grad_norm": 0.04181812331080437,
	"learning_rate": 0.0018699596568237799,
	"loss": 4.9875,
	"step": 628
	},
	{
	"epoch": 0.5829471733086191,
	"grad_norm": 0.038650691509246826,
	"learning_rate": 0.0018629183345845477,
	"loss": 4.9625,
	"step": 629
	},
	{
	"epoch": 0.5838739573679332,
	"grad_norm": 0.03198286145925522,
	"learning_rate": 0.0018558824130652399,
	"loss": 4.9125,
	"step": 630
	},
	{
	"epoch": 0.5848007414272475,
	"grad_norm": 0.030322790145874023,
	"learning_rate": 0.0018488519519113387,
	"loss": 4.9563,
	"step": 631
	},
	{
	"epoch": 0.5857275254865616,
	"grad_norm": 0.03637656942009926,
	"learning_rate": 0.0018418270107220325,
	"loss": 4.9625,
	"step": 632
	},
	{
	"epoch": 0.5866543095458758,
	"grad_norm": 0.03812320902943611,
	"learning_rate": 0.001834807649049719,
	"loss": 4.9062,
	"step": 633
	},
	{
	"epoch": 0.58758109360519,
	"grad_norm": 0.038305167108774185,
	"learning_rate": 0.001827793926399495,
	"loss": 4.9062,
	"step": 634
	},
	{
	"epoch": 0.5885078776645042,
	"grad_norm": 0.03868838772177696,
	"learning_rate": 0.0018207859022286543,
	"loss": 4.95,
	"step": 635
	},
	{
	"epoch": 0.5894346617238183,
	"grad_norm": 0.05012492835521698,
	"learning_rate": 0.0018137836359461822,
	"loss": 4.9125,
	"step": 636
	},
	{
	"epoch": 0.5903614457831325,
	"grad_norm": 0.04664972424507141,
	"learning_rate": 0.0018067871869122559,
	"loss": 4.9188,
	"step": 637
	},
	{
	"epoch": 0.5912882298424467,
	"grad_norm": 0.03777710720896721,
	"learning_rate": 0.0017997966144377327,
	"loss": 4.9,
	"step": 638
	},
	{
	"epoch": 0.5922150139017609,
	"grad_norm": 0.04331712797284126,
	"learning_rate": 0.0017928119777836581,
	"loss": 4.9062,
	"step": 639
	},
	{
	"epoch": 0.593141797961075,
	"grad_norm": 0.04469927027821541,
	"learning_rate": 0.0017858333361607537,
	"loss": 4.9188,
	"step": 640
	},
	{
	"epoch": 0.5940685820203893,
	"grad_norm": 0.02936607599258423,
	"learning_rate": 0.0017788607487289232,
	"loss": 4.9188,
	"step": 641
	},
	{
	"epoch": 0.5949953660797034,
	"grad_norm": 0.05327693372964859,
	"learning_rate": 0.0017718942745967442,
	"loss": 4.9437,
	"step": 642
	},
	{
	"epoch": 0.5959221501390176,
	"grad_norm": 0.04499313235282898,
	"learning_rate": 0.0017649339728209726,
	"loss": 4.9125,
	"step": 643
	},
	{
	"epoch": 0.5968489341983317,
	"grad_norm": 0.03915273770689964,
	"learning_rate": 0.0017579799024060366,
	"loss": 4.9437,
	"step": 644
	},
	{
	"epoch": 0.597775718257646,
	"grad_norm": 0.04526703059673309,
	"learning_rate": 0.0017510321223035436,
	"loss": 4.9062,
	"step": 645
	},
	{
	"epoch": 0.5987025023169601,
	"grad_norm": 0.05192454531788826,
	"learning_rate": 0.001744090691411771,
	"loss": 4.8438,
	"step": 646
	},
	{
	"epoch": 0.5996292863762743,
	"grad_norm": 0.06659810990095139,
	"learning_rate": 0.0017371556685751776,
	"loss": 4.875,
	"step": 647
	},
	{
	"epoch": 0.6005560704355886,
	"grad_norm": 0.026750769466161728,
	"learning_rate": 0.0017302271125838944,
	"loss": 4.8688,
	"step": 648
	},
	{
	"epoch": 0.6014828544949027,
	"grad_norm": 0.05911999195814133,
	"learning_rate": 0.0017233050821732344,
	"loss": 4.9125,
	"step": 649
	},
	{
	"epoch": 0.6024096385542169,
	"grad_norm": 0.046929407864809036,
	"learning_rate": 0.0017163896360231918,
	"loss": 4.8438,
	"step": 650
	},
	{
	"epoch": 0.603336422613531,
	"grad_norm": 0.0461881086230278,
	"learning_rate": 0.00170948083275794,
	"loss": 4.8812,
	"step": 651
	},
	{
	"epoch": 0.6042632066728453,
	"grad_norm": 0.041216105222702026,
	"learning_rate": 0.0017025787309453443,
	"loss": 4.8625,
	"step": 652
	},
	{
	"epoch": 0.6051899907321594,
	"grad_norm": 0.047575026750564575,
	"learning_rate": 0.001695683389096455,
	"loss": 4.8625,
	"step": 653
	},
	{
	"epoch": 0.6061167747914736,
	"grad_norm": 0.039946090430021286,
	"learning_rate": 0.001688794865665021,
	"loss": 4.8688,
	"step": 654
	},
	{
	"epoch": 0.6070435588507878,
	"grad_norm": 0.03767408803105354,
	"learning_rate": 0.0016819132190469843,
	"loss": 4.8563,
	"step": 655
	},
	{
	"epoch": 0.607970342910102,
	"grad_norm": 0.046980541199445724,
	"learning_rate": 0.0016750385075799952,
	"loss": 4.8438,
	"step": 656
	},
	{
	"epoch": 0.6088971269694161,
	"grad_norm": 0.04574093222618103,
	"learning_rate": 0.0016681707895429094,
	"loss": 4.8563,
	"step": 657
	},
	{
	"epoch": 0.6098239110287303,
	"grad_norm": 0.049847353249788284,
	"learning_rate": 0.0016613101231552987,
	"loss": 4.8563,
	"step": 658
	},
	{
	"epoch": 0.6107506950880445,
	"grad_norm": 0.04778432473540306,
	"learning_rate": 0.0016544565665769558,
	"loss": 4.8625,
	"step": 659
	},
	{
	"epoch": 0.6116774791473587,
	"grad_norm": 0.042641252279281616,
	"learning_rate": 0.001647610177907403,
	"loss": 4.875,
	"step": 660
	},
	{
	"epoch": 0.6126042632066728,
	"grad_norm": 0.03789043426513672,
	"learning_rate": 0.001640771015185395,
	"loss": 4.8563,
	"step": 661
	},
	{
	"epoch": 0.6135310472659871,
	"grad_norm": 0.0583447702229023,
	"learning_rate": 0.0016339391363884334,
	"loss": 4.7875,
	"step": 662
	},
	{
	"epoch": 0.6144578313253012,
	"grad_norm": 0.047329407185316086,
	"learning_rate": 0.0016271145994322693,
	"loss": 4.8313,
	"step": 663
	},
	{
	"epoch": 0.6153846153846154,
	"grad_norm": 0.051290351897478104,
	"learning_rate": 0.0016202974621704175,
	"loss": 4.8438,
	"step": 664
	},
	{
	"epoch": 0.6163113994439295,
	"grad_norm": 0.04638203606009483,
	"learning_rate": 0.0016134877823936607,
	"loss": 4.8187,
	"step": 665
	},
	{
	"epoch": 0.6172381835032438,
	"grad_norm": 0.0436415858566761,
	"learning_rate": 0.0016066856178295658,
	"loss": 4.8063,
	"step": 666
	},
	{
	"epoch": 0.6181649675625579,
	"grad_norm": 0.05077355355024338,
	"learning_rate": 0.0015998910261419874,
	"loss": 4.8063,
	"step": 667
	},
	{
	"epoch": 0.6190917516218721,
	"grad_norm": 0.05078209191560745,
	"learning_rate": 0.0015931040649305862,
	"loss": 4.8688,
	"step": 668
	},
	{
	"epoch": 0.6200185356811863,
	"grad_norm": 0.06357160210609436,
	"learning_rate": 0.0015863247917303337,
	"loss": 4.8313,
	"step": 669
	},
	{
	"epoch": 0.6209453197405005,
	"grad_norm": 0.03996184095740318,
	"learning_rate": 0.0015795532640110316,
	"loss": 4.8688,
	"step": 670
	},
	{
	"epoch": 0.6218721037998146,
	"grad_norm": 0.05953163281083107,
	"learning_rate": 0.0015727895391768176,
	"loss": 4.7938,
	"step": 671
	},
	{
	"epoch": 0.6227988878591288,
	"grad_norm": 0.05362982302904129,
	"learning_rate": 0.0015660336745656862,
	"loss": 4.7875,
	"step": 672
	},
	{
	"epoch": 0.623725671918443,
	"grad_norm": 0.03395141288638115,
	"learning_rate": 0.001559285727448993,
	"loss": 4.7875,
	"step": 673
	},
	{
	"epoch": 0.6246524559777572,
	"grad_norm": 0.06038745865225792,
	"learning_rate": 0.0015525457550309802,
	"loss": 4.775,
	"step": 674
	},
	{
	"epoch": 0.6255792400370713,
	"grad_norm": 0.04683006927371025,
	"learning_rate": 0.0015458138144482832,
	"loss": 4.8625,
	"step": 675
	},
	{
	"epoch": 0.6265060240963856,
	"grad_norm": 0.04466160014271736,
	"learning_rate": 0.0015390899627694505,
	"loss": 4.7812,
	"step": 676
	},
	{
	"epoch": 0.6274328081556997,
	"grad_norm": 0.054469116032123566,
	"learning_rate": 0.0015323742569944572,
	"loss": 4.775,
	"step": 677
	},
	{
	"epoch": 0.6283595922150139,
	"grad_norm": 0.05092649534344673,
	"learning_rate": 0.001525666754054226,
	"loss": 4.775,
	"step": 678
	},
	{
	"epoch": 0.629286376274328,
	"grad_norm": 0.04114770516753197,
	"learning_rate": 0.0015189675108101385,
	"loss": 4.8063,
	"step": 679
	},
	{
	"epoch": 0.6302131603336423,
	"grad_norm": 0.04045185446739197,
	"learning_rate": 0.0015122765840535602,
	"loss": 4.8063,
	"step": 680
	},
	{
	"epoch": 0.6311399443929564,
	"grad_norm": 0.04068306088447571,
	"learning_rate": 0.0015055940305053511,
	"loss": 4.7688,
	"step": 681
	},
	{
	"epoch": 0.6320667284522706,
	"grad_norm": 0.048991914838552475,
	"learning_rate": 0.0014989199068153936,
	"loss": 4.7812,
	"step": 682
	},
	{
	"epoch": 0.6329935125115848,
	"grad_norm": 0.04630220681428909,
	"learning_rate": 0.0014922542695621041,
	"loss": 4.8313,
	"step": 683
	},
	{
	"epoch": 0.633920296570899,
	"grad_norm": 0.05090312659740448,
	"learning_rate": 0.0014855971752519607,
	"loss": 4.75,
	"step": 684
	},
	{
	"epoch": 0.6348470806302131,
	"grad_norm": 0.03676120191812515,
	"learning_rate": 0.001478948680319016,
	"loss": 4.775,
	"step": 685
	},
	{
	"epoch": 0.6357738646895273,
	"grad_norm": 0.04959641024470329,
	"learning_rate": 0.001472308841124429,
	"loss": 4.8063,
	"step": 686
	},
	{
	"epoch": 0.6367006487488415,
	"grad_norm": 0.04228943958878517,
	"learning_rate": 0.0014656777139559754,
	"loss": 4.8125,
	"step": 687
	},
	{
	"epoch": 0.6376274328081557,
	"grad_norm": 0.04116208478808403,
	"learning_rate": 0.001459055355027582,
	"loss": 4.7562,
	"step": 688
	},
	{
	"epoch": 0.6385542168674698,
	"grad_norm": 0.05446736142039299,
	"learning_rate": 0.0014524418204788405,
	"loss": 4.75,
	"step": 689
	},
	{
	"epoch": 0.6394810009267841,
	"grad_norm": 0.04483804479241371,
	"learning_rate": 0.0014458371663745402,
	"loss": 4.7688,
	"step": 690
	},
	{
	"epoch": 0.6404077849860983,
	"grad_norm": 0.04954027384519577,
	"learning_rate": 0.0014392414487041838,
	"loss": 4.6937,
	"step": 691
	},
	{
	"epoch": 0.6413345690454124,
	"grad_norm": 0.043852776288986206,
	"learning_rate": 0.00143265472338152,
	"loss": 4.7938,
	"step": 692
	},
	{
	"epoch": 0.6422613531047267,
	"grad_norm": 0.046749938279390335,
	"learning_rate": 0.001426077046244068,
	"loss": 4.7688,
	"step": 693
	},
	{
	"epoch": 0.6431881371640408,
	"grad_norm": 0.05037090927362442,
	"learning_rate": 0.0014195084730526395,
	"loss": 4.7562,
	"step": 694
	},
	{
	"epoch": 0.644114921223355,
	"grad_norm": 0.0452822744846344,
	"learning_rate": 0.0014129490594908729,
	"loss": 4.8,
	"step": 695
	},
	{
	"epoch": 0.6450417052826691,
	"grad_norm": 0.03884583339095116,
	"learning_rate": 0.001406398861164754,
	"loss": 4.725,
	"step": 696
	},
	{
	"epoch": 0.6459684893419834,
	"grad_norm": 0.04877614974975586,
	"learning_rate": 0.0013998579336021535,
	"loss": 4.7063,
	"step": 697
	},
	{
	"epoch": 0.6468952734012975,
	"grad_norm": 0.043750159442424774,
	"learning_rate": 0.0013933263322523466,
	"loss": 4.7063,
	"step": 698
	},
	{
	"epoch": 0.6478220574606117,
	"grad_norm": 0.047424763441085815,
	"learning_rate": 0.0013868041124855508,
	"loss": 4.7562,
	"step": 699
	},
	{
	"epoch": 0.6487488415199258,
	"grad_norm": 0.044932421296834946,
	"learning_rate": 0.0013802913295924508,
	"loss": 4.6875,
	"step": 700
	},
	{
	"epoch": 0.6496756255792401,
	"grad_norm": 0.03677170351147652,
	"learning_rate": 0.0013737880387837348,
	"loss": 4.7688,
	"step": 701
	},
	{
	"epoch": 0.6506024096385542,
	"grad_norm": 0.049118272960186005,
	"learning_rate": 0.0013672942951896206,
	"loss": 4.7188,
	"step": 702
	},
	{
	"epoch": 0.6515291936978684,
	"grad_norm": 0.06206013634800911,
	"learning_rate": 0.0013608101538593964,
	"loss": 4.75,
	"step": 703
	},
	{
	"epoch": 0.6524559777571826,
	"grad_norm": 0.045777998864650726,
	"learning_rate": 0.0013543356697609439,
	"loss": 4.8063,
	"step": 704
	},
	{
	"epoch": 0.6533827618164968,
	"grad_norm": 0.06643692404031754,
	"learning_rate": 0.0013478708977802823,
	"loss": 4.7438,
	"step": 705
	},
	{
	"epoch": 0.6543095458758109,
	"grad_norm": 0.05065048485994339,
	"learning_rate": 0.0013414158927210946,
	"loss": 4.7375,
	"step": 706
	},
	{
	"epoch": 0.6552363299351252,
	"grad_norm": 0.047690439969301224,
	"learning_rate": 0.0013349707093042707,
	"loss": 4.75,
	"step": 707
	},
	{
	"epoch": 0.6561631139944393,
	"grad_norm": 0.05915187671780586,
	"learning_rate": 0.0013285354021674361,
	"loss": 4.675,
	"step": 708
	},
	{
	"epoch": 0.6570898980537535,
	"grad_norm": 0.04628239572048187,
	"learning_rate": 0.0013221100258644957,
	"loss": 4.7375,
	"step": 709
	},
	{
	"epoch": 0.6580166821130676,
	"grad_norm": 0.04324619472026825,
	"learning_rate": 0.0013156946348651644,
	"loss": 4.7,
	"step": 710
	},
	{
	"epoch": 0.6589434661723819,
	"grad_norm": 0.048746492713689804,
	"learning_rate": 0.0013092892835545123,
	"loss": 4.7438,
	"step": 711
	},
	{
	"epoch": 0.659870250231696,
	"grad_norm": 0.04211176931858063,
	"learning_rate": 0.001302894026232497,
	"loss": 4.7188,
	"step": 712
	},
	{
	"epoch": 0.6607970342910102,
	"grad_norm": 0.04411826655268669,
	"learning_rate": 0.0012965089171135097,
	"loss": 4.7375,
	"step": 713
	},
	{
	"epoch": 0.6617238183503243,
	"grad_norm": 0.049165111035108566,
	"learning_rate": 0.0012901340103259097,
	"loss": 4.7,
	"step": 714
	},
	{
	"epoch": 0.6626506024096386,
	"grad_norm": 0.04350108280777931,
	"learning_rate": 0.0012837693599115707,
	"loss": 4.6813,
	"step": 715
	},
	{
	"epoch": 0.6635773864689527,
	"grad_norm": 0.053538527339696884,
	"learning_rate": 0.001277415019825417,
	"loss": 4.7375,
	"step": 716
	},
	{
	"epoch": 0.6645041705282669,
	"grad_norm": 0.03999413177371025,
	"learning_rate": 0.0012710710439349739,
	"loss": 4.6625,
	"step": 717
	},
	{
	"epoch": 0.6654309545875811,
	"grad_norm": 0.05112524330615997,
	"learning_rate": 0.0012647374860199018,
	"loss": 4.7375,
	"step": 718
	},
	{
	"epoch": 0.6663577386468953,
	"grad_norm": 0.03731364756822586,
	"learning_rate": 0.0012584143997715486,
	"loss": 4.6625,
	"step": 719
	},
	{
	"epoch": 0.6672845227062094,
	"grad_norm": 0.036096684634685516,
	"learning_rate": 0.0012521018387924884,
	"loss": 4.7,
	"step": 720
	},
	{
	"epoch": 0.6682113067655236,
	"grad_norm": 0.040185850113630295,
	"learning_rate": 0.0012457998565960724,
	"loss": 4.7,
	"step": 721
	},
	{
	"epoch": 0.6691380908248378,
	"grad_norm": 0.03686061128973961,
	"learning_rate": 0.0012395085066059686,
	"loss": 4.7125,
	"step": 722
	},
	{
	"epoch": 0.670064874884152,
	"grad_norm": 0.04309338331222534,
	"learning_rate": 0.0012332278421557175,
	"loss": 4.6875,
	"step": 723
	},
	{
	"epoch": 0.6709916589434661,
	"grad_norm": 0.033990684896707535,
	"learning_rate": 0.0012269579164882706,
	"loss": 4.7,
	"step": 724
	},
	{
	"epoch": 0.6719184430027804,
	"grad_norm": 0.06331422179937363,
	"learning_rate": 0.0012206987827555469,
	"loss": 4.6875,
	"step": 725
	},
	{
	"epoch": 0.6728452270620945,
	"grad_norm": 0.05111413821578026,
	"learning_rate": 0.0012144504940179793,
	"loss": 4.6625,
	"step": 726
	},
	{
	"epoch": 0.6737720111214087,
	"grad_norm": 0.039602335542440414,
	"learning_rate": 0.0012082131032440616,
	"loss": 4.6562,
	"step": 727
	},
	{
	"epoch": 0.6746987951807228,
	"grad_norm": 0.0525193028151989,
	"learning_rate": 0.0012019866633099052,
	"loss": 4.6562,
	"step": 728
	},
	{
	"epoch": 0.6756255792400371,
	"grad_norm": 0.04521778225898743,
	"learning_rate": 0.001195771226998789,
	"loss": 4.675,
	"step": 729
	},
	{
	"epoch": 0.6765523632993512,
	"grad_norm": 0.042900171130895615,
	"learning_rate": 0.0011895668470007067,
	"loss": 4.675,
	"step": 730
	},
	{
	"epoch": 0.6774791473586654,
	"grad_norm": 0.046152036637067795,
	"learning_rate": 0.0011833735759119303,
	"loss": 4.6375,
	"step": 731
	},
	{
	"epoch": 0.6784059314179796,
	"grad_norm": 0.03777175024151802,
	"learning_rate": 0.0011771914662345527,
	"loss": 4.7125,
	"step": 732
	},
	{
	"epoch": 0.6793327154772938,
	"grad_norm": 0.04087323322892189,
	"learning_rate": 0.0011710205703760535,
	"loss": 4.6875,
	"step": 733
	},
	{
	"epoch": 0.680259499536608,
	"grad_norm": 0.03955033794045448,
	"learning_rate": 0.0011648609406488455,
	"loss": 4.6562,
	"step": 734
	},
	{
	"epoch": 0.6811862835959221,
	"grad_norm": 0.030934706330299377,
	"learning_rate": 0.001158712629269838,
	"loss": 4.6438,
	"step": 735
	},
	{
	"epoch": 0.6821130676552364,
	"grad_norm": 0.03988910838961601,
	"learning_rate": 0.0011525756883599915,
	"loss": 4.6438,
	"step": 736
	},
	{
	"epoch": 0.6830398517145505,
	"grad_norm": 0.03788105770945549,
	"learning_rate": 0.0011464501699438728,
	"loss": 4.65,
	"step": 737
	},
	{
	"epoch": 0.6839666357738647,
	"grad_norm": 0.04469624534249306,
	"learning_rate": 0.0011403361259492218,
	"loss": 4.6937,
	"step": 738
	},
	{
	"epoch": 0.6848934198331789,
	"grad_norm": 0.04028180614113808,
	"learning_rate": 0.001134233608206502,
	"loss": 4.65,
	"step": 739
	},
	{
	"epoch": 0.6858202038924931,
	"grad_norm": 0.04203322157263756,
	"learning_rate": 0.0011281426684484686,
	"loss": 4.65,
	"step": 740
	},
	{
	"epoch": 0.6867469879518072,
	"grad_norm": 0.045880451798439026,
	"learning_rate": 0.0011220633583097247,
	"loss": 4.65,
	"step": 741
	},
	{
	"epoch": 0.6876737720111215,
	"grad_norm": 0.0346485935151577,
	"learning_rate": 0.0011159957293262886,
	"loss": 4.6562,
	"step": 742
	},
	{
	"epoch": 0.6886005560704356,
	"grad_norm": 0.048363398760557175,
	"learning_rate": 0.0011099398329351515,
	"loss": 4.6438,
	"step": 743
	},
	{
	"epoch": 0.6895273401297498,
	"grad_norm": 0.0373103991150856,
	"learning_rate": 0.0011038957204738465,
	"loss": 4.6813,
	"step": 744
	},
	{
	"epoch": 0.6904541241890639,
	"grad_norm": 0.043777722865343094,
	"learning_rate": 0.001097863443180008,
	"loss": 4.6688,
	"step": 745
	},
	{
	"epoch": 0.6913809082483782,
	"grad_norm": 0.03708568960428238,
	"learning_rate": 0.0010918430521909442,
	"loss": 4.6688,
	"step": 746
	},
	{
	"epoch": 0.6923076923076923,
	"grad_norm": 0.04273151233792305,
	"learning_rate": 0.0010858345985431956,
	"loss": 4.6312,
	"step": 747
	},
	{
	"epoch": 0.6932344763670065,
	"grad_norm": 0.04535781592130661,
	"learning_rate": 0.0010798381331721108,
	"loss": 4.675,
	"step": 748
	},
	{
	"epoch": 0.6941612604263206,
	"grad_norm": 0.03782697021961212,
	"learning_rate": 0.0010738537069114062,
	"loss": 4.675,
	"step": 749
	},
	{
	"epoch": 0.6950880444856349,
	"grad_norm": 0.04372243955731392,
	"learning_rate": 0.0010678813704927434,
	"loss": 4.6625,
	"step": 750
	},
	{
	"epoch": 0.696014828544949,
	"grad_norm": 0.04960807040333748,
	"learning_rate": 0.0010619211745452912,
	"loss": 4.6375,
	"step": 751
	},
	{
	"epoch": 0.6969416126042632,
	"grad_norm": 0.040741242468357086,
	"learning_rate": 0.001055973169595303,
	"loss": 4.6375,
	"step": 752
	},
	{
	"epoch": 0.6978683966635774,
	"grad_norm": 0.04263027384877205,
	"learning_rate": 0.0010500374060656839,
	"loss": 4.5938,
	"step": 753
	},
	{
	"epoch": 0.6987951807228916,
	"grad_norm": 0.046234361827373505,
	"learning_rate": 0.001044113934275567,
	"loss": 4.6688,
	"step": 754
	},
	{
	"epoch": 0.6997219647822057,
	"grad_norm": 0.03574342280626297,
	"learning_rate": 0.0010382028044398823,
	"loss": 4.6375,
	"step": 755
	},
	{
	"epoch": 0.70064874884152,
	"grad_norm": 0.044964589178562164,
	"learning_rate": 0.0010323040666689366,
	"loss": 4.6312,
	"step": 756
	},
	{
	"epoch": 0.7015755329008341,
	"grad_norm": 0.037156179547309875,
	"learning_rate": 0.001026417770967982,
	"loss": 4.6188,
	"step": 757
	},
	{
	"epoch": 0.7025023169601483,
	"grad_norm": 0.046747058629989624,
	"learning_rate": 0.0010205439672368,
	"loss": 4.5875,
	"step": 758
	},
	{
	"epoch": 0.7034291010194624,
	"grad_norm": 0.042588070034980774,
	"learning_rate": 0.0010146827052692701,
	"loss": 4.6125,
	"step": 759
	},
	{
	"epoch": 0.7043558850787767,
	"grad_norm": 0.036094602197408676,
	"learning_rate": 0.0010088340347529552,
	"loss": 4.6625,
	"step": 760
	},
	{
	"epoch": 0.7052826691380908,
	"grad_norm": 0.03903704881668091,
	"learning_rate": 0.0010029980052686733,
	"loss": 4.5875,
	"step": 761
	},
	{
	"epoch": 0.706209453197405,
	"grad_norm": 0.045382946729660034,
	"learning_rate": 0.0009971746662900851,
	"loss": 4.6375,
	"step": 762
	},
	{
	"epoch": 0.7071362372567191,
	"grad_norm": 0.04216109961271286,
	"learning_rate": 0.0009913640671832663,
	"loss": 4.6063,
	"step": 763
	},
	{
	"epoch": 0.7080630213160334,
	"grad_norm": 0.044599149376153946,
	"learning_rate": 0.0009855662572062962,
	"loss": 4.625,
	"step": 764
	},
	{
	"epoch": 0.7089898053753475,
	"grad_norm": 0.0511021688580513,
	"learning_rate": 0.0009797812855088348,
	"loss": 4.5875,
	"step": 765
	},
	{
	"epoch": 0.7099165894346617,
	"grad_norm": 0.04359891265630722,
	"learning_rate": 0.0009740092011317095,
	"loss": 4.6688,
	"step": 766
	},
	{
	"epoch": 0.7108433734939759,
	"grad_norm": 0.047334376722574234,
	"learning_rate": 0.0009682500530064992,
	"loss": 4.5875,
	"step": 767
	},
	{
	"epoch": 0.7117701575532901,
	"grad_norm": 0.04199070855975151,
	"learning_rate": 0.0009625038899551161,
	"loss": 4.625,
	"step": 768
	},
	{
	"epoch": 0.7126969416126042,
	"grad_norm": 0.057890091091394424,
	"learning_rate": 0.0009567707606893971,
	"loss": 4.6125,
	"step": 769
	},
	{
	"epoch": 0.7136237256719185,
	"grad_norm": 0.04788359999656677,
	"learning_rate": 0.0009510507138106853,
	"loss": 4.5875,
	"step": 770
	},
	{
	"epoch": 0.7145505097312326,
	"grad_norm": 0.04499724879860878,
	"learning_rate": 0.0009453437978094223,
	"loss": 4.5938,
	"step": 771
	},
	{
	"epoch": 0.7154772937905468,
	"grad_norm": 0.04197373613715172,
	"learning_rate": 0.0009396500610647368,
	"loss": 4.6562,
	"step": 772
	},
	{
	"epoch": 0.7164040778498609,
	"grad_norm": 0.048124760389328,
	"learning_rate": 0.00093396955184403,
	"loss": 4.625,
	"step": 773
	},
	{
	"epoch": 0.7173308619091752,
	"grad_norm": 0.05138612538576126,
	"learning_rate": 0.000928302318302573,
	"loss": 4.575,
	"step": 774
	},
	{
	"epoch": 0.7182576459684893,
	"grad_norm": 0.044739775359630585,
	"learning_rate": 0.0009226484084830918,
	"loss": 4.625,
	"step": 775
	},
	{
	"epoch": 0.7191844300278035,
	"grad_norm": 0.04016095772385597,
	"learning_rate": 0.0009170078703153676,
	"loss": 4.6063,
	"step": 776
	},
	{
	"epoch": 0.7201112140871178,
	"grad_norm": 0.05538894608616829,
	"learning_rate": 0.000911380751615822,
	"loss": 4.625,
	"step": 777
	},
	{
	"epoch": 0.7210379981464319,
	"grad_norm": 0.04083118215203285,
	"learning_rate": 0.0009057671000871195,
	"loss": 4.6063,
	"step": 778
	},
	{
	"epoch": 0.7219647822057461,
	"grad_norm": 0.05446457862854004,
	"learning_rate": 0.0009001669633177587,
	"loss": 4.575,
	"step": 779
	},
	{
	"epoch": 0.7228915662650602,
	"grad_norm": 0.03577585890889168,
	"learning_rate": 0.0008945803887816678,
	"loss": 4.6,
	"step": 780
	},
	{
	"epoch": 0.7238183503243745,
	"grad_norm": 0.04933847859501839,
	"learning_rate": 0.0008890074238378073,
	"loss": 4.5875,
	"step": 781
	},
	{
	"epoch": 0.7247451343836886,
	"grad_norm": 0.03600107133388519,
	"learning_rate": 0.0008834481157297625,
	"loss": 4.5875,
	"step": 782
	},
	{
	"epoch": 0.7256719184430028,
	"grad_norm": 0.05166667327284813,
	"learning_rate": 0.0008779025115853482,
	"loss": 4.5938,
	"step": 783
	},
	{
	"epoch": 0.726598702502317,
	"grad_norm": 0.03323368355631828,
	"learning_rate": 0.0008723706584162044,
	"loss": 4.5563,
	"step": 784
	},
	{
	"epoch": 0.7275254865616312,
	"grad_norm": 0.04717453941702843,
	"learning_rate": 0.0008668526031174034,
	"loss": 4.6125,
	"step": 785
	},
	{
	"epoch": 0.7284522706209453,
	"grad_norm": 0.04695433750748634,
	"learning_rate": 0.0008613483924670457,
	"loss": 4.5875,
	"step": 786
	},
	{
	"epoch": 0.7293790546802595,
	"grad_norm": 0.04457440972328186,
	"learning_rate": 0.00085585807312587,
	"loss": 4.6,
	"step": 787
	},
	{
	"epoch": 0.7303058387395737,
	"grad_norm": 0.04753506928682327,
	"learning_rate": 0.0008503816916368512,
	"loss": 4.5687,
	"step": 788
	},
	{
	"epoch": 0.7312326227988879,
	"grad_norm": 0.04823901131749153,
	"learning_rate": 0.0008449192944248127,
	"loss": 4.5625,
	"step": 789
	},
	{
	"epoch": 0.732159406858202,
	"grad_norm": 0.041306272149086,
	"learning_rate": 0.0008394709277960255,
	"loss": 4.5563,
	"step": 790
	},
	{
	"epoch": 0.7330861909175163,
	"grad_norm": 0.054446831345558167,
	"learning_rate": 0.0008340366379378234,
	"loss": 4.55,
	"step": 791
	},
	{
	"epoch": 0.7340129749768304,
	"grad_norm": 0.03289240226149559,
	"learning_rate": 0.0008286164709182031,
	"loss": 4.575,
	"step": 792
	},
	{
	"epoch": 0.7349397590361446,
	"grad_norm": 0.04518633335828781,
	"learning_rate": 0.0008232104726854425,
	"loss": 4.6,
	"step": 793
	},
	{
	"epoch": 0.7358665430954587,
	"grad_norm": 0.03345628082752228,
	"learning_rate": 0.0008178186890677027,
	"loss": 4.55,
	"step": 794
	},
	{
	"epoch": 0.736793327154773,
	"grad_norm": 0.046789661049842834,
	"learning_rate": 0.0008124411657726471,
	"loss": 4.575,
	"step": 795
	},
	{
	"epoch": 0.7377201112140871,
	"grad_norm": 0.03443962708115578,
	"learning_rate": 0.0008070779483870469,
	"loss": 4.55,
	"step": 796
	},
	{
	"epoch": 0.7386468952734013,
	"grad_norm": 0.04330628737807274,
	"learning_rate": 0.0008017290823764014,
	"loss": 4.5563,
	"step": 797
	},
	{
	"epoch": 0.7395736793327155,
	"grad_norm": 0.032368697226047516,
	"learning_rate": 0.0007963946130845462,
	"loss": 4.5438,
	"step": 798
	},
	{
	"epoch": 0.7405004633920297,
	"grad_norm": 0.04270923137664795,
	"learning_rate": 0.0007910745857332749,
	"loss": 4.6,
	"step": 799
	},
	{
	"epoch": 0.7414272474513438,
	"grad_norm": 0.03373492881655693,
	"learning_rate": 0.0007857690454219494,
	"loss": 4.5687,
	"step": 800
	},
	{
	"epoch": 0.742354031510658,
	"grad_norm": 0.03647404536604881,
	"learning_rate": 0.0007804780371271248,
	"loss": 4.5125,
	"step": 801
	},
	{
	"epoch": 0.7432808155699722,
	"grad_norm": 0.037898655980825424,
	"learning_rate": 0.0007752016057021596,
	"loss": 4.5687,
	"step": 802
	},
	{
	"epoch": 0.7442075996292864,
	"grad_norm": 0.0339631550014019,
	"learning_rate": 0.0007699397958768451,
	"loss": 4.575,
	"step": 803
	},
	{
	"epoch": 0.7451343836886005,
	"grad_norm": 0.03792402520775795,
	"learning_rate": 0.0007646926522570166,
	"loss": 4.5687,
	"step": 804
	},
	{
	"epoch": 0.7460611677479148,
	"grad_norm": 0.03865986317396164,
	"learning_rate": 0.0007594602193241839,
	"loss": 4.5312,
	"step": 805
	},
	{
	"epoch": 0.7469879518072289,
	"grad_norm": 0.03740232065320015,
	"learning_rate": 0.0007542425414351462,
	"loss": 4.55,
	"step": 806
	},
	{
	"epoch": 0.7479147358665431,
	"grad_norm": 0.03663860633969307,
	"learning_rate": 0.0007490396628216237,
	"loss": 4.55,
	"step": 807
	},
	{
	"epoch": 0.7488415199258572,
	"grad_norm": 0.0422244630753994,
	"learning_rate": 0.0007438516275898762,
	"loss": 4.5563,
	"step": 808
	},
	{
	"epoch": 0.7497683039851715,
	"grad_norm": 0.03552339971065521,
	"learning_rate": 0.0007386784797203335,
	"loss": 4.5563,
	"step": 809
	},
	{
	"epoch": 0.7506950880444856,
	"grad_norm": 0.03856317326426506,
	"learning_rate": 0.0007335202630672222,
	"loss": 4.5188,
	"step": 810
	},
	{
	"epoch": 0.7516218721037998,
	"grad_norm": 0.03579216077923775,
	"learning_rate": 0.0007283770213581889,
	"loss": 4.525,
	"step": 811
	},
	{
	"epoch": 0.752548656163114,
	"grad_norm": 0.04030256345868111,
	"learning_rate": 0.0007232487981939371,
	"loss": 4.5563,
	"step": 812
	},
	{
	"epoch": 0.7534754402224282,
	"grad_norm": 0.03762529417872429,
	"learning_rate": 0.0007181356370478531,
	"loss": 4.55,
	"step": 813
	},
	{
	"epoch": 0.7544022242817423,
	"grad_norm": 0.03724801167845726,
	"learning_rate": 0.0007130375812656365,
	"loss": 4.5375,
	"step": 814
	},
	{
	"epoch": 0.7553290083410565,
	"grad_norm": 0.03805640712380409,
	"learning_rate": 0.000707954674064937,
	"loss": 4.575,
	"step": 815
	},
	{
	"epoch": 0.7562557924003707,
	"grad_norm": 0.0410294272005558,
	"learning_rate": 0.0007028869585349828,
	"loss": 4.5625,
	"step": 816
	},
	{
	"epoch": 0.7571825764596849,
	"grad_norm": 0.0386902280151844,
	"learning_rate": 0.0006978344776362214,
	"loss": 4.5188,
	"step": 817
	},
	{
	"epoch": 0.758109360518999,
	"grad_norm": 0.037720050662755966,
	"learning_rate": 0.000692797274199948,
	"loss": 4.55,
	"step": 818
	},
	{
	"epoch": 0.7590361445783133,
	"grad_norm": 0.029812660068273544,
	"learning_rate": 0.0006877753909279508,
	"loss": 4.475,
	"step": 819
	},
	{
	"epoch": 0.7599629286376274,
	"grad_norm": 0.04356846958398819,
	"learning_rate": 0.0006827688703921406,
	"loss": 4.4938,
	"step": 820
	},
	{
	"epoch": 0.7608897126969416,
	"grad_norm": 0.03893793001770973,
	"learning_rate": 0.0006777777550341977,
	"loss": 4.5188,
	"step": 821
	},
	{
	"epoch": 0.7618164967562558,
	"grad_norm": 0.0387520007789135,
	"learning_rate": 0.0006728020871652046,
	"loss": 4.5188,
	"step": 822
	},
	{
	"epoch": 0.76274328081557,
	"grad_norm": 0.0450495183467865,
	"learning_rate": 0.0006678419089652943,
	"loss": 4.5438,
	"step": 823
	},
	{
	"epoch": 0.7636700648748842,
	"grad_norm": 0.04003477469086647,
	"learning_rate": 0.0006628972624832891,
	"loss": 4.5813,
	"step": 824
	},
	{
	"epoch": 0.7645968489341983,
	"grad_norm": 0.05103557929396629,
	"learning_rate": 0.0006579681896363418,
	"loss": 4.5188,
	"step": 825
	},
	{
	"epoch": 0.7655236329935126,
	"grad_norm": 0.038706224411726,
	"learning_rate": 0.000653054732209587,
	"loss": 4.5188,
	"step": 826
	},
	{
	"epoch": 0.7664504170528267,
	"grad_norm": 0.04914843663573265,
	"learning_rate": 0.0006481569318557793,
	"loss": 4.525,
	"step": 827
	},
	{
	"epoch": 0.7673772011121409,
	"grad_norm": 0.03715524449944496,
	"learning_rate": 0.0006432748300949476,
	"loss": 4.5062,
	"step": 828
	},
	{
	"epoch": 0.768303985171455,
	"grad_norm": 0.03968851640820503,
	"learning_rate": 0.0006384084683140359,
	"loss": 4.5563,
	"step": 829
	},
	{
	"epoch": 0.7692307692307693,
	"grad_norm": 0.042003631591796875,
	"learning_rate": 0.000633557887766559,
	"loss": 4.5312,
	"step": 830
	},
	{
	"epoch": 0.7701575532900834,
	"grad_norm": 0.04498601332306862,
	"learning_rate": 0.000628723129572247,
	"loss": 4.5,
	"step": 831
	},
	{
	"epoch": 0.7710843373493976,
	"grad_norm": 0.039209991693496704,
	"learning_rate": 0.0006239042347167026,
	"loss": 4.5375,
	"step": 832
	},
	{
	"epoch": 0.7720111214087118,
	"grad_norm": 0.03667667508125305,
	"learning_rate": 0.0006191012440510469,
	"loss": 4.5375,
	"step": 833
	},
	{
	"epoch": 0.772937905468026,
	"grad_norm": 0.03756443038582802,
	"learning_rate": 0.0006143141982915801,
	"loss": 4.525,
	"step": 834
	},
	{
	"epoch": 0.7738646895273401,
	"grad_norm": 0.03308939188718796,
	"learning_rate": 0.0006095431380194299,
	"loss": 4.55,
	"step": 835
	},
	{
	"epoch": 0.7747914735866543,
	"grad_norm": 0.03881024196743965,
	"learning_rate": 0.0006047881036802141,
	"loss": 4.5375,
	"step": 836
	},
	{
	"epoch": 0.7757182576459685,
	"grad_norm": 0.03667169064283371,
	"learning_rate": 0.0006000491355836904,
	"loss": 4.5188,
	"step": 837
	},
	{
	"epoch": 0.7766450417052827,
	"grad_norm": 0.03264870494604111,
	"learning_rate": 0.0005953262739034218,
	"loss": 4.5188,
	"step": 838
	},
	{
	"epoch": 0.7775718257645968,
	"grad_norm": 0.0369790680706501,
	"learning_rate": 0.0005906195586764294,
	"loss": 4.5125,
	"step": 839
	},
	{
	"epoch": 0.7784986098239111,
	"grad_norm": 0.03252223879098892,
	"learning_rate": 0.0005859290298028596,
	"loss": 4.4813,
	"step": 840
	},
	{
	"epoch": 0.7794253938832252,
	"grad_norm": 0.03256712481379509,
	"learning_rate": 0.0005812547270456397,
	"loss": 4.5062,
	"step": 841
	},
	{
	"epoch": 0.7803521779425394,
	"grad_norm": 0.031595002859830856,
	"learning_rate": 0.0005765966900301462,
	"loss": 4.5188,
	"step": 842
	},
	{
	"epoch": 0.7812789620018535,
	"grad_norm": 0.0356653667986393,
	"learning_rate": 0.0005719549582438636,
	"loss": 4.5438,
	"step": 843
	},
	{
	"epoch": 0.7822057460611678,
	"grad_norm": 0.038195762783288956,
	"learning_rate": 0.0005673295710360555,
	"loss": 4.4875,
	"step": 844
	},
	{
	"epoch": 0.7831325301204819,
	"grad_norm": 0.02905537374317646,
	"learning_rate": 0.0005627205676174244,
	"loss": 4.525,
	"step": 845
	},
	{
	"epoch": 0.7840593141797961,
	"grad_norm": 0.03345280513167381,
	"learning_rate": 0.0005581279870597866,
	"loss": 4.4938,
	"step": 846
	},
	{
	"epoch": 0.7849860982391103,
	"grad_norm": 0.034679800271987915,
	"learning_rate": 0.0005535518682957341,
	"loss": 4.4938,
	"step": 847
	},
	{
	"epoch": 0.7859128822984245,
	"grad_norm": 0.03583706170320511,
	"learning_rate": 0.0005489922501183095,
	"loss": 4.5188,
	"step": 848
	},
	{
	"epoch": 0.7868396663577386,
	"grad_norm": 0.032523263245821,
	"learning_rate": 0.000544449171180674,
	"loss": 4.4938,
	"step": 849
	},
	{
	"epoch": 0.7877664504170528,
	"grad_norm": 0.03378100320696831,
	"learning_rate": 0.0005399226699957821,
	"loss": 4.5062,
	"step": 850
	},
	{
	"epoch": 0.788693234476367,
	"grad_norm": 0.03234217315912247,
	"learning_rate": 0.0005354127849360543,
	"loss": 4.45,
	"step": 851
	},
	{
	"epoch": 0.7896200185356812,
	"grad_norm": 0.03637991473078728,
	"learning_rate": 0.0005309195542330497,
	"loss": 4.5188,
	"step": 852
	},
	{
	"epoch": 0.7905468025949953,
	"grad_norm": 0.03120928816497326,
	"learning_rate": 0.0005264430159771455,
	"loss": 4.5,
	"step": 853
	},
	{
	"epoch": 0.7914735866543096,
	"grad_norm": 0.03429511934518814,
	"learning_rate": 0.0005219832081172124,
	"loss": 4.5312,
	"step": 854
	},
	{
	"epoch": 0.7924003707136237,
	"grad_norm": 0.029146216809749603,
	"learning_rate": 0.0005175401684602912,
	"loss": 4.4938,
	"step": 855
	},
	{
	"epoch": 0.7933271547729379,
	"grad_norm": 0.029695888981223106,
	"learning_rate": 0.0005131139346712758,
	"loss": 4.4875,
	"step": 856
	},
	{
	"epoch": 0.794253938832252,
	"grad_norm": 0.03263707831501961,
	"learning_rate": 0.0005087045442725904,
	"loss": 4.5312,
	"step": 857
	},
	{
	"epoch": 0.7951807228915663,
	"grad_norm": 0.028736894950270653,
	"learning_rate": 0.0005043120346438748,
	"loss": 4.525,
	"step": 858
	},
	{
	"epoch": 0.7961075069508804,
	"grad_norm": 0.030789796262979507,
	"learning_rate": 0.0004999364430216638,
	"loss": 4.5,
	"step": 859
	},
	{
	"epoch": 0.7970342910101946,
	"grad_norm": 0.04033099114894867,
	"learning_rate": 0.0004955778064990757,
	"loss": 4.5125,
	"step": 860
	},
	{
	"epoch": 0.7979610750695088,
	"grad_norm": 0.03556600585579872,
	"learning_rate": 0.0004912361620254932,
	"loss": 4.4813,
	"step": 861
	},
	{
	"epoch": 0.798887859128823,
	"grad_norm": 0.031120220199227333,
	"learning_rate": 0.00048691154640625566,
	"loss": 4.4688,
	"step": 862
	},
	{
	"epoch": 0.7998146431881371,
	"grad_norm": 0.03250223025679588,
	"learning_rate": 0.0004826039963023407,
	"loss": 4.4688,
	"step": 863
	},
	{
	"epoch": 0.8007414272474513,
	"grad_norm": 0.029799439013004303,
	"learning_rate": 0.0004783135482300596,
	"loss": 4.4875,
	"step": 864
	},
	{
	"epoch": 0.8016682113067656,
	"grad_norm": 0.030422599986195564,
	"learning_rate": 0.0004740402385607431,
	"loss": 4.4813,
	"step": 865
	},
	{
	"epoch": 0.8025949953660797,
	"grad_norm": 0.029015803709626198,
	"learning_rate": 0.0004697841035204356,
	"loss": 4.4938,
	"step": 866
	},
	{
	"epoch": 0.8035217794253939,
	"grad_norm": 0.031820014119148254,
	"learning_rate": 0.00046554517918958845,
	"loss": 4.5062,
	"step": 867
	},
	{
	"epoch": 0.8044485634847081,
	"grad_norm": 0.03146743401885033,
	"learning_rate": 0.00046132350150275005,
	"loss": 4.475,
	"step": 868
	},
	{
	"epoch": 0.8053753475440223,
	"grad_norm": 0.02848106250166893,
	"learning_rate": 0.0004571191062482677,
	"loss": 4.4875,
	"step": 869
	},
	{
	"epoch": 0.8063021316033364,
	"grad_norm": 0.031561560928821564,
	"learning_rate": 0.00045293202906797754,
	"loss": 4.4875,
	"step": 870
	},
	{
	"epoch": 0.8072289156626506,
	"grad_norm": 0.031885311007499695,
	"learning_rate": 0.0004487623054569084,
	"loss": 4.5062,
	"step": 871
	},
	{
	"epoch": 0.8081556997219648,
	"grad_norm": 0.03388173505663872,
	"learning_rate": 0.000444609970762975,
	"loss": 4.4813,
	"step": 872
	},
	{
	"epoch": 0.809082483781279,
	"grad_norm": 0.03390287980437279,
	"learning_rate": 0.00044047506018668415,
	"loss": 4.5,
	"step": 873
	},
	{
	"epoch": 0.8100092678405931,
	"grad_norm": 0.032265473157167435,
	"learning_rate": 0.0004363576087808313,
	"loss": 4.4938,
	"step": 874
	},
	{
	"epoch": 0.8109360518999074,
	"grad_norm": 0.03563728928565979,
	"learning_rate": 0.00043225765145020803,
	"loss": 4.5188,
	"step": 875
	},
	{
	"epoch": 0.8118628359592215,
	"grad_norm": 0.03663501888513565,
	"learning_rate": 0.0004281752229513006,
	"loss": 4.5188,
	"step": 876
	},
	{
	"epoch": 0.8127896200185357,
	"grad_norm": 0.03167020156979561,
	"learning_rate": 0.00042411035789200163,
	"loss": 4.4875,
	"step": 877
	},
	{
	"epoch": 0.8137164040778498,
	"grad_norm": 0.03226330131292343,
	"learning_rate": 0.0004200630907313108,
	"loss": 4.5062,
	"step": 878
	},
	{
	"epoch": 0.8146431881371641,
	"grad_norm": 0.029977647587656975,
	"learning_rate": 0.00041603345577904824,
	"loss": 4.4688,
	"step": 879
	},
	{
	"epoch": 0.8155699721964782,
	"grad_norm": 0.03339603170752525,
	"learning_rate": 0.0004120214871955577,
	"loss": 4.5125,
	"step": 880
	},
	{
	"epoch": 0.8164967562557924,
	"grad_norm": 0.031077727675437927,
	"learning_rate": 0.00040802721899142356,
	"loss": 4.4938,
	"step": 881
	},
	{
	"epoch": 0.8174235403151066,
	"grad_norm": 0.02900145947933197,
	"learning_rate": 0.0004040506850271761,
	"loss": 4.4375,
	"step": 882
	},
	{
	"epoch": 0.8183503243744208,
	"grad_norm": 0.029496431350708008,
	"learning_rate": 0.00040009191901301005,
	"loss": 4.4625,
	"step": 883
	},
	{
	"epoch": 0.8192771084337349,
	"grad_norm": 0.02934381552040577,
	"learning_rate": 0.00039615095450849374,
	"loss": 4.5062,
	"step": 884
	},
	{
	"epoch": 0.8202038924930491,
	"grad_norm": 0.030950119718909264,
	"learning_rate": 0.00039222782492228937,
	"loss": 4.5,
	"step": 885
	},
	{
	"epoch": 0.8211306765523633,
	"grad_norm": 0.029751867055892944,
	"learning_rate": 0.0003883225635118659,
	"loss": 4.4625,
	"step": 886
	},
	{
	"epoch": 0.8220574606116775,
	"grad_norm": 0.026806732639670372,
	"learning_rate": 0.0003844352033832199,
	"loss": 4.5125,
	"step": 887
	},
	{
	"epoch": 0.8229842446709916,
	"grad_norm": 0.03083191066980362,
	"learning_rate": 0.00038056577749059266,
	"loss": 4.4688,
	"step": 888
	},
	{
	"epoch": 0.8239110287303059,
	"grad_norm": 0.034451741725206375,
	"learning_rate": 0.0003767143186361935,
	"loss": 4.4563,
	"step": 889
	},
	{
	"epoch": 0.82483781278962,
	"grad_norm": 0.030912496149539948,
	"learning_rate": 0.0003728808594699179,
	"loss": 4.475,
	"step": 890
	},
	{
	"epoch": 0.8257645968489342,
	"grad_norm": 0.03567620739340782,
	"learning_rate": 0.00036906543248907495,
	"loss": 4.4938,
	"step": 891
	},
	{
	"epoch": 0.8266913809082483,
	"grad_norm": 0.03392716869711876,
	"learning_rate": 0.0003652680700381092,
	"loss": 4.45,
	"step": 892
	},
	{
	"epoch": 0.8276181649675626,
	"grad_norm": 0.032731059938669205,
	"learning_rate": 0.0003614888043083264,
	"loss": 4.4875,
	"step": 893
	},
	{
	"epoch": 0.8285449490268767,
	"grad_norm": 0.035781849175691605,
	"learning_rate": 0.00035772766733762284,
	"loss": 4.4625,
	"step": 894
	},
	{
	"epoch": 0.8294717330861909,
	"grad_norm": 0.02696853317320347,
	"learning_rate": 0.00035398469101020983,
	"loss": 4.4688,
	"step": 895
	},
	{
	"epoch": 0.830398517145505,
	"grad_norm": 0.033876750618219376,
	"learning_rate": 0.00035025990705634833,
	"loss": 4.5,
	"step": 896
	},
	{
	"epoch": 0.8313253012048193,
	"grad_norm": 0.03308440372347832,
	"learning_rate": 0.0003465533470520768,
	"loss": 4.5125,
	"step": 897
	},
	{
	"epoch": 0.8322520852641334,
	"grad_norm": 0.0284098070114851,
	"learning_rate": 0.0003428650424189428,
	"loss": 4.5,
	"step": 898
	},
	{
	"epoch": 0.8331788693234476,
	"grad_norm": 0.0362527072429657,
	"learning_rate": 0.0003391950244237396,
	"loss": 4.4813,
	"step": 899
	},
	{
	"epoch": 0.8341056533827618,
	"grad_norm": 0.03239575773477554,
	"learning_rate": 0.0003355433241782385,
	"loss": 4.4437,
	"step": 900
	},
	{
	"epoch": 0.835032437442076,
	"grad_norm": 0.028916817158460617,
	"learning_rate": 0.00033190997263892683,
	"loss": 4.5062,
	"step": 901
	},
	{
	"epoch": 0.8359592215013901,
	"grad_norm": 0.037763047963380814,
	"learning_rate": 0.0003282950006067439,
	"loss": 4.475,
	"step": 902
	},
	{
	"epoch": 0.8368860055607044,
	"grad_norm": 0.03783184662461281,
	"learning_rate": 0.000324698438726822,
	"loss": 4.4375,
	"step": 903
	},
	{
	"epoch": 0.8378127896200185,
	"grad_norm": 0.03236427158117294,
	"learning_rate": 0.00032112031748822407,
	"loss": 4.425,
	"step": 904
	},
	{
	"epoch": 0.8387395736793327,
	"grad_norm": 0.031087512150406837,
	"learning_rate": 0.00031756066722368775,
	"loss": 4.4875,
	"step": 905
	},
	{
	"epoch": 0.8396663577386468,
	"grad_norm": 0.02958965301513672,
	"learning_rate": 0.0003140195181093658,
	"loss": 4.475,
	"step": 906
	},
	{
	"epoch": 0.8405931417979611,
	"grad_norm": 0.028066281229257584,
	"learning_rate": 0.0003104969001645735,
	"loss": 4.4563,
	"step": 907
	},
	{
	"epoch": 0.8415199258572753,
	"grad_norm": 0.030324235558509827,
	"learning_rate": 0.00030699284325152955,
	"loss": 4.4437,
	"step": 908
	},
	{
	"epoch": 0.8424467099165894,
	"grad_norm": 0.03359181433916092,
	"learning_rate": 0.00030350737707510764,
	"loss": 4.4813,
	"step": 909
	},
	{
	"epoch": 0.8433734939759037,
	"grad_norm": 0.02781173586845398,
	"learning_rate": 0.0003000405311825824,
	"loss": 4.4437,
	"step": 910
	},
	{
	"epoch": 0.8443002780352178,
	"grad_norm": 0.03504948690533638,
	"learning_rate": 0.0002965923349633778,
	"loss": 4.45,
	"step": 911
	},
	{
	"epoch": 0.845227062094532,
	"grad_norm": 0.03041827119886875,
	"learning_rate": 0.00029316281764882074,
	"loss": 4.4563,
	"step": 912
	},
	{
	"epoch": 0.8461538461538461,
	"grad_norm": 0.03221605718135834,
	"learning_rate": 0.00028975200831189067,
	"loss": 4.475,
	"step": 913
	},
	{
	"epoch": 0.8470806302131604,
	"grad_norm": 0.03199669346213341,
	"learning_rate": 0.0002863599358669755,
	"loss": 4.4313,
	"step": 914
	},
	{
	"epoch": 0.8480074142724745,
	"grad_norm": 0.030510928481817245,
	"learning_rate": 0.0002829866290696234,
	"loss": 4.4,
	"step": 915
	},
	{
	"epoch": 0.8489341983317887,
	"grad_norm": 0.02957424893975258,
	"learning_rate": 0.0002796321165163032,
	"loss": 4.5062,
	"step": 916
	},
	{
	"epoch": 0.8498609823911029,
	"grad_norm": 0.0366031751036644,
	"learning_rate": 0.0002762964266441578,
	"loss": 4.4313,
	"step": 917
	},
	{
	"epoch": 0.8507877664504171,
	"grad_norm": 0.03369331359863281,
	"learning_rate": 0.0002729795877307659,
	"loss": 4.4437,
	"step": 918
	},
	{
	"epoch": 0.8517145505097312,
	"grad_norm": 0.03299278765916824,
	"learning_rate": 0.00026968162789390074,
	"loss": 4.4313,
	"step": 919
	},
	{
	"epoch": 0.8526413345690455,
	"grad_norm": 0.03193372115492821,
	"learning_rate": 0.0002664025750912932,
	"loss": 4.4625,
	"step": 920
	},
	{
	"epoch": 0.8535681186283596,
	"grad_norm": 0.029631877318024635,
	"learning_rate": 0.00026314245712039276,
	"loss": 4.4375,
	"step": 921
	},
	{
	"epoch": 0.8544949026876738,
	"grad_norm": 0.03459390997886658,
	"learning_rate": 0.00025990130161813427,
	"loss": 4.4688,
	"step": 922
	},
	{
	"epoch": 0.8554216867469879,
	"grad_norm": 0.0364365316927433,
	"learning_rate": 0.00025667913606070095,
	"loss": 4.4625,
	"step": 923
	},
	{
	"epoch": 0.8563484708063022,
	"grad_norm": 0.0323617160320282,
	"learning_rate": 0.000253475987763295,
	"loss": 4.425,
	"step": 924
	},
	{
	"epoch": 0.8572752548656163,
	"grad_norm": 0.02805604226887226,
	"learning_rate": 0.0002502918838799015,
	"loss": 4.4813,
	"step": 925
	},
	{
	"epoch": 0.8582020389249305,
	"grad_norm": 0.033434659242630005,
	"learning_rate": 0.0002471268514030628,
	"loss": 4.425,
	"step": 926
	},
	{
	"epoch": 0.8591288229842446,
	"grad_norm": 0.03157290443778038,
	"learning_rate": 0.00024398091716364617,
	"loss": 4.4313,
	"step": 927
	},
	{
	"epoch": 0.8600556070435589,
	"grad_norm": 0.029048243537545204,
	"learning_rate": 0.00024085410783061895,
	"loss": 4.4625,
	"step": 928
	},
	{
	"epoch": 0.860982391102873,
	"grad_norm": 0.0280530396848917,
	"learning_rate": 0.00023774644991081978,
	"loss": 4.4125,
	"step": 929
	},
	{
	"epoch": 0.8619091751621872,
	"grad_norm": 0.03451543301343918,
	"learning_rate": 0.00023465796974873722,
	"loss": 4.4875,
	"step": 930
	},
	{
	"epoch": 0.8628359592215014,
	"grad_norm": 0.030910175293684006,
	"learning_rate": 0.00023158869352628286,
	"loss": 4.45,
	"step": 931
	},
	{
	"epoch": 0.8637627432808156,
	"grad_norm": 0.03156379237771034,
	"learning_rate": 0.00022853864726257307,
	"loss": 4.4125,
	"step": 932
	},
	{
	"epoch": 0.8646895273401297,
	"grad_norm": 0.03295775502920151,
	"learning_rate": 0.00022550785681370368,
	"loss": 4.4313,
	"step": 933
	},
	{
	"epoch": 0.865616311399444,
	"grad_norm": 0.026067038998007774,
	"learning_rate": 0.00022249634787253615,
	"loss": 4.45,
	"step": 934
	},
	{
	"epoch": 0.8665430954587581,
	"grad_norm": 0.02678762935101986,
	"learning_rate": 0.00021950414596847684,
	"loss": 4.4563,
	"step": 935
	},
	{
	"epoch": 0.8674698795180723,
	"grad_norm": 0.028849739581346512,
	"learning_rate": 0.0002165312764672589,
	"loss": 4.4437,
	"step": 936
	},
	{
	"epoch": 0.8683966635773864,
	"grad_norm": 0.03232532739639282,
	"learning_rate": 0.0002135777645707318,
	"loss": 4.4,
	"step": 937
	},
	{
	"epoch": 0.8693234476367007,
	"grad_norm": 0.027282997965812683,
	"learning_rate": 0.0002106436353166441,
	"loss": 4.4625,
	"step": 938
	},
	{
	"epoch": 0.8702502316960148,
	"grad_norm": 0.026645608246326447,
	"learning_rate": 0.0002077289135784316,
	"loss": 4.4437,
	"step": 939
	},
	{
	"epoch": 0.871177015755329,
	"grad_norm": 0.02711557038128376,
	"learning_rate": 0.00020483362406500838,
	"loss": 4.4313,
	"step": 940
	},
	{
	"epoch": 0.8721037998146431,
	"grad_norm": 0.030816104263067245,
	"learning_rate": 0.0002019577913205553,
	"loss": 4.4625,
	"step": 941
	},
	{
	"epoch": 0.8730305838739574,
	"grad_norm": 0.026929127052426338,
	"learning_rate": 0.00019910143972431323,
	"loss": 4.4313,
	"step": 942
	},
	{
	"epoch": 0.8739573679332715,
	"grad_norm": 0.028096897527575493,
	"learning_rate": 0.0001962645934903748,
	"loss": 4.4875,
	"step": 943
	},
	{
	"epoch": 0.8748841519925857,
	"grad_norm": 0.029124116525053978,
	"learning_rate": 0.00019344727666748218,
	"loss": 4.4563,
	"step": 944
	},
	{
	"epoch": 0.8758109360518999,
	"grad_norm": 0.027243295684456825,
	"learning_rate": 0.00019064951313881918,
	"loss": 4.4375,
	"step": 945
	},
	{
	"epoch": 0.8767377201112141,
	"grad_norm": 0.028546737506985664,
	"learning_rate": 0.00018787132662181238,
	"loss": 4.45,
	"step": 946
	},
	{
	"epoch": 0.8776645041705282,
	"grad_norm": 0.026934707537293434,
	"learning_rate": 0.00018511274066792733,
	"loss": 4.425,
	"step": 947
	},
	{
	"epoch": 0.8785912882298424,
	"grad_norm": 0.03399607166647911,
	"learning_rate": 0.00018237377866247157,
	"loss": 4.4563,
	"step": 948
	},
	{
	"epoch": 0.8795180722891566,
	"grad_norm": 0.02882063016295433,
	"learning_rate": 0.000179654463824393,
	"loss": 4.4688,
	"step": 949
	},
	{
	"epoch": 0.8804448563484708,
	"grad_norm": 0.026831530034542084,
	"learning_rate": 0.00017695481920608713,
	"loss": 4.4188,
	"step": 950
	},
	{
	"epoch": 0.881371640407785,
	"grad_norm": 0.029771380126476288,
	"learning_rate": 0.00017427486769319738,
	"loss": 4.4062,
	"step": 951
	},
	{
	"epoch": 0.8822984244670992,
	"grad_norm": 0.025736462324857712,
	"learning_rate": 0.00017161463200442484,
	"loss": 4.4125,
	"step": 952
	},
	{
	"epoch": 0.8832252085264134,
	"grad_norm": 0.027890045195817947,
	"learning_rate": 0.0001689741346913337,
	"loss": 4.4625,
	"step": 953
	},
	{
	"epoch": 0.8841519925857275,
	"grad_norm": 0.028950916603207588,
	"learning_rate": 0.0001663533981381593,
	"loss": 4.4375,
	"step": 954
	},
	{
	"epoch": 0.8850787766450418,
	"grad_norm": 0.029823975637555122,
	"learning_rate": 0.00016375244456162119,
	"loss": 4.4688,
	"step": 955
	},
	{
	"epoch": 0.8860055607043559,
	"grad_norm": 0.02855784259736538,
	"learning_rate": 0.00016117129601073116,
	"loss": 4.4563,
	"step": 956
	},
	{
	"epoch": 0.8869323447636701,
	"grad_norm": 0.026093894615769386,
	"learning_rate": 0.00015860997436661028,
	"loss": 4.4875,
	"step": 957
	},
	{
	"epoch": 0.8878591288229842,
	"grad_norm": 0.02811110019683838,
	"learning_rate": 0.00015606850134229966,
	"loss": 4.4375,
	"step": 958
	},
	{
	"epoch": 0.8887859128822985,
	"grad_norm": 0.027288252487778664,
	"learning_rate": 0.00015354689848257942,
	"loss": 4.4188,
	"step": 959
	},
	{
	"epoch": 0.8897126969416126,
	"grad_norm": 0.02676665410399437,
	"learning_rate": 0.0001510451871637833,
	"loss": 4.4188,
	"step": 960
	},
	{
	"epoch": 0.8906394810009268,
	"grad_norm": 0.03431456908583641,
	"learning_rate": 0.00014856338859362052,
	"loss": 4.4188,
	"step": 961
	},
	{
	"epoch": 0.891566265060241,
	"grad_norm": 0.026652604341506958,
	"learning_rate": 0.0001461015238109925,
	"loss": 4.375,
	"step": 962
	},
	{
	"epoch": 0.8924930491195552,
	"grad_norm": 0.032444290816783905,
	"learning_rate": 0.00014365961368581842,
	"loss": 4.4313,
	"step": 963
	},
	{
	"epoch": 0.8934198331788693,
	"grad_norm": 0.02602170594036579,
	"learning_rate": 0.00014123767891885435,
	"loss": 4.375,
	"step": 964
	},
	{
	"epoch": 0.8943466172381835,
	"grad_norm": 0.026148205623030663,
	"learning_rate": 0.00013883574004152106,
	"loss": 4.425,
	"step": 965
	},
	{
	"epoch": 0.8952734012974977,
	"grad_norm": 0.028608886525034904,
	"learning_rate": 0.0001364538174157273,
	"loss": 4.3812,
	"step": 966
	},
	{
	"epoch": 0.8962001853568119,
	"grad_norm": 0.026529457420110703,
	"learning_rate": 0.00013409193123369996,
	"loss": 4.3812,
	"step": 967
	},
	{
	"epoch": 0.897126969416126,
	"grad_norm": 0.029828151687979698,
	"learning_rate": 0.00013175010151780965,
	"loss": 4.4188,
	"step": 968
	},
	{
	"epoch": 0.8980537534754403,
	"grad_norm": 0.03368750587105751,
	"learning_rate": 0.0001294283481204042,
	"loss": 4.4313,
	"step": 969
	},
	{
	"epoch": 0.8989805375347544,
	"grad_norm": 0.02840586192905903,
	"learning_rate": 0.00012712669072363763,
	"loss": 4.4375,
	"step": 970
	},
	{
	"epoch": 0.8999073215940686,
	"grad_norm": 0.030109241604804993,
	"learning_rate": 0.0001248451488393057,
	"loss": 4.4125,
	"step": 971
	},
	{
	"epoch": 0.9008341056533827,
	"grad_norm": 0.028758615255355835,
	"learning_rate": 0.00012258374180867837,
	"loss": 4.45,
	"step": 972
	},
	{
	"epoch": 0.901760889712697,
	"grad_norm": 0.02661893516778946,
	"learning_rate": 0.00012034248880233744,
	"loss": 4.4813,
	"step": 973
	},
	{
	"epoch": 0.9026876737720111,
	"grad_norm": 0.02796340361237526,
	"learning_rate": 0.00011812140882001277,
	"loss": 4.45,
	"step": 974
	},
	{
	"epoch": 0.9036144578313253,
	"grad_norm": 0.024077627807855606,
	"learning_rate": 0.00011592052069042208,
	"loss": 4.4625,
	"step": 975
	},
	{
	"epoch": 0.9045412418906394,
	"grad_norm": 0.02510063722729683,
	"learning_rate": 0.00011373984307111229,
	"loss": 4.4188,
	"step": 976
	},
	{
	"epoch": 0.9054680259499537,
	"grad_norm": 0.02504696324467659,
	"learning_rate": 0.00011157939444829762,
	"loss": 4.4437,
	"step": 977
	},
	{
	"epoch": 0.9063948100092678,
	"grad_norm": 0.026624388992786407,
	"learning_rate": 0.0001094391931367078,
	"loss": 4.4563,
	"step": 978
	},
	{
	"epoch": 0.907321594068582,
	"grad_norm": 0.02774794027209282,
	"learning_rate": 0.00010731925727942932,
	"loss": 4.4313,
	"step": 979
	},
	{
	"epoch": 0.9082483781278962,
	"grad_norm": 0.027720240876078606,
	"learning_rate": 0.00010521960484775273,
	"loss": 4.425,
	"step": 980
	},
	{
	"epoch": 0.9091751621872104,
	"grad_norm": 0.0258037019520998,
	"learning_rate": 0.00010314025364102087,
	"loss": 4.425,
	"step": 981
	},
	{
	"epoch": 0.9101019462465245,
	"grad_norm": 0.031181413680315018,
	"learning_rate": 0.00010108122128647645,
	"loss": 4.425,
	"step": 982
	},
	{
	"epoch": 0.9110287303058388,
	"grad_norm": 0.026958808302879333,
	"learning_rate": 9.904252523911473e-05,
	"loss": 4.425,
	"step": 983
	},
	{
	"epoch": 0.9119555143651529,
	"grad_norm": 0.0251258946955204,
	"learning_rate": 9.702418278153296e-05,
	"loss": 4.3938,
	"step": 984
	},
	{
	"epoch": 0.9128822984244671,
	"grad_norm": 0.026582978665828705,
	"learning_rate": 9.502621102378706e-05,
	"loss": 4.4062,
	"step": 985
	},
	{
	"epoch": 0.9138090824837812,
	"grad_norm": 0.028273189440369606,
	"learning_rate": 9.304862690324295e-05,
	"loss": 4.4,
	"step": 986
	},
	{
	"epoch": 0.9147358665430955,
	"grad_norm": 0.02678096853196621,
	"learning_rate": 9.109144718443679e-05,
	"loss": 4.4125,
	"step": 987
	},
	{
	"epoch": 0.9156626506024096,
	"grad_norm": 0.024335335940122604,
	"learning_rate": 8.915468845892894e-05,
	"loss": 4.4125,
	"step": 988
	},
	{
	"epoch": 0.9165894346617238,
	"grad_norm": 0.02453056164085865,
	"learning_rate": 8.72383671451668e-05,
	"loss": 4.4062,
	"step": 989
	},
	{
	"epoch": 0.917516218721038,
	"grad_norm": 0.025096192955970764,
	"learning_rate": 8.534249948834311e-05,
	"loss": 4.4437,
	"step": 990
	},
	{
	"epoch": 0.9184430027803522,
	"grad_norm": 0.025366991758346558,
	"learning_rate": 8.346710156026033e-05,
	"loss": 4.4062,
	"step": 991
	},
	{
	"epoch": 0.9193697868396663,
	"grad_norm": 0.02832290157675743,
	"learning_rate": 8.161218925919172e-05,
	"loss": 4.4625,
	"step": 992
	},
	{
	"epoch": 0.9202965708989805,
	"grad_norm": 0.027890915051102638,
	"learning_rate": 7.977777830974947e-05,
	"loss": 4.4375,
	"step": 993
	},
	{
	"epoch": 0.9212233549582948,
	"grad_norm": 0.027829816564917564,
	"learning_rate": 7.796388426274947e-05,
	"loss": 4.45,
	"step": 994
	},
	{
	"epoch": 0.9221501390176089,
	"grad_norm": 0.02420070953667164,
	"learning_rate": 7.61705224950801e-05,
	"loss": 4.4313,
	"step": 995
	},
	{
	"epoch": 0.9230769230769231,
	"grad_norm": 0.024921340867877007,
	"learning_rate": 7.43977082095726e-05,
	"loss": 4.4125,
	"step": 996
	},
	{
	"epoch": 0.9240037071362373,
	"grad_norm": 0.02533474750816822,
	"learning_rate": 7.264545643486997e-05,
	"loss": 4.4062,
	"step": 997
	},
	{
	"epoch": 0.9249304911955515,
	"grad_norm": 0.02694832719862461,
	"learning_rate": 7.091378202530224e-05,
	"loss": 4.375,
	"step": 998
	},
	{
	"epoch": 0.9258572752548656,
	"grad_norm": 0.024787478148937225,
	"learning_rate": 6.920269966075893e-05,
	"loss": 4.4125,
	"step": 999
	},
	{
	"epoch": 0.9267840593141798,
	"grad_norm": 0.02519523911178112,
	"learning_rate": 6.751222384656502e-05,
	"loss": 4.425,
	"step": 1000
	},
	{
	"epoch": 0.927710843373494,
	"grad_norm": 0.0249481238424778,
	"learning_rate": 6.584236891335804e-05,
	"loss": 4.45,
	"step": 1001
	},
	{
	"epoch": 0.9286376274328082,
	"grad_norm": 0.027095666155219078,
	"learning_rate": 6.419314901696671e-05,
	"loss": 4.4125,
	"step": 1002
	},
	{
	"epoch": 0.9295644114921223,
	"grad_norm": 0.026183003559708595,
	"learning_rate": 6.256457813828997e-05,
	"loss": 4.3938,
	"step": 1003
	},
	{
	"epoch": 0.9304911955514366,
	"grad_norm": 0.025982800871133804,
	"learning_rate": 6.095667008318068e-05,
	"loss": 4.4062,
	"step": 1004
	},
	{
	"epoch": 0.9314179796107507,
	"grad_norm": 0.027629397809505463,
	"learning_rate": 5.936943848232568e-05,
	"loss": 4.4625,
	"step": 1005
	},
	{
	"epoch": 0.9323447636700649,
	"grad_norm": 0.02437759004533291,
	"learning_rate": 5.78028967911326e-05,
	"loss": 4.425,
	"step": 1006
	},
	{
	"epoch": 0.933271547729379,
	"grad_norm": 0.024311203509569168,
	"learning_rate": 5.625705828961436e-05,
	"loss": 4.4375,
	"step": 1007
	},
	{
	"epoch": 0.9341983317886933,
	"grad_norm": 0.024223096668720245,
	"learning_rate": 5.473193608227789e-05,
	"loss": 4.4062,
	"step": 1008
	},
	{
	"epoch": 0.9351251158480074,
	"grad_norm": 0.023723123595118523,
	"learning_rate": 5.322754309801115e-05,
	"loss": 4.45,
	"step": 1009
	},
	{
	"epoch": 0.9360518999073216,
	"grad_norm": 0.02314998209476471,
	"learning_rate": 5.174389208997598e-05,
	"loss": 4.4188,
	"step": 1010
	},
	{
	"epoch": 0.9369786839666358,
	"grad_norm": 0.028589608147740364,
	"learning_rate": 5.0280995635497705e-05,
	"loss": 4.4375,
	"step": 1011
	},
	{
	"epoch": 0.93790546802595,
	"grad_norm": 0.023467648774385452,
	"learning_rate": 4.883886613595984e-05,
	"loss": 4.3938,
	"step": 1012
	},
	{
	"epoch": 0.9388322520852641,
	"grad_norm": 0.025684082880616188,
	"learning_rate": 4.74175158166984e-05,
	"loss": 4.4188,
	"step": 1013
	},
	{
	"epoch": 0.9397590361445783,
	"grad_norm": 0.028895532712340355,
	"learning_rate": 4.601695672689921e-05,
	"loss": 4.4375,
	"step": 1014
	},
	{
	"epoch": 0.9406858202038925,
	"grad_norm": 0.02598528377711773,
	"learning_rate": 4.463720073949351e-05,
	"loss": 4.4375,
	"step": 1015
	},
	{
	"epoch": 0.9416126042632067,
	"grad_norm": 0.025186927989125252,
	"learning_rate": 4.3278259551060015e-05,
	"loss": 4.4188,
	"step": 1016
	},
	{
	"epoch": 0.9425393883225208,
	"grad_norm": 0.02664157934486866,
	"learning_rate": 4.194014468172469e-05,
	"loss": 4.4313,
	"step": 1017
	},
	{
	"epoch": 0.943466172381835,
	"grad_norm": 0.02440650388598442,
	"learning_rate": 4.062286747506222e-05,
	"loss": 4.45,
	"step": 1018
	},
	{
	"epoch": 0.9443929564411492,
	"grad_norm": 0.022903352975845337,
	"learning_rate": 3.932643909800082e-05,
	"loss": 4.3875,
	"step": 1019
	},
	{
	"epoch": 0.9453197405004634,
	"grad_norm": 0.024947639554739,
	"learning_rate": 3.805087054072731e-05,
	"loss": 4.4375,
	"step": 1020
	},
	{
	"epoch": 0.9462465245597775,
	"grad_norm": 0.027093123644590378,
	"learning_rate": 3.6796172616594126e-05,
	"loss": 4.4188,
	"step": 1021
	},
	{
	"epoch": 0.9471733086190918,
	"grad_norm": 0.023427557200193405,
	"learning_rate": 3.5562355962027726e-05,
	"loss": 4.4625,
	"step": 1022
	},
	{
	"epoch": 0.9481000926784059,
	"grad_norm": 0.02435910701751709,
	"learning_rate": 3.434943103643728e-05,
	"loss": 4.4188,
	"step": 1023
	},
	{
	"epoch": 0.9490268767377201,
	"grad_norm": 0.025206558406352997,
	"learning_rate": 3.315740812212781e-05,
	"loss": 4.4062,
	"step": 1024
	},
	{
	"epoch": 0.9499536607970342,
	"grad_norm": 0.024215737357735634,
	"learning_rate": 3.198629732421188e-05,
	"loss": 4.4,
	"step": 1025
	},
	{
	"epoch": 0.9508804448563485,
	"grad_norm": 0.022633830085396767,
	"learning_rate": 3.0836108570524154e-05,
	"loss": 4.4062,
	"step": 1026
	},
	{
	"epoch": 0.9518072289156626,
	"grad_norm": 0.024218518286943436,
	"learning_rate": 2.9706851611537023e-05,
	"loss": 4.4938,
	"step": 1027
	},
	{
	"epoch": 0.9527340129749768,
	"grad_norm": 0.023550162091851234,
	"learning_rate": 2.8598536020278676e-05,
	"loss": 4.4,
	"step": 1028
	},
	{
	"epoch": 0.953660797034291,
	"grad_norm": 0.024799218401312828,
	"learning_rate": 2.7511171192250718e-05,
	"loss": 4.4375,
	"step": 1029
	},
	{
	"epoch": 0.9545875810936052,
	"grad_norm": 0.025713039562106133,
	"learning_rate": 2.6444766345350425e-05,
	"loss": 4.4062,
	"step": 1030
	},
	{
	"epoch": 0.9555143651529193,
	"grad_norm": 0.024386629462242126,
	"learning_rate": 2.539933051978971e-05,
	"loss": 4.4188,
	"step": 1031
	},
	{
	"epoch": 0.9564411492122336,
	"grad_norm": 0.025705767795443535,
	"learning_rate": 2.43748725780224e-05,
	"loss": 4.375,
	"step": 1032
	},
	{
	"epoch": 0.9573679332715477,
	"grad_norm": 0.026646282523870468,
	"learning_rate": 2.3371401204664577e-05,
	"loss": 4.45,
	"step": 1033
	},
	{
	"epoch": 0.9582947173308619,
	"grad_norm": 0.025327732786536217,
	"learning_rate": 2.238892490642547e-05,
	"loss": 4.4437,
	"step": 1034
	},
	{
	"epoch": 0.959221501390176,
	"grad_norm": 0.024950072169303894,
	"learning_rate": 2.142745201203139e-05,
	"loss": 4.45,
	"step": 1035
	},
	{
	"epoch": 0.9601482854494903,
	"grad_norm": 0.023224515840411186,
	"learning_rate": 2.048699067215831e-05,
	"loss": 4.4125,
	"step": 1036
	},
	{
	"epoch": 0.9610750695088045,
	"grad_norm": 0.024536075070500374,
	"learning_rate": 1.9567548859359963e-05,
	"loss": 4.45,
	"step": 1037
	},
	{
	"epoch": 0.9620018535681186,
	"grad_norm": 0.025291137397289276,
	"learning_rate": 1.866913436800316e-05,
	"loss": 4.4563,
	"step": 1038
	},
	{
	"epoch": 0.9629286376274329,
	"grad_norm": 0.023913368582725525,
	"learning_rate": 1.7791754814199255e-05,
	"loss": 4.4563,
	"step": 1039
	},
	{
	"epoch": 0.963855421686747,
	"grad_norm": 0.02541198581457138,
	"learning_rate": 1.693541763574058e-05,
	"loss": 4.45,
	"step": 1040
	},
	{
	"epoch": 0.9647822057460612,
	"grad_norm": 0.02386779710650444,
	"learning_rate": 1.6100130092037703e-05,
	"loss": 4.3812,
	"step": 1041
	},
	{
	"epoch": 0.9657089898053753,
	"grad_norm": 0.02432171255350113,
	"learning_rate": 1.528589926405727e-05,
	"loss": 4.4563,
	"step": 1042
	},
	{
	"epoch": 0.9666357738646896,
	"grad_norm": 0.026072759181261063,
	"learning_rate": 1.4492732054262603e-05,
	"loss": 4.4062,
	"step": 1043
	},
	{
	"epoch": 0.9675625579240037,
	"grad_norm": 0.02468552440404892,
	"learning_rate": 1.372063518655403e-05,
	"loss": 4.45,
	"step": 1044
	},
	{
	"epoch": 0.9684893419833179,
	"grad_norm": 0.023878788575530052,
	"learning_rate": 1.2969615206213369e-05,
	"loss": 4.4188,
	"step": 1045
	},
	{
	"epoch": 0.969416126042632,
	"grad_norm": 0.0231490395963192,
	"learning_rate": 1.223967847984786e-05,
	"loss": 4.4188,
	"step": 1046
	},
	{
	"epoch": 0.9703429101019463,
	"grad_norm": 0.024373695254325867,
	"learning_rate": 1.1530831195335767e-05,
	"loss": 4.4437,
	"step": 1047
	},
	{
	"epoch": 0.9712696941612604,
	"grad_norm": 0.02477751113474369,
	"learning_rate": 1.08430793617742e-05,
	"loss": 4.4188,
	"step": 1048
	},
	{
	"epoch": 0.9721964782205746,
	"grad_norm": 0.023831041529774666,
	"learning_rate": 1.0176428809428318e-05,
	"loss": 4.4813,
	"step": 1049
	},
	{
	"epoch": 0.9731232622798888,
	"grad_norm": 0.02483510971069336,
	"learning_rate": 9.530885189681649e-06,
	"loss": 4.4125,
	"step": 1050
	},
	{
	"epoch": 0.974050046339203,
	"grad_norm": 0.023760484531521797,
	"learning_rate": 8.906453974988626e-06,
	"loss": 4.4062,
	"step": 1051
	},
	{
	"epoch": 0.9749768303985171,
	"grad_norm": 0.02444753795862198,
	"learning_rate": 8.303140458827684e-06,
	"loss": 4.4062,
	"step": 1052
	},
	{
	"epoch": 0.9759036144578314,
	"grad_norm": 0.021337734535336494,
	"learning_rate": 7.720949755657125e-06,
	"loss": 4.4,
	"step": 1053
	},
	{
	"epoch": 0.9768303985171455,
	"grad_norm": 0.022071754559874535,
	"learning_rate": 7.159886800869875e-06,
	"loss": 4.425,
	"step": 1054
	},
	{
	"epoch": 0.9777571825764597,
	"grad_norm": 0.024915462359786034,
	"learning_rate": 6.6199563507549075e-06,
	"loss": 4.3938,
	"step": 1055
	},
	{
	"epoch": 0.9786839666357738,
	"grad_norm": 0.022235747426748276,
	"learning_rate": 6.1011629824533895e-06,
	"loss": 4.4,
	"step": 1056
	},
	{
	"epoch": 0.9796107506950881,
	"grad_norm": 0.02508777379989624,
	"learning_rate": 5.60351109392232e-06,
	"loss": 4.425,
	"step": 1057
	},
	{
	"epoch": 0.9805375347544022,
	"grad_norm": 0.02421114780008793,
	"learning_rate": 5.127004903896504e-06,
	"loss": 4.4688,
	"step": 1058
	},
	{
	"epoch": 0.9814643188137164,
	"grad_norm": 0.023330386728048325,
	"learning_rate": 4.6716484518524726e-06,
	"loss": 4.3875,
	"step": 1059
	},
	{
	"epoch": 0.9823911028730306,
	"grad_norm": 0.02507002279162407,
	"learning_rate": 4.237445597974343e-06,
	"loss": 4.4563,
	"step": 1060
	},
	{
	"epoch": 0.9833178869323448,
	"grad_norm": 0.023726079612970352,
	"learning_rate": 3.824400023121621e-06,
	"loss": 4.4688,
	"step": 1061
	},
	{
	"epoch": 0.9842446709916589,
	"grad_norm": 0.022975319996476173,
	"learning_rate": 3.4325152287975615e-06,
	"loss": 4.3938,
	"step": 1062
	},
	{
	"epoch": 0.9851714550509731,
	"grad_norm": 0.02411024458706379,
	"learning_rate": 3.061794537119467e-06,
	"loss": 4.4563,
	"step": 1063
	},
	{
	"epoch": 0.9860982391102873,
	"grad_norm": 0.022638075053691864,
	"learning_rate": 2.7122410907903794e-06,
	"loss": 4.4563,
	"step": 1064
	},
	{
	"epoch": 0.9870250231696015,
	"grad_norm": 0.023638809099793434,
	"learning_rate": 2.383857853073268e-06,
	"loss": 4.425,
	"step": 1065
	},
	{
	"epoch": 0.9879518072289156,
	"grad_norm": 0.02219136245548725,
	"learning_rate": 2.0766476077643813e-06,
	"loss": 4.4,
	"step": 1066
	},
	{
	"epoch": 0.9888785912882299,
	"grad_norm": 0.02723466046154499,
	"learning_rate": 1.7906129591713227e-06,
	"loss": 4.4437,
	"step": 1067
	},
	{
	"epoch": 0.989805375347544,
	"grad_norm": 0.024723384529352188,
	"learning_rate": 1.525756332090289e-06,
	"loss": 4.4,
	"step": 1068
	},
	{
	"epoch": 0.9907321594068582,
	"grad_norm": 0.023885123431682587,
	"learning_rate": 1.2820799717849775e-06,
	"loss": 4.4,
	"step": 1069
	},
	{
	"epoch": 0.9916589434661723,
	"grad_norm": 0.022805040702223778,
	"learning_rate": 1.059585943967989e-06,
	"loss": 4.4437,
	"step": 1070
	},
	{
	"epoch": 0.9925857275254866,
	"grad_norm": 0.023890964686870575,
	"learning_rate": 8.58276134784175e-07,
	"loss": 4.3812,
	"step": 1071
	},
	{
	"epoch": 0.9935125115848007,
	"grad_norm": 0.025231240317225456,
	"learning_rate": 6.781522507925964e-07,
	"loss": 4.3688,
	"step": 1072
	},
	{
	"epoch": 0.9944392956441149,
	"grad_norm": 0.021534454077482224,
	"learning_rate": 5.192158189543106e-07,
	"loss": 4.4938,
	"step": 1073
	},
	{
	"epoch": 0.995366079703429,
	"grad_norm": 0.023576676845550537,
	"learning_rate": 3.8146818661793925e-07,
	"loss": 4.4,
	"step": 1074
	},
	{
	"epoch": 0.9962928637627433,
	"grad_norm": 0.02641914412379265,
	"learning_rate": 2.6491052150884323e-07,
	"loss": 4.3625,
	"step": 1075
	},
	{
	"epoch": 0.9972196478220574,
	"grad_norm": 0.02341269887983799,
	"learning_rate": 1.6954381171885302e-07,
	"loss": 4.3812,
	"step": 1076
	},
	{
	"epoch": 0.9981464318813716,
	"grad_norm": 0.022809363901615143,
	"learning_rate": 9.536886569849746e-08,
	"loss": 4.4437,
	"step": 1077
	},
	{
	"epoch": 0.9990732159406858,
	"grad_norm": 0.023255689069628716,
	"learning_rate": 4.23863122495094e-08,
	"loss": 4.4437,
	"step": 1078
	},
	{
	"epoch": 1.0,
	"grad_norm": 0.03218919411301613,
	"learning_rate": 1.059660052010747e-08,
	"loss": 4.425,
	"step": 1079
	}
	],
	"logging_steps": 1,
	"max_steps": 1079,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 3.154917754792837e+17,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}