phi-4-openalex / trainer_state.json

End of training

b95e3e6 verified 12 months ago

92.9 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.9997727789138832,
	"eval_steps": 500,
	"global_step": 550,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0018177686889343332,
	"grad_norm": 0.1331978142261505,
	"learning_rate": 3.5714285714285716e-07,
	"loss": 1.8898,
	"step": 1
	},
	{
	"epoch": 0.0036355373778686664,
	"grad_norm": 0.13566601276397705,
	"learning_rate": 7.142857142857143e-07,
	"loss": 1.8867,
	"step": 2
	},
	{
	"epoch": 0.0054533060668029995,
	"grad_norm": 0.13576287031173706,
	"learning_rate": 1.0714285714285714e-06,
	"loss": 1.8848,
	"step": 3
	},
	{
	"epoch": 0.007271074755737333,
	"grad_norm": 0.1231953352689743,
	"learning_rate": 1.4285714285714286e-06,
	"loss": 1.888,
	"step": 4
	},
	{
	"epoch": 0.009088843444671665,
	"grad_norm": 0.09326394647359848,
	"learning_rate": 1.7857142857142859e-06,
	"loss": 1.8816,
	"step": 5
	},
	{
	"epoch": 0.010906612133605999,
	"grad_norm": 0.08585168421268463,
	"learning_rate": 2.1428571428571427e-06,
	"loss": 1.8851,
	"step": 6
	},
	{
	"epoch": 0.012724380822540331,
	"grad_norm": 0.0567106269299984,
	"learning_rate": 2.5e-06,
	"loss": 1.8799,
	"step": 7
	},
	{
	"epoch": 0.014542149511474665,
	"grad_norm": 0.05393998324871063,
	"learning_rate": 2.8571428571428573e-06,
	"loss": 1.8785,
	"step": 8
	},
	{
	"epoch": 0.016359918200409,
	"grad_norm": 0.05495736747980118,
	"learning_rate": 3.2142857142857147e-06,
	"loss": 1.8763,
	"step": 9
	},
	{
	"epoch": 0.01817768688934333,
	"grad_norm": 0.05345786362886429,
	"learning_rate": 3.5714285714285718e-06,
	"loss": 1.8676,
	"step": 10
	},
	{
	"epoch": 0.019995455578277664,
	"grad_norm": 0.047461625188589096,
	"learning_rate": 3.928571428571429e-06,
	"loss": 1.8634,
	"step": 11
	},
	{
	"epoch": 0.021813224267211998,
	"grad_norm": 0.061344344168901443,
	"learning_rate": 4.2857142857142855e-06,
	"loss": 1.864,
	"step": 12
	},
	{
	"epoch": 0.02363099295614633,
	"grad_norm": 0.06245123967528343,
	"learning_rate": 4.642857142857144e-06,
	"loss": 1.8647,
	"step": 13
	},
	{
	"epoch": 0.025448761645080663,
	"grad_norm": 0.053826089948415756,
	"learning_rate": 5e-06,
	"loss": 1.8605,
	"step": 14
	},
	{
	"epoch": 0.027266530334014997,
	"grad_norm": 0.04343092441558838,
	"learning_rate": 5.357142857142857e-06,
	"loss": 1.8648,
	"step": 15
	},
	{
	"epoch": 0.02908429902294933,
	"grad_norm": 0.04949821159243584,
	"learning_rate": 5.7142857142857145e-06,
	"loss": 1.8536,
	"step": 16
	},
	{
	"epoch": 0.03090206771188366,
	"grad_norm": 0.06119069084525108,
	"learning_rate": 6.071428571428571e-06,
	"loss": 1.8485,
	"step": 17
	},
	{
	"epoch": 0.032719836400818,
	"grad_norm": 0.05067905783653259,
	"learning_rate": 6.4285714285714295e-06,
	"loss": 1.8536,
	"step": 18
	},
	{
	"epoch": 0.03453760508975233,
	"grad_norm": 0.03722887113690376,
	"learning_rate": 6.785714285714287e-06,
	"loss": 1.8491,
	"step": 19
	},
	{
	"epoch": 0.03635537377868666,
	"grad_norm": 0.04830312356352806,
	"learning_rate": 7.1428571428571436e-06,
	"loss": 1.8361,
	"step": 20
	},
	{
	"epoch": 0.038173142467621,
	"grad_norm": 0.052912868559360504,
	"learning_rate": 7.500000000000001e-06,
	"loss": 1.8522,
	"step": 21
	},
	{
	"epoch": 0.03999091115655533,
	"grad_norm": 0.04469645023345947,
	"learning_rate": 7.857142857142858e-06,
	"loss": 1.8391,
	"step": 22
	},
	{
	"epoch": 0.04180867984548966,
	"grad_norm": 0.04048198461532593,
	"learning_rate": 8.214285714285714e-06,
	"loss": 1.8345,
	"step": 23
	},
	{
	"epoch": 0.043626448534423996,
	"grad_norm": 0.03836997598409653,
	"learning_rate": 8.571428571428571e-06,
	"loss": 1.8342,
	"step": 24
	},
	{
	"epoch": 0.04544421722335833,
	"grad_norm": 0.038932956755161285,
	"learning_rate": 8.92857142857143e-06,
	"loss": 1.8399,
	"step": 25
	},
	{
	"epoch": 0.04726198591229266,
	"grad_norm": 0.041100382804870605,
	"learning_rate": 9.285714285714288e-06,
	"loss": 1.833,
	"step": 26
	},
	{
	"epoch": 0.049079754601226995,
	"grad_norm": 0.03821416571736336,
	"learning_rate": 9.642857142857144e-06,
	"loss": 1.8342,
	"step": 27
	},
	{
	"epoch": 0.050897523290161326,
	"grad_norm": 0.037851471453905106,
	"learning_rate": 1e-05,
	"loss": 1.8313,
	"step": 28
	},
	{
	"epoch": 0.05271529197909566,
	"grad_norm": 0.03763577714562416,
	"learning_rate": 9.999909448127131e-06,
	"loss": 1.8291,
	"step": 29
	},
	{
	"epoch": 0.054533060668029994,
	"grad_norm": 0.03475307673215866,
	"learning_rate": 9.999637795788383e-06,
	"loss": 1.8185,
	"step": 30
	},
	{
	"epoch": 0.056350829356964324,
	"grad_norm": 0.03289997950196266,
	"learning_rate": 9.999185052823207e-06,
	"loss": 1.8261,
	"step": 31
	},
	{
	"epoch": 0.05816859804589866,
	"grad_norm": 0.03243958577513695,
	"learning_rate": 9.99855123563029e-06,
	"loss": 1.8237,
	"step": 32
	},
	{
	"epoch": 0.05998636673483299,
	"grad_norm": 0.033227939158678055,
	"learning_rate": 9.997736367166967e-06,
	"loss": 1.827,
	"step": 33
	},
	{
	"epoch": 0.06180413542376732,
	"grad_norm": 0.03226836398243904,
	"learning_rate": 9.996740476948386e-06,
	"loss": 1.8257,
	"step": 34
	},
	{
	"epoch": 0.06362190411270166,
	"grad_norm": 0.029187630861997604,
	"learning_rate": 9.995563601046434e-06,
	"loss": 1.819,
	"step": 35
	},
	{
	"epoch": 0.065439672801636,
	"grad_norm": 0.026967501267790794,
	"learning_rate": 9.994205782088438e-06,
	"loss": 1.8136,
	"step": 36
	},
	{
	"epoch": 0.06725744149057032,
	"grad_norm": 0.031199270859360695,
	"learning_rate": 9.99266706925562e-06,
	"loss": 1.8206,
	"step": 37
	},
	{
	"epoch": 0.06907521017950466,
	"grad_norm": 0.030985625460743904,
	"learning_rate": 9.990947518281312e-06,
	"loss": 1.8281,
	"step": 38
	},
	{
	"epoch": 0.070892978868439,
	"grad_norm": 0.02339562401175499,
	"learning_rate": 9.989047191448934e-06,
	"loss": 1.82,
	"step": 39
	},
	{
	"epoch": 0.07271074755737332,
	"grad_norm": 0.0256453026086092,
	"learning_rate": 9.986966157589751e-06,
	"loss": 1.8079,
	"step": 40
	},
	{
	"epoch": 0.07452851624630766,
	"grad_norm": 0.025680653750896454,
	"learning_rate": 9.984704492080366e-06,
	"loss": 1.8088,
	"step": 41
	},
	{
	"epoch": 0.076346284935242,
	"grad_norm": 0.026331942528486252,
	"learning_rate": 9.982262276840002e-06,
	"loss": 1.8153,
	"step": 42
	},
	{
	"epoch": 0.07816405362417632,
	"grad_norm": 0.026452744379639626,
	"learning_rate": 9.979639600327522e-06,
	"loss": 1.8082,
	"step": 43
	},
	{
	"epoch": 0.07998182231311066,
	"grad_norm": 0.020438341423869133,
	"learning_rate": 9.976836557538234e-06,
	"loss": 1.8087,
	"step": 44
	},
	{
	"epoch": 0.081799591002045,
	"grad_norm": 0.022149616852402687,
	"learning_rate": 9.973853250000449e-06,
	"loss": 1.8132,
	"step": 45
	},
	{
	"epoch": 0.08361735969097932,
	"grad_norm": 0.020680025219917297,
	"learning_rate": 9.970689785771798e-06,
	"loss": 1.8077,
	"step": 46
	},
	{
	"epoch": 0.08543512837991366,
	"grad_norm": 0.018105728551745415,
	"learning_rate": 9.967346279435328e-06,
	"loss": 1.8063,
	"step": 47
	},
	{
	"epoch": 0.08725289706884799,
	"grad_norm": 0.020593147724866867,
	"learning_rate": 9.963822852095344e-06,
	"loss": 1.8036,
	"step": 48
	},
	{
	"epoch": 0.08907066575778232,
	"grad_norm": 0.0193562563508749,
	"learning_rate": 9.960119631373023e-06,
	"loss": 1.8135,
	"step": 49
	},
	{
	"epoch": 0.09088843444671665,
	"grad_norm": 0.017045950517058372,
	"learning_rate": 9.95623675140179e-06,
	"loss": 1.8115,
	"step": 50
	},
	{
	"epoch": 0.09270620313565099,
	"grad_norm": 0.01905151829123497,
	"learning_rate": 9.952174352822474e-06,
	"loss": 1.8087,
	"step": 51
	},
	{
	"epoch": 0.09452397182458531,
	"grad_norm": 0.019179217517375946,
	"learning_rate": 9.947932582778188e-06,
	"loss": 1.8093,
	"step": 52
	},
	{
	"epoch": 0.09634174051351965,
	"grad_norm": 0.016135873273015022,
	"learning_rate": 9.943511594909024e-06,
	"loss": 1.8008,
	"step": 53
	},
	{
	"epoch": 0.09815950920245399,
	"grad_norm": 0.016653183847665787,
	"learning_rate": 9.938911549346473e-06,
	"loss": 1.8075,
	"step": 54
	},
	{
	"epoch": 0.09997727789138833,
	"grad_norm": 0.01784764975309372,
	"learning_rate": 9.934132612707631e-06,
	"loss": 1.8065,
	"step": 55
	},
	{
	"epoch": 0.10179504658032265,
	"grad_norm": 0.01742948405444622,
	"learning_rate": 9.929174958089167e-06,
	"loss": 1.8066,
	"step": 56
	},
	{
	"epoch": 0.10361281526925699,
	"grad_norm": 0.015608050860464573,
	"learning_rate": 9.924038765061042e-06,
	"loss": 1.8089,
	"step": 57
	},
	{
	"epoch": 0.10543058395819133,
	"grad_norm": 0.017180059105157852,
	"learning_rate": 9.918724219660013e-06,
	"loss": 1.8063,
	"step": 58
	},
	{
	"epoch": 0.10724835264712565,
	"grad_norm": 0.01681089587509632,
	"learning_rate": 9.913231514382902e-06,
	"loss": 1.7952,
	"step": 59
	},
	{
	"epoch": 0.10906612133605999,
	"grad_norm": 0.016128279268741608,
	"learning_rate": 9.907560848179607e-06,
	"loss": 1.797,
	"step": 60
	},
	{
	"epoch": 0.11088389002499432,
	"grad_norm": 0.016297221183776855,
	"learning_rate": 9.901712426445901e-06,
	"loss": 1.7966,
	"step": 61
	},
	{
	"epoch": 0.11270165871392865,
	"grad_norm": 0.017089389264583588,
	"learning_rate": 9.895686461016007e-06,
	"loss": 1.8097,
	"step": 62
	},
	{
	"epoch": 0.11451942740286299,
	"grad_norm": 0.01613052934408188,
	"learning_rate": 9.889483170154903e-06,
	"loss": 1.7984,
	"step": 63
	},
	{
	"epoch": 0.11633719609179732,
	"grad_norm": 0.016225503757596016,
	"learning_rate": 9.883102778550434e-06,
	"loss": 1.8013,
	"step": 64
	},
	{
	"epoch": 0.11815496478073165,
	"grad_norm": 0.015952223911881447,
	"learning_rate": 9.876545517305163e-06,
	"loss": 1.7993,
	"step": 65
	},
	{
	"epoch": 0.11997273346966598,
	"grad_norm": 0.016045618802309036,
	"learning_rate": 9.869811623928001e-06,
	"loss": 1.7968,
	"step": 66
	},
	{
	"epoch": 0.12179050215860032,
	"grad_norm": 0.015822941437363625,
	"learning_rate": 9.862901342325617e-06,
	"loss": 1.7947,
	"step": 67
	},
	{
	"epoch": 0.12360827084753465,
	"grad_norm": 0.016080934554338455,
	"learning_rate": 9.855814922793583e-06,
	"loss": 1.8011,
	"step": 68
	},
	{
	"epoch": 0.125426039536469,
	"grad_norm": 0.01613529957830906,
	"learning_rate": 9.848552622007326e-06,
	"loss": 1.7956,
	"step": 69
	},
	{
	"epoch": 0.12724380822540332,
	"grad_norm": 0.01521450374275446,
	"learning_rate": 9.841114703012817e-06,
	"loss": 1.7961,
	"step": 70
	},
	{
	"epoch": 0.12906157691433764,
	"grad_norm": 0.01613503508269787,
	"learning_rate": 9.83350143521706e-06,
	"loss": 1.7981,
	"step": 71
	},
	{
	"epoch": 0.130879345603272,
	"grad_norm": 0.01576644368469715,
	"learning_rate": 9.82571309437831e-06,
	"loss": 1.8042,
	"step": 72
	},
	{
	"epoch": 0.13269711429220632,
	"grad_norm": 0.017247062176465988,
	"learning_rate": 9.817749962596115e-06,
	"loss": 1.793,
	"step": 73
	},
	{
	"epoch": 0.13451488298114064,
	"grad_norm": 0.014981955289840698,
	"learning_rate": 9.809612328301071e-06,
	"loss": 1.8074,
	"step": 74
	},
	{
	"epoch": 0.136332651670075,
	"grad_norm": 0.0150354178622365,
	"learning_rate": 9.801300486244385e-06,
	"loss": 1.7973,
	"step": 75
	},
	{
	"epoch": 0.13815042035900932,
	"grad_norm": 0.015270021744072437,
	"learning_rate": 9.792814737487207e-06,
	"loss": 1.7973,
	"step": 76
	},
	{
	"epoch": 0.13996818904794364,
	"grad_norm": 0.016216879710555077,
	"learning_rate": 9.784155389389713e-06,
	"loss": 1.7986,
	"step": 77
	},
	{
	"epoch": 0.141785957736878,
	"grad_norm": 0.015781838446855545,
	"learning_rate": 9.775322755599979e-06,
	"loss": 1.7937,
	"step": 78
	},
	{
	"epoch": 0.14360372642581232,
	"grad_norm": 0.015398108400404453,
	"learning_rate": 9.766317156042615e-06,
	"loss": 1.7976,
	"step": 79
	},
	{
	"epoch": 0.14542149511474664,
	"grad_norm": 0.01513028983026743,
	"learning_rate": 9.757138916907184e-06,
	"loss": 1.7915,
	"step": 80
	},
	{
	"epoch": 0.147239263803681,
	"grad_norm": 0.015322140417993069,
	"learning_rate": 9.747788370636389e-06,
	"loss": 1.8053,
	"step": 81
	},
	{
	"epoch": 0.14905703249261532,
	"grad_norm": 0.016009092330932617,
	"learning_rate": 9.738265855914014e-06,
	"loss": 1.7908,
	"step": 82
	},
	{
	"epoch": 0.15087480118154964,
	"grad_norm": 0.01483672671020031,
	"learning_rate": 9.728571717652677e-06,
	"loss": 1.7888,
	"step": 83
	},
	{
	"epoch": 0.152692569870484,
	"grad_norm": 0.014686529524624348,
	"learning_rate": 9.718706306981332e-06,
	"loss": 1.7911,
	"step": 84
	},
	{
	"epoch": 0.15451033855941831,
	"grad_norm": 0.01669451966881752,
	"learning_rate": 9.708669981232542e-06,
	"loss": 1.8017,
	"step": 85
	},
	{
	"epoch": 0.15632810724835264,
	"grad_norm": 0.014686268754303455,
	"learning_rate": 9.698463103929542e-06,
	"loss": 1.7979,
	"step": 86
	},
	{
	"epoch": 0.158145875937287,
	"grad_norm": 0.01508221123367548,
	"learning_rate": 9.688086044773079e-06,
	"loss": 1.7872,
	"step": 87
	},
	{
	"epoch": 0.1599636446262213,
	"grad_norm": 0.0154942087829113,
	"learning_rate": 9.677539179628005e-06,
	"loss": 1.794,
	"step": 88
	},
	{
	"epoch": 0.16178141331515564,
	"grad_norm": 0.016326844692230225,
	"learning_rate": 9.66682289050968e-06,
	"loss": 1.7981,
	"step": 89
	},
	{
	"epoch": 0.16359918200409,
	"grad_norm": 0.015189899131655693,
	"learning_rate": 9.655937565570124e-06,
	"loss": 1.7943,
	"step": 90
	},
	{
	"epoch": 0.1654169506930243,
	"grad_norm": 0.014669873751699924,
	"learning_rate": 9.644883599083959e-06,
	"loss": 1.7873,
	"step": 91
	},
	{
	"epoch": 0.16723471938195864,
	"grad_norm": 0.015705488622188568,
	"learning_rate": 9.63366139143413e-06,
	"loss": 1.7959,
	"step": 92
	},
	{
	"epoch": 0.169052488070893,
	"grad_norm": 0.015006368048489094,
	"learning_rate": 9.622271349097413e-06,
	"loss": 1.7883,
	"step": 93
	},
	{
	"epoch": 0.1708702567598273,
	"grad_norm": 0.015823103487491608,
	"learning_rate": 9.610713884629667e-06,
	"loss": 1.7864,
	"step": 94
	},
	{
	"epoch": 0.17268802544876163,
	"grad_norm": 0.03225838020443916,
	"learning_rate": 9.598989416650915e-06,
	"loss": 1.7871,
	"step": 95
	},
	{
	"epoch": 0.17450579413769599,
	"grad_norm": 0.015597975812852383,
	"learning_rate": 9.587098369830171e-06,
	"loss": 1.7804,
	"step": 96
	},
	{
	"epoch": 0.1763235628266303,
	"grad_norm": 0.01537901721894741,
	"learning_rate": 9.575041174870062e-06,
	"loss": 1.7858,
	"step": 97
	},
	{
	"epoch": 0.17814133151556463,
	"grad_norm": 0.023264285176992416,
	"learning_rate": 9.562818268491216e-06,
	"loss": 1.7823,
	"step": 98
	},
	{
	"epoch": 0.17995910020449898,
	"grad_norm": 0.01551035512238741,
	"learning_rate": 9.550430093416465e-06,
	"loss": 1.7882,
	"step": 99
	},
	{
	"epoch": 0.1817768688934333,
	"grad_norm": 0.015448925085365772,
	"learning_rate": 9.537877098354787e-06,
	"loss": 1.7836,
	"step": 100
	},
	{
	"epoch": 0.18359463758236763,
	"grad_norm": 0.01610329933464527,
	"learning_rate": 9.525159737985066e-06,
	"loss": 1.7843,
	"step": 101
	},
	{
	"epoch": 0.18541240627130198,
	"grad_norm": 0.015887994319200516,
	"learning_rate": 9.512278472939627e-06,
	"loss": 1.7835,
	"step": 102
	},
	{
	"epoch": 0.1872301749602363,
	"grad_norm": 0.015717443078756332,
	"learning_rate": 9.499233769787534e-06,
	"loss": 1.7899,
	"step": 103
	},
	{
	"epoch": 0.18904794364917063,
	"grad_norm": 0.01613277569413185,
	"learning_rate": 9.486026101017711e-06,
	"loss": 1.789,
	"step": 104
	},
	{
	"epoch": 0.19086571233810498,
	"grad_norm": 0.0161016546189785,
	"learning_rate": 9.472655945021815e-06,
	"loss": 1.7885,
	"step": 105
	},
	{
	"epoch": 0.1926834810270393,
	"grad_norm": 0.015553218312561512,
	"learning_rate": 9.459123786076911e-06,
	"loss": 1.7841,
	"step": 106
	},
	{
	"epoch": 0.19450124971597363,
	"grad_norm": 0.01636493392288685,
	"learning_rate": 9.445430114327936e-06,
	"loss": 1.7864,
	"step": 107
	},
	{
	"epoch": 0.19631901840490798,
	"grad_norm": 0.016063738614320755,
	"learning_rate": 9.431575425769938e-06,
	"loss": 1.7836,
	"step": 108
	},
	{
	"epoch": 0.1981367870938423,
	"grad_norm": 0.016147315502166748,
	"learning_rate": 9.417560222230115e-06,
	"loss": 1.7786,
	"step": 109
	},
	{
	"epoch": 0.19995455578277666,
	"grad_norm": 0.01560090109705925,
	"learning_rate": 9.40338501134964e-06,
	"loss": 1.7782,
	"step": 110
	},
	{
	"epoch": 0.20177232447171098,
	"grad_norm": 0.015402060933411121,
	"learning_rate": 9.389050306565269e-06,
	"loss": 1.7814,
	"step": 111
	},
	{
	"epoch": 0.2035900931606453,
	"grad_norm": 0.017125973477959633,
	"learning_rate": 9.374556627090749e-06,
	"loss": 1.7793,
	"step": 112
	},
	{
	"epoch": 0.20540786184957965,
	"grad_norm": 0.015735799446702003,
	"learning_rate": 9.359904497898009e-06,
	"loss": 1.7872,
	"step": 113
	},
	{
	"epoch": 0.20722563053851398,
	"grad_norm": 0.01627574861049652,
	"learning_rate": 9.345094449698143e-06,
	"loss": 1.7893,
	"step": 114
	},
	{
	"epoch": 0.2090433992274483,
	"grad_norm": 0.014931687153875828,
	"learning_rate": 9.330127018922195e-06,
	"loss": 1.7825,
	"step": 115
	},
	{
	"epoch": 0.21086116791638265,
	"grad_norm": 0.015015835873782635,
	"learning_rate": 9.315002747701716e-06,
	"loss": 1.77,
	"step": 116
	},
	{
	"epoch": 0.21267893660531698,
	"grad_norm": 0.01571677438914776,
	"learning_rate": 9.299722183849144e-06,
	"loss": 1.7843,
	"step": 117
	},
	{
	"epoch": 0.2144967052942513,
	"grad_norm": 0.014991500414907932,
	"learning_rate": 9.284285880837947e-06,
	"loss": 1.7824,
	"step": 118
	},
	{
	"epoch": 0.21631447398318565,
	"grad_norm": 0.016052858904004097,
	"learning_rate": 9.268694397782585e-06,
	"loss": 1.7805,
	"step": 119
	},
	{
	"epoch": 0.21813224267211997,
	"grad_norm": 0.015834221616387367,
	"learning_rate": 9.252948299418255e-06,
	"loss": 1.7855,
	"step": 120
	},
	{
	"epoch": 0.2199500113610543,
	"grad_norm": 0.01614440232515335,
	"learning_rate": 9.237048156080433e-06,
	"loss": 1.7885,
	"step": 121
	},
	{
	"epoch": 0.22176778004998865,
	"grad_norm": 0.01563919708132744,
	"learning_rate": 9.220994543684225e-06,
	"loss": 1.7799,
	"step": 122
	},
	{
	"epoch": 0.22358554873892297,
	"grad_norm": 0.015689659863710403,
	"learning_rate": 9.2047880437035e-06,
	"loss": 1.7808,
	"step": 123
	},
	{
	"epoch": 0.2254033174278573,
	"grad_norm": 0.015433340333402157,
	"learning_rate": 9.188429243149824e-06,
	"loss": 1.7769,
	"step": 124
	},
	{
	"epoch": 0.22722108611679165,
	"grad_norm": 0.01560978963971138,
	"learning_rate": 9.171918734551212e-06,
	"loss": 1.7791,
	"step": 125
	},
	{
	"epoch": 0.22903885480572597,
	"grad_norm": 0.016046756878495216,
	"learning_rate": 9.155257115930651e-06,
	"loss": 1.7778,
	"step": 126
	},
	{
	"epoch": 0.2308566234946603,
	"grad_norm": 0.01664203219115734,
	"learning_rate": 9.138444990784455e-06,
	"loss": 1.7811,
	"step": 127
	},
	{
	"epoch": 0.23267439218359465,
	"grad_norm": 0.015654807910323143,
	"learning_rate": 9.121482968060384e-06,
	"loss": 1.7841,
	"step": 128
	},
	{
	"epoch": 0.23449216087252897,
	"grad_norm": 0.016352280974388123,
	"learning_rate": 9.104371662135612e-06,
	"loss": 1.7839,
	"step": 129
	},
	{
	"epoch": 0.2363099295614633,
	"grad_norm": 0.016163717955350876,
	"learning_rate": 9.08711169279446e-06,
	"loss": 1.7847,
	"step": 130
	},
	{
	"epoch": 0.23812769825039765,
	"grad_norm": 0.016361849382519722,
	"learning_rate": 9.069703685205945e-06,
	"loss": 1.7804,
	"step": 131
	},
	{
	"epoch": 0.23994546693933197,
	"grad_norm": 0.01635843515396118,
	"learning_rate": 9.052148269901145e-06,
	"loss": 1.7811,
	"step": 132
	},
	{
	"epoch": 0.2417632356282663,
	"grad_norm": 0.016859732568264008,
	"learning_rate": 9.034446082750352e-06,
	"loss": 1.7863,
	"step": 133
	},
	{
	"epoch": 0.24358100431720064,
	"grad_norm": 0.016207806766033173,
	"learning_rate": 9.01659776494005e-06,
	"loss": 1.7739,
	"step": 134
	},
	{
	"epoch": 0.24539877300613497,
	"grad_norm": 0.016936447471380234,
	"learning_rate": 8.998603962949674e-06,
	"loss": 1.7818,
	"step": 135
	},
	{
	"epoch": 0.2472165416950693,
	"grad_norm": 0.015802595764398575,
	"learning_rate": 8.98046532852822e-06,
	"loss": 1.7836,
	"step": 136
	},
	{
	"epoch": 0.24903431038400364,
	"grad_norm": 0.016628528013825417,
	"learning_rate": 8.96218251867061e-06,
	"loss": 1.7822,
	"step": 137
	},
	{
	"epoch": 0.250852079072938,
	"grad_norm": 0.01642756536602974,
	"learning_rate": 8.943756195593916e-06,
	"loss": 1.7756,
	"step": 138
	},
	{
	"epoch": 0.2526698477618723,
	"grad_norm": 0.016094859689474106,
	"learning_rate": 8.925187026713363e-06,
	"loss": 1.766,
	"step": 139
	},
	{
	"epoch": 0.25448761645080664,
	"grad_norm": 0.015560369938611984,
	"learning_rate": 8.90647568461816e-06,
	"loss": 1.783,
	"step": 140
	},
	{
	"epoch": 0.256305385139741,
	"grad_norm": 0.01574082300066948,
	"learning_rate": 8.887622847047131e-06,
	"loss": 1.7882,
	"step": 141
	},
	{
	"epoch": 0.2581231538286753,
	"grad_norm": 0.01694745570421219,
	"learning_rate": 8.868629196864182e-06,
	"loss": 1.7797,
	"step": 142
	},
	{
	"epoch": 0.25994092251760964,
	"grad_norm": 0.01562688499689102,
	"learning_rate": 8.84949542203355e-06,
	"loss": 1.7832,
	"step": 143
	},
	{
	"epoch": 0.261758691206544,
	"grad_norm": 0.015506752766668797,
	"learning_rate": 8.83022221559489e-06,
	"loss": 1.7749,
	"step": 144
	},
	{
	"epoch": 0.2635764598954783,
	"grad_norm": 0.017343781888484955,
	"learning_rate": 8.810810275638183e-06,
	"loss": 1.7736,
	"step": 145
	},
	{
	"epoch": 0.26539422858441264,
	"grad_norm": 0.01597374677658081,
	"learning_rate": 8.791260305278434e-06,
	"loss": 1.7879,
	"step": 146
	},
	{
	"epoch": 0.267211997273347,
	"grad_norm": 0.015632351860404015,
	"learning_rate": 8.771573012630214e-06,
	"loss": 1.7804,
	"step": 147
	},
	{
	"epoch": 0.2690297659622813,
	"grad_norm": 0.01659367047250271,
	"learning_rate": 8.751749110782013e-06,
	"loss": 1.7827,
	"step": 148
	},
	{
	"epoch": 0.27084753465121564,
	"grad_norm": 0.01651635952293873,
	"learning_rate": 8.731789317770407e-06,
	"loss": 1.7781,
	"step": 149
	},
	{
	"epoch": 0.27266530334015,
	"grad_norm": 0.01517146173864603,
	"learning_rate": 8.71169435655405e-06,
	"loss": 1.7811,
	"step": 150
	},
	{
	"epoch": 0.2744830720290843,
	"grad_norm": 0.015295923687517643,
	"learning_rate": 8.691464954987494e-06,
	"loss": 1.7677,
	"step": 151
	},
	{
	"epoch": 0.27630084071801864,
	"grad_norm": 0.015585844404995441,
	"learning_rate": 8.671101845794816e-06,
	"loss": 1.7745,
	"step": 152
	},
	{
	"epoch": 0.278118609406953,
	"grad_norm": 0.015692081302404404,
	"learning_rate": 8.65060576654309e-06,
	"loss": 1.7745,
	"step": 153
	},
	{
	"epoch": 0.2799363780958873,
	"grad_norm": 0.015136554837226868,
	"learning_rate": 8.629977459615655e-06,
	"loss": 1.7863,
	"step": 154
	},
	{
	"epoch": 0.28175414678482164,
	"grad_norm": 0.015603788197040558,
	"learning_rate": 8.609217672185246e-06,
	"loss": 1.7796,
	"step": 155
	},
	{
	"epoch": 0.283571915473756,
	"grad_norm": 0.016288187354803085,
	"learning_rate": 8.588327156186915e-06,
	"loss": 1.7785,
	"step": 156
	},
	{
	"epoch": 0.2853896841626903,
	"grad_norm": 0.016181934624910355,
	"learning_rate": 8.567306668290801e-06,
	"loss": 1.7597,
	"step": 157
	},
	{
	"epoch": 0.28720745285162463,
	"grad_norm": 0.0157309602946043,
	"learning_rate": 8.546156969874723e-06,
	"loss": 1.7827,
	"step": 158
	},
	{
	"epoch": 0.289025221540559,
	"grad_norm": 0.016916731372475624,
	"learning_rate": 8.524878826996602e-06,
	"loss": 1.7749,
	"step": 159
	},
	{
	"epoch": 0.2908429902294933,
	"grad_norm": 0.015968995168805122,
	"learning_rate": 8.503473010366713e-06,
	"loss": 1.7683,
	"step": 160
	},
	{
	"epoch": 0.29266075891842763,
	"grad_norm": 0.01594395563006401,
	"learning_rate": 8.481940295319772e-06,
	"loss": 1.7792,
	"step": 161
	},
	{
	"epoch": 0.294478527607362,
	"grad_norm": 0.016326317563652992,
	"learning_rate": 8.460281461786848e-06,
	"loss": 1.7734,
	"step": 162
	},
	{
	"epoch": 0.2962962962962963,
	"grad_norm": 0.016297809779644012,
	"learning_rate": 8.438497294267117e-06,
	"loss": 1.769,
	"step": 163
	},
	{
	"epoch": 0.29811406498523063,
	"grad_norm": 0.017145946621894836,
	"learning_rate": 8.416588581799447e-06,
	"loss": 1.7767,
	"step": 164
	},
	{
	"epoch": 0.299931833674165,
	"grad_norm": 0.016356928274035454,
	"learning_rate": 8.394556117933816e-06,
	"loss": 1.772,
	"step": 165
	},
	{
	"epoch": 0.3017496023630993,
	"grad_norm": 0.016378790140151978,
	"learning_rate": 8.372400700702569e-06,
	"loss": 1.7701,
	"step": 166
	},
	{
	"epoch": 0.30356737105203363,
	"grad_norm": 0.018152521923184395,
	"learning_rate": 8.350123132591522e-06,
	"loss": 1.7769,
	"step": 167
	},
	{
	"epoch": 0.305385139740968,
	"grad_norm": 0.017259759828448296,
	"learning_rate": 8.327724220510873e-06,
	"loss": 1.7742,
	"step": 168
	},
	{
	"epoch": 0.3072029084299023,
	"grad_norm": 0.016766058281064034,
	"learning_rate": 8.305204775766003e-06,
	"loss": 1.771,
	"step": 169
	},
	{
	"epoch": 0.30902067711883663,
	"grad_norm": 0.017410485073924065,
	"learning_rate": 8.282565614028068e-06,
	"loss": 1.7663,
	"step": 170
	},
	{
	"epoch": 0.310838445807771,
	"grad_norm": 0.017518077045679092,
	"learning_rate": 8.259807555304469e-06,
	"loss": 1.769,
	"step": 171
	},
	{
	"epoch": 0.3126562144967053,
	"grad_norm": 0.017017841339111328,
	"learning_rate": 8.23693142390914e-06,
	"loss": 1.7733,
	"step": 172
	},
	{
	"epoch": 0.3144739831856396,
	"grad_norm": 0.017034539952874184,
	"learning_rate": 8.213938048432697e-06,
	"loss": 1.7715,
	"step": 173
	},
	{
	"epoch": 0.316291751874574,
	"grad_norm": 0.016053663566708565,
	"learning_rate": 8.19082826171243e-06,
	"loss": 1.768,
	"step": 174
	},
	{
	"epoch": 0.3181095205635083,
	"grad_norm": 0.017002522945404053,
	"learning_rate": 8.167602900802121e-06,
	"loss": 1.7571,
	"step": 175
	},
	{
	"epoch": 0.3199272892524426,
	"grad_norm": 0.016666986048221588,
	"learning_rate": 8.144262806941743e-06,
	"loss": 1.776,
	"step": 176
	},
	{
	"epoch": 0.321745057941377,
	"grad_norm": 0.017756953835487366,
	"learning_rate": 8.120808825526983e-06,
	"loss": 1.7701,
	"step": 177
	},
	{
	"epoch": 0.3235628266303113,
	"grad_norm": 0.01685352995991707,
	"learning_rate": 8.097241806078616e-06,
	"loss": 1.7697,
	"step": 178
	},
	{
	"epoch": 0.3253805953192456,
	"grad_norm": 0.01626460626721382,
	"learning_rate": 8.073562602211743e-06,
	"loss": 1.7733,
	"step": 179
	},
	{
	"epoch": 0.32719836400818,
	"grad_norm": 0.017634931951761246,
	"learning_rate": 8.049772071604864e-06,
	"loss": 1.7817,
	"step": 180
	},
	{
	"epoch": 0.32901613269711427,
	"grad_norm": 0.0157694723457098,
	"learning_rate": 8.025871075968828e-06,
	"loss": 1.7667,
	"step": 181
	},
	{
	"epoch": 0.3308339013860486,
	"grad_norm": 0.016742341220378876,
	"learning_rate": 8.001860481015594e-06,
	"loss": 1.7753,
	"step": 182
	},
	{
	"epoch": 0.332651670074983,
	"grad_norm": 0.015466434881091118,
	"learning_rate": 7.977741156426901e-06,
	"loss": 1.7706,
	"step": 183
	},
	{
	"epoch": 0.33446943876391727,
	"grad_norm": 0.017226146534085274,
	"learning_rate": 7.953513975822755e-06,
	"loss": 1.7665,
	"step": 184
	},
	{
	"epoch": 0.3362872074528516,
	"grad_norm": 0.01610388606786728,
	"learning_rate": 7.92917981672979e-06,
	"loss": 1.7723,
	"step": 185
	},
	{
	"epoch": 0.338104976141786,
	"grad_norm": 0.016837526112794876,
	"learning_rate": 7.904739560549475e-06,
	"loss": 1.7754,
	"step": 186
	},
	{
	"epoch": 0.33992274483072027,
	"grad_norm": 0.016696933656930923,
	"learning_rate": 7.8801940925262e-06,
	"loss": 1.7707,
	"step": 187
	},
	{
	"epoch": 0.3417405135196546,
	"grad_norm": 0.016263185068964958,
	"learning_rate": 7.855544301715203e-06,
	"loss": 1.7702,
	"step": 188
	},
	{
	"epoch": 0.34355828220858897,
	"grad_norm": 0.01645650342106819,
	"learning_rate": 7.830791080950373e-06,
	"loss": 1.768,
	"step": 189
	},
	{
	"epoch": 0.34537605089752327,
	"grad_norm": 0.01569991558790207,
	"learning_rate": 7.805935326811913e-06,
	"loss": 1.767,
	"step": 190
	},
	{
	"epoch": 0.3471938195864576,
	"grad_norm": 0.015973446890711784,
	"learning_rate": 7.780977939593856e-06,
	"loss": 1.7713,
	"step": 191
	},
	{
	"epoch": 0.34901158827539197,
	"grad_norm": 0.01654656231403351,
	"learning_rate": 7.755919823271466e-06,
	"loss": 1.7577,
	"step": 192
	},
	{
	"epoch": 0.35082935696432627,
	"grad_norm": 0.015675723552703857,
	"learning_rate": 7.730761885468486e-06,
	"loss": 1.7732,
	"step": 193
	},
	{
	"epoch": 0.3526471256532606,
	"grad_norm": 0.018406856805086136,
	"learning_rate": 7.70550503742427e-06,
	"loss": 1.7668,
	"step": 194
	},
	{
	"epoch": 0.35446489434219497,
	"grad_norm": 0.016395216807723045,
	"learning_rate": 7.68015019396078e-06,
	"loss": 1.7672,
	"step": 195
	},
	{
	"epoch": 0.35628266303112927,
	"grad_norm": 0.016013452783226967,
	"learning_rate": 7.654698273449435e-06,
	"loss": 1.7646,
	"step": 196
	},
	{
	"epoch": 0.3581004317200636,
	"grad_norm": 0.01679440774023533,
	"learning_rate": 7.629150197777866e-06,
	"loss": 1.7612,
	"step": 197
	},
	{
	"epoch": 0.35991820040899797,
	"grad_norm": 0.01686931401491165,
	"learning_rate": 7.603506892316513e-06,
	"loss": 1.7597,
	"step": 198
	},
	{
	"epoch": 0.36173596909793226,
	"grad_norm": 0.017471209168434143,
	"learning_rate": 7.57776928588511e-06,
	"loss": 1.7756,
	"step": 199
	},
	{
	"epoch": 0.3635537377868666,
	"grad_norm": 0.017604535445570946,
	"learning_rate": 7.551938310719043e-06,
	"loss": 1.7706,
	"step": 200
	},
	{
	"epoch": 0.36537150647580097,
	"grad_norm": 0.016083979979157448,
	"learning_rate": 7.526014902435583e-06,
	"loss": 1.7689,
	"step": 201
	},
	{
	"epoch": 0.36718927516473526,
	"grad_norm": 0.017569448798894882,
	"learning_rate": 7.500000000000001e-06,
	"loss": 1.7716,
	"step": 202
	},
	{
	"epoch": 0.3690070438536696,
	"grad_norm": 0.018971305340528488,
	"learning_rate": 7.4738945456915505e-06,
	"loss": 1.7639,
	"step": 203
	},
	{
	"epoch": 0.37082481254260397,
	"grad_norm": 0.017489226534962654,
	"learning_rate": 7.447699485069342e-06,
	"loss": 1.7695,
	"step": 204
	},
	{
	"epoch": 0.37264258123153826,
	"grad_norm": 0.016599513590335846,
	"learning_rate": 7.421415766938098e-06,
	"loss": 1.758,
	"step": 205
	},
	{
	"epoch": 0.3744603499204726,
	"grad_norm": 0.017470112070441246,
	"learning_rate": 7.395044343313777e-06,
	"loss": 1.7635,
	"step": 206
	},
	{
	"epoch": 0.37627811860940696,
	"grad_norm": 0.01866212487220764,
	"learning_rate": 7.3685861693891026e-06,
	"loss": 1.7698,
	"step": 207
	},
	{
	"epoch": 0.37809588729834126,
	"grad_norm": 0.016111081466078758,
	"learning_rate": 7.342042203498952e-06,
	"loss": 1.763,
	"step": 208
	},
	{
	"epoch": 0.3799136559872756,
	"grad_norm": 0.01669992506504059,
	"learning_rate": 7.315413407085656e-06,
	"loss": 1.7614,
	"step": 209
	},
	{
	"epoch": 0.38173142467620996,
	"grad_norm": 0.01589970290660858,
	"learning_rate": 7.288700744664167e-06,
	"loss": 1.773,
	"step": 210
	},
	{
	"epoch": 0.38354919336514426,
	"grad_norm": 0.01591925323009491,
	"learning_rate": 7.261905183787136e-06,
	"loss": 1.7754,
	"step": 211
	},
	{
	"epoch": 0.3853669620540786,
	"grad_norm": 0.01747284270823002,
	"learning_rate": 7.235027695009846e-06,
	"loss": 1.7721,
	"step": 212
	},
	{
	"epoch": 0.38718473074301296,
	"grad_norm": 0.016405848786234856,
	"learning_rate": 7.208069251855078e-06,
	"loss": 1.7622,
	"step": 213
	},
	{
	"epoch": 0.38900249943194726,
	"grad_norm": 0.01654895953834057,
	"learning_rate": 7.181030830777838e-06,
	"loss": 1.7636,
	"step": 214
	},
	{
	"epoch": 0.3908202681208816,
	"grad_norm": 0.015662197023630142,
	"learning_rate": 7.153913411129993e-06,
	"loss": 1.7751,
	"step": 215
	},
	{
	"epoch": 0.39263803680981596,
	"grad_norm": 0.015878858044743538,
	"learning_rate": 7.1267179751248005e-06,
	"loss": 1.7708,
	"step": 216
	},
	{
	"epoch": 0.3944558054987503,
	"grad_norm": 0.016220899298787117,
	"learning_rate": 7.099445507801324e-06,
	"loss": 1.7679,
	"step": 217
	},
	{
	"epoch": 0.3962735741876846,
	"grad_norm": 0.015889156609773636,
	"learning_rate": 7.0720969969887595e-06,
	"loss": 1.7657,
	"step": 218
	},
	{
	"epoch": 0.39809134287661896,
	"grad_norm": 0.01594599336385727,
	"learning_rate": 7.044673433270659e-06,
	"loss": 1.7641,
	"step": 219
	},
	{
	"epoch": 0.3999091115655533,
	"grad_norm": 0.015293586999177933,
	"learning_rate": 7.017175809949044e-06,
	"loss": 1.7677,
	"step": 220
	},
	{
	"epoch": 0.4017268802544876,
	"grad_norm": 0.015891166403889656,
	"learning_rate": 6.98960512300843e-06,
	"loss": 1.7629,
	"step": 221
	},
	{
	"epoch": 0.40354464894342196,
	"grad_norm": 0.016649074852466583,
	"learning_rate": 6.961962371079752e-06,
	"loss": 1.7655,
	"step": 222
	},
	{
	"epoch": 0.4053624176323563,
	"grad_norm": 0.016516495496034622,
	"learning_rate": 6.934248555404197e-06,
	"loss": 1.7741,
	"step": 223
	},
	{
	"epoch": 0.4071801863212906,
	"grad_norm": 0.01925363577902317,
	"learning_rate": 6.906464679796927e-06,
	"loss": 1.7572,
	"step": 224
	},
	{
	"epoch": 0.40899795501022496,
	"grad_norm": 0.01634056493639946,
	"learning_rate": 6.878611750610731e-06,
	"loss": 1.759,
	"step": 225
	},
	{
	"epoch": 0.4108157236991593,
	"grad_norm": 0.016612950712442398,
	"learning_rate": 6.850690776699574e-06,
	"loss": 1.7562,
	"step": 226
	},
	{
	"epoch": 0.4126334923880936,
	"grad_norm": 0.01613459922373295,
	"learning_rate": 6.822702769382042e-06,
	"loss": 1.7697,
	"step": 227
	},
	{
	"epoch": 0.41445126107702795,
	"grad_norm": 0.016045957803726196,
	"learning_rate": 6.79464874240473e-06,
	"loss": 1.7623,
	"step": 228
	},
	{
	"epoch": 0.4162690297659623,
	"grad_norm": 0.016840225085616112,
	"learning_rate": 6.766529711905513e-06,
	"loss": 1.7742,
	"step": 229
	},
	{
	"epoch": 0.4180867984548966,
	"grad_norm": 0.015475032851099968,
	"learning_rate": 6.7383466963767386e-06,
	"loss": 1.7644,
	"step": 230
	},
	{
	"epoch": 0.41990456714383095,
	"grad_norm": 0.016331806778907776,
	"learning_rate": 6.710100716628345e-06,
	"loss": 1.7722,
	"step": 231
	},
	{
	"epoch": 0.4217223358327653,
	"grad_norm": 0.016033973544836044,
	"learning_rate": 6.681792795750876e-06,
	"loss": 1.7572,
	"step": 232
	},
	{
	"epoch": 0.4235401045216996,
	"grad_norm": 0.015963230282068253,
	"learning_rate": 6.653423959078435e-06,
	"loss": 1.7714,
	"step": 233
	},
	{
	"epoch": 0.42535787321063395,
	"grad_norm": 0.016069794073700905,
	"learning_rate": 6.624995234151539e-06,
	"loss": 1.7702,
	"step": 234
	},
	{
	"epoch": 0.4271756418995683,
	"grad_norm": 0.016175484284758568,
	"learning_rate": 6.5965076506799e-06,
	"loss": 1.7595,
	"step": 235
	},
	{
	"epoch": 0.4289934105885026,
	"grad_norm": 0.017575398087501526,
	"learning_rate": 6.567962240505136e-06,
	"loss": 1.7589,
	"step": 236
	},
	{
	"epoch": 0.43081117927743695,
	"grad_norm": 0.01609048619866371,
	"learning_rate": 6.539360037563384e-06,
	"loss": 1.7583,
	"step": 237
	},
	{
	"epoch": 0.4326289479663713,
	"grad_norm": 0.016053223982453346,
	"learning_rate": 6.510702077847864e-06,
	"loss": 1.7593,
	"step": 238
	},
	{
	"epoch": 0.4344467166553056,
	"grad_norm": 0.01691989041864872,
	"learning_rate": 6.481989399371347e-06,
	"loss": 1.7643,
	"step": 239
	},
	{
	"epoch": 0.43626448534423995,
	"grad_norm": 0.017391884699463844,
	"learning_rate": 6.453223042128556e-06,
	"loss": 1.7588,
	"step": 240
	},
	{
	"epoch": 0.4380822540331743,
	"grad_norm": 0.016525816172361374,
	"learning_rate": 6.424404048058501e-06,
	"loss": 1.7637,
	"step": 241
	},
	{
	"epoch": 0.4399000227221086,
	"grad_norm": 0.01585998386144638,
	"learning_rate": 6.395533461006736e-06,
	"loss": 1.7652,
	"step": 242
	},
	{
	"epoch": 0.44171779141104295,
	"grad_norm": 0.01582312397658825,
	"learning_rate": 6.366612326687555e-06,
	"loss": 1.7584,
	"step": 243
	},
	{
	"epoch": 0.4435355600999773,
	"grad_norm": 0.01715337485074997,
	"learning_rate": 6.337641692646106e-06,
	"loss": 1.7606,
	"step": 244
	},
	{
	"epoch": 0.4453533287889116,
	"grad_norm": 0.021504878997802734,
	"learning_rate": 6.308622608220457e-06,
	"loss": 1.762,
	"step": 245
	},
	{
	"epoch": 0.44717109747784595,
	"grad_norm": 0.015527226962149143,
	"learning_rate": 6.2795561245035895e-06,
	"loss": 1.757,
	"step": 246
	},
	{
	"epoch": 0.4489888661667803,
	"grad_norm": 0.017598124220967293,
	"learning_rate": 6.250443294305315e-06,
	"loss": 1.7547,
	"step": 247
	},
	{
	"epoch": 0.4508066348557146,
	"grad_norm": 0.016357263550162315,
	"learning_rate": 6.221285172114156e-06,
	"loss": 1.7585,
	"step": 248
	},
	{
	"epoch": 0.45262440354464895,
	"grad_norm": 0.01646249182522297,
	"learning_rate": 6.192082814059141e-06,
	"loss": 1.76,
	"step": 249
	},
	{
	"epoch": 0.4544421722335833,
	"grad_norm": 0.016435401514172554,
	"learning_rate": 6.162837277871553e-06,
	"loss": 1.7664,
	"step": 250
	},
	{
	"epoch": 0.4562599409225176,
	"grad_norm": 0.016678526997566223,
	"learning_rate": 6.133549622846625e-06,
	"loss": 1.7713,
	"step": 251
	},
	{
	"epoch": 0.45807770961145194,
	"grad_norm": 0.017534134909510612,
	"learning_rate": 6.104220909805162e-06,
	"loss": 1.7589,
	"step": 252
	},
	{
	"epoch": 0.4598954783003863,
	"grad_norm": 0.016283275559544563,
	"learning_rate": 6.074852201055121e-06,
	"loss": 1.7598,
	"step": 253
	},
	{
	"epoch": 0.4617132469893206,
	"grad_norm": 0.017745792865753174,
	"learning_rate": 6.045444560353136e-06,
	"loss": 1.7643,
	"step": 254
	},
	{
	"epoch": 0.46353101567825494,
	"grad_norm": 0.017753778025507927,
	"learning_rate": 6.015999052865982e-06,
	"loss": 1.7545,
	"step": 255
	},
	{
	"epoch": 0.4653487843671893,
	"grad_norm": 0.017292464151978493,
	"learning_rate": 5.986516745132e-06,
	"loss": 1.7582,
	"step": 256
	},
	{
	"epoch": 0.4671665530561236,
	"grad_norm": 0.01648300141096115,
	"learning_rate": 5.956998705022464e-06,
	"loss": 1.7603,
	"step": 257
	},
	{
	"epoch": 0.46898432174505794,
	"grad_norm": 0.017090782523155212,
	"learning_rate": 5.927446001702899e-06,
	"loss": 1.7654,
	"step": 258
	},
	{
	"epoch": 0.4708020904339923,
	"grad_norm": 0.015470580197870731,
	"learning_rate": 5.8978597055943585e-06,
	"loss": 1.7529,
	"step": 259
	},
	{
	"epoch": 0.4726198591229266,
	"grad_norm": 0.016197843477129936,
	"learning_rate": 5.8682408883346535e-06,
	"loss": 1.7551,
	"step": 260
	},
	{
	"epoch": 0.47443762781186094,
	"grad_norm": 0.018076961860060692,
	"learning_rate": 5.8385906227395304e-06,
	"loss": 1.7629,
	"step": 261
	},
	{
	"epoch": 0.4762553965007953,
	"grad_norm": 0.015964508056640625,
	"learning_rate": 5.808909982763825e-06,
	"loss": 1.7668,
	"step": 262
	},
	{
	"epoch": 0.4780731651897296,
	"grad_norm": 0.016753260046243668,
	"learning_rate": 5.779200043462549e-06,
	"loss": 1.753,
	"step": 263
	},
	{
	"epoch": 0.47989093387866394,
	"grad_norm": 0.01664654165506363,
	"learning_rate": 5.749461880951966e-06,
	"loss": 1.7654,
	"step": 264
	},
	{
	"epoch": 0.4817087025675983,
	"grad_norm": 0.01592446304857731,
	"learning_rate": 5.719696572370596e-06,
	"loss": 1.763,
	"step": 265
	},
	{
	"epoch": 0.4835264712565326,
	"grad_norm": 0.016646496951580048,
	"learning_rate": 5.689905195840216e-06,
	"loss": 1.766,
	"step": 266
	},
	{
	"epoch": 0.48534423994546694,
	"grad_norm": 0.016208553686738014,
	"learning_rate": 5.660088830426804e-06,
	"loss": 1.7551,
	"step": 267
	},
	{
	"epoch": 0.4871620086344013,
	"grad_norm": 0.01585574448108673,
	"learning_rate": 5.630248556101448e-06,
	"loss": 1.7638,
	"step": 268
	},
	{
	"epoch": 0.4889797773233356,
	"grad_norm": 0.016133490949869156,
	"learning_rate": 5.600385453701241e-06,
	"loss": 1.7644,
	"step": 269
	},
	{
	"epoch": 0.49079754601226994,
	"grad_norm": 0.015675894916057587,
	"learning_rate": 5.570500604890124e-06,
	"loss": 1.7675,
	"step": 270
	},
	{
	"epoch": 0.4926153147012043,
	"grad_norm": 0.01614633947610855,
	"learning_rate": 5.540595092119709e-06,
	"loss": 1.7636,
	"step": 271
	},
	{
	"epoch": 0.4944330833901386,
	"grad_norm": 0.01666291244328022,
	"learning_rate": 5.510669998590074e-06,
	"loss": 1.7583,
	"step": 272
	},
	{
	"epoch": 0.49625085207907293,
	"grad_norm": 0.016553543508052826,
	"learning_rate": 5.480726408210519e-06,
	"loss": 1.7586,
	"step": 273
	},
	{
	"epoch": 0.4980686207680073,
	"grad_norm": 0.017047051340341568,
	"learning_rate": 5.450765405560328e-06,
	"loss": 1.7534,
	"step": 274
	},
	{
	"epoch": 0.4998863894569416,
	"grad_norm": 0.01579987071454525,
	"learning_rate": 5.4207880758494545e-06,
	"loss": 1.7669,
	"step": 275
	},
	{
	"epoch": 0.501704158145876,
	"grad_norm": 0.016013607382774353,
	"learning_rate": 5.390795504879243e-06,
	"loss": 1.7546,
	"step": 276
	},
	{
	"epoch": 0.5035219268348102,
	"grad_norm": 0.015493376180529594,
	"learning_rate": 5.360788779003082e-06,
	"loss": 1.7555,
	"step": 277
	},
	{
	"epoch": 0.5053396955237446,
	"grad_norm": 0.016125505790114403,
	"learning_rate": 5.330768985087059e-06,
	"loss": 1.7485,
	"step": 278
	},
	{
	"epoch": 0.5071574642126789,
	"grad_norm": 0.015707215294241905,
	"learning_rate": 5.300737210470603e-06,
	"loss": 1.7556,
	"step": 279
	},
	{
	"epoch": 0.5089752329016133,
	"grad_norm": 0.016529636457562447,
	"learning_rate": 5.270694542927089e-06,
	"loss": 1.7621,
	"step": 280
	},
	{
	"epoch": 0.5107930015905476,
	"grad_norm": 0.015912501141428947,
	"learning_rate": 5.2406420706244376e-06,
	"loss": 1.7578,
	"step": 281
	},
	{
	"epoch": 0.512610770279482,
	"grad_norm": 0.017320740967988968,
	"learning_rate": 5.2105808820857126e-06,
	"loss": 1.7509,
	"step": 282
	},
	{
	"epoch": 0.5144285389684162,
	"grad_norm": 0.016190189868211746,
	"learning_rate": 5.180512066149682e-06,
	"loss": 1.7586,
	"step": 283
	},
	{
	"epoch": 0.5162463076573506,
	"grad_norm": 0.01586255431175232,
	"learning_rate": 5.150436711931387e-06,
	"loss": 1.7618,
	"step": 284
	},
	{
	"epoch": 0.5180640763462849,
	"grad_norm": 0.016613394021987915,
	"learning_rate": 5.120355908782686e-06,
	"loss": 1.7582,
	"step": 285
	},
	{
	"epoch": 0.5198818450352193,
	"grad_norm": 0.016856033354997635,
	"learning_rate": 5.090270746252803e-06,
	"loss": 1.766,
	"step": 286
	},
	{
	"epoch": 0.5216996137241536,
	"grad_norm": 0.015804223716259003,
	"learning_rate": 5.060182314048865e-06,
	"loss": 1.7548,
	"step": 287
	},
	{
	"epoch": 0.523517382413088,
	"grad_norm": 0.01533227227628231,
	"learning_rate": 5.030091701996428e-06,
	"loss": 1.7508,
	"step": 288
	},
	{
	"epoch": 0.5253351511020222,
	"grad_norm": 0.017301153391599655,
	"learning_rate": 5e-06,
	"loss": 1.7508,
	"step": 289
	},
	{
	"epoch": 0.5271529197909566,
	"grad_norm": 0.016463877633213997,
	"learning_rate": 4.9699082980035735e-06,
	"loss": 1.7612,
	"step": 290
	},
	{
	"epoch": 0.5289706884798909,
	"grad_norm": 0.017038939520716667,
	"learning_rate": 4.939817685951135e-06,
	"loss": 1.7557,
	"step": 291
	},
	{
	"epoch": 0.5307884571688253,
	"grad_norm": 0.01651296392083168,
	"learning_rate": 4.909729253747197e-06,
	"loss": 1.7555,
	"step": 292
	},
	{
	"epoch": 0.5326062258577596,
	"grad_norm": 0.01751718856394291,
	"learning_rate": 4.879644091217317e-06,
	"loss": 1.7524,
	"step": 293
	},
	{
	"epoch": 0.534423994546694,
	"grad_norm": 0.016333656385540962,
	"learning_rate": 4.8495632880686155e-06,
	"loss": 1.7452,
	"step": 294
	},
	{
	"epoch": 0.5362417632356282,
	"grad_norm": 0.016173357143998146,
	"learning_rate": 4.819487933850319e-06,
	"loss": 1.7611,
	"step": 295
	},
	{
	"epoch": 0.5380595319245626,
	"grad_norm": 0.016298582777380943,
	"learning_rate": 4.789419117914288e-06,
	"loss": 1.752,
	"step": 296
	},
	{
	"epoch": 0.5398773006134969,
	"grad_norm": 0.017157401889562607,
	"learning_rate": 4.759357929375563e-06,
	"loss": 1.7518,
	"step": 297
	},
	{
	"epoch": 0.5416950693024313,
	"grad_norm": 0.01661343313753605,
	"learning_rate": 4.729305457072913e-06,
	"loss": 1.7637,
	"step": 298
	},
	{
	"epoch": 0.5435128379913656,
	"grad_norm": 0.016558021306991577,
	"learning_rate": 4.699262789529396e-06,
	"loss": 1.7511,
	"step": 299
	},
	{
	"epoch": 0.5453306066803,
	"grad_norm": 0.016143113374710083,
	"learning_rate": 4.6692310149129425e-06,
	"loss": 1.7562,
	"step": 300
	},
	{
	"epoch": 0.5471483753692342,
	"grad_norm": 0.01550297997891903,
	"learning_rate": 1e-05,
	"loss": 1.7592,
	"step": 301
	},
	{
	"epoch": 0.5489661440581686,
	"grad_norm": 0.016153663396835327,
	"learning_rate": 1e-05,
	"loss": 1.7495,
	"step": 302
	},
	{
	"epoch": 0.5507839127471029,
	"grad_norm": 0.017202477902173996,
	"learning_rate": 1e-05,
	"loss": 1.7564,
	"step": 303
	},
	{
	"epoch": 0.5526016814360373,
	"grad_norm": 0.01577403023838997,
	"learning_rate": 1e-05,
	"loss": 1.7635,
	"step": 304
	},
	{
	"epoch": 0.5544194501249716,
	"grad_norm": 0.016280407086014748,
	"learning_rate": 1e-05,
	"loss": 1.748,
	"step": 305
	},
	{
	"epoch": 0.556237218813906,
	"grad_norm": 0.016771433874964714,
	"learning_rate": 1e-05,
	"loss": 1.7467,
	"step": 306
	},
	{
	"epoch": 0.5580549875028402,
	"grad_norm": 0.01556472573429346,
	"learning_rate": 1e-05,
	"loss": 1.751,
	"step": 307
	},
	{
	"epoch": 0.5598727561917746,
	"grad_norm": 0.01656194217503071,
	"learning_rate": 1e-05,
	"loss": 1.7605,
	"step": 308
	},
	{
	"epoch": 0.5616905248807089,
	"grad_norm": 0.017003118991851807,
	"learning_rate": 1e-05,
	"loss": 1.7516,
	"step": 309
	},
	{
	"epoch": 0.5635082935696433,
	"grad_norm": 0.016028909012675285,
	"learning_rate": 1e-05,
	"loss": 1.7557,
	"step": 310
	},
	{
	"epoch": 0.5653260622585776,
	"grad_norm": 0.016611898317933083,
	"learning_rate": 1e-05,
	"loss": 1.7548,
	"step": 311
	},
	{
	"epoch": 0.567143830947512,
	"grad_norm": 0.01619804836809635,
	"learning_rate": 1e-05,
	"loss": 1.7569,
	"step": 312
	},
	{
	"epoch": 0.5689615996364462,
	"grad_norm": 0.01763117127120495,
	"learning_rate": 1e-05,
	"loss": 1.7499,
	"step": 313
	},
	{
	"epoch": 0.5707793683253806,
	"grad_norm": 0.017052598297595978,
	"learning_rate": 1e-05,
	"loss": 1.7628,
	"step": 314
	},
	{
	"epoch": 0.5725971370143149,
	"grad_norm": 0.015606777742505074,
	"learning_rate": 1e-05,
	"loss": 1.7695,
	"step": 315
	},
	{
	"epoch": 0.5744149057032493,
	"grad_norm": 0.017086924985051155,
	"learning_rate": 1e-05,
	"loss": 1.7573,
	"step": 316
	},
	{
	"epoch": 0.5762326743921836,
	"grad_norm": 0.01597212627530098,
	"learning_rate": 1e-05,
	"loss": 1.7672,
	"step": 317
	},
	{
	"epoch": 0.578050443081118,
	"grad_norm": 0.016126353293657303,
	"learning_rate": 1e-05,
	"loss": 1.7481,
	"step": 318
	},
	{
	"epoch": 0.5798682117700522,
	"grad_norm": 0.016764555126428604,
	"learning_rate": 1e-05,
	"loss": 1.7543,
	"step": 319
	},
	{
	"epoch": 0.5816859804589866,
	"grad_norm": 0.016383804380893707,
	"learning_rate": 1e-05,
	"loss": 1.7595,
	"step": 320
	},
	{
	"epoch": 0.5835037491479209,
	"grad_norm": 0.016328634694218636,
	"learning_rate": 1e-05,
	"loss": 1.7624,
	"step": 321
	},
	{
	"epoch": 0.5853215178368553,
	"grad_norm": 0.017615774646401405,
	"learning_rate": 1e-05,
	"loss": 1.7633,
	"step": 322
	},
	{
	"epoch": 0.5871392865257896,
	"grad_norm": 0.016653137281537056,
	"learning_rate": 1e-05,
	"loss": 1.753,
	"step": 323
	},
	{
	"epoch": 0.588957055214724,
	"grad_norm": 0.016418032348155975,
	"learning_rate": 1e-05,
	"loss": 1.7553,
	"step": 324
	},
	{
	"epoch": 0.5907748239036582,
	"grad_norm": 0.01667468063533306,
	"learning_rate": 1e-05,
	"loss": 1.759,
	"step": 325
	},
	{
	"epoch": 0.5925925925925926,
	"grad_norm": 0.015785276889801025,
	"learning_rate": 1e-05,
	"loss": 1.7545,
	"step": 326
	},
	{
	"epoch": 0.5944103612815269,
	"grad_norm": 0.017045632004737854,
	"learning_rate": 1e-05,
	"loss": 1.7569,
	"step": 327
	},
	{
	"epoch": 0.5962281299704613,
	"grad_norm": 0.016107341274619102,
	"learning_rate": 1e-05,
	"loss": 1.7551,
	"step": 328
	},
	{
	"epoch": 0.5980458986593956,
	"grad_norm": 0.016075948253273964,
	"learning_rate": 1e-05,
	"loss": 1.7489,
	"step": 329
	},
	{
	"epoch": 0.59986366734833,
	"grad_norm": 0.015299948863685131,
	"learning_rate": 1e-05,
	"loss": 1.7584,
	"step": 330
	},
	{
	"epoch": 0.6016814360372642,
	"grad_norm": 0.01539833564311266,
	"learning_rate": 1e-05,
	"loss": 1.7484,
	"step": 331
	},
	{
	"epoch": 0.6034992047261986,
	"grad_norm": 0.016403749585151672,
	"learning_rate": 1e-05,
	"loss": 1.7549,
	"step": 332
	},
	{
	"epoch": 0.6053169734151329,
	"grad_norm": 0.017300885170698166,
	"learning_rate": 1e-05,
	"loss": 1.7503,
	"step": 333
	},
	{
	"epoch": 0.6071347421040673,
	"grad_norm": 0.01626763306558132,
	"learning_rate": 1e-05,
	"loss": 1.7613,
	"step": 334
	},
	{
	"epoch": 0.6089525107930016,
	"grad_norm": 0.01677662320435047,
	"learning_rate": 1e-05,
	"loss": 1.7539,
	"step": 335
	},
	{
	"epoch": 0.610770279481936,
	"grad_norm": 0.017275378108024597,
	"learning_rate": 1e-05,
	"loss": 1.752,
	"step": 336
	},
	{
	"epoch": 0.6125880481708702,
	"grad_norm": 0.015787243843078613,
	"learning_rate": 1e-05,
	"loss": 1.753,
	"step": 337
	},
	{
	"epoch": 0.6144058168598046,
	"grad_norm": 0.016181068494915962,
	"learning_rate": 1e-05,
	"loss": 1.7574,
	"step": 338
	},
	{
	"epoch": 0.6162235855487389,
	"grad_norm": 0.01625332608819008,
	"learning_rate": 1e-05,
	"loss": 1.7552,
	"step": 339
	},
	{
	"epoch": 0.6180413542376733,
	"grad_norm": 0.01715734228491783,
	"learning_rate": 1e-05,
	"loss": 1.7538,
	"step": 340
	},
	{
	"epoch": 0.6198591229266076,
	"grad_norm": 0.018199391663074493,
	"learning_rate": 1e-05,
	"loss": 1.7589,
	"step": 341
	},
	{
	"epoch": 0.621676891615542,
	"grad_norm": 0.01592421531677246,
	"learning_rate": 1e-05,
	"loss": 1.7514,
	"step": 342
	},
	{
	"epoch": 0.6234946603044762,
	"grad_norm": 0.015030477195978165,
	"learning_rate": 1e-05,
	"loss": 1.7578,
	"step": 343
	},
	{
	"epoch": 0.6253124289934106,
	"grad_norm": 0.01609027571976185,
	"learning_rate": 1e-05,
	"loss": 1.7528,
	"step": 344
	},
	{
	"epoch": 0.6271301976823449,
	"grad_norm": 0.015512831509113312,
	"learning_rate": 1e-05,
	"loss": 1.7511,
	"step": 345
	},
	{
	"epoch": 0.6289479663712793,
	"grad_norm": 0.015017388388514519,
	"learning_rate": 1e-05,
	"loss": 1.7504,
	"step": 346
	},
	{
	"epoch": 0.6307657350602136,
	"grad_norm": 0.01578696072101593,
	"learning_rate": 1e-05,
	"loss": 1.7545,
	"step": 347
	},
	{
	"epoch": 0.632583503749148,
	"grad_norm": 0.015417453832924366,
	"learning_rate": 1e-05,
	"loss": 1.7481,
	"step": 348
	},
	{
	"epoch": 0.6344012724380823,
	"grad_norm": 0.015762289986014366,
	"learning_rate": 1e-05,
	"loss": 1.7614,
	"step": 349
	},
	{
	"epoch": 0.6362190411270165,
	"grad_norm": 0.01597565785050392,
	"learning_rate": 1e-05,
	"loss": 1.7497,
	"step": 350
	},
	{
	"epoch": 0.6380368098159509,
	"grad_norm": 0.01767154410481453,
	"learning_rate": 1e-05,
	"loss": 1.7537,
	"step": 351
	},
	{
	"epoch": 0.6398545785048853,
	"grad_norm": 0.01671607419848442,
	"learning_rate": 1e-05,
	"loss": 1.7456,
	"step": 352
	},
	{
	"epoch": 0.6416723471938196,
	"grad_norm": 0.015792865306138992,
	"learning_rate": 1e-05,
	"loss": 1.7494,
	"step": 353
	},
	{
	"epoch": 0.643490115882754,
	"grad_norm": 0.017053868621587753,
	"learning_rate": 1e-05,
	"loss": 1.743,
	"step": 354
	},
	{
	"epoch": 0.6453078845716883,
	"grad_norm": 0.015672611072659492,
	"learning_rate": 1e-05,
	"loss": 1.7478,
	"step": 355
	},
	{
	"epoch": 0.6471256532606225,
	"grad_norm": 0.01585494540631771,
	"learning_rate": 1e-05,
	"loss": 1.7535,
	"step": 356
	},
	{
	"epoch": 0.6489434219495569,
	"grad_norm": 0.016009824350476265,
	"learning_rate": 1e-05,
	"loss": 1.759,
	"step": 357
	},
	{
	"epoch": 0.6507611906384912,
	"grad_norm": 0.015507341362535954,
	"learning_rate": 1e-05,
	"loss": 1.755,
	"step": 358
	},
	{
	"epoch": 0.6525789593274256,
	"grad_norm": 0.01644650474190712,
	"learning_rate": 1e-05,
	"loss": 1.7597,
	"step": 359
	},
	{
	"epoch": 0.65439672801636,
	"grad_norm": 0.016472771763801575,
	"learning_rate": 1e-05,
	"loss": 1.7468,
	"step": 360
	},
	{
	"epoch": 0.6562144967052943,
	"grad_norm": 0.016300657764077187,
	"learning_rate": 1e-05,
	"loss": 1.7468,
	"step": 361
	},
	{
	"epoch": 0.6580322653942285,
	"grad_norm": 0.016034092754125595,
	"learning_rate": 1e-05,
	"loss": 1.7477,
	"step": 362
	},
	{
	"epoch": 0.6598500340831629,
	"grad_norm": 0.01675514504313469,
	"learning_rate": 1e-05,
	"loss": 1.7643,
	"step": 363
	},
	{
	"epoch": 0.6616678027720972,
	"grad_norm": 0.016840513795614243,
	"learning_rate": 1e-05,
	"loss": 1.7514,
	"step": 364
	},
	{
	"epoch": 0.6634855714610316,
	"grad_norm": 0.017041552811861038,
	"learning_rate": 1e-05,
	"loss": 1.7581,
	"step": 365
	},
	{
	"epoch": 0.665303340149966,
	"grad_norm": 0.016030827537178993,
	"learning_rate": 1e-05,
	"loss": 1.7455,
	"step": 366
	},
	{
	"epoch": 0.6671211088389003,
	"grad_norm": 0.016785001382231712,
	"learning_rate": 1e-05,
	"loss": 1.7483,
	"step": 367
	},
	{
	"epoch": 0.6689388775278345,
	"grad_norm": 0.017177637666463852,
	"learning_rate": 1e-05,
	"loss": 1.7512,
	"step": 368
	},
	{
	"epoch": 0.6707566462167689,
	"grad_norm": 0.015744341537356377,
	"learning_rate": 1e-05,
	"loss": 1.7528,
	"step": 369
	},
	{
	"epoch": 0.6725744149057032,
	"grad_norm": 0.015531038865447044,
	"learning_rate": 1e-05,
	"loss": 1.7446,
	"step": 370
	},
	{
	"epoch": 0.6743921835946376,
	"grad_norm": 0.016207581385970116,
	"learning_rate": 1e-05,
	"loss": 1.7533,
	"step": 371
	},
	{
	"epoch": 0.676209952283572,
	"grad_norm": 0.016298890113830566,
	"learning_rate": 1e-05,
	"loss": 1.7512,
	"step": 372
	},
	{
	"epoch": 0.6780277209725063,
	"grad_norm": 0.016354553401470184,
	"learning_rate": 1e-05,
	"loss": 1.7533,
	"step": 373
	},
	{
	"epoch": 0.6798454896614405,
	"grad_norm": 0.01599087379872799,
	"learning_rate": 1e-05,
	"loss": 1.7468,
	"step": 374
	},
	{
	"epoch": 0.6816632583503749,
	"grad_norm": 0.015880877152085304,
	"learning_rate": 1e-05,
	"loss": 1.7514,
	"step": 375
	},
	{
	"epoch": 0.6834810270393092,
	"grad_norm": 0.016650687903165817,
	"learning_rate": 1e-05,
	"loss": 1.746,
	"step": 376
	},
	{
	"epoch": 0.6852987957282436,
	"grad_norm": 0.0163528211414814,
	"learning_rate": 1e-05,
	"loss": 1.7472,
	"step": 377
	},
	{
	"epoch": 0.6871165644171779,
	"grad_norm": 0.01636846549808979,
	"learning_rate": 1e-05,
	"loss": 1.7445,
	"step": 378
	},
	{
	"epoch": 0.6889343331061123,
	"grad_norm": 0.016309088096022606,
	"learning_rate": 1e-05,
	"loss": 1.7575,
	"step": 379
	},
	{
	"epoch": 0.6907521017950465,
	"grad_norm": 0.01691536419093609,
	"learning_rate": 1e-05,
	"loss": 1.7478,
	"step": 380
	},
	{
	"epoch": 0.6925698704839809,
	"grad_norm": 0.01824839785695076,
	"learning_rate": 1e-05,
	"loss": 1.7577,
	"step": 381
	},
	{
	"epoch": 0.6943876391729152,
	"grad_norm": 0.01665637642145157,
	"learning_rate": 1e-05,
	"loss": 1.7516,
	"step": 382
	},
	{
	"epoch": 0.6962054078618496,
	"grad_norm": 0.015938177704811096,
	"learning_rate": 1e-05,
	"loss": 1.7488,
	"step": 383
	},
	{
	"epoch": 0.6980231765507839,
	"grad_norm": 0.01706807129085064,
	"learning_rate": 1e-05,
	"loss": 1.7545,
	"step": 384
	},
	{
	"epoch": 0.6998409452397183,
	"grad_norm": 0.01841641589999199,
	"learning_rate": 1e-05,
	"loss": 1.7533,
	"step": 385
	},
	{
	"epoch": 0.7016587139286525,
	"grad_norm": 0.01596180908381939,
	"learning_rate": 1e-05,
	"loss": 1.7521,
	"step": 386
	},
	{
	"epoch": 0.7034764826175869,
	"grad_norm": 0.016269559040665627,
	"learning_rate": 1e-05,
	"loss": 1.7548,
	"step": 387
	},
	{
	"epoch": 0.7052942513065212,
	"grad_norm": 0.01708034798502922,
	"learning_rate": 1e-05,
	"loss": 1.7443,
	"step": 388
	},
	{
	"epoch": 0.7071120199954556,
	"grad_norm": 0.01742040552198887,
	"learning_rate": 1e-05,
	"loss": 1.7515,
	"step": 389
	},
	{
	"epoch": 0.7089297886843899,
	"grad_norm": 0.017336854711174965,
	"learning_rate": 1e-05,
	"loss": 1.7478,
	"step": 390
	},
	{
	"epoch": 0.7107475573733243,
	"grad_norm": 0.016049761325120926,
	"learning_rate": 1e-05,
	"loss": 1.7487,
	"step": 391
	},
	{
	"epoch": 0.7125653260622585,
	"grad_norm": 0.017974358052015305,
	"learning_rate": 1e-05,
	"loss": 1.7539,
	"step": 392
	},
	{
	"epoch": 0.7143830947511929,
	"grad_norm": 0.01644211634993553,
	"learning_rate": 1e-05,
	"loss": 1.7488,
	"step": 393
	},
	{
	"epoch": 0.7162008634401272,
	"grad_norm": 0.018557770177721977,
	"learning_rate": 1e-05,
	"loss": 1.7448,
	"step": 394
	},
	{
	"epoch": 0.7180186321290616,
	"grad_norm": 0.01734108291566372,
	"learning_rate": 1e-05,
	"loss": 1.7399,
	"step": 395
	},
	{
	"epoch": 0.7198364008179959,
	"grad_norm": 0.01636637933552265,
	"learning_rate": 1e-05,
	"loss": 1.7566,
	"step": 396
	},
	{
	"epoch": 0.7216541695069303,
	"grad_norm": 0.01724686101078987,
	"learning_rate": 1e-05,
	"loss": 1.751,
	"step": 397
	},
	{
	"epoch": 0.7234719381958645,
	"grad_norm": 0.01744897849857807,
	"learning_rate": 1e-05,
	"loss": 1.7474,
	"step": 398
	},
	{
	"epoch": 0.7252897068847989,
	"grad_norm": 0.017034457996487617,
	"learning_rate": 1e-05,
	"loss": 1.7492,
	"step": 399
	},
	{
	"epoch": 0.7271074755737332,
	"grad_norm": 0.016682956367731094,
	"learning_rate": 1e-05,
	"loss": 1.7571,
	"step": 400
	},
	{
	"epoch": 0.7289252442626676,
	"grad_norm": 0.016139404848217964,
	"learning_rate": 1e-05,
	"loss": 1.7426,
	"step": 401
	},
	{
	"epoch": 0.7307430129516019,
	"grad_norm": 0.01789063960313797,
	"learning_rate": 1e-05,
	"loss": 1.7564,
	"step": 402
	},
	{
	"epoch": 0.7325607816405363,
	"grad_norm": 0.017030801624059677,
	"learning_rate": 1e-05,
	"loss": 1.7495,
	"step": 403
	},
	{
	"epoch": 0.7343785503294705,
	"grad_norm": 0.02051538974046707,
	"learning_rate": 1e-05,
	"loss": 1.7479,
	"step": 404
	},
	{
	"epoch": 0.7361963190184049,
	"grad_norm": 0.016426604241132736,
	"learning_rate": 1e-05,
	"loss": 1.7475,
	"step": 405
	},
	{
	"epoch": 0.7380140877073392,
	"grad_norm": 0.016485676169395447,
	"learning_rate": 1e-05,
	"loss": 1.7517,
	"step": 406
	},
	{
	"epoch": 0.7398318563962736,
	"grad_norm": 0.017329517751932144,
	"learning_rate": 1e-05,
	"loss": 1.7556,
	"step": 407
	},
	{
	"epoch": 0.7416496250852079,
	"grad_norm": 0.0165878776460886,
	"learning_rate": 1e-05,
	"loss": 1.7394,
	"step": 408
	},
	{
	"epoch": 0.7434673937741423,
	"grad_norm": 0.016505807638168335,
	"learning_rate": 1e-05,
	"loss": 1.7483,
	"step": 409
	},
	{
	"epoch": 0.7452851624630765,
	"grad_norm": 0.016942374408245087,
	"learning_rate": 1e-05,
	"loss": 1.7483,
	"step": 410
	},
	{
	"epoch": 0.7471029311520109,
	"grad_norm": 0.01690479926764965,
	"learning_rate": 1e-05,
	"loss": 1.7522,
	"step": 411
	},
	{
	"epoch": 0.7489206998409452,
	"grad_norm": 0.016314556822180748,
	"learning_rate": 1e-05,
	"loss": 1.7478,
	"step": 412
	},
	{
	"epoch": 0.7507384685298796,
	"grad_norm": 0.016368621960282326,
	"learning_rate": 1e-05,
	"loss": 1.7475,
	"step": 413
	},
	{
	"epoch": 0.7525562372188139,
	"grad_norm": 0.01776360534131527,
	"learning_rate": 1e-05,
	"loss": 1.7523,
	"step": 414
	},
	{
	"epoch": 0.7543740059077483,
	"grad_norm": 0.01603596657514572,
	"learning_rate": 1e-05,
	"loss": 1.7422,
	"step": 415
	},
	{
	"epoch": 0.7561917745966825,
	"grad_norm": 0.015459864400327206,
	"learning_rate": 1e-05,
	"loss": 1.7484,
	"step": 416
	},
	{
	"epoch": 0.7580095432856169,
	"grad_norm": 0.018278229981660843,
	"learning_rate": 1e-05,
	"loss": 1.7543,
	"step": 417
	},
	{
	"epoch": 0.7598273119745512,
	"grad_norm": 0.016482891514897346,
	"learning_rate": 1e-05,
	"loss": 1.7511,
	"step": 418
	},
	{
	"epoch": 0.7616450806634856,
	"grad_norm": 0.0158072616904974,
	"learning_rate": 1e-05,
	"loss": 1.747,
	"step": 419
	},
	{
	"epoch": 0.7634628493524199,
	"grad_norm": 0.01595921255648136,
	"learning_rate": 1e-05,
	"loss": 1.741,
	"step": 420
	},
	{
	"epoch": 0.7652806180413543,
	"grad_norm": 0.01587016135454178,
	"learning_rate": 1e-05,
	"loss": 1.7427,
	"step": 421
	},
	{
	"epoch": 0.7670983867302885,
	"grad_norm": 0.017007585614919662,
	"learning_rate": 1e-05,
	"loss": 1.7413,
	"step": 422
	},
	{
	"epoch": 0.7689161554192229,
	"grad_norm": 0.015775319188833237,
	"learning_rate": 1e-05,
	"loss": 1.7483,
	"step": 423
	},
	{
	"epoch": 0.7707339241081572,
	"grad_norm": 0.015736114233732224,
	"learning_rate": 1e-05,
	"loss": 1.7463,
	"step": 424
	},
	{
	"epoch": 0.7725516927970916,
	"grad_norm": 0.01561545580625534,
	"learning_rate": 1e-05,
	"loss": 1.7482,
	"step": 425
	},
	{
	"epoch": 0.7743694614860259,
	"grad_norm": 0.01614650897681713,
	"learning_rate": 1e-05,
	"loss": 1.7517,
	"step": 426
	},
	{
	"epoch": 0.7761872301749603,
	"grad_norm": 0.016477441415190697,
	"learning_rate": 1e-05,
	"loss": 1.7437,
	"step": 427
	},
	{
	"epoch": 0.7780049988638945,
	"grad_norm": 0.01549589540809393,
	"learning_rate": 1e-05,
	"loss": 1.7479,
	"step": 428
	},
	{
	"epoch": 0.7798227675528289,
	"grad_norm": 0.015598030760884285,
	"learning_rate": 1e-05,
	"loss": 1.7438,
	"step": 429
	},
	{
	"epoch": 0.7816405362417632,
	"grad_norm": 0.01621238701045513,
	"learning_rate": 1e-05,
	"loss": 1.743,
	"step": 430
	},
	{
	"epoch": 0.7834583049306976,
	"grad_norm": 0.015526995062828064,
	"learning_rate": 1e-05,
	"loss": 1.7521,
	"step": 431
	},
	{
	"epoch": 0.7852760736196319,
	"grad_norm": 0.01634833589196205,
	"learning_rate": 1e-05,
	"loss": 1.7489,
	"step": 432
	},
	{
	"epoch": 0.7870938423085663,
	"grad_norm": 0.01686246506869793,
	"learning_rate": 1e-05,
	"loss": 1.7483,
	"step": 433
	},
	{
	"epoch": 0.7889116109975006,
	"grad_norm": 0.01572590321302414,
	"learning_rate": 1e-05,
	"loss": 1.7454,
	"step": 434
	},
	{
	"epoch": 0.7907293796864349,
	"grad_norm": 0.016653846949338913,
	"learning_rate": 1e-05,
	"loss": 1.7447,
	"step": 435
	},
	{
	"epoch": 0.7925471483753692,
	"grad_norm": 0.016530562192201614,
	"learning_rate": 1e-05,
	"loss": 1.7465,
	"step": 436
	},
	{
	"epoch": 0.7943649170643036,
	"grad_norm": 0.016080396249890327,
	"learning_rate": 1e-05,
	"loss": 1.7437,
	"step": 437
	},
	{
	"epoch": 0.7961826857532379,
	"grad_norm": 0.016825426369905472,
	"learning_rate": 1e-05,
	"loss": 1.7432,
	"step": 438
	},
	{
	"epoch": 0.7980004544421723,
	"grad_norm": 0.01737258955836296,
	"learning_rate": 1e-05,
	"loss": 1.7363,
	"step": 439
	},
	{
	"epoch": 0.7998182231311066,
	"grad_norm": 0.015955086797475815,
	"learning_rate": 1e-05,
	"loss": 1.7509,
	"step": 440
	},
	{
	"epoch": 0.8016359918200409,
	"grad_norm": 0.016994798555970192,
	"learning_rate": 1e-05,
	"loss": 1.7446,
	"step": 441
	},
	{
	"epoch": 0.8034537605089752,
	"grad_norm": 0.0163293294608593,
	"learning_rate": 1e-05,
	"loss": 1.7491,
	"step": 442
	},
	{
	"epoch": 0.8052715291979096,
	"grad_norm": 0.016241351142525673,
	"learning_rate": 1e-05,
	"loss": 1.7408,
	"step": 443
	},
	{
	"epoch": 0.8070892978868439,
	"grad_norm": 0.03442993760108948,
	"learning_rate": 1e-05,
	"loss": 1.7485,
	"step": 444
	},
	{
	"epoch": 0.8089070665757783,
	"grad_norm": 0.01715024746954441,
	"learning_rate": 1e-05,
	"loss": 1.7507,
	"step": 445
	},
	{
	"epoch": 0.8107248352647126,
	"grad_norm": 0.016102071851491928,
	"learning_rate": 1e-05,
	"loss": 1.7508,
	"step": 446
	},
	{
	"epoch": 0.8125426039536469,
	"grad_norm": 0.018684349954128265,
	"learning_rate": 1e-05,
	"loss": 1.745,
	"step": 447
	},
	{
	"epoch": 0.8143603726425812,
	"grad_norm": 0.01681571640074253,
	"learning_rate": 1e-05,
	"loss": 1.7564,
	"step": 448
	},
	{
	"epoch": 0.8161781413315156,
	"grad_norm": 0.01673213019967079,
	"learning_rate": 1e-05,
	"loss": 1.7491,
	"step": 449
	},
	{
	"epoch": 0.8179959100204499,
	"grad_norm": 0.01589960604906082,
	"learning_rate": 1e-05,
	"loss": 1.7534,
	"step": 450
	},
	{
	"epoch": 0.8198136787093843,
	"grad_norm": 0.018107162788510323,
	"learning_rate": 1e-05,
	"loss": 1.734,
	"step": 451
	},
	{
	"epoch": 0.8216314473983186,
	"grad_norm": 0.016370611265301704,
	"learning_rate": 1e-05,
	"loss": 1.748,
	"step": 452
	},
	{
	"epoch": 0.8234492160872529,
	"grad_norm": 0.01715346798300743,
	"learning_rate": 1e-05,
	"loss": 1.7581,
	"step": 453
	},
	{
	"epoch": 0.8252669847761872,
	"grad_norm": 0.016535120084881783,
	"learning_rate": 1e-05,
	"loss": 1.7483,
	"step": 454
	},
	{
	"epoch": 0.8270847534651216,
	"grad_norm": 0.01683277077972889,
	"learning_rate": 1e-05,
	"loss": 1.753,
	"step": 455
	},
	{
	"epoch": 0.8289025221540559,
	"grad_norm": 0.016108205541968346,
	"learning_rate": 1e-05,
	"loss": 1.7509,
	"step": 456
	},
	{
	"epoch": 0.8307202908429903,
	"grad_norm": 0.01758972927927971,
	"learning_rate": 1e-05,
	"loss": 1.7421,
	"step": 457
	},
	{
	"epoch": 0.8325380595319246,
	"grad_norm": 0.016740551218390465,
	"learning_rate": 1e-05,
	"loss": 1.7531,
	"step": 458
	},
	{
	"epoch": 0.8343558282208589,
	"grad_norm": 0.017136069014668465,
	"learning_rate": 1e-05,
	"loss": 1.7453,
	"step": 459
	},
	{
	"epoch": 0.8361735969097932,
	"grad_norm": 0.018268654122948647,
	"learning_rate": 1e-05,
	"loss": 1.7468,
	"step": 460
	},
	{
	"epoch": 0.8379913655987276,
	"grad_norm": 0.01658778078854084,
	"learning_rate": 1e-05,
	"loss": 1.7496,
	"step": 461
	},
	{
	"epoch": 0.8398091342876619,
	"grad_norm": 0.016633301973342896,
	"learning_rate": 1e-05,
	"loss": 1.7485,
	"step": 462
	},
	{
	"epoch": 0.8416269029765963,
	"grad_norm": 0.016990309581160545,
	"learning_rate": 1e-05,
	"loss": 1.7405,
	"step": 463
	},
	{
	"epoch": 0.8434446716655306,
	"grad_norm": 0.01661493442952633,
	"learning_rate": 1e-05,
	"loss": 1.7464,
	"step": 464
	},
	{
	"epoch": 0.8452624403544649,
	"grad_norm": 0.01699172891676426,
	"learning_rate": 1e-05,
	"loss": 1.7564,
	"step": 465
	},
	{
	"epoch": 0.8470802090433992,
	"grad_norm": 0.016703175380825996,
	"learning_rate": 1e-05,
	"loss": 1.745,
	"step": 466
	},
	{
	"epoch": 0.8488979777323336,
	"grad_norm": 0.01694013550877571,
	"learning_rate": 1e-05,
	"loss": 1.741,
	"step": 467
	},
	{
	"epoch": 0.8507157464212679,
	"grad_norm": 0.017576703801751137,
	"learning_rate": 1e-05,
	"loss": 1.7553,
	"step": 468
	},
	{
	"epoch": 0.8525335151102023,
	"grad_norm": 0.016727445647120476,
	"learning_rate": 1e-05,
	"loss": 1.734,
	"step": 469
	},
	{
	"epoch": 0.8543512837991366,
	"grad_norm": 0.015813367441296577,
	"learning_rate": 1e-05,
	"loss": 1.7443,
	"step": 470
	},
	{
	"epoch": 0.8561690524880708,
	"grad_norm": 0.01609817147254944,
	"learning_rate": 1e-05,
	"loss": 1.7496,
	"step": 471
	},
	{
	"epoch": 0.8579868211770052,
	"grad_norm": 0.01648952253162861,
	"learning_rate": 1e-05,
	"loss": 1.7444,
	"step": 472
	},
	{
	"epoch": 0.8598045898659396,
	"grad_norm": 0.016997788101434708,
	"learning_rate": 1e-05,
	"loss": 1.7436,
	"step": 473
	},
	{
	"epoch": 0.8616223585548739,
	"grad_norm": 0.016397470608353615,
	"learning_rate": 1e-05,
	"loss": 1.7488,
	"step": 474
	},
	{
	"epoch": 0.8634401272438083,
	"grad_norm": 0.01654043421149254,
	"learning_rate": 1e-05,
	"loss": 1.7406,
	"step": 475
	},
	{
	"epoch": 0.8652578959327426,
	"grad_norm": 0.016180653125047684,
	"learning_rate": 1e-05,
	"loss": 1.7463,
	"step": 476
	},
	{
	"epoch": 0.8670756646216768,
	"grad_norm": 0.016773954033851624,
	"learning_rate": 1e-05,
	"loss": 1.751,
	"step": 477
	},
	{
	"epoch": 0.8688934333106112,
	"grad_norm": 0.01736517809331417,
	"learning_rate": 1e-05,
	"loss": 1.7402,
	"step": 478
	},
	{
	"epoch": 0.8707112019995455,
	"grad_norm": 0.01888013258576393,
	"learning_rate": 1e-05,
	"loss": 1.7457,
	"step": 479
	},
	{
	"epoch": 0.8725289706884799,
	"grad_norm": 0.018337909132242203,
	"learning_rate": 1e-05,
	"loss": 1.7453,
	"step": 480
	},
	{
	"epoch": 0.8743467393774143,
	"grad_norm": 0.01563389040529728,
	"learning_rate": 1e-05,
	"loss": 1.7386,
	"step": 481
	},
	{
	"epoch": 0.8761645080663486,
	"grad_norm": 0.017023077234625816,
	"learning_rate": 1e-05,
	"loss": 1.7412,
	"step": 482
	},
	{
	"epoch": 0.8779822767552828,
	"grad_norm": 0.01671590842306614,
	"learning_rate": 1e-05,
	"loss": 1.7462,
	"step": 483
	},
	{
	"epoch": 0.8798000454442172,
	"grad_norm": 0.019904915243387222,
	"learning_rate": 1e-05,
	"loss": 1.7443,
	"step": 484
	},
	{
	"epoch": 0.8816178141331515,
	"grad_norm": 0.01728987693786621,
	"learning_rate": 1e-05,
	"loss": 1.7345,
	"step": 485
	},
	{
	"epoch": 0.8834355828220859,
	"grad_norm": 0.019658857956528664,
	"learning_rate": 1e-05,
	"loss": 1.7425,
	"step": 486
	},
	{
	"epoch": 0.8852533515110202,
	"grad_norm": 0.01688159443438053,
	"learning_rate": 1e-05,
	"loss": 1.746,
	"step": 487
	},
	{
	"epoch": 0.8870711201999546,
	"grad_norm": 0.01599729433655739,
	"learning_rate": 1e-05,
	"loss": 1.7327,
	"step": 488
	},
	{
	"epoch": 0.8888888888888888,
	"grad_norm": 0.016897086054086685,
	"learning_rate": 1e-05,
	"loss": 1.7385,
	"step": 489
	},
	{
	"epoch": 0.8907066575778232,
	"grad_norm": 0.016169127076864243,
	"learning_rate": 1e-05,
	"loss": 1.7405,
	"step": 490
	},
	{
	"epoch": 0.8925244262667575,
	"grad_norm": 0.01634543016552925,
	"learning_rate": 1e-05,
	"loss": 1.748,
	"step": 491
	},
	{
	"epoch": 0.8943421949556919,
	"grad_norm": 0.016616657376289368,
	"learning_rate": 1e-05,
	"loss": 1.7465,
	"step": 492
	},
	{
	"epoch": 0.8961599636446262,
	"grad_norm": 0.016464397311210632,
	"learning_rate": 1e-05,
	"loss": 1.7331,
	"step": 493
	},
	{
	"epoch": 0.8979777323335606,
	"grad_norm": 0.017165830358862877,
	"learning_rate": 1e-05,
	"loss": 1.7383,
	"step": 494
	},
	{
	"epoch": 0.8997955010224948,
	"grad_norm": 0.016248662024736404,
	"learning_rate": 1e-05,
	"loss": 1.7416,
	"step": 495
	},
	{
	"epoch": 0.9016132697114292,
	"grad_norm": 0.01670646481215954,
	"learning_rate": 1e-05,
	"loss": 1.742,
	"step": 496
	},
	{
	"epoch": 0.9034310384003635,
	"grad_norm": 0.016594985499978065,
	"learning_rate": 1e-05,
	"loss": 1.7397,
	"step": 497
	},
	{
	"epoch": 0.9052488070892979,
	"grad_norm": 0.016361333429813385,
	"learning_rate": 1e-05,
	"loss": 1.7511,
	"step": 498
	},
	{
	"epoch": 0.9070665757782322,
	"grad_norm": 0.016266893595457077,
	"learning_rate": 1e-05,
	"loss": 1.7468,
	"step": 499
	},
	{
	"epoch": 0.9088843444671666,
	"grad_norm": 0.017031649127602577,
	"learning_rate": 1e-05,
	"loss": 1.7327,
	"step": 500
	},
	{
	"epoch": 0.9107021131561008,
	"grad_norm": 0.016959581524133682,
	"learning_rate": 1e-05,
	"loss": 1.7454,
	"step": 501
	},
	{
	"epoch": 0.9125198818450352,
	"grad_norm": 0.07533946633338928,
	"learning_rate": 1e-05,
	"loss": 1.7476,
	"step": 502
	},
	{
	"epoch": 0.9143376505339695,
	"grad_norm": 0.01766197197139263,
	"learning_rate": 1e-05,
	"loss": 1.7461,
	"step": 503
	},
	{
	"epoch": 0.9161554192229039,
	"grad_norm": 0.01663908362388611,
	"learning_rate": 1e-05,
	"loss": 1.7361,
	"step": 504
	},
	{
	"epoch": 0.9179731879118382,
	"grad_norm": 0.02057843655347824,
	"learning_rate": 1e-05,
	"loss": 1.7441,
	"step": 505
	},
	{
	"epoch": 0.9197909566007726,
	"grad_norm": 0.017909778282046318,
	"learning_rate": 1e-05,
	"loss": 1.742,
	"step": 506
	},
	{
	"epoch": 0.9216087252897068,
	"grad_norm": 0.017638977617025375,
	"learning_rate": 1e-05,
	"loss": 1.7391,
	"step": 507
	},
	{
	"epoch": 0.9234264939786412,
	"grad_norm": 0.018523376435041428,
	"learning_rate": 1e-05,
	"loss": 1.7405,
	"step": 508
	},
	{
	"epoch": 0.9252442626675755,
	"grad_norm": 0.01635800302028656,
	"learning_rate": 1e-05,
	"loss": 1.7458,
	"step": 509
	},
	{
	"epoch": 0.9270620313565099,
	"grad_norm": 0.01763818971812725,
	"learning_rate": 1e-05,
	"loss": 1.7351,
	"step": 510
	},
	{
	"epoch": 0.9288798000454442,
	"grad_norm": 0.017338305711746216,
	"learning_rate": 1e-05,
	"loss": 1.7397,
	"step": 511
	},
	{
	"epoch": 0.9306975687343786,
	"grad_norm": 0.01771395467221737,
	"learning_rate": 1e-05,
	"loss": 1.7471,
	"step": 512
	},
	{
	"epoch": 0.9325153374233128,
	"grad_norm": 0.017642149701714516,
	"learning_rate": 1e-05,
	"loss": 1.7454,
	"step": 513
	},
	{
	"epoch": 0.9343331061122472,
	"grad_norm": 0.017685122787952423,
	"learning_rate": 1e-05,
	"loss": 1.7375,
	"step": 514
	},
	{
	"epoch": 0.9361508748011815,
	"grad_norm": 0.017887357622385025,
	"learning_rate": 1e-05,
	"loss": 1.7394,
	"step": 515
	},
	{
	"epoch": 0.9379686434901159,
	"grad_norm": 0.01899501495063305,
	"learning_rate": 1e-05,
	"loss": 1.7452,
	"step": 516
	},
	{
	"epoch": 0.9397864121790502,
	"grad_norm": 0.017754577100276947,
	"learning_rate": 1e-05,
	"loss": 1.7441,
	"step": 517
	},
	{
	"epoch": 0.9416041808679846,
	"grad_norm": 0.01811014860868454,
	"learning_rate": 1e-05,
	"loss": 1.7417,
	"step": 518
	},
	{
	"epoch": 0.9434219495569189,
	"grad_norm": 0.01806728169322014,
	"learning_rate": 1e-05,
	"loss": 1.7428,
	"step": 519
	},
	{
	"epoch": 0.9452397182458532,
	"grad_norm": 0.018700286746025085,
	"learning_rate": 1e-05,
	"loss": 1.7345,
	"step": 520
	},
	{
	"epoch": 0.9470574869347875,
	"grad_norm": 0.01722894422709942,
	"learning_rate": 1e-05,
	"loss": 1.7362,
	"step": 521
	},
	{
	"epoch": 0.9488752556237219,
	"grad_norm": 0.016884060576558113,
	"learning_rate": 1e-05,
	"loss": 1.7355,
	"step": 522
	},
	{
	"epoch": 0.9506930243126562,
	"grad_norm": 0.017119232565164566,
	"learning_rate": 1e-05,
	"loss": 1.7468,
	"step": 523
	},
	{
	"epoch": 0.9525107930015906,
	"grad_norm": 0.017567407339811325,
	"learning_rate": 1e-05,
	"loss": 1.7422,
	"step": 524
	},
	{
	"epoch": 0.9543285616905249,
	"grad_norm": 0.017188768833875656,
	"learning_rate": 1e-05,
	"loss": 1.7393,
	"step": 525
	},
	{
	"epoch": 0.9561463303794592,
	"grad_norm": 0.016574783250689507,
	"learning_rate": 1e-05,
	"loss": 1.7341,
	"step": 526
	},
	{
	"epoch": 0.9579640990683935,
	"grad_norm": 0.020617837086319923,
	"learning_rate": 1e-05,
	"loss": 1.7428,
	"step": 527
	},
	{
	"epoch": 0.9597818677573279,
	"grad_norm": 0.018011432141065598,
	"learning_rate": 1e-05,
	"loss": 1.7496,
	"step": 528
	},
	{
	"epoch": 0.9615996364462622,
	"grad_norm": 0.018056875094771385,
	"learning_rate": 1e-05,
	"loss": 1.7413,
	"step": 529
	},
	{
	"epoch": 0.9634174051351966,
	"grad_norm": 0.018342627212405205,
	"learning_rate": 1e-05,
	"loss": 1.7395,
	"step": 530
	},
	{
	"epoch": 0.9652351738241309,
	"grad_norm": 0.022182267159223557,
	"learning_rate": 1e-05,
	"loss": 1.7342,
	"step": 531
	},
	{
	"epoch": 0.9670529425130652,
	"grad_norm": 0.01826542802155018,
	"learning_rate": 1e-05,
	"loss": 1.7384,
	"step": 532
	},
	{
	"epoch": 0.9688707112019995,
	"grad_norm": 0.01716247759759426,
	"learning_rate": 1e-05,
	"loss": 1.7425,
	"step": 533
	},
	{
	"epoch": 0.9706884798909339,
	"grad_norm": 0.017304804176092148,
	"learning_rate": 1e-05,
	"loss": 1.7521,
	"step": 534
	},
	{
	"epoch": 0.9725062485798682,
	"grad_norm": 0.01794220507144928,
	"learning_rate": 1e-05,
	"loss": 1.7455,
	"step": 535
	},
	{
	"epoch": 0.9743240172688026,
	"grad_norm": 0.017633073031902313,
	"learning_rate": 1e-05,
	"loss": 1.7509,
	"step": 536
	},
	{
	"epoch": 0.9761417859577369,
	"grad_norm": 0.016983771696686745,
	"learning_rate": 1e-05,
	"loss": 1.7392,
	"step": 537
	},
	{
	"epoch": 0.9779595546466712,
	"grad_norm": 0.01743633858859539,
	"learning_rate": 1e-05,
	"loss": 1.7341,
	"step": 538
	},
	{
	"epoch": 0.9797773233356055,
	"grad_norm": 0.017662547528743744,
	"learning_rate": 1e-05,
	"loss": 1.7367,
	"step": 539
	},
	{
	"epoch": 0.9815950920245399,
	"grad_norm": 0.01701057143509388,
	"learning_rate": 1e-05,
	"loss": 1.7423,
	"step": 540
	},
	{
	"epoch": 0.9834128607134742,
	"grad_norm": 0.017070814967155457,
	"learning_rate": 1e-05,
	"loss": 1.7429,
	"step": 541
	},
	{
	"epoch": 0.9852306294024086,
	"grad_norm": 0.01704619824886322,
	"learning_rate": 1e-05,
	"loss": 1.7348,
	"step": 542
	},
	{
	"epoch": 0.9870483980913429,
	"grad_norm": 0.017563099041581154,
	"learning_rate": 1e-05,
	"loss": 1.7382,
	"step": 543
	},
	{
	"epoch": 0.9888661667802772,
	"grad_norm": 0.01661253347992897,
	"learning_rate": 1e-05,
	"loss": 1.7412,
	"step": 544
	},
	{
	"epoch": 0.9906839354692115,
	"grad_norm": 0.016802560538053513,
	"learning_rate": 1e-05,
	"loss": 1.7287,
	"step": 545
	},
	{
	"epoch": 0.9925017041581459,
	"grad_norm": 0.01623694598674774,
	"learning_rate": 1e-05,
	"loss": 1.7345,
	"step": 546
	},
	{
	"epoch": 0.9943194728470802,
	"grad_norm": 0.01796470768749714,
	"learning_rate": 1e-05,
	"loss": 1.7282,
	"step": 547
	},
	{
	"epoch": 0.9961372415360146,
	"grad_norm": 0.016037970781326294,
	"learning_rate": 1e-05,
	"loss": 1.7358,
	"step": 548
	},
	{
	"epoch": 0.9979550102249489,
	"grad_norm": 0.016084497794508934,
	"learning_rate": 1e-05,
	"loss": 1.7371,
	"step": 549
	},
	{
	"epoch": 0.9997727789138832,
	"grad_norm": 0.016458775848150253,
	"learning_rate": 1e-05,
	"loss": 1.7397,
	"step": 550
	},
	{
	"epoch": 0.9997727789138832,
	"step": 550,
	"total_flos": 2868807299235840.0,
	"train_loss": 0.7944060720096935,
	"train_runtime": 47914.0805,
	"train_samples_per_second": 2.939,
	"train_steps_per_second": 0.011
	}
	],
	"logging_steps": 1,
	"max_steps": 550,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 100,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 2868807299235840.0,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}