DeepQuant-lora-24140 / checkpoint-276 /trainer_state.json

Upload folder using huggingface_hub

20b0d05 verified 11 months ago

48.9 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.997289972899729,
	"eval_steps": 500,
	"global_step": 276,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0036133694670280035,
	"grad_norm": 0.3959366977214813,
	"learning_rate": 6.25e-06,
	"loss": 0.9323,
	"step": 1
	},
	{
	"epoch": 0.007226738934056007,
	"grad_norm": 0.45551198720932007,
	"learning_rate": 1.25e-05,
	"loss": 1.0507,
	"step": 2
	},
	{
	"epoch": 0.01084010840108401,
	"grad_norm": 0.2823091745376587,
	"learning_rate": 1.8750000000000002e-05,
	"loss": 0.8491,
	"step": 3
	},
	{
	"epoch": 0.014453477868112014,
	"grad_norm": 0.46047303080558777,
	"learning_rate": 2.5e-05,
	"loss": 1.0142,
	"step": 4
	},
	{
	"epoch": 0.018066847335140017,
	"grad_norm": 0.4086349606513977,
	"learning_rate": 3.125e-05,
	"loss": 0.947,
	"step": 5
	},
	{
	"epoch": 0.02168021680216802,
	"grad_norm": 0.457003116607666,
	"learning_rate": 3.7500000000000003e-05,
	"loss": 0.9485,
	"step": 6
	},
	{
	"epoch": 0.025293586269196026,
	"grad_norm": 0.35562458634376526,
	"learning_rate": 4.375e-05,
	"loss": 0.8449,
	"step": 7
	},
	{
	"epoch": 0.028906955736224028,
	"grad_norm": 0.33805516362190247,
	"learning_rate": 5e-05,
	"loss": 0.7379,
	"step": 8
	},
	{
	"epoch": 0.032520325203252036,
	"grad_norm": 0.3412623703479767,
	"learning_rate": 4.9998282347929784e-05,
	"loss": 0.6282,
	"step": 9
	},
	{
	"epoch": 0.036133694670280034,
	"grad_norm": 0.2843680679798126,
	"learning_rate": 4.99931296277454e-05,
	"loss": 0.5503,
	"step": 10
	},
	{
	"epoch": 0.03974706413730804,
	"grad_norm": 0.17628777027130127,
	"learning_rate": 4.998454254749331e-05,
	"loss": 0.512,
	"step": 11
	},
	{
	"epoch": 0.04336043360433604,
	"grad_norm": 0.19055013358592987,
	"learning_rate": 4.997252228714279e-05,
	"loss": 0.5397,
	"step": 12
	},
	{
	"epoch": 0.04697380307136405,
	"grad_norm": 0.08906977623701096,
	"learning_rate": 4.9957070498423854e-05,
	"loss": 0.5458,
	"step": 13
	},
	{
	"epoch": 0.05058717253839205,
	"grad_norm": 0.0917251780629158,
	"learning_rate": 4.993818930460026e-05,
	"loss": 0.5269,
	"step": 14
	},
	{
	"epoch": 0.05420054200542006,
	"grad_norm": 0.0985497236251831,
	"learning_rate": 4.9915881300177725e-05,
	"loss": 0.4135,
	"step": 15
	},
	{
	"epoch": 0.057813911472448055,
	"grad_norm": 0.1111132949590683,
	"learning_rate": 4.9890149550547454e-05,
	"loss": 0.5064,
	"step": 16
	},
	{
	"epoch": 0.06142728093947606,
	"grad_norm": 0.0649256557226181,
	"learning_rate": 4.98609975915649e-05,
	"loss": 0.4804,
	"step": 17
	},
	{
	"epoch": 0.06504065040650407,
	"grad_norm": 0.09687516838312149,
	"learning_rate": 4.982842942906386e-05,
	"loss": 0.3706,
	"step": 18
	},
	{
	"epoch": 0.06865401987353206,
	"grad_norm": 0.14679567515850067,
	"learning_rate": 4.979244953830608e-05,
	"loss": 0.4105,
	"step": 19
	},
	{
	"epoch": 0.07226738934056007,
	"grad_norm": 0.14155593514442444,
	"learning_rate": 4.9753062863366276e-05,
	"loss": 0.4886,
	"step": 20
	},
	{
	"epoch": 0.07588075880758807,
	"grad_norm": 0.14684930443763733,
	"learning_rate": 4.971027481645274e-05,
	"loss": 0.4044,
	"step": 21
	},
	{
	"epoch": 0.07949412827461608,
	"grad_norm": 0.11222010105848312,
	"learning_rate": 4.966409127716367e-05,
	"loss": 0.4361,
	"step": 22
	},
	{
	"epoch": 0.08310749774164408,
	"grad_norm": 0.058118775486946106,
	"learning_rate": 4.96145185916792e-05,
	"loss": 0.4176,
	"step": 23
	},
	{
	"epoch": 0.08672086720867209,
	"grad_norm": 0.06764644384384155,
	"learning_rate": 4.95615635718894e-05,
	"loss": 0.4683,
	"step": 24
	},
	{
	"epoch": 0.09033423667570009,
	"grad_norm": 0.06886276602745056,
	"learning_rate": 4.950523349445824e-05,
	"loss": 0.418,
	"step": 25
	},
	{
	"epoch": 0.0939476061427281,
	"grad_norm": 0.0706636980175972,
	"learning_rate": 4.944553609982363e-05,
	"loss": 0.3967,
	"step": 26
	},
	{
	"epoch": 0.0975609756097561,
	"grad_norm": 0.04914792627096176,
	"learning_rate": 4.938247959113386e-05,
	"loss": 0.4623,
	"step": 27
	},
	{
	"epoch": 0.1011743450767841,
	"grad_norm": 0.05717244744300842,
	"learning_rate": 4.931607263312032e-05,
	"loss": 0.4047,
	"step": 28
	},
	{
	"epoch": 0.10478771454381211,
	"grad_norm": 0.05677526444196701,
	"learning_rate": 4.924632435090696e-05,
	"loss": 0.4251,
	"step": 29
	},
	{
	"epoch": 0.10840108401084012,
	"grad_norm": 0.051282044500112534,
	"learning_rate": 4.917324432875627e-05,
	"loss": 0.4101,
	"step": 30
	},
	{
	"epoch": 0.1120144534778681,
	"grad_norm": 0.05558260530233383,
	"learning_rate": 4.909684260875235e-05,
	"loss": 0.4425,
	"step": 31
	},
	{
	"epoch": 0.11562782294489611,
	"grad_norm": 0.05362090840935707,
	"learning_rate": 4.9017129689421e-05,
	"loss": 0.383,
	"step": 32
	},
	{
	"epoch": 0.11924119241192412,
	"grad_norm": 0.050591859966516495,
	"learning_rate": 4.893411652428712e-05,
	"loss": 0.3988,
	"step": 33
	},
	{
	"epoch": 0.12285456187895212,
	"grad_norm": 0.07354583591222763,
	"learning_rate": 4.8847814520369475e-05,
	"loss": 0.473,
	"step": 34
	},
	{
	"epoch": 0.12646793134598014,
	"grad_norm": 0.07448670268058777,
	"learning_rate": 4.875823553661334e-05,
	"loss": 0.3609,
	"step": 35
	},
	{
	"epoch": 0.13008130081300814,
	"grad_norm": 0.09399361908435822,
	"learning_rate": 4.8665391882260856e-05,
	"loss": 0.3927,
	"step": 36
	},
	{
	"epoch": 0.13369467028003612,
	"grad_norm": 0.061091382056474686,
	"learning_rate": 4.856929631515964e-05,
	"loss": 0.4512,
	"step": 37
	},
	{
	"epoch": 0.13730803974706413,
	"grad_norm": 0.06277038156986237,
	"learning_rate": 4.846996204000967e-05,
	"loss": 0.3961,
	"step": 38
	},
	{
	"epoch": 0.14092140921409213,
	"grad_norm": 0.05277445912361145,
	"learning_rate": 4.8367402706548805e-05,
	"loss": 0.3885,
	"step": 39
	},
	{
	"epoch": 0.14453477868112014,
	"grad_norm": 0.06335710734128952,
	"learning_rate": 4.8261632407677174e-05,
	"loss": 0.4663,
	"step": 40
	},
	{
	"epoch": 0.14814814814814814,
	"grad_norm": 0.05149435997009277,
	"learning_rate": 4.815266567752059e-05,
	"loss": 0.4012,
	"step": 41
	},
	{
	"epoch": 0.15176151761517614,
	"grad_norm": 0.052154790610075,
	"learning_rate": 4.804051748943343e-05,
	"loss": 0.377,
	"step": 42
	},
	{
	"epoch": 0.15537488708220415,
	"grad_norm": 0.06229854002594948,
	"learning_rate": 4.792520325394111e-05,
	"loss": 0.4677,
	"step": 43
	},
	{
	"epoch": 0.15898825654923215,
	"grad_norm": 0.050992563366889954,
	"learning_rate": 4.780673881662242e-05,
	"loss": 0.4271,
	"step": 44
	},
	{
	"epoch": 0.16260162601626016,
	"grad_norm": 0.057579364627599716,
	"learning_rate": 4.7685140455932267e-05,
	"loss": 0.4096,
	"step": 45
	},
	{
	"epoch": 0.16621499548328816,
	"grad_norm": 0.05966678634285927,
	"learning_rate": 4.756042488096471e-05,
	"loss": 0.4075,
	"step": 46
	},
	{
	"epoch": 0.16982836495031617,
	"grad_norm": 0.055218473076820374,
	"learning_rate": 4.743260922915701e-05,
	"loss": 0.459,
	"step": 47
	},
	{
	"epoch": 0.17344173441734417,
	"grad_norm": 0.05127694830298424,
	"learning_rate": 4.730171106393466e-05,
	"loss": 0.4086,
	"step": 48
	},
	{
	"epoch": 0.17705510388437218,
	"grad_norm": 0.06519781798124313,
	"learning_rate": 4.716774837229804e-05,
	"loss": 0.4418,
	"step": 49
	},
	{
	"epoch": 0.18066847335140018,
	"grad_norm": 0.05895975977182388,
	"learning_rate": 4.7030739562350713e-05,
	"loss": 0.4013,
	"step": 50
	},
	{
	"epoch": 0.1842818428184282,
	"grad_norm": 0.061492159962654114,
	"learning_rate": 4.6890703460769955e-05,
	"loss": 0.3726,
	"step": 51
	},
	{
	"epoch": 0.1878952122854562,
	"grad_norm": 0.05051853135228157,
	"learning_rate": 4.674765931021976e-05,
	"loss": 0.4354,
	"step": 52
	},
	{
	"epoch": 0.1915085817524842,
	"grad_norm": 0.05664265528321266,
	"learning_rate": 4.6601626766706626e-05,
	"loss": 0.4137,
	"step": 53
	},
	{
	"epoch": 0.1951219512195122,
	"grad_norm": 0.06020362302660942,
	"learning_rate": 4.645262589687861e-05,
	"loss": 0.4171,
	"step": 54
	},
	{
	"epoch": 0.1987353206865402,
	"grad_norm": 0.06303560733795166,
	"learning_rate": 4.6300677175267914e-05,
	"loss": 0.3724,
	"step": 55
	},
	{
	"epoch": 0.2023486901535682,
	"grad_norm": 0.06793845444917679,
	"learning_rate": 4.614580148147744e-05,
	"loss": 0.3711,
	"step": 56
	},
	{
	"epoch": 0.20596205962059622,
	"grad_norm": 0.07107391953468323,
	"learning_rate": 4.598802009731167e-05,
	"loss": 0.4428,
	"step": 57
	},
	{
	"epoch": 0.20957542908762422,
	"grad_norm": 0.06567548215389252,
	"learning_rate": 4.582735470385229e-05,
	"loss": 0.3774,
	"step": 58
	},
	{
	"epoch": 0.21318879855465223,
	"grad_norm": 0.05056913569569588,
	"learning_rate": 4.5663827378478975e-05,
	"loss": 0.3584,
	"step": 59
	},
	{
	"epoch": 0.21680216802168023,
	"grad_norm": 0.08128344267606735,
	"learning_rate": 4.5497460591835615e-05,
	"loss": 0.3983,
	"step": 60
	},
	{
	"epoch": 0.2204155374887082,
	"grad_norm": 0.05856931954622269,
	"learning_rate": 4.532827720474268e-05,
	"loss": 0.3486,
	"step": 61
	},
	{
	"epoch": 0.2240289069557362,
	"grad_norm": 0.05503028631210327,
	"learning_rate": 4.515630046505575e-05,
	"loss": 0.3896,
	"step": 62
	},
	{
	"epoch": 0.22764227642276422,
	"grad_norm": 0.047534190118312836,
	"learning_rate": 4.498155400447107e-05,
	"loss": 0.4463,
	"step": 63
	},
	{
	"epoch": 0.23125564588979222,
	"grad_norm": 0.0638430267572403,
	"learning_rate": 4.480406183527823e-05,
	"loss": 0.3977,
	"step": 64
	},
	{
	"epoch": 0.23486901535682023,
	"grad_norm": 0.04974055290222168,
	"learning_rate": 4.462384834706058e-05,
	"loss": 0.3999,
	"step": 65
	},
	{
	"epoch": 0.23848238482384823,
	"grad_norm": 0.06309591233730316,
	"learning_rate": 4.4440938303343804e-05,
	"loss": 0.4275,
	"step": 66
	},
	{
	"epoch": 0.24209575429087624,
	"grad_norm": 0.05192544683814049,
	"learning_rate": 4.425535683819312e-05,
	"loss": 0.4096,
	"step": 67
	},
	{
	"epoch": 0.24570912375790424,
	"grad_norm": 0.057684604078531265,
	"learning_rate": 4.406712945275955e-05,
	"loss": 0.41,
	"step": 68
	},
	{
	"epoch": 0.24932249322493225,
	"grad_norm": 0.0514802448451519,
	"learning_rate": 4.387628201177577e-05,
	"loss": 0.3372,
	"step": 69
	},
	{
	"epoch": 0.2529358626919603,
	"grad_norm": 0.056559968739748,
	"learning_rate": 4.368284074000193e-05,
	"loss": 0.3929,
	"step": 70
	},
	{
	"epoch": 0.2565492321589883,
	"grad_norm": 0.0645717978477478,
	"learning_rate": 4.348683221862212e-05,
	"loss": 0.4353,
	"step": 71
	},
	{
	"epoch": 0.2601626016260163,
	"grad_norm": 0.08638172596693039,
	"learning_rate": 4.328828338159173e-05,
	"loss": 0.3978,
	"step": 72
	},
	{
	"epoch": 0.26377597109304424,
	"grad_norm": 0.05915065109729767,
	"learning_rate": 4.3087221511936434e-05,
	"loss": 0.393,
	"step": 73
	},
	{
	"epoch": 0.26738934056007224,
	"grad_norm": 0.061671093106269836,
	"learning_rate": 4.288367423800319e-05,
	"loss": 0.4187,
	"step": 74
	},
	{
	"epoch": 0.27100271002710025,
	"grad_norm": 0.07420554012060165,
	"learning_rate": 4.267766952966369e-05,
	"loss": 0.3939,
	"step": 75
	},
	{
	"epoch": 0.27461607949412825,
	"grad_norm": 0.07052630186080933,
	"learning_rate": 4.2469235694471043e-05,
	"loss": 0.3435,
	"step": 76
	},
	{
	"epoch": 0.27822944896115626,
	"grad_norm": 0.06885933130979538,
	"learning_rate": 4.225840137376993e-05,
	"loss": 0.4363,
	"step": 77
	},
	{
	"epoch": 0.28184281842818426,
	"grad_norm": 0.05735473707318306,
	"learning_rate": 4.204519553876095e-05,
	"loss": 0.3509,
	"step": 78
	},
	{
	"epoch": 0.28545618789521227,
	"grad_norm": 0.06102309376001358,
	"learning_rate": 4.1829647486519596e-05,
	"loss": 0.3369,
	"step": 79
	},
	{
	"epoch": 0.28906955736224027,
	"grad_norm": 0.06527422368526459,
	"learning_rate": 4.161178683597054e-05,
	"loss": 0.4052,
	"step": 80
	},
	{
	"epoch": 0.2926829268292683,
	"grad_norm": 0.06578138470649719,
	"learning_rate": 4.139164352381758e-05,
	"loss": 0.3586,
	"step": 81
	},
	{
	"epoch": 0.2962962962962963,
	"grad_norm": 0.05465536564588547,
	"learning_rate": 4.116924780042997e-05,
	"loss": 0.3759,
	"step": 82
	},
	{
	"epoch": 0.2999096657633243,
	"grad_norm": 0.08491545915603638,
	"learning_rate": 4.094463022568569e-05,
	"loss": 0.3611,
	"step": 83
	},
	{
	"epoch": 0.3035230352303523,
	"grad_norm": 0.06035340949892998,
	"learning_rate": 4.071782166477213e-05,
	"loss": 0.3537,
	"step": 84
	},
	{
	"epoch": 0.3071364046973803,
	"grad_norm": 0.06220124289393425,
	"learning_rate": 4.0488853283944806e-05,
	"loss": 0.3878,
	"step": 85
	},
	{
	"epoch": 0.3107497741644083,
	"grad_norm": 0.05434149503707886,
	"learning_rate": 4.0257756546244804e-05,
	"loss": 0.3765,
	"step": 86
	},
	{
	"epoch": 0.3143631436314363,
	"grad_norm": 0.06244641914963722,
	"learning_rate": 4.0024563207175316e-05,
	"loss": 0.3668,
	"step": 87
	},
	{
	"epoch": 0.3179765130984643,
	"grad_norm": 0.08008646965026855,
	"learning_rate": 3.978930531033807e-05,
	"loss": 0.3883,
	"step": 88
	},
	{
	"epoch": 0.3215898825654923,
	"grad_norm": 0.06990881264209747,
	"learning_rate": 3.9552015183030136e-05,
	"loss": 0.4611,
	"step": 89
	},
	{
	"epoch": 0.3252032520325203,
	"grad_norm": 0.05660560727119446,
	"learning_rate": 3.93127254318018e-05,
	"loss": 0.3865,
	"step": 90
	},
	{
	"epoch": 0.3288166214995483,
	"grad_norm": 0.05711934715509415,
	"learning_rate": 3.907146893797599e-05,
	"loss": 0.4223,
	"step": 91
	},
	{
	"epoch": 0.3324299909665763,
	"grad_norm": 0.06767363101243973,
	"learning_rate": 3.882827885312999e-05,
	"loss": 0.3481,
	"step": 92
	},
	{
	"epoch": 0.33604336043360433,
	"grad_norm": 0.05866090953350067,
	"learning_rate": 3.858318859454001e-05,
	"loss": 0.4195,
	"step": 93
	},
	{
	"epoch": 0.33965672990063234,
	"grad_norm": 0.05316139757633209,
	"learning_rate": 3.833623184058926e-05,
	"loss": 0.4042,
	"step": 94
	},
	{
	"epoch": 0.34327009936766034,
	"grad_norm": 0.06730002164840698,
	"learning_rate": 3.808744252614012e-05,
	"loss": 0.3717,
	"step": 95
	},
	{
	"epoch": 0.34688346883468835,
	"grad_norm": 0.07342930138111115,
	"learning_rate": 3.783685483787105e-05,
	"loss": 0.4075,
	"step": 96
	},
	{
	"epoch": 0.35049683830171635,
	"grad_norm": 0.07083098590373993,
	"learning_rate": 3.758450320957899e-05,
	"loss": 0.3864,
	"step": 97
	},
	{
	"epoch": 0.35411020776874436,
	"grad_norm": 0.07677371054887772,
	"learning_rate": 3.7330422317447685e-05,
	"loss": 0.393,
	"step": 98
	},
	{
	"epoch": 0.35772357723577236,
	"grad_norm": 0.0808129534125328,
	"learning_rate": 3.707464707528275e-05,
	"loss": 0.3801,
	"step": 99
	},
	{
	"epoch": 0.36133694670280037,
	"grad_norm": 0.06672363728284836,
	"learning_rate": 3.681721262971413e-05,
	"loss": 0.4472,
	"step": 100
	},
	{
	"epoch": 0.36495031616982837,
	"grad_norm": 0.05534950643777847,
	"learning_rate": 3.6558154355366506e-05,
	"loss": 0.3683,
	"step": 101
	},
	{
	"epoch": 0.3685636856368564,
	"grad_norm": 0.06686428934335709,
	"learning_rate": 3.6297507849998344e-05,
	"loss": 0.3455,
	"step": 102
	},
	{
	"epoch": 0.3721770551038844,
	"grad_norm": 0.07248938828706741,
	"learning_rate": 3.6035308929610446e-05,
	"loss": 0.4083,
	"step": 103
	},
	{
	"epoch": 0.3757904245709124,
	"grad_norm": 0.06316327303647995,
	"learning_rate": 3.5771593623524265e-05,
	"loss": 0.3661,
	"step": 104
	},
	{
	"epoch": 0.3794037940379404,
	"grad_norm": 0.08561142534017563,
	"learning_rate": 3.550639816943111e-05,
	"loss": 0.3693,
	"step": 105
	},
	{
	"epoch": 0.3830171635049684,
	"grad_norm": 0.05884739011526108,
	"learning_rate": 3.5239759008412666e-05,
	"loss": 0.4326,
	"step": 106
	},
	{
	"epoch": 0.3866305329719964,
	"grad_norm": 0.06861259788274765,
	"learning_rate": 3.497171277993346e-05,
	"loss": 0.3423,
	"step": 107
	},
	{
	"epoch": 0.3902439024390244,
	"grad_norm": 0.06908590346574783,
	"learning_rate": 3.4702296316806244e-05,
	"loss": 0.4494,
	"step": 108
	},
	{
	"epoch": 0.3938572719060524,
	"grad_norm": 0.07454199343919754,
	"learning_rate": 3.443154664013067e-05,
	"loss": 0.4488,
	"step": 109
	},
	{
	"epoch": 0.3974706413730804,
	"grad_norm": 0.07938794046640396,
	"learning_rate": 3.415950095420616e-05,
	"loss": 0.3938,
	"step": 110
	},
	{
	"epoch": 0.4010840108401084,
	"grad_norm": 0.08505871146917343,
	"learning_rate": 3.3886196641419545e-05,
	"loss": 0.4004,
	"step": 111
	},
	{
	"epoch": 0.4046973803071364,
	"grad_norm": 0.0625777617096901,
	"learning_rate": 3.361167125710832e-05,
	"loss": 0.3863,
	"step": 112
	},
	{
	"epoch": 0.4083107497741644,
	"grad_norm": 0.07772816717624664,
	"learning_rate": 3.333596252440008e-05,
	"loss": 0.3981,
	"step": 113
	},
	{
	"epoch": 0.41192411924119243,
	"grad_norm": 0.06656523048877716,
	"learning_rate": 3.305910832902884e-05,
	"loss": 0.3705,
	"step": 114
	},
	{
	"epoch": 0.41553748870822044,
	"grad_norm": 0.07238256186246872,
	"learning_rate": 3.278114671412917e-05,
	"loss": 0.412,
	"step": 115
	},
	{
	"epoch": 0.41915085817524844,
	"grad_norm": 0.06601731479167938,
	"learning_rate": 3.2502115875008524e-05,
	"loss": 0.3716,
	"step": 116
	},
	{
	"epoch": 0.42276422764227645,
	"grad_norm": 0.0684824138879776,
	"learning_rate": 3.222205415389877e-05,
	"loss": 0.4183,
	"step": 117
	},
	{
	"epoch": 0.42637759710930445,
	"grad_norm": 0.0698830783367157,
	"learning_rate": 3.1941000034687515e-05,
	"loss": 0.3517,
	"step": 118
	},
	{
	"epoch": 0.42999096657633246,
	"grad_norm": 0.05978047475218773,
	"learning_rate": 3.165899213762995e-05,
	"loss": 0.3852,
	"step": 119
	},
	{
	"epoch": 0.43360433604336046,
	"grad_norm": 0.07572682201862335,
	"learning_rate": 3.1376069214041913e-05,
	"loss": 0.4022,
	"step": 120
	},
	{
	"epoch": 0.4372177055103884,
	"grad_norm": 0.07104960829019547,
	"learning_rate": 3.109227014097505e-05,
	"loss": 0.4185,
	"step": 121
	},
	{
	"epoch": 0.4408310749774164,
	"grad_norm": 0.06828156113624573,
	"learning_rate": 3.0807633915874584e-05,
	"loss": 0.4239,
	"step": 122
	},
	{
	"epoch": 0.4444444444444444,
	"grad_norm": 0.057690802961587906,
	"learning_rate": 3.052219965122062e-05,
	"loss": 0.4109,
	"step": 123
	},
	{
	"epoch": 0.4480578139114724,
	"grad_norm": 0.06580954045057297,
	"learning_rate": 3.0236006569153617e-05,
	"loss": 0.359,
	"step": 124
	},
	{
	"epoch": 0.45167118337850043,
	"grad_norm": 0.060349613428115845,
	"learning_rate": 2.9949093996084747e-05,
	"loss": 0.3775,
	"step": 125
	},
	{
	"epoch": 0.45528455284552843,
	"grad_norm": 0.07335729151964188,
	"learning_rate": 2.9661501357292033e-05,
	"loss": 0.4043,
	"step": 126
	},
	{
	"epoch": 0.45889792231255644,
	"grad_norm": 0.04954389110207558,
	"learning_rate": 2.9373268171502777e-05,
	"loss": 0.3537,
	"step": 127
	},
	{
	"epoch": 0.46251129177958444,
	"grad_norm": 0.07528957724571228,
	"learning_rate": 2.9084434045463255e-05,
	"loss": 0.467,
	"step": 128
	},
	{
	"epoch": 0.46612466124661245,
	"grad_norm": 0.06106121093034744,
	"learning_rate": 2.8795038668496222e-05,
	"loss": 0.4323,
	"step": 129
	},
	{
	"epoch": 0.46973803071364045,
	"grad_norm": 0.08181653916835785,
	"learning_rate": 2.850512180704715e-05,
	"loss": 0.4208,
	"step": 130
	},
	{
	"epoch": 0.47335140018066846,
	"grad_norm": 0.07354505360126495,
	"learning_rate": 2.821472329921981e-05,
	"loss": 0.3909,
	"step": 131
	},
	{
	"epoch": 0.47696476964769646,
	"grad_norm": 0.09099866449832916,
	"learning_rate": 2.792388304930207e-05,
	"loss": 0.4296,
	"step": 132
	},
	{
	"epoch": 0.48057813911472447,
	"grad_norm": 0.08062151074409485,
	"learning_rate": 2.7632641022282502e-05,
	"loss": 0.4106,
	"step": 133
	},
	{
	"epoch": 0.48419150858175247,
	"grad_norm": 0.09198120981454849,
	"learning_rate": 2.7341037238358774e-05,
	"loss": 0.4064,
	"step": 134
	},
	{
	"epoch": 0.4878048780487805,
	"grad_norm": 0.05343058705329895,
	"learning_rate": 2.704911176743833e-05,
	"loss": 0.404,
	"step": 135
	},
	{
	"epoch": 0.4914182475158085,
	"grad_norm": 0.0657978504896164,
	"learning_rate": 2.6756904723632324e-05,
	"loss": 0.3993,
	"step": 136
	},
	{
	"epoch": 0.4950316169828365,
	"grad_norm": 0.057678401470184326,
	"learning_rate": 2.646445625974347e-05,
	"loss": 0.3804,
	"step": 137
	},
	{
	"epoch": 0.4986449864498645,
	"grad_norm": 0.06898088753223419,
	"learning_rate": 2.6171806561748502e-05,
	"loss": 0.4452,
	"step": 138
	},
	{
	"epoch": 0.5022583559168925,
	"grad_norm": 0.09333262592554092,
	"learning_rate": 2.5878995843276204e-05,
	"loss": 0.3304,
	"step": 139
	},
	{
	"epoch": 0.5058717253839206,
	"grad_norm": 0.06717183440923691,
	"learning_rate": 2.5586064340081516e-05,
	"loss": 0.326,
	"step": 140
	},
	{
	"epoch": 0.5094850948509485,
	"grad_norm": 0.06729979068040848,
	"learning_rate": 2.529305230451666e-05,
	"loss": 0.3934,
	"step": 141
	},
	{
	"epoch": 0.5130984643179766,
	"grad_norm": 0.09550358355045319,
	"learning_rate": 2.5e-05,
	"loss": 0.4733,
	"step": 142
	},
	{
	"epoch": 0.5167118337850045,
	"grad_norm": 0.07080523669719696,
	"learning_rate": 2.4706947695483348e-05,
	"loss": 0.4039,
	"step": 143
	},
	{
	"epoch": 0.5203252032520326,
	"grad_norm": 0.055423106998205185,
	"learning_rate": 2.441393565991849e-05,
	"loss": 0.3275,
	"step": 144
	},
	{
	"epoch": 0.5239385727190605,
	"grad_norm": 0.06483904272317886,
	"learning_rate": 2.4121004156723802e-05,
	"loss": 0.4377,
	"step": 145
	},
	{
	"epoch": 0.5275519421860885,
	"grad_norm": 0.06614437699317932,
	"learning_rate": 2.3828193438251497e-05,
	"loss": 0.3935,
	"step": 146
	},
	{
	"epoch": 0.5311653116531165,
	"grad_norm": 0.08745498955249786,
	"learning_rate": 2.3535543740256536e-05,
	"loss": 0.4348,
	"step": 147
	},
	{
	"epoch": 0.5347786811201445,
	"grad_norm": 0.07158234715461731,
	"learning_rate": 2.3243095276367685e-05,
	"loss": 0.3286,
	"step": 148
	},
	{
	"epoch": 0.5383920505871725,
	"grad_norm": 0.06448652595281601,
	"learning_rate": 2.2950888232561672e-05,
	"loss": 0.4108,
	"step": 149
	},
	{
	"epoch": 0.5420054200542005,
	"grad_norm": 0.07621192187070847,
	"learning_rate": 2.2658962761641232e-05,
	"loss": 0.4317,
	"step": 150
	},
	{
	"epoch": 0.5456187895212286,
	"grad_norm": 0.07459475100040436,
	"learning_rate": 2.23673589777175e-05,
	"loss": 0.3876,
	"step": 151
	},
	{
	"epoch": 0.5492321589882565,
	"grad_norm": 0.07355853170156479,
	"learning_rate": 2.207611695069794e-05,
	"loss": 0.3506,
	"step": 152
	},
	{
	"epoch": 0.5528455284552846,
	"grad_norm": 0.07565652579069138,
	"learning_rate": 2.17852767007802e-05,
	"loss": 0.4221,
	"step": 153
	},
	{
	"epoch": 0.5564588979223125,
	"grad_norm": 0.07433846592903137,
	"learning_rate": 2.1494878192952855e-05,
	"loss": 0.3913,
	"step": 154
	},
	{
	"epoch": 0.5600722673893406,
	"grad_norm": 0.07123446464538574,
	"learning_rate": 2.1204961331503787e-05,
	"loss": 0.4106,
	"step": 155
	},
	{
	"epoch": 0.5636856368563685,
	"grad_norm": 0.0848294198513031,
	"learning_rate": 2.0915565954536744e-05,
	"loss": 0.3171,
	"step": 156
	},
	{
	"epoch": 0.5672990063233966,
	"grad_norm": 0.06394634395837784,
	"learning_rate": 2.0626731828497225e-05,
	"loss": 0.4106,
	"step": 157
	},
	{
	"epoch": 0.5709123757904245,
	"grad_norm": 0.06601906567811966,
	"learning_rate": 2.0338498642707977e-05,
	"loss": 0.3651,
	"step": 158
	},
	{
	"epoch": 0.5745257452574526,
	"grad_norm": 0.0734376311302185,
	"learning_rate": 2.005090600391526e-05,
	"loss": 0.3906,
	"step": 159
	},
	{
	"epoch": 0.5781391147244805,
	"grad_norm": 0.07122786343097687,
	"learning_rate": 1.9763993430846395e-05,
	"loss": 0.4157,
	"step": 160
	},
	{
	"epoch": 0.5817524841915086,
	"grad_norm": 0.06590158492326736,
	"learning_rate": 1.947780034877938e-05,
	"loss": 0.4267,
	"step": 161
	},
	{
	"epoch": 0.5853658536585366,
	"grad_norm": 0.07380690425634384,
	"learning_rate": 1.9192366084125425e-05,
	"loss": 0.3748,
	"step": 162
	},
	{
	"epoch": 0.5889792231255646,
	"grad_norm": 0.054361093789339066,
	"learning_rate": 1.890772985902496e-05,
	"loss": 0.3637,
	"step": 163
	},
	{
	"epoch": 0.5925925925925926,
	"grad_norm": 0.06896340101957321,
	"learning_rate": 1.8623930785958092e-05,
	"loss": 0.4319,
	"step": 164
	},
	{
	"epoch": 0.5962059620596206,
	"grad_norm": 0.08140537887811661,
	"learning_rate": 1.8341007862370056e-05,
	"loss": 0.3942,
	"step": 165
	},
	{
	"epoch": 0.5998193315266486,
	"grad_norm": 0.07021729648113251,
	"learning_rate": 1.8058999965312484e-05,
	"loss": 0.3917,
	"step": 166
	},
	{
	"epoch": 0.6034327009936766,
	"grad_norm": 0.06319273263216019,
	"learning_rate": 1.777794584610124e-05,
	"loss": 0.3833,
	"step": 167
	},
	{
	"epoch": 0.6070460704607046,
	"grad_norm": 0.07088933885097504,
	"learning_rate": 1.749788412499149e-05,
	"loss": 0.3326,
	"step": 168
	},
	{
	"epoch": 0.6106594399277326,
	"grad_norm": 0.06848324090242386,
	"learning_rate": 1.721885328587083e-05,
	"loss": 0.5018,
	"step": 169
	},
	{
	"epoch": 0.6142728093947606,
	"grad_norm": 0.07163573056459427,
	"learning_rate": 1.694089167097116e-05,
	"loss": 0.3624,
	"step": 170
	},
	{
	"epoch": 0.6178861788617886,
	"grad_norm": 0.06683260202407837,
	"learning_rate": 1.6664037475599923e-05,
	"loss": 0.4198,
	"step": 171
	},
	{
	"epoch": 0.6214995483288166,
	"grad_norm": 0.06273495405912399,
	"learning_rate": 1.638832874289168e-05,
	"loss": 0.3388,
	"step": 172
	},
	{
	"epoch": 0.6251129177958447,
	"grad_norm": 0.06024303659796715,
	"learning_rate": 1.611380335858047e-05,
	"loss": 0.4156,
	"step": 173
	},
	{
	"epoch": 0.6287262872628726,
	"grad_norm": 0.08732262253761292,
	"learning_rate": 1.5840499045793843e-05,
	"loss": 0.3883,
	"step": 174
	},
	{
	"epoch": 0.6323396567299007,
	"grad_norm": 0.06800790876150131,
	"learning_rate": 1.5568453359869334e-05,
	"loss": 0.3636,
	"step": 175
	},
	{
	"epoch": 0.6359530261969286,
	"grad_norm": 0.08514184504747391,
	"learning_rate": 1.5297703683193752e-05,
	"loss": 0.3664,
	"step": 176
	},
	{
	"epoch": 0.6395663956639567,
	"grad_norm": 0.0805889442563057,
	"learning_rate": 1.502828722006655e-05,
	"loss": 0.3912,
	"step": 177
	},
	{
	"epoch": 0.6431797651309846,
	"grad_norm": 0.07321416586637497,
	"learning_rate": 1.4760240991587337e-05,
	"loss": 0.4077,
	"step": 178
	},
	{
	"epoch": 0.6467931345980127,
	"grad_norm": 0.06993624567985535,
	"learning_rate": 1.4493601830568887e-05,
	"loss": 0.3728,
	"step": 179
	},
	{
	"epoch": 0.6504065040650406,
	"grad_norm": 0.07736963033676147,
	"learning_rate": 1.4228406376475742e-05,
	"loss": 0.3644,
	"step": 180
	},
	{
	"epoch": 0.6540198735320687,
	"grad_norm": 0.06840698421001434,
	"learning_rate": 1.396469107038956e-05,
	"loss": 0.3936,
	"step": 181
	},
	{
	"epoch": 0.6576332429990966,
	"grad_norm": 0.07498890906572342,
	"learning_rate": 1.3702492150001659e-05,
	"loss": 0.3948,
	"step": 182
	},
	{
	"epoch": 0.6612466124661247,
	"grad_norm": 0.06307978183031082,
	"learning_rate": 1.34418456446335e-05,
	"loss": 0.398,
	"step": 183
	},
	{
	"epoch": 0.6648599819331527,
	"grad_norm": 0.0843866616487503,
	"learning_rate": 1.3182787370285865e-05,
	"loss": 0.3891,
	"step": 184
	},
	{
	"epoch": 0.6684733514001807,
	"grad_norm": 0.07880077511072159,
	"learning_rate": 1.292535292471726e-05,
	"loss": 0.3812,
	"step": 185
	},
	{
	"epoch": 0.6720867208672087,
	"grad_norm": 0.06986968219280243,
	"learning_rate": 1.2669577682552319e-05,
	"loss": 0.3851,
	"step": 186
	},
	{
	"epoch": 0.6757000903342367,
	"grad_norm": 0.07602784037590027,
	"learning_rate": 1.2415496790421011e-05,
	"loss": 0.3956,
	"step": 187
	},
	{
	"epoch": 0.6793134598012647,
	"grad_norm": 0.06611546874046326,
	"learning_rate": 1.2163145162128947e-05,
	"loss": 0.3629,
	"step": 188
	},
	{
	"epoch": 0.6829268292682927,
	"grad_norm": 0.07958898693323135,
	"learning_rate": 1.1912557473859895e-05,
	"loss": 0.3647,
	"step": 189
	},
	{
	"epoch": 0.6865401987353207,
	"grad_norm": 0.06264237314462662,
	"learning_rate": 1.1663768159410748e-05,
	"loss": 0.3797,
	"step": 190
	},
	{
	"epoch": 0.6901535682023487,
	"grad_norm": 0.08303744345903397,
	"learning_rate": 1.1416811405459993e-05,
	"loss": 0.3754,
	"step": 191
	},
	{
	"epoch": 0.6937669376693767,
	"grad_norm": 0.07206673175096512,
	"learning_rate": 1.1171721146870015e-05,
	"loss": 0.327,
	"step": 192
	},
	{
	"epoch": 0.6973803071364046,
	"grad_norm": 0.06349314749240875,
	"learning_rate": 1.0928531062024017e-05,
	"loss": 0.3902,
	"step": 193
	},
	{
	"epoch": 0.7009936766034327,
	"grad_norm": 0.07241489738225937,
	"learning_rate": 1.0687274568198208e-05,
	"loss": 0.3845,
	"step": 194
	},
	{
	"epoch": 0.7046070460704607,
	"grad_norm": 0.06357239931821823,
	"learning_rate": 1.0447984816969874e-05,
	"loss": 0.3881,
	"step": 195
	},
	{
	"epoch": 0.7082204155374887,
	"grad_norm": 0.06316613405942917,
	"learning_rate": 1.021069468966194e-05,
	"loss": 0.4735,
	"step": 196
	},
	{
	"epoch": 0.7118337850045167,
	"grad_norm": 0.08076903223991394,
	"learning_rate": 9.975436792824691e-06,
	"loss": 0.43,
	"step": 197
	},
	{
	"epoch": 0.7154471544715447,
	"grad_norm": 0.0836021676659584,
	"learning_rate": 9.742243453755202e-06,
	"loss": 0.3818,
	"step": 198
	},
	{
	"epoch": 0.7190605239385727,
	"grad_norm": 0.0713673084974289,
	"learning_rate": 9.5111467160552e-06,
	"loss": 0.3846,
	"step": 199
	},
	{
	"epoch": 0.7226738934056007,
	"grad_norm": 0.08711904287338257,
	"learning_rate": 9.282178335227884e-06,
	"loss": 0.4817,
	"step": 200
	},
	{
	"epoch": 0.7262872628726287,
	"grad_norm": 0.05264454334974289,
	"learning_rate": 9.05536977431431e-06,
	"loss": 0.3995,
	"step": 201
	},
	{
	"epoch": 0.7299006323396567,
	"grad_norm": 0.07466941326856613,
	"learning_rate": 8.830752199570033e-06,
	"loss": 0.3718,
	"step": 202
	},
	{
	"epoch": 0.7335140018066847,
	"grad_norm": 0.07776648551225662,
	"learning_rate": 8.608356476182424e-06,
	"loss": 0.4786,
	"step": 203
	},
	{
	"epoch": 0.7371273712737128,
	"grad_norm": 0.06611160188913345,
	"learning_rate": 8.38821316402946e-06,
	"loss": 0.3668,
	"step": 204
	},
	{
	"epoch": 0.7407407407407407,
	"grad_norm": 0.07174837589263916,
	"learning_rate": 8.170352513480408e-06,
	"loss": 0.4016,
	"step": 205
	},
	{
	"epoch": 0.7443541102077688,
	"grad_norm": 0.0830477848649025,
	"learning_rate": 7.954804461239053e-06,
	"loss": 0.4162,
	"step": 206
	},
	{
	"epoch": 0.7479674796747967,
	"grad_norm": 0.08300362527370453,
	"learning_rate": 7.741598626230079e-06,
	"loss": 0.3738,
	"step": 207
	},
	{
	"epoch": 0.7515808491418248,
	"grad_norm": 0.07526036351919174,
	"learning_rate": 7.530764305528959e-06,
	"loss": 0.3576,
	"step": 208
	},
	{
	"epoch": 0.7551942186088527,
	"grad_norm": 0.06786955147981644,
	"learning_rate": 7.3223304703363135e-06,
	"loss": 0.4152,
	"step": 209
	},
	{
	"epoch": 0.7588075880758808,
	"grad_norm": 0.08544765412807465,
	"learning_rate": 7.116325761996817e-06,
	"loss": 0.3735,
	"step": 210
	},
	{
	"epoch": 0.7624209575429087,
	"grad_norm": 0.06077965721487999,
	"learning_rate": 6.91277848806356e-06,
	"loss": 0.3486,
	"step": 211
	},
	{
	"epoch": 0.7660343270099368,
	"grad_norm": 0.07332652807235718,
	"learning_rate": 6.711716618408281e-06,
	"loss": 0.3734,
	"step": 212
	},
	{
	"epoch": 0.7696476964769647,
	"grad_norm": 0.07848729193210602,
	"learning_rate": 6.513167781377885e-06,
	"loss": 0.4231,
	"step": 213
	},
	{
	"epoch": 0.7732610659439928,
	"grad_norm": 0.07897993177175522,
	"learning_rate": 6.317159259998073e-06,
	"loss": 0.3513,
	"step": 214
	},
	{
	"epoch": 0.7768744354110207,
	"grad_norm": 0.07235241681337357,
	"learning_rate": 6.123717988224237e-06,
	"loss": 0.4069,
	"step": 215
	},
	{
	"epoch": 0.7804878048780488,
	"grad_norm": 0.09085345268249512,
	"learning_rate": 5.932870547240454e-06,
	"loss": 0.3849,
	"step": 216
	},
	{
	"epoch": 0.7841011743450768,
	"grad_norm": 0.07704368233680725,
	"learning_rate": 5.74464316180689e-06,
	"loss": 0.4261,
	"step": 217
	},
	{
	"epoch": 0.7877145438121048,
	"grad_norm": 0.057720448821783066,
	"learning_rate": 5.559061696656198e-06,
	"loss": 0.3711,
	"step": 218
	},
	{
	"epoch": 0.7913279132791328,
	"grad_norm": 0.06448069959878922,
	"learning_rate": 5.37615165293942e-06,
	"loss": 0.4027,
	"step": 219
	},
	{
	"epoch": 0.7949412827461608,
	"grad_norm": 0.08539154380559921,
	"learning_rate": 5.1959381647217666e-06,
	"loss": 0.388,
	"step": 220
	},
	{
	"epoch": 0.7985546522131888,
	"grad_norm": 0.07000590115785599,
	"learning_rate": 5.018445995528931e-06,
	"loss": 0.4122,
	"step": 221
	},
	{
	"epoch": 0.8021680216802168,
	"grad_norm": 0.07643178850412369,
	"learning_rate": 4.843699534944257e-06,
	"loss": 0.3749,
	"step": 222
	},
	{
	"epoch": 0.8057813911472448,
	"grad_norm": 0.06629081815481186,
	"learning_rate": 4.671722795257327e-06,
	"loss": 0.3817,
	"step": 223
	},
	{
	"epoch": 0.8093947606142728,
	"grad_norm": 0.06171542406082153,
	"learning_rate": 4.502539408164386e-06,
	"loss": 0.3474,
	"step": 224
	},
	{
	"epoch": 0.8130081300813008,
	"grad_norm": 0.06734922528266907,
	"learning_rate": 4.336172621521034e-06,
	"loss": 0.3328,
	"step": 225
	},
	{
	"epoch": 0.8166214995483289,
	"grad_norm": 0.09524697810411453,
	"learning_rate": 4.1726452961477146e-06,
	"loss": 0.3433,
	"step": 226
	},
	{
	"epoch": 0.8202348690153568,
	"grad_norm": 0.06357850879430771,
	"learning_rate": 4.01197990268834e-06,
	"loss": 0.3992,
	"step": 227
	},
	{
	"epoch": 0.8238482384823849,
	"grad_norm": 0.07560393214225769,
	"learning_rate": 3.8541985185225645e-06,
	"loss": 0.3575,
	"step": 228
	},
	{
	"epoch": 0.8274616079494128,
	"grad_norm": 0.06906560808420181,
	"learning_rate": 3.6993228247320877e-06,
	"loss": 0.3287,
	"step": 229
	},
	{
	"epoch": 0.8310749774164409,
	"grad_norm": 0.08411566913127899,
	"learning_rate": 3.547374103121398e-06,
	"loss": 0.4115,
	"step": 230
	},
	{
	"epoch": 0.8346883468834688,
	"grad_norm": 0.08515972644090652,
	"learning_rate": 3.398373233293378e-06,
	"loss": 0.3709,
	"step": 231
	},
	{
	"epoch": 0.8383017163504969,
	"grad_norm": 0.06780155003070831,
	"learning_rate": 3.252340689780245e-06,
	"loss": 0.3599,
	"step": 232
	},
	{
	"epoch": 0.8419150858175248,
	"grad_norm": 0.08019706606864929,
	"learning_rate": 3.1092965392300417e-06,
	"loss": 0.3869,
	"step": 233
	},
	{
	"epoch": 0.8455284552845529,
	"grad_norm": 0.0702086016535759,
	"learning_rate": 2.969260437649293e-06,
	"loss": 0.3846,
	"step": 234
	},
	{
	"epoch": 0.8491418247515808,
	"grad_norm": 0.0851154550909996,
	"learning_rate": 2.8322516277019624e-06,
	"loss": 0.3434,
	"step": 235
	},
	{
	"epoch": 0.8527551942186089,
	"grad_norm": 0.06722518056631088,
	"learning_rate": 2.6982889360653377e-06,
	"loss": 0.3349,
	"step": 236
	},
	{
	"epoch": 0.8563685636856369,
	"grad_norm": 0.06803542375564575,
	"learning_rate": 2.5673907708429976e-06,
	"loss": 0.3526,
	"step": 237
	},
	{
	"epoch": 0.8599819331526649,
	"grad_norm": 0.08029063045978546,
	"learning_rate": 2.4395751190352924e-06,
	"loss": 0.4286,
	"step": 238
	},
	{
	"epoch": 0.8635953026196929,
	"grad_norm": 0.08042778819799423,
	"learning_rate": 2.3148595440677405e-06,
	"loss": 0.3739,
	"step": 239
	},
	{
	"epoch": 0.8672086720867209,
	"grad_norm": 0.07175204902887344,
	"learning_rate": 2.1932611833775846e-06,
	"loss": 0.4156,
	"step": 240
	},
	{
	"epoch": 0.8708220415537489,
	"grad_norm": 0.058878783136606216,
	"learning_rate": 2.074796746058896e-06,
	"loss": 0.3636,
	"step": 241
	},
	{
	"epoch": 0.8744354110207768,
	"grad_norm": 0.08569607883691788,
	"learning_rate": 1.9594825105665654e-06,
	"loss": 0.3889,
	"step": 242
	},
	{
	"epoch": 0.8780487804878049,
	"grad_norm": 0.07353324443101883,
	"learning_rate": 1.847334322479413e-06,
	"loss": 0.4352,
	"step": 243
	},
	{
	"epoch": 0.8816621499548328,
	"grad_norm": 0.07135035842657089,
	"learning_rate": 1.738367592322837e-06,
	"loss": 0.4265,
	"step": 244
	},
	{
	"epoch": 0.8852755194218609,
	"grad_norm": 0.06918162852525711,
	"learning_rate": 1.6325972934512018e-06,
	"loss": 0.4295,
	"step": 245
	},
	{
	"epoch": 0.8888888888888888,
	"grad_norm": 0.07300789654254913,
	"learning_rate": 1.5300379599903409e-06,
	"loss": 0.4226,
	"step": 246
	},
	{
	"epoch": 0.8925022583559169,
	"grad_norm": 0.06973148882389069,
	"learning_rate": 1.4307036848403648e-06,
	"loss": 0.3368,
	"step": 247
	},
	{
	"epoch": 0.8961156278229448,
	"grad_norm": 0.07200148701667786,
	"learning_rate": 1.3346081177391472e-06,
	"loss": 0.3924,
	"step": 248
	},
	{
	"epoch": 0.8997289972899729,
	"grad_norm": 0.07833510637283325,
	"learning_rate": 1.2417644633866632e-06,
	"loss": 0.3274,
	"step": 249
	},
	{
	"epoch": 0.9033423667570009,
	"grad_norm": 0.061651114374399185,
	"learning_rate": 1.1521854796305242e-06,
	"loss": 0.3705,
	"step": 250
	},
	{
	"epoch": 0.9069557362240289,
	"grad_norm": 0.07440148293972015,
	"learning_rate": 1.0658834757128838e-06,
	"loss": 0.3715,
	"step": 251
	},
	{
	"epoch": 0.9105691056910569,
	"grad_norm": 0.0720466673374176,
	"learning_rate": 9.828703105789983e-07,
	"loss": 0.3361,
	"step": 252
	},
	{
	"epoch": 0.9141824751580849,
	"grad_norm": 0.08179104328155518,
	"learning_rate": 9.031573912476554e-07,
	"loss": 0.3393,
	"step": 253
	},
	{
	"epoch": 0.9177958446251129,
	"grad_norm": 0.058865226805210114,
	"learning_rate": 8.267556712437341e-07,
	"loss": 0.4249,
	"step": 254
	},
	{
	"epoch": 0.9214092140921409,
	"grad_norm": 0.07929901778697968,
	"learning_rate": 7.536756490930358e-07,
	"loss": 0.4341,
	"step": 255
	},
	{
	"epoch": 0.9250225835591689,
	"grad_norm": 0.07914505153894424,
	"learning_rate": 6.839273668796747e-07,
	"loss": 0.3942,
	"step": 256
	},
	{
	"epoch": 0.928635953026197,
	"grad_norm": 0.08146975934505463,
	"learning_rate": 6.175204088661485e-07,
	"loss": 0.3562,
	"step": 257
	},
	{
	"epoch": 0.9322493224932249,
	"grad_norm": 0.08726157248020172,
	"learning_rate": 5.544639001763718e-07,
	"loss": 0.4314,
	"step": 258
	},
	{
	"epoch": 0.935862691960253,
	"grad_norm": 0.09031800180673599,
	"learning_rate": 4.947665055417605e-07,
	"loss": 0.3842,
	"step": 259
	},
	{
	"epoch": 0.9394760614272809,
	"grad_norm": 0.0922897681593895,
	"learning_rate": 4.3843642811059737e-07,
	"loss": 0.3285,
	"step": 260
	},
	{
	"epoch": 0.943089430894309,
	"grad_norm": 0.07188927382230759,
	"learning_rate": 3.854814083208064e-07,
	"loss": 0.3839,
	"step": 261
	},
	{
	"epoch": 0.9467028003613369,
	"grad_norm": 0.08181816339492798,
	"learning_rate": 3.3590872283633944e-07,
	"loss": 0.3651,
	"step": 262
	},
	{
	"epoch": 0.950316169828365,
	"grad_norm": 0.0699373111128807,
	"learning_rate": 2.8972518354725977e-07,
	"loss": 0.457,
	"step": 263
	},
	{
	"epoch": 0.9539295392953929,
	"grad_norm": 0.08292391151189804,
	"learning_rate": 2.4693713663372644e-07,
	"loss": 0.4105,
	"step": 264
	},
	{
	"epoch": 0.957542908762421,
	"grad_norm": 0.07387669384479523,
	"learning_rate": 2.0755046169392e-07,
	"loss": 0.3846,
	"step": 265
	},
	{
	"epoch": 0.9611562782294489,
	"grad_norm": 0.08278100937604904,
	"learning_rate": 1.7157057093614703e-07,
	"loss": 0.4334,
	"step": 266
	},
	{
	"epoch": 0.964769647696477,
	"grad_norm": 0.06216645613312721,
	"learning_rate": 1.3900240843510993e-07,
	"loss": 0.4007,
	"step": 267
	},
	{
	"epoch": 0.9683830171635049,
	"grad_norm": 0.07292906939983368,
	"learning_rate": 1.0985044945254764e-07,
	"loss": 0.4152,
	"step": 268
	},
	{
	"epoch": 0.971996386630533,
	"grad_norm": 0.07897216826677322,
	"learning_rate": 8.411869982228038e-08,
	"loss": 0.3954,
	"step": 269
	},
	{
	"epoch": 0.975609756097561,
	"grad_norm": 0.0776594951748848,
	"learning_rate": 6.181069539974716e-08,
	"loss": 0.3449,
	"step": 270
	},
	{
	"epoch": 0.979223125564589,
	"grad_norm": 0.07104814052581787,
	"learning_rate": 4.292950157614717e-08,
	"loss": 0.3476,
	"step": 271
	},
	{
	"epoch": 0.982836495031617,
	"grad_norm": 0.07420724630355835,
	"learning_rate": 2.7477712857215677e-08,
	"loss": 0.4095,
	"step": 272
	},
	{
	"epoch": 0.986449864498645,
	"grad_norm": 0.06806948781013489,
	"learning_rate": 1.5457452506698056e-08,
	"loss": 0.3879,
	"step": 273
	},
	{
	"epoch": 0.990063233965673,
	"grad_norm": 0.08909036219120026,
	"learning_rate": 6.870372254602631e-09,
	"loss": 0.3327,
	"step": 274
	},
	{
	"epoch": 0.993676603432701,
	"grad_norm": 0.07509468495845795,
	"learning_rate": 1.7176520702238964e-09,
	"loss": 0.4033,
	"step": 275
	},
	{
	"epoch": 0.997289972899729,
	"grad_norm": 0.06269805878400803,
	"learning_rate": 0.0,
	"loss": 0.4076,
	"step": 276
	},
	{
	"epoch": 0.997289972899729,
	"eval_loss": 0.35787180066108704,
	"eval_runtime": 515.6409,
	"eval_samples_per_second": 1.422,
	"eval_steps_per_second": 0.357,
	"step": 276
	}
	],
	"logging_steps": 1,
	"max_steps": 276,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 1.247726843172225e+18,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}