qwen2.5-3b-instruct-R64-RIVERUSDT / trainer_state.json

Upload trainer_state.json with huggingface_hub

7ed00a5 verified 21 days ago

62.3 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.0863531225905936,
	"eval_steps": 64,
	"global_step": 352,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.003108003108003108,
	"grad_norm": 10.027831077575684,
	"learning_rate": 0.0,
	"loss": 0.6767,
	"step": 1
	},
	{
	"epoch": 0.006216006216006216,
	"grad_norm": 9.679778099060059,
	"learning_rate": 5.000000000000001e-07,
	"loss": 0.6644,
	"step": 2
	},
	{
	"epoch": 0.009324009324009324,
	"grad_norm": 10.520271301269531,
	"learning_rate": 1.0000000000000002e-06,
	"loss": 0.6934,
	"step": 3
	},
	{
	"epoch": 0.012432012432012432,
	"grad_norm": 8.677583694458008,
	"learning_rate": 1.5e-06,
	"loss": 0.6617,
	"step": 4
	},
	{
	"epoch": 0.01554001554001554,
	"grad_norm": 6.502548694610596,
	"learning_rate": 2.0000000000000003e-06,
	"loss": 0.6509,
	"step": 5
	},
	{
	"epoch": 0.018648018648018648,
	"grad_norm": 4.257171154022217,
	"learning_rate": 2.5e-06,
	"loss": 0.639,
	"step": 6
	},
	{
	"epoch": 0.021756021756021756,
	"grad_norm": 3.460066556930542,
	"learning_rate": 3e-06,
	"loss": 0.6286,
	"step": 7
	},
	{
	"epoch": 0.024864024864024864,
	"grad_norm": 3.0126283168792725,
	"learning_rate": 3.5e-06,
	"loss": 0.5948,
	"step": 8
	},
	{
	"epoch": 0.027972027972027972,
	"grad_norm": 2.567995309829712,
	"learning_rate": 4.000000000000001e-06,
	"loss": 0.5744,
	"step": 9
	},
	{
	"epoch": 0.03108003108003108,
	"grad_norm": 2.516597032546997,
	"learning_rate": 4.5e-06,
	"loss": 0.5496,
	"step": 10
	},
	{
	"epoch": 0.03418803418803419,
	"grad_norm": 1.8187586069107056,
	"learning_rate": 5e-06,
	"loss": 0.5397,
	"step": 11
	},
	{
	"epoch": 0.037296037296037296,
	"grad_norm": 1.7935529947280884,
	"learning_rate": 5.500000000000001e-06,
	"loss": 0.5229,
	"step": 12
	},
	{
	"epoch": 0.04040404040404041,
	"grad_norm": 1.8665963411331177,
	"learning_rate": 6e-06,
	"loss": 0.5227,
	"step": 13
	},
	{
	"epoch": 0.04351204351204351,
	"grad_norm": 2.0106680393218994,
	"learning_rate": 6.5000000000000004e-06,
	"loss": 0.4882,
	"step": 14
	},
	{
	"epoch": 0.046620046620046623,
	"grad_norm": 3.305211305618286,
	"learning_rate": 7e-06,
	"loss": 0.4772,
	"step": 15
	},
	{
	"epoch": 0.04972804972804973,
	"grad_norm": 3.047219753265381,
	"learning_rate": 7.500000000000001e-06,
	"loss": 0.452,
	"step": 16
	},
	{
	"epoch": 0.05283605283605284,
	"grad_norm": 2.5453591346740723,
	"learning_rate": 8.000000000000001e-06,
	"loss": 0.4138,
	"step": 17
	},
	{
	"epoch": 0.055944055944055944,
	"grad_norm": 5.414841175079346,
	"learning_rate": 8.5e-06,
	"loss": 0.4238,
	"step": 18
	},
	{
	"epoch": 0.059052059052059055,
	"grad_norm": 2.979440927505493,
	"learning_rate": 9e-06,
	"loss": 0.3987,
	"step": 19
	},
	{
	"epoch": 0.06216006216006216,
	"grad_norm": 1.981175422668457,
	"learning_rate": 9.5e-06,
	"loss": 0.3874,
	"step": 20
	},
	{
	"epoch": 0.06526806526806526,
	"grad_norm": 1.7793089151382446,
	"learning_rate": 1e-05,
	"loss": 0.3631,
	"step": 21
	},
	{
	"epoch": 0.06837606837606838,
	"grad_norm": 1.1854480504989624,
	"learning_rate": 9.989429175475688e-06,
	"loss": 0.3765,
	"step": 22
	},
	{
	"epoch": 0.07148407148407149,
	"grad_norm": 0.8928348422050476,
	"learning_rate": 9.978858350951375e-06,
	"loss": 0.3481,
	"step": 23
	},
	{
	"epoch": 0.07459207459207459,
	"grad_norm": 1.7531942129135132,
	"learning_rate": 9.968287526427062e-06,
	"loss": 0.3693,
	"step": 24
	},
	{
	"epoch": 0.0777000777000777,
	"grad_norm": 1.0829464197158813,
	"learning_rate": 9.957716701902749e-06,
	"loss": 0.3644,
	"step": 25
	},
	{
	"epoch": 0.08080808080808081,
	"grad_norm": 0.98089200258255,
	"learning_rate": 9.947145877378436e-06,
	"loss": 0.3616,
	"step": 26
	},
	{
	"epoch": 0.08391608391608392,
	"grad_norm": 0.795221745967865,
	"learning_rate": 9.936575052854123e-06,
	"loss": 0.3679,
	"step": 27
	},
	{
	"epoch": 0.08702408702408702,
	"grad_norm": 1.091843605041504,
	"learning_rate": 9.92600422832981e-06,
	"loss": 0.3439,
	"step": 28
	},
	{
	"epoch": 0.09013209013209013,
	"grad_norm": 0.8538377285003662,
	"learning_rate": 9.915433403805497e-06,
	"loss": 0.3401,
	"step": 29
	},
	{
	"epoch": 0.09324009324009325,
	"grad_norm": 0.9114591479301453,
	"learning_rate": 9.904862579281184e-06,
	"loss": 0.3515,
	"step": 30
	},
	{
	"epoch": 0.09634809634809635,
	"grad_norm": 0.9083001017570496,
	"learning_rate": 9.894291754756871e-06,
	"loss": 0.3449,
	"step": 31
	},
	{
	"epoch": 0.09945609945609946,
	"grad_norm": 0.9144365787506104,
	"learning_rate": 9.883720930232558e-06,
	"loss": 0.3393,
	"step": 32
	},
	{
	"epoch": 0.10256410256410256,
	"grad_norm": 1.0221809148788452,
	"learning_rate": 9.873150105708245e-06,
	"loss": 0.353,
	"step": 33
	},
	{
	"epoch": 0.10567210567210568,
	"grad_norm": 1.0219439268112183,
	"learning_rate": 9.862579281183932e-06,
	"loss": 0.3439,
	"step": 34
	},
	{
	"epoch": 0.10878010878010878,
	"grad_norm": 1.5430618524551392,
	"learning_rate": 9.852008456659621e-06,
	"loss": 0.3338,
	"step": 35
	},
	{
	"epoch": 0.11188811188811189,
	"grad_norm": 1.4754544496536255,
	"learning_rate": 9.841437632135308e-06,
	"loss": 0.3363,
	"step": 36
	},
	{
	"epoch": 0.11499611499611499,
	"grad_norm": 1.1298989057540894,
	"learning_rate": 9.830866807610995e-06,
	"loss": 0.3423,
	"step": 37
	},
	{
	"epoch": 0.11810411810411811,
	"grad_norm": 1.0130062103271484,
	"learning_rate": 9.820295983086682e-06,
	"loss": 0.3298,
	"step": 38
	},
	{
	"epoch": 0.12121212121212122,
	"grad_norm": 1.8003513813018799,
	"learning_rate": 9.80972515856237e-06,
	"loss": 0.3272,
	"step": 39
	},
	{
	"epoch": 0.12432012432012432,
	"grad_norm": 0.9532265067100525,
	"learning_rate": 9.799154334038056e-06,
	"loss": 0.3282,
	"step": 40
	},
	{
	"epoch": 0.12742812742812742,
	"grad_norm": 1.5232913494110107,
	"learning_rate": 9.788583509513743e-06,
	"loss": 0.3469,
	"step": 41
	},
	{
	"epoch": 0.13053613053613053,
	"grad_norm": 0.8918169736862183,
	"learning_rate": 9.77801268498943e-06,
	"loss": 0.326,
	"step": 42
	},
	{
	"epoch": 0.13364413364413363,
	"grad_norm": 0.8845950365066528,
	"learning_rate": 9.767441860465117e-06,
	"loss": 0.3313,
	"step": 43
	},
	{
	"epoch": 0.13675213675213677,
	"grad_norm": 0.8410794138908386,
	"learning_rate": 9.756871035940804e-06,
	"loss": 0.3318,
	"step": 44
	},
	{
	"epoch": 0.13986013986013987,
	"grad_norm": 0.7157808542251587,
	"learning_rate": 9.746300211416491e-06,
	"loss": 0.3381,
	"step": 45
	},
	{
	"epoch": 0.14296814296814297,
	"grad_norm": 1.1680670976638794,
	"learning_rate": 9.735729386892178e-06,
	"loss": 0.3281,
	"step": 46
	},
	{
	"epoch": 0.14607614607614608,
	"grad_norm": 0.9500836133956909,
	"learning_rate": 9.725158562367865e-06,
	"loss": 0.336,
	"step": 47
	},
	{
	"epoch": 0.14918414918414918,
	"grad_norm": 0.8565309643745422,
	"learning_rate": 9.714587737843552e-06,
	"loss": 0.3207,
	"step": 48
	},
	{
	"epoch": 0.1522921522921523,
	"grad_norm": 1.1311777830123901,
	"learning_rate": 9.70401691331924e-06,
	"loss": 0.3339,
	"step": 49
	},
	{
	"epoch": 0.1554001554001554,
	"grad_norm": 1.0368160009384155,
	"learning_rate": 9.693446088794927e-06,
	"loss": 0.3262,
	"step": 50
	},
	{
	"epoch": 0.1585081585081585,
	"grad_norm": 0.9648517370223999,
	"learning_rate": 9.682875264270614e-06,
	"loss": 0.3376,
	"step": 51
	},
	{
	"epoch": 0.16161616161616163,
	"grad_norm": 1.1039059162139893,
	"learning_rate": 9.6723044397463e-06,
	"loss": 0.3352,
	"step": 52
	},
	{
	"epoch": 0.16472416472416473,
	"grad_norm": 1.0544918775558472,
	"learning_rate": 9.661733615221988e-06,
	"loss": 0.3237,
	"step": 53
	},
	{
	"epoch": 0.16783216783216784,
	"grad_norm": 1.533158302307129,
	"learning_rate": 9.651162790697676e-06,
	"loss": 0.3287,
	"step": 54
	},
	{
	"epoch": 0.17094017094017094,
	"grad_norm": 1.2342826128005981,
	"learning_rate": 9.640591966173363e-06,
	"loss": 0.3162,
	"step": 55
	},
	{
	"epoch": 0.17404817404817405,
	"grad_norm": 1.0702942609786987,
	"learning_rate": 9.63002114164905e-06,
	"loss": 0.3143,
	"step": 56
	},
	{
	"epoch": 0.17715617715617715,
	"grad_norm": 1.02211594581604,
	"learning_rate": 9.619450317124736e-06,
	"loss": 0.3318,
	"step": 57
	},
	{
	"epoch": 0.18026418026418026,
	"grad_norm": 0.8379388451576233,
	"learning_rate": 9.608879492600423e-06,
	"loss": 0.3239,
	"step": 58
	},
	{
	"epoch": 0.18337218337218336,
	"grad_norm": 0.9620960354804993,
	"learning_rate": 9.59830866807611e-06,
	"loss": 0.3246,
	"step": 59
	},
	{
	"epoch": 0.1864801864801865,
	"grad_norm": 0.9239097833633423,
	"learning_rate": 9.587737843551797e-06,
	"loss": 0.3278,
	"step": 60
	},
	{
	"epoch": 0.1895881895881896,
	"grad_norm": 0.7097995281219482,
	"learning_rate": 9.577167019027484e-06,
	"loss": 0.3152,
	"step": 61
	},
	{
	"epoch": 0.1926961926961927,
	"grad_norm": 0.9077997803688049,
	"learning_rate": 9.566596194503171e-06,
	"loss": 0.3219,
	"step": 62
	},
	{
	"epoch": 0.1958041958041958,
	"grad_norm": 0.8704112768173218,
	"learning_rate": 9.55602536997886e-06,
	"loss": 0.3262,
	"step": 63
	},
	{
	"epoch": 0.1989121989121989,
	"grad_norm": 0.9264605641365051,
	"learning_rate": 9.545454545454547e-06,
	"loss": 0.3176,
	"step": 64
	},
	{
	"epoch": 0.1989121989121989,
	"eval_loss": 0.3377174139022827,
	"eval_runtime": 149.1316,
	"eval_samples_per_second": 1.911,
	"eval_steps_per_second": 0.959,
	"step": 64
	},
	{
	"epoch": 0.20202020202020202,
	"grad_norm": 0.9881049394607544,
	"learning_rate": 9.534883720930234e-06,
	"loss": 0.3312,
	"step": 65
	},
	{
	"epoch": 0.20512820512820512,
	"grad_norm": 1.1825007200241089,
	"learning_rate": 9.524312896405921e-06,
	"loss": 0.3189,
	"step": 66
	},
	{
	"epoch": 0.20823620823620823,
	"grad_norm": 0.8272495865821838,
	"learning_rate": 9.513742071881608e-06,
	"loss": 0.3293,
	"step": 67
	},
	{
	"epoch": 0.21134421134421136,
	"grad_norm": 1.0992769002914429,
	"learning_rate": 9.503171247357295e-06,
	"loss": 0.3119,
	"step": 68
	},
	{
	"epoch": 0.21445221445221446,
	"grad_norm": 0.9182390570640564,
	"learning_rate": 9.492600422832982e-06,
	"loss": 0.331,
	"step": 69
	},
	{
	"epoch": 0.21756021756021757,
	"grad_norm": 0.8677308559417725,
	"learning_rate": 9.482029598308669e-06,
	"loss": 0.3168,
	"step": 70
	},
	{
	"epoch": 0.22066822066822067,
	"grad_norm": 1.2915256023406982,
	"learning_rate": 9.471458773784356e-06,
	"loss": 0.3181,
	"step": 71
	},
	{
	"epoch": 0.22377622377622378,
	"grad_norm": 1.6176910400390625,
	"learning_rate": 9.460887949260043e-06,
	"loss": 0.3254,
	"step": 72
	},
	{
	"epoch": 0.22688422688422688,
	"grad_norm": 0.6357202529907227,
	"learning_rate": 9.45031712473573e-06,
	"loss": 0.3298,
	"step": 73
	},
	{
	"epoch": 0.22999222999222999,
	"grad_norm": 0.911662220954895,
	"learning_rate": 9.439746300211417e-06,
	"loss": 0.3248,
	"step": 74
	},
	{
	"epoch": 0.2331002331002331,
	"grad_norm": 0.7426556944847107,
	"learning_rate": 9.429175475687104e-06,
	"loss": 0.3301,
	"step": 75
	},
	{
	"epoch": 0.23620823620823622,
	"grad_norm": 0.7509779930114746,
	"learning_rate": 9.418604651162791e-06,
	"loss": 0.3209,
	"step": 76
	},
	{
	"epoch": 0.23931623931623933,
	"grad_norm": 0.7699870467185974,
	"learning_rate": 9.408033826638478e-06,
	"loss": 0.3171,
	"step": 77
	},
	{
	"epoch": 0.24242424242424243,
	"grad_norm": 0.7583193182945251,
	"learning_rate": 9.397463002114165e-06,
	"loss": 0.3128,
	"step": 78
	},
	{
	"epoch": 0.24553224553224554,
	"grad_norm": 0.968973696231842,
	"learning_rate": 9.386892177589852e-06,
	"loss": 0.3293,
	"step": 79
	},
	{
	"epoch": 0.24864024864024864,
	"grad_norm": 0.9967902302742004,
	"learning_rate": 9.37632135306554e-06,
	"loss": 0.3209,
	"step": 80
	},
	{
	"epoch": 0.2517482517482518,
	"grad_norm": 0.7837809920310974,
	"learning_rate": 9.365750528541226e-06,
	"loss": 0.3152,
	"step": 81
	},
	{
	"epoch": 0.25485625485625485,
	"grad_norm": 1.6905367374420166,
	"learning_rate": 9.355179704016915e-06,
	"loss": 0.3163,
	"step": 82
	},
	{
	"epoch": 0.257964257964258,
	"grad_norm": 0.8734452128410339,
	"learning_rate": 9.344608879492602e-06,
	"loss": 0.3306,
	"step": 83
	},
	{
	"epoch": 0.26107226107226106,
	"grad_norm": 3.6059653759002686,
	"learning_rate": 9.33403805496829e-06,
	"loss": 0.3104,
	"step": 84
	},
	{
	"epoch": 0.2641802641802642,
	"grad_norm": 1.1703656911849976,
	"learning_rate": 9.323467230443976e-06,
	"loss": 0.3071,
	"step": 85
	},
	{
	"epoch": 0.26728826728826727,
	"grad_norm": 0.8762909770011902,
	"learning_rate": 9.312896405919663e-06,
	"loss": 0.3022,
	"step": 86
	},
	{
	"epoch": 0.2703962703962704,
	"grad_norm": 2.158876419067383,
	"learning_rate": 9.30232558139535e-06,
	"loss": 0.3217,
	"step": 87
	},
	{
	"epoch": 0.27350427350427353,
	"grad_norm": 0.8010348081588745,
	"learning_rate": 9.291754756871036e-06,
	"loss": 0.322,
	"step": 88
	},
	{
	"epoch": 0.2766122766122766,
	"grad_norm": 1.119739055633545,
	"learning_rate": 9.281183932346723e-06,
	"loss": 0.3248,
	"step": 89
	},
	{
	"epoch": 0.27972027972027974,
	"grad_norm": 0.7900079488754272,
	"learning_rate": 9.27061310782241e-06,
	"loss": 0.3102,
	"step": 90
	},
	{
	"epoch": 0.2828282828282828,
	"grad_norm": 0.8093041181564331,
	"learning_rate": 9.260042283298098e-06,
	"loss": 0.3259,
	"step": 91
	},
	{
	"epoch": 0.28593628593628595,
	"grad_norm": 0.7240622043609619,
	"learning_rate": 9.249471458773785e-06,
	"loss": 0.3002,
	"step": 92
	},
	{
	"epoch": 0.289044289044289,
	"grad_norm": 0.9449782371520996,
	"learning_rate": 9.238900634249473e-06,
	"loss": 0.3076,
	"step": 93
	},
	{
	"epoch": 0.29215229215229216,
	"grad_norm": 0.9448596835136414,
	"learning_rate": 9.22832980972516e-06,
	"loss": 0.3012,
	"step": 94
	},
	{
	"epoch": 0.29526029526029524,
	"grad_norm": 0.9209067821502686,
	"learning_rate": 9.217758985200847e-06,
	"loss": 0.3131,
	"step": 95
	},
	{
	"epoch": 0.29836829836829837,
	"grad_norm": 0.878709614276886,
	"learning_rate": 9.207188160676534e-06,
	"loss": 0.3157,
	"step": 96
	},
	{
	"epoch": 0.3014763014763015,
	"grad_norm": 1.1178463697433472,
	"learning_rate": 9.19661733615222e-06,
	"loss": 0.3166,
	"step": 97
	},
	{
	"epoch": 0.3045843045843046,
	"grad_norm": 0.9717866778373718,
	"learning_rate": 9.186046511627908e-06,
	"loss": 0.3144,
	"step": 98
	},
	{
	"epoch": 0.3076923076923077,
	"grad_norm": 0.9905857443809509,
	"learning_rate": 9.175475687103595e-06,
	"loss": 0.3263,
	"step": 99
	},
	{
	"epoch": 0.3108003108003108,
	"grad_norm": 1.0447399616241455,
	"learning_rate": 9.164904862579282e-06,
	"loss": 0.3074,
	"step": 100
	},
	{
	"epoch": 0.3139083139083139,
	"grad_norm": 0.9876366853713989,
	"learning_rate": 9.154334038054969e-06,
	"loss": 0.3221,
	"step": 101
	},
	{
	"epoch": 0.317016317016317,
	"grad_norm": 1.3406106233596802,
	"learning_rate": 9.143763213530656e-06,
	"loss": 0.3209,
	"step": 102
	},
	{
	"epoch": 0.3201243201243201,
	"grad_norm": 1.1402978897094727,
	"learning_rate": 9.133192389006343e-06,
	"loss": 0.3181,
	"step": 103
	},
	{
	"epoch": 0.32323232323232326,
	"grad_norm": 1.0274314880371094,
	"learning_rate": 9.12262156448203e-06,
	"loss": 0.3179,
	"step": 104
	},
	{
	"epoch": 0.32634032634032634,
	"grad_norm": 1.0853135585784912,
	"learning_rate": 9.112050739957717e-06,
	"loss": 0.3068,
	"step": 105
	},
	{
	"epoch": 0.32944832944832947,
	"grad_norm": 0.9549627900123596,
	"learning_rate": 9.101479915433404e-06,
	"loss": 0.3058,
	"step": 106
	},
	{
	"epoch": 0.33255633255633255,
	"grad_norm": 0.9081363081932068,
	"learning_rate": 9.090909090909091e-06,
	"loss": 0.305,
	"step": 107
	},
	{
	"epoch": 0.3356643356643357,
	"grad_norm": 1.083267092704773,
	"learning_rate": 9.080338266384778e-06,
	"loss": 0.3293,
	"step": 108
	},
	{
	"epoch": 0.33877233877233875,
	"grad_norm": 0.9146764278411865,
	"learning_rate": 9.069767441860465e-06,
	"loss": 0.3308,
	"step": 109
	},
	{
	"epoch": 0.3418803418803419,
	"grad_norm": 0.8309290409088135,
	"learning_rate": 9.059196617336154e-06,
	"loss": 0.3219,
	"step": 110
	},
	{
	"epoch": 0.34498834498834496,
	"grad_norm": 0.7540556788444519,
	"learning_rate": 9.048625792811841e-06,
	"loss": 0.3165,
	"step": 111
	},
	{
	"epoch": 0.3480963480963481,
	"grad_norm": 0.7756165862083435,
	"learning_rate": 9.038054968287528e-06,
	"loss": 0.3201,
	"step": 112
	},
	{
	"epoch": 0.35120435120435123,
	"grad_norm": 1.016161561012268,
	"learning_rate": 9.027484143763215e-06,
	"loss": 0.318,
	"step": 113
	},
	{
	"epoch": 0.3543123543123543,
	"grad_norm": 1.1762275695800781,
	"learning_rate": 9.016913319238902e-06,
	"loss": 0.3071,
	"step": 114
	},
	{
	"epoch": 0.35742035742035744,
	"grad_norm": 1.0186941623687744,
	"learning_rate": 9.006342494714589e-06,
	"loss": 0.3094,
	"step": 115
	},
	{
	"epoch": 0.3605283605283605,
	"grad_norm": 1.3835426568984985,
	"learning_rate": 8.995771670190276e-06,
	"loss": 0.3203,
	"step": 116
	},
	{
	"epoch": 0.36363636363636365,
	"grad_norm": 0.9151639938354492,
	"learning_rate": 8.985200845665963e-06,
	"loss": 0.3075,
	"step": 117
	},
	{
	"epoch": 0.3667443667443667,
	"grad_norm": 0.9079708456993103,
	"learning_rate": 8.974630021141648e-06,
	"loss": 0.3111,
	"step": 118
	},
	{
	"epoch": 0.36985236985236986,
	"grad_norm": 0.7135366201400757,
	"learning_rate": 8.964059196617337e-06,
	"loss": 0.3131,
	"step": 119
	},
	{
	"epoch": 0.372960372960373,
	"grad_norm": 0.7310993671417236,
	"learning_rate": 8.953488372093024e-06,
	"loss": 0.3181,
	"step": 120
	},
	{
	"epoch": 0.37606837606837606,
	"grad_norm": 0.9562262296676636,
	"learning_rate": 8.942917547568711e-06,
	"loss": 0.3114,
	"step": 121
	},
	{
	"epoch": 0.3791763791763792,
	"grad_norm": 1.088692545890808,
	"learning_rate": 8.932346723044398e-06,
	"loss": 0.2985,
	"step": 122
	},
	{
	"epoch": 0.3822843822843823,
	"grad_norm": 1.3334287405014038,
	"learning_rate": 8.921775898520085e-06,
	"loss": 0.3198,
	"step": 123
	},
	{
	"epoch": 0.3853923853923854,
	"grad_norm": 1.1457082033157349,
	"learning_rate": 8.911205073995772e-06,
	"loss": 0.3027,
	"step": 124
	},
	{
	"epoch": 0.3885003885003885,
	"grad_norm": 1.0944201946258545,
	"learning_rate": 8.90063424947146e-06,
	"loss": 0.3195,
	"step": 125
	},
	{
	"epoch": 0.3916083916083916,
	"grad_norm": 1.679890513420105,
	"learning_rate": 8.890063424947146e-06,
	"loss": 0.3118,
	"step": 126
	},
	{
	"epoch": 0.3947163947163947,
	"grad_norm": 1.0934737920761108,
	"learning_rate": 8.879492600422833e-06,
	"loss": 0.3125,
	"step": 127
	},
	{
	"epoch": 0.3978243978243978,
	"grad_norm": 0.9423776865005493,
	"learning_rate": 8.86892177589852e-06,
	"loss": 0.3069,
	"step": 128
	},
	{
	"epoch": 0.3978243978243978,
	"eval_loss": 0.33542340993881226,
	"eval_runtime": 147.0915,
	"eval_samples_per_second": 1.938,
	"eval_steps_per_second": 0.972,
	"step": 128
	},
	{
	"epoch": 0.40093240093240096,
	"grad_norm": 1.373064637184143,
	"learning_rate": 8.858350951374208e-06,
	"loss": 0.3113,
	"step": 129
	},
	{
	"epoch": 0.40404040404040403,
	"grad_norm": 0.9782734513282776,
	"learning_rate": 8.847780126849895e-06,
	"loss": 0.3176,
	"step": 130
	},
	{
	"epoch": 0.40714840714840717,
	"grad_norm": 1.1988129615783691,
	"learning_rate": 8.837209302325582e-06,
	"loss": 0.3036,
	"step": 131
	},
	{
	"epoch": 0.41025641025641024,
	"grad_norm": 1.3978164196014404,
	"learning_rate": 8.826638477801269e-06,
	"loss": 0.3067,
	"step": 132
	},
	{
	"epoch": 0.4133644133644134,
	"grad_norm": 0.8266012072563171,
	"learning_rate": 8.816067653276956e-06,
	"loss": 0.3105,
	"step": 133
	},
	{
	"epoch": 0.41647241647241645,
	"grad_norm": 1.0358003377914429,
	"learning_rate": 8.805496828752643e-06,
	"loss": 0.3176,
	"step": 134
	},
	{
	"epoch": 0.4195804195804196,
	"grad_norm": 0.9363102316856384,
	"learning_rate": 8.79492600422833e-06,
	"loss": 0.3151,
	"step": 135
	},
	{
	"epoch": 0.4226884226884227,
	"grad_norm": 0.9805242419242859,
	"learning_rate": 8.784355179704017e-06,
	"loss": 0.3164,
	"step": 136
	},
	{
	"epoch": 0.4257964257964258,
	"grad_norm": 1.4923985004425049,
	"learning_rate": 8.773784355179706e-06,
	"loss": 0.3059,
	"step": 137
	},
	{
	"epoch": 0.4289044289044289,
	"grad_norm": 1.7009886503219604,
	"learning_rate": 8.763213530655393e-06,
	"loss": 0.2937,
	"step": 138
	},
	{
	"epoch": 0.432012432012432,
	"grad_norm": 0.8320425748825073,
	"learning_rate": 8.75264270613108e-06,
	"loss": 0.288,
	"step": 139
	},
	{
	"epoch": 0.43512043512043513,
	"grad_norm": 1.3431979417800903,
	"learning_rate": 8.742071881606767e-06,
	"loss": 0.3063,
	"step": 140
	},
	{
	"epoch": 0.4382284382284382,
	"grad_norm": 1.0519447326660156,
	"learning_rate": 8.731501057082454e-06,
	"loss": 0.3043,
	"step": 141
	},
	{
	"epoch": 0.44133644133644134,
	"grad_norm": 1.0041645765304565,
	"learning_rate": 8.72093023255814e-06,
	"loss": 0.3207,
	"step": 142
	},
	{
	"epoch": 0.4444444444444444,
	"grad_norm": 1.176352620124817,
	"learning_rate": 8.710359408033828e-06,
	"loss": 0.3099,
	"step": 143
	},
	{
	"epoch": 0.44755244755244755,
	"grad_norm": 0.8591434955596924,
	"learning_rate": 8.699788583509515e-06,
	"loss": 0.2913,
	"step": 144
	},
	{
	"epoch": 0.4471858134155744,
	"grad_norm": 1.2351419925689697,
	"learning_rate": 8.689217758985202e-06,
	"loss": 0.3099,
	"step": 145
	},
	{
	"epoch": 0.4502698535080956,
	"grad_norm": 1.8375589847564697,
	"learning_rate": 8.691099476439791e-06,
	"loss": 0.3092,
	"step": 146
	},
	{
	"epoch": 0.4533538936006168,
	"grad_norm": 1.07125985622406,
	"learning_rate": 8.680628272251308e-06,
	"loss": 0.3016,
	"step": 147
	},
	{
	"epoch": 0.456437933693138,
	"grad_norm": 1.1839478015899658,
	"learning_rate": 8.670157068062827e-06,
	"loss": 0.3003,
	"step": 148
	},
	{
	"epoch": 0.45952197378565923,
	"grad_norm": 1.294833779335022,
	"learning_rate": 8.659685863874346e-06,
	"loss": 0.2972,
	"step": 149
	},
	{
	"epoch": 0.4626060138781804,
	"grad_norm": 1.0540661811828613,
	"learning_rate": 8.649214659685865e-06,
	"loss": 0.2837,
	"step": 150
	},
	{
	"epoch": 0.4656900539707016,
	"grad_norm": 1.1067568063735962,
	"learning_rate": 8.638743455497383e-06,
	"loss": 0.2966,
	"step": 151
	},
	{
	"epoch": 0.46877409406322285,
	"grad_norm": 0.9972389340400696,
	"learning_rate": 8.6282722513089e-06,
	"loss": 0.2934,
	"step": 152
	},
	{
	"epoch": 0.471858134155744,
	"grad_norm": 1.1589370965957642,
	"learning_rate": 8.61780104712042e-06,
	"loss": 0.3026,
	"step": 153
	},
	{
	"epoch": 0.47494217424826524,
	"grad_norm": 1.1224210262298584,
	"learning_rate": 8.607329842931938e-06,
	"loss": 0.3042,
	"step": 154
	},
	{
	"epoch": 0.4780262143407864,
	"grad_norm": 1.3200238943099976,
	"learning_rate": 8.596858638743457e-06,
	"loss": 0.3124,
	"step": 155
	},
	{
	"epoch": 0.4811102544333076,
	"grad_norm": 1.1300067901611328,
	"learning_rate": 8.586387434554974e-06,
	"loss": 0.3167,
	"step": 156
	},
	{
	"epoch": 0.48419429452582885,
	"grad_norm": 0.9678866863250732,
	"learning_rate": 8.575916230366493e-06,
	"loss": 0.3039,
	"step": 157
	},
	{
	"epoch": 0.48727833461835,
	"grad_norm": 0.9656190872192383,
	"learning_rate": 8.565445026178011e-06,
	"loss": 0.3067,
	"step": 158
	},
	{
	"epoch": 0.49036237471087124,
	"grad_norm": 0.9618685245513916,
	"learning_rate": 8.55497382198953e-06,
	"loss": 0.2992,
	"step": 159
	},
	{
	"epoch": 0.49344641480339246,
	"grad_norm": 1.1055867671966553,
	"learning_rate": 8.544502617801049e-06,
	"loss": 0.2986,
	"step": 160
	},
	{
	"epoch": 0.49653045489591363,
	"grad_norm": 0.8761485815048218,
	"learning_rate": 8.534031413612566e-06,
	"loss": 0.3071,
	"step": 161
	},
	{
	"epoch": 0.49961449498843485,
	"grad_norm": 1.0709651708602905,
	"learning_rate": 8.523560209424085e-06,
	"loss": 0.2965,
	"step": 162
	},
	{
	"epoch": 0.5026985350809561,
	"grad_norm": 1.2407382726669312,
	"learning_rate": 8.513089005235604e-06,
	"loss": 0.3134,
	"step": 163
	},
	{
	"epoch": 0.5057825751734772,
	"grad_norm": 1.46315598487854,
	"learning_rate": 8.502617801047122e-06,
	"loss": 0.2886,
	"step": 164
	},
	{
	"epoch": 0.5088666152659984,
	"grad_norm": 1.2314726114273071,
	"learning_rate": 8.49214659685864e-06,
	"loss": 0.2902,
	"step": 165
	},
	{
	"epoch": 0.5119506553585197,
	"grad_norm": 1.223716378211975,
	"learning_rate": 8.481675392670158e-06,
	"loss": 0.3088,
	"step": 166
	},
	{
	"epoch": 0.5150346954510409,
	"grad_norm": 1.1966098546981812,
	"learning_rate": 8.471204188481677e-06,
	"loss": 0.3139,
	"step": 167
	},
	{
	"epoch": 0.518118735543562,
	"grad_norm": 1.1182276010513306,
	"learning_rate": 8.460732984293194e-06,
	"loss": 0.3161,
	"step": 168
	},
	{
	"epoch": 0.5212027756360833,
	"grad_norm": 1.1583510637283325,
	"learning_rate": 8.450261780104713e-06,
	"loss": 0.3041,
	"step": 169
	},
	{
	"epoch": 0.5242868157286045,
	"grad_norm": 1.1864618062973022,
	"learning_rate": 8.439790575916232e-06,
	"loss": 0.3008,
	"step": 170
	},
	{
	"epoch": 0.5273708558211256,
	"grad_norm": 1.3757935762405396,
	"learning_rate": 8.429319371727749e-06,
	"loss": 0.2865,
	"step": 171
	},
	{
	"epoch": 0.5304548959136469,
	"grad_norm": 1.4410743713378906,
	"learning_rate": 8.418848167539267e-06,
	"loss": 0.3081,
	"step": 172
	},
	{
	"epoch": 0.5335389360061681,
	"grad_norm": 1.3494313955307007,
	"learning_rate": 8.408376963350786e-06,
	"loss": 0.2988,
	"step": 173
	},
	{
	"epoch": 0.5366229760986893,
	"grad_norm": 1.3871009349822998,
	"learning_rate": 8.397905759162305e-06,
	"loss": 0.3045,
	"step": 174
	},
	{
	"epoch": 0.5397070161912105,
	"grad_norm": 1.183766484260559,
	"learning_rate": 8.387434554973822e-06,
	"loss": 0.2969,
	"step": 175
	},
	{
	"epoch": 0.5427910562837317,
	"grad_norm": 1.1075443029403687,
	"learning_rate": 8.37696335078534e-06,
	"loss": 0.2834,
	"step": 176
	},
	{
	"epoch": 0.5458750963762529,
	"grad_norm": 1.3118195533752441,
	"learning_rate": 8.36649214659686e-06,
	"loss": 0.2945,
	"step": 177
	},
	{
	"epoch": 0.5489591364687741,
	"grad_norm": 1.3226675987243652,
	"learning_rate": 8.356020942408377e-06,
	"loss": 0.3085,
	"step": 178
	},
	{
	"epoch": 0.5520431765612953,
	"grad_norm": 1.1877515316009521,
	"learning_rate": 8.345549738219895e-06,
	"loss": 0.2757,
	"step": 179
	},
	{
	"epoch": 0.5551272166538165,
	"grad_norm": 1.379599928855896,
	"learning_rate": 8.335078534031414e-06,
	"loss": 0.2968,
	"step": 180
	},
	{
	"epoch": 0.5582112567463376,
	"grad_norm": 1.2975775003433228,
	"learning_rate": 8.324607329842933e-06,
	"loss": 0.3074,
	"step": 181
	},
	{
	"epoch": 0.5612952968388589,
	"grad_norm": 1.2829333543777466,
	"learning_rate": 8.31413612565445e-06,
	"loss": 0.3014,
	"step": 182
	},
	{
	"epoch": 0.5643793369313801,
	"grad_norm": 1.4759114980697632,
	"learning_rate": 8.303664921465969e-06,
	"loss": 0.3014,
	"step": 183
	},
	{
	"epoch": 0.5674633770239013,
	"grad_norm": 1.3108978271484375,
	"learning_rate": 8.293193717277488e-06,
	"loss": 0.2914,
	"step": 184
	},
	{
	"epoch": 0.5705474171164225,
	"grad_norm": 1.271666407585144,
	"learning_rate": 8.282722513089005e-06,
	"loss": 0.305,
	"step": 185
	},
	{
	"epoch": 0.5736314572089437,
	"grad_norm": 1.1115907430648804,
	"learning_rate": 8.272251308900523e-06,
	"loss": 0.2963,
	"step": 186
	},
	{
	"epoch": 0.5767154973014649,
	"grad_norm": 1.089092493057251,
	"learning_rate": 8.261780104712042e-06,
	"loss": 0.303,
	"step": 187
	},
	{
	"epoch": 0.5797995373939862,
	"grad_norm": 1.1514776945114136,
	"learning_rate": 8.251308900523561e-06,
	"loss": 0.3073,
	"step": 188
	},
	{
	"epoch": 0.5828835774865073,
	"grad_norm": 1.1654891967773438,
	"learning_rate": 8.240837696335078e-06,
	"loss": 0.2883,
	"step": 189
	},
	{
	"epoch": 0.5859676175790285,
	"grad_norm": 1.2040210962295532,
	"learning_rate": 8.230366492146597e-06,
	"loss": 0.295,
	"step": 190
	},
	{
	"epoch": 0.5890516576715498,
	"grad_norm": 1.203511118888855,
	"learning_rate": 8.219895287958116e-06,
	"loss": 0.2795,
	"step": 191
	},
	{
	"epoch": 0.5921356977640709,
	"grad_norm": 1.5743706226348877,
	"learning_rate": 8.209424083769634e-06,
	"loss": 0.3123,
	"step": 192
	},
	{
	"epoch": 0.5921356977640709,
	"eval_loss": 0.3412991166114807,
	"eval_runtime": 149.387,
	"eval_samples_per_second": 1.928,
	"eval_steps_per_second": 0.964,
	"step": 192
	},
	{
	"epoch": 0.5952197378565921,
	"grad_norm": 1.4109128713607788,
	"learning_rate": 8.198952879581153e-06,
	"loss": 0.2996,
	"step": 193
	},
	{
	"epoch": 0.5983037779491134,
	"grad_norm": 1.3817074298858643,
	"learning_rate": 8.18848167539267e-06,
	"loss": 0.2964,
	"step": 194
	},
	{
	"epoch": 0.6013878180416345,
	"grad_norm": 1.3587619066238403,
	"learning_rate": 8.178010471204189e-06,
	"loss": 0.3004,
	"step": 195
	},
	{
	"epoch": 0.6044718581341557,
	"grad_norm": 1.502744197845459,
	"learning_rate": 8.167539267015708e-06,
	"loss": 0.2957,
	"step": 196
	},
	{
	"epoch": 0.607555898226677,
	"grad_norm": 1.4416728019714355,
	"learning_rate": 8.157068062827227e-06,
	"loss": 0.2962,
	"step": 197
	},
	{
	"epoch": 0.6106399383191982,
	"grad_norm": 2.2597157955169678,
	"learning_rate": 8.146596858638745e-06,
	"loss": 0.2853,
	"step": 198
	},
	{
	"epoch": 0.6137239784117193,
	"grad_norm": 1.854837417602539,
	"learning_rate": 8.136125654450262e-06,
	"loss": 0.2918,
	"step": 199
	},
	{
	"epoch": 0.6168080185042406,
	"grad_norm": 2.1409687995910645,
	"learning_rate": 8.125654450261781e-06,
	"loss": 0.3118,
	"step": 200
	},
	{
	"epoch": 0.6198920585967618,
	"grad_norm": 1.7128517627716064,
	"learning_rate": 8.1151832460733e-06,
	"loss": 0.2822,
	"step": 201
	},
	{
	"epoch": 0.6229760986892829,
	"grad_norm": 1.4401497840881348,
	"learning_rate": 8.104712041884819e-06,
	"loss": 0.2802,
	"step": 202
	},
	{
	"epoch": 0.6260601387818041,
	"grad_norm": 1.7307312488555908,
	"learning_rate": 8.094240837696336e-06,
	"loss": 0.2973,
	"step": 203
	},
	{
	"epoch": 0.6291441788743254,
	"grad_norm": 1.263535737991333,
	"learning_rate": 8.083769633507855e-06,
	"loss": 0.3016,
	"step": 204
	},
	{
	"epoch": 0.6322282189668466,
	"grad_norm": 1.4065901041030884,
	"learning_rate": 8.073298429319373e-06,
	"loss": 0.284,
	"step": 205
	},
	{
	"epoch": 0.6353122590593677,
	"grad_norm": 1.6004809141159058,
	"learning_rate": 8.06282722513089e-06,
	"loss": 0.2908,
	"step": 206
	},
	{
	"epoch": 0.638396299151889,
	"grad_norm": 1.458287239074707,
	"learning_rate": 8.05235602094241e-06,
	"loss": 0.2832,
	"step": 207
	},
	{
	"epoch": 0.6414803392444102,
	"grad_norm": 1.8239188194274902,
	"learning_rate": 8.041884816753928e-06,
	"loss": 0.2993,
	"step": 208
	},
	{
	"epoch": 0.6445643793369313,
	"grad_norm": 1.8187966346740723,
	"learning_rate": 8.031413612565445e-06,
	"loss": 0.311,
	"step": 209
	},
	{
	"epoch": 0.6476484194294526,
	"grad_norm": 1.5089385509490967,
	"learning_rate": 8.020942408376964e-06,
	"loss": 0.2835,
	"step": 210
	},
	{
	"epoch": 0.6507324595219738,
	"grad_norm": 1.5591213703155518,
	"learning_rate": 8.010471204188483e-06,
	"loss": 0.2985,
	"step": 211
	},
	{
	"epoch": 0.653816499614495,
	"grad_norm": 1.5221312046051025,
	"learning_rate": 8.000000000000001e-06,
	"loss": 0.2805,
	"step": 212
	},
	{
	"epoch": 0.6569005397070162,
	"grad_norm": 1.8211005926132202,
	"learning_rate": 7.989528795811518e-06,
	"loss": 0.2728,
	"step": 213
	},
	{
	"epoch": 0.6599845797995374,
	"grad_norm": 2.2500016689300537,
	"learning_rate": 7.979057591623037e-06,
	"loss": 0.2932,
	"step": 214
	},
	{
	"epoch": 0.6630686198920586,
	"grad_norm": 1.7227460145950317,
	"learning_rate": 7.968586387434556e-06,
	"loss": 0.2927,
	"step": 215
	},
	{
	"epoch": 0.6661526599845798,
	"grad_norm": 2.1821672916412354,
	"learning_rate": 7.958115183246073e-06,
	"loss": 0.2919,
	"step": 216
	},
	{
	"epoch": 0.669236700077101,
	"grad_norm": 1.3368958234786987,
	"learning_rate": 7.947643979057592e-06,
	"loss": 0.2789,
	"step": 217
	},
	{
	"epoch": 0.6723207401696222,
	"grad_norm": 1.4419403076171875,
	"learning_rate": 7.93717277486911e-06,
	"loss": 0.2876,
	"step": 218
	},
	{
	"epoch": 0.6754047802621435,
	"grad_norm": 2.0355281829833984,
	"learning_rate": 7.92670157068063e-06,
	"loss": 0.3059,
	"step": 219
	},
	{
	"epoch": 0.6784888203546646,
	"grad_norm": 1.7871628999710083,
	"learning_rate": 7.916230366492146e-06,
	"loss": 0.2804,
	"step": 220
	},
	{
	"epoch": 0.6815728604471858,
	"grad_norm": 1.8160405158996582,
	"learning_rate": 7.905759162303665e-06,
	"loss": 0.2842,
	"step": 221
	},
	{
	"epoch": 0.6846569005397071,
	"grad_norm": 2.1498160362243652,
	"learning_rate": 7.895287958115184e-06,
	"loss": 0.2875,
	"step": 222
	},
	{
	"epoch": 0.6877409406322282,
	"grad_norm": 1.9483954906463623,
	"learning_rate": 7.884816753926701e-06,
	"loss": 0.2874,
	"step": 223
	},
	{
	"epoch": 0.6908249807247494,
	"grad_norm": 2.0145816802978516,
	"learning_rate": 7.87434554973822e-06,
	"loss": 0.2879,
	"step": 224
	},
	{
	"epoch": 0.6939090208172706,
	"grad_norm": 1.680413007736206,
	"learning_rate": 7.863874345549739e-06,
	"loss": 0.2755,
	"step": 225
	},
	{
	"epoch": 0.6969930609097919,
	"grad_norm": 1.5203242301940918,
	"learning_rate": 7.853403141361257e-06,
	"loss": 0.284,
	"step": 226
	},
	{
	"epoch": 0.700077101002313,
	"grad_norm": 1.892943263053894,
	"learning_rate": 7.842931937172774e-06,
	"loss": 0.2799,
	"step": 227
	},
	{
	"epoch": 0.7031611410948342,
	"grad_norm": 1.5476278066635132,
	"learning_rate": 7.832460732984293e-06,
	"loss": 0.2767,
	"step": 228
	},
	{
	"epoch": 0.7062451811873555,
	"grad_norm": 2.2650210857391357,
	"learning_rate": 7.821989528795812e-06,
	"loss": 0.2905,
	"step": 229
	},
	{
	"epoch": 0.7093292212798766,
	"grad_norm": 2.1595096588134766,
	"learning_rate": 7.81151832460733e-06,
	"loss": 0.274,
	"step": 230
	},
	{
	"epoch": 0.7124132613723978,
	"grad_norm": 1.587994933128357,
	"learning_rate": 7.80104712041885e-06,
	"loss": 0.2743,
	"step": 231
	},
	{
	"epoch": 0.7154973014649191,
	"grad_norm": 1.9411978721618652,
	"learning_rate": 7.790575916230367e-06,
	"loss": 0.272,
	"step": 232
	},
	{
	"epoch": 0.7185813415574402,
	"grad_norm": 2.1039252281188965,
	"learning_rate": 7.780104712041885e-06,
	"loss": 0.2884,
	"step": 233
	},
	{
	"epoch": 0.7216653816499614,
	"grad_norm": 1.834591269493103,
	"learning_rate": 7.769633507853404e-06,
	"loss": 0.2756,
	"step": 234
	},
	{
	"epoch": 0.7247494217424827,
	"grad_norm": 2.1758062839508057,
	"learning_rate": 7.759162303664923e-06,
	"loss": 0.287,
	"step": 235
	},
	{
	"epoch": 0.7278334618350039,
	"grad_norm": 2.0601179599761963,
	"learning_rate": 7.748691099476442e-06,
	"loss": 0.2683,
	"step": 236
	},
	{
	"epoch": 0.730917501927525,
	"grad_norm": 1.7605801820755005,
	"learning_rate": 7.738219895287959e-06,
	"loss": 0.2552,
	"step": 237
	},
	{
	"epoch": 0.7340015420200463,
	"grad_norm": 2.0951759815216064,
	"learning_rate": 7.727748691099478e-06,
	"loss": 0.258,
	"step": 238
	},
	{
	"epoch": 0.7370855821125675,
	"grad_norm": 2.2250118255615234,
	"learning_rate": 7.717277486910996e-06,
	"loss": 0.2627,
	"step": 239
	},
	{
	"epoch": 0.7401696222050886,
	"grad_norm": 2.54436993598938,
	"learning_rate": 7.706806282722513e-06,
	"loss": 0.278,
	"step": 240
	},
	{
	"epoch": 0.7432536622976099,
	"grad_norm": 1.810699701309204,
	"learning_rate": 7.696335078534032e-06,
	"loss": 0.2684,
	"step": 241
	},
	{
	"epoch": 0.7463377023901311,
	"grad_norm": 2.161043882369995,
	"learning_rate": 7.685863874345551e-06,
	"loss": 0.2828,
	"step": 242
	},
	{
	"epoch": 0.7494217424826523,
	"grad_norm": 1.7965888977050781,
	"learning_rate": 7.67539267015707e-06,
	"loss": 0.2677,
	"step": 243
	},
	{
	"epoch": 0.7525057825751735,
	"grad_norm": 1.9139559268951416,
	"learning_rate": 7.664921465968587e-06,
	"loss": 0.2701,
	"step": 244
	},
	{
	"epoch": 0.7555898226676947,
	"grad_norm": 2.0285589694976807,
	"learning_rate": 7.654450261780106e-06,
	"loss": 0.2726,
	"step": 245
	},
	{
	"epoch": 0.7586738627602159,
	"grad_norm": 2.2968027591705322,
	"learning_rate": 7.643979057591624e-06,
	"loss": 0.2606,
	"step": 246
	},
	{
	"epoch": 0.761757902852737,
	"grad_norm": 2.4324936866760254,
	"learning_rate": 7.633507853403141e-06,
	"loss": 0.2659,
	"step": 247
	},
	{
	"epoch": 0.7648419429452583,
	"grad_norm": 2.66330885887146,
	"learning_rate": 7.62303664921466e-06,
	"loss": 0.2627,
	"step": 248
	},
	{
	"epoch": 0.7679259830377795,
	"grad_norm": 2.435866355895996,
	"learning_rate": 7.612565445026179e-06,
	"loss": 0.2713,
	"step": 249
	},
	{
	"epoch": 0.7710100231303006,
	"grad_norm": 2.2584385871887207,
	"learning_rate": 7.602094240837698e-06,
	"loss": 0.2754,
	"step": 250
	},
	{
	"epoch": 0.7740940632228219,
	"grad_norm": 2.1898317337036133,
	"learning_rate": 7.591623036649215e-06,
	"loss": 0.2705,
	"step": 251
	},
	{
	"epoch": 0.7771781033153431,
	"grad_norm": 2.051255464553833,
	"learning_rate": 7.5811518324607335e-06,
	"loss": 0.2491,
	"step": 252
	},
	{
	"epoch": 0.7802621434078643,
	"grad_norm": 2.353940725326538,
	"learning_rate": 7.570680628272252e-06,
	"loss": 0.277,
	"step": 253
	},
	{
	"epoch": 0.7833461835003855,
	"grad_norm": 2.3826687335968018,
	"learning_rate": 7.560209424083769e-06,
	"loss": 0.2693,
	"step": 254
	},
	{
	"epoch": 0.7864302235929067,
	"grad_norm": 2.522019863128662,
	"learning_rate": 7.549738219895288e-06,
	"loss": 0.2706,
	"step": 255
	},
	{
	"epoch": 0.7895142636854279,
	"grad_norm": 2.3525524139404297,
	"learning_rate": 7.539267015706807e-06,
	"loss": 0.2509,
	"step": 256
	},
	{
	"epoch": 0.7895142636854279,
	"eval_loss": 0.3851300776004791,
	"eval_runtime": 149.046,
	"eval_samples_per_second": 1.932,
	"eval_steps_per_second": 0.966,
	"step": 256
	},
	{
	"epoch": 0.7925983037779492,
	"grad_norm": 2.7143642902374268,
	"learning_rate": 7.528795811518326e-06,
	"loss": 0.2701,
	"step": 257
	},
	{
	"epoch": 0.7956823438704703,
	"grad_norm": 2.6725356578826904,
	"learning_rate": 7.518324607329844e-06,
	"loss": 0.2718,
	"step": 258
	},
	{
	"epoch": 0.7987663839629915,
	"grad_norm": 2.4051880836486816,
	"learning_rate": 7.5078534031413615e-06,
	"loss": 0.2554,
	"step": 259
	},
	{
	"epoch": 0.8018504240555128,
	"grad_norm": 2.472904920578003,
	"learning_rate": 7.49738219895288e-06,
	"loss": 0.2666,
	"step": 260
	},
	{
	"epoch": 0.8049344641480339,
	"grad_norm": 2.3598804473876953,
	"learning_rate": 7.486910994764398e-06,
	"loss": 0.2532,
	"step": 261
	},
	{
	"epoch": 0.8080185042405551,
	"grad_norm": 2.383300542831421,
	"learning_rate": 7.476439790575917e-06,
	"loss": 0.2568,
	"step": 262
	},
	{
	"epoch": 0.8111025443330764,
	"grad_norm": 2.999469518661499,
	"learning_rate": 7.465968586387436e-06,
	"loss": 0.2403,
	"step": 263
	},
	{
	"epoch": 0.8141865844255975,
	"grad_norm": 4.071384429931641,
	"learning_rate": 7.455497382198954e-06,
	"loss": 0.265,
	"step": 264
	},
	{
	"epoch": 0.8172706245181187,
	"grad_norm": 3.5529489517211914,
	"learning_rate": 7.445026178010472e-06,
	"loss": 0.2647,
	"step": 265
	},
	{
	"epoch": 0.8203546646106399,
	"grad_norm": 2.8842644691467285,
	"learning_rate": 7.43455497382199e-06,
	"loss": 0.2725,
	"step": 266
	},
	{
	"epoch": 0.8234387047031612,
	"grad_norm": 2.1277332305908203,
	"learning_rate": 7.424083769633509e-06,
	"loss": 0.2657,
	"step": 267
	},
	{
	"epoch": 0.8265227447956823,
	"grad_norm": 2.832111358642578,
	"learning_rate": 7.413612565445026e-06,
	"loss": 0.255,
	"step": 268
	},
	{
	"epoch": 0.8296067848882035,
	"grad_norm": 2.7438676357269287,
	"learning_rate": 7.403141361256545e-06,
	"loss": 0.2596,
	"step": 269
	},
	{
	"epoch": 0.8326908249807248,
	"grad_norm": 2.7950987815856934,
	"learning_rate": 7.392670157068064e-06,
	"loss": 0.2624,
	"step": 270
	},
	{
	"epoch": 0.8357748650732459,
	"grad_norm": 3.497069835662842,
	"learning_rate": 7.382198952879581e-06,
	"loss": 0.2385,
	"step": 271
	},
	{
	"epoch": 0.8388589051657671,
	"grad_norm": 5.024068832397461,
	"learning_rate": 7.3717277486911e-06,
	"loss": 0.2526,
	"step": 272
	},
	{
	"epoch": 0.8419429452582884,
	"grad_norm": 3.5298011302948,
	"learning_rate": 7.361256544502618e-06,
	"loss": 0.2452,
	"step": 273
	},
	{
	"epoch": 0.8450269853508096,
	"grad_norm": 2.701545238494873,
	"learning_rate": 7.350785340314137e-06,
	"loss": 0.2293,
	"step": 274
	},
	{
	"epoch": 0.8481110254433307,
	"grad_norm": 2.838541030883789,
	"learning_rate": 7.340314136125655e-06,
	"loss": 0.2554,
	"step": 275
	},
	{
	"epoch": 0.851195065535852,
	"grad_norm": 2.5854012966156006,
	"learning_rate": 7.329842931937173e-06,
	"loss": 0.245,
	"step": 276
	},
	{
	"epoch": 0.8542791056283732,
	"grad_norm": 2.9351906776428223,
	"learning_rate": 7.319371727748692e-06,
	"loss": 0.2556,
	"step": 277
	},
	{
	"epoch": 0.8573631457208943,
	"grad_norm": 3.0675830841064453,
	"learning_rate": 7.30890052356021e-06,
	"loss": 0.2501,
	"step": 278
	},
	{
	"epoch": 0.8604471858134156,
	"grad_norm": 3.1958088874816895,
	"learning_rate": 7.2984293193717285e-06,
	"loss": 0.2347,
	"step": 279
	},
	{
	"epoch": 0.8635312259059368,
	"grad_norm": 3.0006463527679443,
	"learning_rate": 7.287958115183246e-06,
	"loss": 0.242,
	"step": 280
	},
	{
	"epoch": 0.866615265998458,
	"grad_norm": 2.862990379333496,
	"learning_rate": 7.277486910994765e-06,
	"loss": 0.2442,
	"step": 281
	},
	{
	"epoch": 0.8696993060909792,
	"grad_norm": 3.1585986614227295,
	"learning_rate": 7.267015706806283e-06,
	"loss": 0.2401,
	"step": 282
	},
	{
	"epoch": 0.8727833461835004,
	"grad_norm": 2.6111812591552734,
	"learning_rate": 7.256544502617802e-06,
	"loss": 0.2324,
	"step": 283
	},
	{
	"epoch": 0.8758673862760216,
	"grad_norm": 3.1289191246032715,
	"learning_rate": 7.246073298429321e-06,
	"loss": 0.2426,
	"step": 284
	},
	{
	"epoch": 0.8789514263685428,
	"grad_norm": 3.448789358139038,
	"learning_rate": 7.235602094240838e-06,
	"loss": 0.2224,
	"step": 285
	},
	{
	"epoch": 0.882035466461064,
	"grad_norm": 3.018432855606079,
	"learning_rate": 7.2251308900523565e-06,
	"loss": 0.2238,
	"step": 286
	},
	{
	"epoch": 0.8851195065535852,
	"grad_norm": 4.171509742736816,
	"learning_rate": 7.214659685863875e-06,
	"loss": 0.2546,
	"step": 287
	},
	{
	"epoch": 0.8882035466461063,
	"grad_norm": 3.5390446186065674,
	"learning_rate": 7.204188481675394e-06,
	"loss": 0.2417,
	"step": 288
	},
	{
	"epoch": 0.8912875867386276,
	"grad_norm": 2.8169162273406982,
	"learning_rate": 7.193717277486911e-06,
	"loss": 0.2348,
	"step": 289
	},
	{
	"epoch": 0.8943716268311488,
	"grad_norm": 2.9175827503204346,
	"learning_rate": 7.18324607329843e-06,
	"loss": 0.214,
	"step": 290
	},
	{
	"epoch": 0.89745566692367,
	"grad_norm": 3.939680576324463,
	"learning_rate": 7.172774869109949e-06,
	"loss": 0.2489,
	"step": 291
	},
	{
	"epoch": 0.9005397070161912,
	"grad_norm": 2.874373435974121,
	"learning_rate": 7.162303664921466e-06,
	"loss": 0.2219,
	"step": 292
	},
	{
	"epoch": 0.9036237471087124,
	"grad_norm": 4.381021976470947,
	"learning_rate": 7.1518324607329845e-06,
	"loss": 0.2419,
	"step": 293
	},
	{
	"epoch": 0.9067077872012336,
	"grad_norm": 3.9895918369293213,
	"learning_rate": 7.141361256544503e-06,
	"loss": 0.2552,
	"step": 294
	},
	{
	"epoch": 0.9097918272937549,
	"grad_norm": 2.9028842449188232,
	"learning_rate": 7.130890052356022e-06,
	"loss": 0.2323,
	"step": 295
	},
	{
	"epoch": 0.912875867386276,
	"grad_norm": 3.5980117321014404,
	"learning_rate": 7.12041884816754e-06,
	"loss": 0.2404,
	"step": 296
	},
	{
	"epoch": 0.9159599074787972,
	"grad_norm": 3.490727186203003,
	"learning_rate": 7.109947643979058e-06,
	"loss": 0.22,
	"step": 297
	},
	{
	"epoch": 0.9190439475713185,
	"grad_norm": 3.256279706954956,
	"learning_rate": 7.099476439790577e-06,
	"loss": 0.2368,
	"step": 298
	},
	{
	"epoch": 0.9221279876638396,
	"grad_norm": 3.92038893699646,
	"learning_rate": 7.089005235602095e-06,
	"loss": 0.2331,
	"step": 299
	},
	{
	"epoch": 0.9252120277563608,
	"grad_norm": 3.6917364597320557,
	"learning_rate": 7.078534031413613e-06,
	"loss": 0.2139,
	"step": 300
	},
	{
	"epoch": 0.9282960678488821,
	"grad_norm": 3.058729887008667,
	"learning_rate": 7.068062827225132e-06,
	"loss": 0.2199,
	"step": 301
	},
	{
	"epoch": 0.9313801079414032,
	"grad_norm": 3.150188446044922,
	"learning_rate": 7.057591623036649e-06,
	"loss": 0.2137,
	"step": 302
	},
	{
	"epoch": 0.9344641480339244,
	"grad_norm": 5.77610445022583,
	"learning_rate": 7.047120418848168e-06,
	"loss": 0.2478,
	"step": 303
	},
	{
	"epoch": 0.9375481881264457,
	"grad_norm": 2.8851089477539062,
	"learning_rate": 7.036649214659687e-06,
	"loss": 0.227,
	"step": 304
	},
	{
	"epoch": 0.9406322282189669,
	"grad_norm": 3.1656086444854736,
	"learning_rate": 7.0261780104712055e-06,
	"loss": 0.2335,
	"step": 305
	},
	{
	"epoch": 0.943716268311488,
	"grad_norm": 3.3355696201324463,
	"learning_rate": 7.015706806282723e-06,
	"loss": 0.2169,
	"step": 306
	},
	{
	"epoch": 0.9468003084040093,
	"grad_norm": 3.5095317363739014,
	"learning_rate": 7.005235602094241e-06,
	"loss": 0.2161,
	"step": 307
	},
	{
	"epoch": 0.9498843484965305,
	"grad_norm": 3.5365262031555176,
	"learning_rate": 6.99476439790576e-06,
	"loss": 0.2097,
	"step": 308
	},
	{
	"epoch": 0.9529683885890516,
	"grad_norm": 4.159248352050781,
	"learning_rate": 6.984293193717277e-06,
	"loss": 0.2337,
	"step": 309
	},
	{
	"epoch": 0.9560524286815728,
	"grad_norm": 2.9792213439941406,
	"learning_rate": 6.973821989528796e-06,
	"loss": 0.2149,
	"step": 310
	},
	{
	"epoch": 0.9591364687740941,
	"grad_norm": 3.2603046894073486,
	"learning_rate": 6.963350785340315e-06,
	"loss": 0.2218,
	"step": 311
	},
	{
	"epoch": 0.9622205088666153,
	"grad_norm": 3.5064327716827393,
	"learning_rate": 6.9528795811518335e-06,
	"loss": 0.2128,
	"step": 312
	},
	{
	"epoch": 0.9653045489591364,
	"grad_norm": 3.971139430999756,
	"learning_rate": 6.942408376963351e-06,
	"loss": 0.2172,
	"step": 313
	},
	{
	"epoch": 0.9683885890516577,
	"grad_norm": 3.651603937149048,
	"learning_rate": 6.931937172774869e-06,
	"loss": 0.2036,
	"step": 314
	},
	{
	"epoch": 0.9714726291441789,
	"grad_norm": 5.394900321960449,
	"learning_rate": 6.921465968586388e-06,
	"loss": 0.2157,
	"step": 315
	},
	{
	"epoch": 0.9745566692367,
	"grad_norm": 3.7696452140808105,
	"learning_rate": 6.910994764397906e-06,
	"loss": 0.2168,
	"step": 316
	},
	{
	"epoch": 0.9776407093292213,
	"grad_norm": 3.3137505054473877,
	"learning_rate": 6.900523560209425e-06,
	"loss": 0.2217,
	"step": 317
	},
	{
	"epoch": 0.9807247494217425,
	"grad_norm": 3.927021026611328,
	"learning_rate": 6.890052356020943e-06,
	"loss": 0.2149,
	"step": 318
	},
	{
	"epoch": 0.9838087895142636,
	"grad_norm": 3.598501443862915,
	"learning_rate": 6.8795811518324615e-06,
	"loss": 0.2007,
	"step": 319
	},
	{
	"epoch": 0.9868928296067849,
	"grad_norm": 4.063229084014893,
	"learning_rate": 6.8691099476439794e-06,
	"loss": 0.2142,
	"step": 320
	},
	{
	"epoch": 0.9868928296067849,
	"eval_loss": 0.46243318915367126,
	"eval_runtime": 150.4594,
	"eval_samples_per_second": 1.914,
	"eval_steps_per_second": 0.957,
	"step": 320
	},
	{
	"epoch": 0.9899768696993061,
	"grad_norm": 4.520982265472412,
	"learning_rate": 6.858638743455498e-06,
	"loss": 0.1978,
	"step": 321
	},
	{
	"epoch": 0.9930609097918273,
	"grad_norm": 3.6312687397003174,
	"learning_rate": 6.848167539267017e-06,
	"loss": 0.1896,
	"step": 322
	},
	{
	"epoch": 0.9961449498843485,
	"grad_norm": 3.1252243518829346,
	"learning_rate": 6.837696335078534e-06,
	"loss": 0.1817,
	"step": 323
	},
	{
	"epoch": 0.9992289899768697,
	"grad_norm": 4.3829264640808105,
	"learning_rate": 6.827225130890053e-06,
	"loss": 0.2199,
	"step": 324
	},
	{
	"epoch": 1.0030840400925212,
	"grad_norm": 9.755841255187988,
	"learning_rate": 6.816753926701572e-06,
	"loss": 0.4578,
	"step": 325
	},
	{
	"epoch": 1.0061680801850423,
	"grad_norm": 3.9052581787109375,
	"learning_rate": 6.80628272251309e-06,
	"loss": 0.1959,
	"step": 326
	},
	{
	"epoch": 1.0092521202775635,
	"grad_norm": 3.6258931159973145,
	"learning_rate": 6.7958115183246075e-06,
	"loss": 0.2062,
	"step": 327
	},
	{
	"epoch": 1.012336160370085,
	"grad_norm": 4.131122589111328,
	"learning_rate": 6.785340314136126e-06,
	"loss": 0.1915,
	"step": 328
	},
	{
	"epoch": 1.015420200462606,
	"grad_norm": 4.387429237365723,
	"learning_rate": 6.774869109947645e-06,
	"loss": 0.1792,
	"step": 329
	},
	{
	"epoch": 1.0185042405551272,
	"grad_norm": 3.873361110687256,
	"learning_rate": 6.764397905759162e-06,
	"loss": 0.1895,
	"step": 330
	},
	{
	"epoch": 1.0215882806476484,
	"grad_norm": 4.318599700927734,
	"learning_rate": 6.753926701570681e-06,
	"loss": 0.1836,
	"step": 331
	},
	{
	"epoch": 1.0246723207401696,
	"grad_norm": 4.9434494972229,
	"learning_rate": 6.7434554973822e-06,
	"loss": 0.2199,
	"step": 332
	},
	{
	"epoch": 1.0277563608326907,
	"grad_norm": 3.8584797382354736,
	"learning_rate": 6.732984293193718e-06,
	"loss": 0.1796,
	"step": 333
	},
	{
	"epoch": 1.0308404009252121,
	"grad_norm": 4.104945659637451,
	"learning_rate": 6.722513089005236e-06,
	"loss": 0.1812,
	"step": 334
	},
	{
	"epoch": 1.0339244410177333,
	"grad_norm": 4.125020503997803,
	"learning_rate": 6.712041884816754e-06,
	"loss": 0.197,
	"step": 335
	},
	{
	"epoch": 1.0370084811102545,
	"grad_norm": 3.783364772796631,
	"learning_rate": 6.701570680628273e-06,
	"loss": 0.1798,
	"step": 336
	},
	{
	"epoch": 1.0400925212027756,
	"grad_norm": 4.799828052520752,
	"learning_rate": 6.691099476439791e-06,
	"loss": 0.1837,
	"step": 337
	},
	{
	"epoch": 1.0431765612952968,
	"grad_norm": 5.570056438446045,
	"learning_rate": 6.68062827225131e-06,
	"loss": 0.1987,
	"step": 338
	},
	{
	"epoch": 1.046260601387818,
	"grad_norm": 3.9299843311309814,
	"learning_rate": 6.670157068062828e-06,
	"loss": 0.1728,
	"step": 339
	},
	{
	"epoch": 1.0493446414803393,
	"grad_norm": 4.746124267578125,
	"learning_rate": 6.6596858638743455e-06,
	"loss": 0.2055,
	"step": 340
	},
	{
	"epoch": 1.0524286815728605,
	"grad_norm": 3.6969268321990967,
	"learning_rate": 6.649214659685864e-06,
	"loss": 0.1919,
	"step": 341
	},
	{
	"epoch": 1.0555127216653817,
	"grad_norm": 4.096460819244385,
	"learning_rate": 6.638743455497383e-06,
	"loss": 0.1725,
	"step": 342
	},
	{
	"epoch": 1.0585967617579028,
	"grad_norm": 3.819343328475952,
	"learning_rate": 6.628272251308902e-06,
	"loss": 0.1727,
	"step": 343
	},
	{
	"epoch": 1.061680801850424,
	"grad_norm": 4.487940788269043,
	"learning_rate": 6.617801047120419e-06,
	"loss": 0.176,
	"step": 344
	},
	{
	"epoch": 1.0647648419429452,
	"grad_norm": 4.727810382843018,
	"learning_rate": 6.607329842931938e-06,
	"loss": 0.1694,
	"step": 345
	},
	{
	"epoch": 1.0678488820354666,
	"grad_norm": 5.403895854949951,
	"learning_rate": 6.5968586387434565e-06,
	"loss": 0.1853,
	"step": 346
	},
	{
	"epoch": 1.0709329221279877,
	"grad_norm": 3.548576831817627,
	"learning_rate": 6.5863874345549736e-06,
	"loss": 0.1711,
	"step": 347
	},
	{
	"epoch": 1.074016962220509,
	"grad_norm": 3.6849658489227295,
	"learning_rate": 6.575916230366492e-06,
	"loss": 0.1877,
	"step": 348
	},
	{
	"epoch": 1.07710100231303,
	"grad_norm": 3.7493557929992676,
	"learning_rate": 6.565445026178011e-06,
	"loss": 0.1858,
	"step": 349
	},
	{
	"epoch": 1.0801850424055512,
	"grad_norm": 3.9486773014068604,
	"learning_rate": 6.55497382198953e-06,
	"loss": 0.1515,
	"step": 350
	},
	{
	"epoch": 1.0832690824980724,
	"grad_norm": 4.970436096191406,
	"learning_rate": 6.544502617801047e-06,
	"loss": 0.172,
	"step": 351
	},
	{
	"epoch": 1.0863531225905936,
	"grad_norm": 5.032225131988525,
	"learning_rate": 6.534031413612566e-06,
	"loss": 0.1611,
	"step": 352
	}
	],
	"logging_steps": 1,
	"max_steps": 975,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 16,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 8.458954269238886e+16,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}