openthoughts3_100k_lrlower / trainer_state.json

End of training

89ea042 verified 11 months ago

159 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 4.993178717598909,
	"eval_steps": 500,
	"global_step": 915,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.005457025920873124,
	"grad_norm": 8.40548507464911,
	"learning_rate": 4.347826086956522e-07,
	"loss": 1.4358,
	"step": 1
	},
	{
	"epoch": 0.010914051841746248,
	"grad_norm": 8.27768117898077,
	"learning_rate": 8.695652173913044e-07,
	"loss": 1.4226,
	"step": 2
	},
	{
	"epoch": 0.01637107776261937,
	"grad_norm": 8.34817859423518,
	"learning_rate": 1.3043478260869566e-06,
	"loss": 1.4277,
	"step": 3
	},
	{
	"epoch": 0.021828103683492497,
	"grad_norm": 8.241415349829516,
	"learning_rate": 1.7391304347826088e-06,
	"loss": 1.4422,
	"step": 4
	},
	{
	"epoch": 0.027285129604365622,
	"grad_norm": 7.847219720997312,
	"learning_rate": 2.173913043478261e-06,
	"loss": 1.4021,
	"step": 5
	},
	{
	"epoch": 0.03274215552523874,
	"grad_norm": 6.490709031031551,
	"learning_rate": 2.6086956521739132e-06,
	"loss": 1.385,
	"step": 6
	},
	{
	"epoch": 0.03819918144611187,
	"grad_norm": 5.970054048772479,
	"learning_rate": 3.043478260869566e-06,
	"loss": 1.3497,
	"step": 7
	},
	{
	"epoch": 0.04365620736698499,
	"grad_norm": 3.386624409374888,
	"learning_rate": 3.4782608695652175e-06,
	"loss": 1.3161,
	"step": 8
	},
	{
	"epoch": 0.04911323328785812,
	"grad_norm": 2.764488361103231,
	"learning_rate": 3.91304347826087e-06,
	"loss": 1.3038,
	"step": 9
	},
	{
	"epoch": 0.054570259208731244,
	"grad_norm": 4.202620684729429,
	"learning_rate": 4.347826086956522e-06,
	"loss": 1.302,
	"step": 10
	},
	{
	"epoch": 0.06002728512960437,
	"grad_norm": 6.086560136767305,
	"learning_rate": 4.782608695652174e-06,
	"loss": 1.3128,
	"step": 11
	},
	{
	"epoch": 0.06548431105047749,
	"grad_norm": 6.073370326241115,
	"learning_rate": 5.2173913043478265e-06,
	"loss": 1.3088,
	"step": 12
	},
	{
	"epoch": 0.07094133697135062,
	"grad_norm": 5.6470857345830945,
	"learning_rate": 5.652173913043479e-06,
	"loss": 1.2941,
	"step": 13
	},
	{
	"epoch": 0.07639836289222374,
	"grad_norm": 4.138470108037422,
	"learning_rate": 6.086956521739132e-06,
	"loss": 1.2619,
	"step": 14
	},
	{
	"epoch": 0.08185538881309687,
	"grad_norm": 3.7821082022725294,
	"learning_rate": 6.521739130434783e-06,
	"loss": 1.2451,
	"step": 15
	},
	{
	"epoch": 0.08731241473396999,
	"grad_norm": 2.805651263629899,
	"learning_rate": 6.956521739130435e-06,
	"loss": 1.229,
	"step": 16
	},
	{
	"epoch": 0.0927694406548431,
	"grad_norm": 1.760678215208644,
	"learning_rate": 7.391304347826087e-06,
	"loss": 1.1933,
	"step": 17
	},
	{
	"epoch": 0.09822646657571624,
	"grad_norm": 1.471427773413438,
	"learning_rate": 7.82608695652174e-06,
	"loss": 1.2011,
	"step": 18
	},
	{
	"epoch": 0.10368349249658936,
	"grad_norm": 1.6385745213912601,
	"learning_rate": 8.260869565217392e-06,
	"loss": 1.1761,
	"step": 19
	},
	{
	"epoch": 0.10914051841746249,
	"grad_norm": 1.8107444245592996,
	"learning_rate": 8.695652173913044e-06,
	"loss": 1.1718,
	"step": 20
	},
	{
	"epoch": 0.1145975443383356,
	"grad_norm": 1.5828548709190915,
	"learning_rate": 9.130434782608697e-06,
	"loss": 1.1686,
	"step": 21
	},
	{
	"epoch": 0.12005457025920874,
	"grad_norm": 1.0833660495626252,
	"learning_rate": 9.565217391304349e-06,
	"loss": 1.1517,
	"step": 22
	},
	{
	"epoch": 0.12551159618008187,
	"grad_norm": 1.0067497148092934,
	"learning_rate": 1e-05,
	"loss": 1.1596,
	"step": 23
	},
	{
	"epoch": 0.13096862210095497,
	"grad_norm": 1.1511016542466355,
	"learning_rate": 1.0434782608695653e-05,
	"loss": 1.1185,
	"step": 24
	},
	{
	"epoch": 0.1364256480218281,
	"grad_norm": 1.1129912962754631,
	"learning_rate": 1.0869565217391305e-05,
	"loss": 1.1044,
	"step": 25
	},
	{
	"epoch": 0.14188267394270124,
	"grad_norm": 0.982424004614232,
	"learning_rate": 1.1304347826086957e-05,
	"loss": 1.1154,
	"step": 26
	},
	{
	"epoch": 0.14733969986357434,
	"grad_norm": 0.8935088021503061,
	"learning_rate": 1.1739130434782611e-05,
	"loss": 1.0855,
	"step": 27
	},
	{
	"epoch": 0.15279672578444747,
	"grad_norm": 0.9536160463503343,
	"learning_rate": 1.2173913043478263e-05,
	"loss": 1.0844,
	"step": 28
	},
	{
	"epoch": 0.1582537517053206,
	"grad_norm": 0.7998848521277707,
	"learning_rate": 1.2608695652173915e-05,
	"loss": 1.0866,
	"step": 29
	},
	{
	"epoch": 0.16371077762619374,
	"grad_norm": 0.7673685776489387,
	"learning_rate": 1.3043478260869566e-05,
	"loss": 1.1062,
	"step": 30
	},
	{
	"epoch": 0.16916780354706684,
	"grad_norm": 0.9634656988616612,
	"learning_rate": 1.3478260869565218e-05,
	"loss": 1.0713,
	"step": 31
	},
	{
	"epoch": 0.17462482946793997,
	"grad_norm": 0.7656758207809929,
	"learning_rate": 1.391304347826087e-05,
	"loss": 1.0804,
	"step": 32
	},
	{
	"epoch": 0.1800818553888131,
	"grad_norm": 0.8925856020905516,
	"learning_rate": 1.4347826086956522e-05,
	"loss": 1.0791,
	"step": 33
	},
	{
	"epoch": 0.1855388813096862,
	"grad_norm": 0.9604475518815286,
	"learning_rate": 1.4782608695652174e-05,
	"loss": 1.0743,
	"step": 34
	},
	{
	"epoch": 0.19099590723055934,
	"grad_norm": 0.6673627257965253,
	"learning_rate": 1.5217391304347828e-05,
	"loss": 1.0827,
	"step": 35
	},
	{
	"epoch": 0.19645293315143247,
	"grad_norm": 0.6466823830941191,
	"learning_rate": 1.565217391304348e-05,
	"loss": 1.074,
	"step": 36
	},
	{
	"epoch": 0.2019099590723056,
	"grad_norm": 0.8141432611114343,
	"learning_rate": 1.6086956521739132e-05,
	"loss": 1.0935,
	"step": 37
	},
	{
	"epoch": 0.2073669849931787,
	"grad_norm": 0.7303516492961905,
	"learning_rate": 1.6521739130434785e-05,
	"loss": 1.0733,
	"step": 38
	},
	{
	"epoch": 0.21282401091405184,
	"grad_norm": 0.6688305682070583,
	"learning_rate": 1.6956521739130437e-05,
	"loss": 1.0424,
	"step": 39
	},
	{
	"epoch": 0.21828103683492497,
	"grad_norm": 0.6750314584251758,
	"learning_rate": 1.739130434782609e-05,
	"loss": 1.039,
	"step": 40
	},
	{
	"epoch": 0.22373806275579808,
	"grad_norm": 0.6414610193667182,
	"learning_rate": 1.782608695652174e-05,
	"loss": 1.0673,
	"step": 41
	},
	{
	"epoch": 0.2291950886766712,
	"grad_norm": 0.6004774591873056,
	"learning_rate": 1.8260869565217393e-05,
	"loss": 1.0472,
	"step": 42
	},
	{
	"epoch": 0.23465211459754434,
	"grad_norm": 1.001192284108013,
	"learning_rate": 1.8695652173913045e-05,
	"loss": 1.0668,
	"step": 43
	},
	{
	"epoch": 0.24010914051841747,
	"grad_norm": 1.2347279701133878,
	"learning_rate": 1.9130434782608697e-05,
	"loss": 1.0515,
	"step": 44
	},
	{
	"epoch": 0.24556616643929058,
	"grad_norm": 0.7545298666968991,
	"learning_rate": 1.956521739130435e-05,
	"loss": 1.0118,
	"step": 45
	},
	{
	"epoch": 0.25102319236016374,
	"grad_norm": 1.7910029989682172,
	"learning_rate": 2e-05,
	"loss": 1.0403,
	"step": 46
	},
	{
	"epoch": 0.25648021828103684,
	"grad_norm": 0.6646975296811077,
	"learning_rate": 2.0434782608695657e-05,
	"loss": 1.0404,
	"step": 47
	},
	{
	"epoch": 0.26193724420190995,
	"grad_norm": 1.8544620284122977,
	"learning_rate": 2.0869565217391306e-05,
	"loss": 1.0452,
	"step": 48
	},
	{
	"epoch": 0.2673942701227831,
	"grad_norm": 0.9159008525844143,
	"learning_rate": 2.1304347826086958e-05,
	"loss": 1.0352,
	"step": 49
	},
	{
	"epoch": 0.2728512960436562,
	"grad_norm": 1.8651550264621868,
	"learning_rate": 2.173913043478261e-05,
	"loss": 1.0478,
	"step": 50
	},
	{
	"epoch": 0.2783083219645293,
	"grad_norm": 1.2948016317604922,
	"learning_rate": 2.2173913043478262e-05,
	"loss": 1.0309,
	"step": 51
	},
	{
	"epoch": 0.2837653478854025,
	"grad_norm": 1.5798033957703332,
	"learning_rate": 2.2608695652173914e-05,
	"loss": 1.0342,
	"step": 52
	},
	{
	"epoch": 0.2892223738062756,
	"grad_norm": 1.6098370993374367,
	"learning_rate": 2.3043478260869567e-05,
	"loss": 1.0329,
	"step": 53
	},
	{
	"epoch": 0.2946793997271487,
	"grad_norm": 1.2453365308049091,
	"learning_rate": 2.3478260869565222e-05,
	"loss": 1.0392,
	"step": 54
	},
	{
	"epoch": 0.30013642564802184,
	"grad_norm": 1.5844016545843662,
	"learning_rate": 2.391304347826087e-05,
	"loss": 1.0125,
	"step": 55
	},
	{
	"epoch": 0.30559345156889495,
	"grad_norm": 1.4627626883931912,
	"learning_rate": 2.4347826086956526e-05,
	"loss": 1.0499,
	"step": 56
	},
	{
	"epoch": 0.31105047748976805,
	"grad_norm": 1.4143561739785215,
	"learning_rate": 2.4782608695652175e-05,
	"loss": 1.0281,
	"step": 57
	},
	{
	"epoch": 0.3165075034106412,
	"grad_norm": 1.4070850348598627,
	"learning_rate": 2.521739130434783e-05,
	"loss": 1.0195,
	"step": 58
	},
	{
	"epoch": 0.3219645293315143,
	"grad_norm": 1.078315144035433,
	"learning_rate": 2.565217391304348e-05,
	"loss": 1.0216,
	"step": 59
	},
	{
	"epoch": 0.3274215552523875,
	"grad_norm": 1.1643154896766894,
	"learning_rate": 2.608695652173913e-05,
	"loss": 1.0097,
	"step": 60
	},
	{
	"epoch": 0.3328785811732606,
	"grad_norm": 1.2461170132940949,
	"learning_rate": 2.6521739130434784e-05,
	"loss": 1.0209,
	"step": 61
	},
	{
	"epoch": 0.3383356070941337,
	"grad_norm": 2.008669853014052,
	"learning_rate": 2.6956521739130436e-05,
	"loss": 1.0392,
	"step": 62
	},
	{
	"epoch": 0.34379263301500684,
	"grad_norm": 1.1644314565358613,
	"learning_rate": 2.739130434782609e-05,
	"loss": 1.0117,
	"step": 63
	},
	{
	"epoch": 0.34924965893587995,
	"grad_norm": 1.799658123734067,
	"learning_rate": 2.782608695652174e-05,
	"loss": 1.0083,
	"step": 64
	},
	{
	"epoch": 0.35470668485675305,
	"grad_norm": 1.3978781458275338,
	"learning_rate": 2.8260869565217396e-05,
	"loss": 1.0082,
	"step": 65
	},
	{
	"epoch": 0.3601637107776262,
	"grad_norm": 2.0511544765413583,
	"learning_rate": 2.8695652173913044e-05,
	"loss": 1.0248,
	"step": 66
	},
	{
	"epoch": 0.3656207366984993,
	"grad_norm": 1.2539457961483822,
	"learning_rate": 2.91304347826087e-05,
	"loss": 1.021,
	"step": 67
	},
	{
	"epoch": 0.3710777626193724,
	"grad_norm": 2.2336673036604777,
	"learning_rate": 2.956521739130435e-05,
	"loss": 0.9919,
	"step": 68
	},
	{
	"epoch": 0.3765347885402456,
	"grad_norm": 1.9545303539529588,
	"learning_rate": 3.0000000000000004e-05,
	"loss": 1.0026,
	"step": 69
	},
	{
	"epoch": 0.3819918144611187,
	"grad_norm": 1.715545568872597,
	"learning_rate": 3.0434782608695656e-05,
	"loss": 1.015,
	"step": 70
	},
	{
	"epoch": 0.3874488403819918,
	"grad_norm": 1.9877889103452786,
	"learning_rate": 3.086956521739131e-05,
	"loss": 1.0161,
	"step": 71
	},
	{
	"epoch": 0.39290586630286495,
	"grad_norm": 1.403829736078723,
	"learning_rate": 3.130434782608696e-05,
	"loss": 1.0094,
	"step": 72
	},
	{
	"epoch": 0.39836289222373805,
	"grad_norm": 1.2911183724867115,
	"learning_rate": 3.173913043478261e-05,
	"loss": 1.0188,
	"step": 73
	},
	{
	"epoch": 0.4038199181446112,
	"grad_norm": 1.725635724089668,
	"learning_rate": 3.2173913043478265e-05,
	"loss": 1.0233,
	"step": 74
	},
	{
	"epoch": 0.4092769440654843,
	"grad_norm": 1.5524172183602378,
	"learning_rate": 3.260869565217392e-05,
	"loss": 1.0153,
	"step": 75
	},
	{
	"epoch": 0.4147339699863574,
	"grad_norm": 1.6937536176639882,
	"learning_rate": 3.304347826086957e-05,
	"loss": 1.0087,
	"step": 76
	},
	{
	"epoch": 0.4201909959072306,
	"grad_norm": 1.031762197478065,
	"learning_rate": 3.347826086956522e-05,
	"loss": 0.996,
	"step": 77
	},
	{
	"epoch": 0.4256480218281037,
	"grad_norm": 1.2214301629403135,
	"learning_rate": 3.391304347826087e-05,
	"loss": 0.9952,
	"step": 78
	},
	{
	"epoch": 0.4311050477489768,
	"grad_norm": 1.5276490268514877,
	"learning_rate": 3.4347826086956526e-05,
	"loss": 1.0261,
	"step": 79
	},
	{
	"epoch": 0.43656207366984995,
	"grad_norm": 1.5857383204051316,
	"learning_rate": 3.478260869565218e-05,
	"loss": 1.0023,
	"step": 80
	},
	{
	"epoch": 0.44201909959072305,
	"grad_norm": 1.7303601564744104,
	"learning_rate": 3.521739130434783e-05,
	"loss": 0.9994,
	"step": 81
	},
	{
	"epoch": 0.44747612551159616,
	"grad_norm": 1.0635597436256417,
	"learning_rate": 3.565217391304348e-05,
	"loss": 1.0098,
	"step": 82
	},
	{
	"epoch": 0.4529331514324693,
	"grad_norm": 3.079665829601424,
	"learning_rate": 3.6086956521739134e-05,
	"loss": 1.0082,
	"step": 83
	},
	{
	"epoch": 0.4583901773533424,
	"grad_norm": 1.8491839328742012,
	"learning_rate": 3.6521739130434786e-05,
	"loss": 0.9895,
	"step": 84
	},
	{
	"epoch": 0.4638472032742155,
	"grad_norm": 3.00445118120071,
	"learning_rate": 3.695652173913044e-05,
	"loss": 1.0142,
	"step": 85
	},
	{
	"epoch": 0.4693042291950887,
	"grad_norm": 2.9140568598663514,
	"learning_rate": 3.739130434782609e-05,
	"loss": 1.0107,
	"step": 86
	},
	{
	"epoch": 0.4747612551159618,
	"grad_norm": 2.411767008345035,
	"learning_rate": 3.782608695652174e-05,
	"loss": 1.017,
	"step": 87
	},
	{
	"epoch": 0.48021828103683495,
	"grad_norm": 2.6524907076537505,
	"learning_rate": 3.8260869565217395e-05,
	"loss": 1.0203,
	"step": 88
	},
	{
	"epoch": 0.48567530695770805,
	"grad_norm": 2.133767717181375,
	"learning_rate": 3.869565217391305e-05,
	"loss": 0.9971,
	"step": 89
	},
	{
	"epoch": 0.49113233287858116,
	"grad_norm": 2.281609780939416,
	"learning_rate": 3.91304347826087e-05,
	"loss": 1.0142,
	"step": 90
	},
	{
	"epoch": 0.4965893587994543,
	"grad_norm": 1.6150193464799012,
	"learning_rate": 3.956521739130435e-05,
	"loss": 0.9959,
	"step": 91
	},
	{
	"epoch": 0.5020463847203275,
	"grad_norm": 2.1774944953837663,
	"learning_rate": 4e-05,
	"loss": 1.0178,
	"step": 92
	},
	{
	"epoch": 0.5075034106412005,
	"grad_norm": 1.8522257265922395,
	"learning_rate": 3.9999854286581316e-05,
	"loss": 0.9939,
	"step": 93
	},
	{
	"epoch": 0.5129604365620737,
	"grad_norm": 2.0976106058434145,
	"learning_rate": 3.999941714844849e-05,
	"loss": 0.9989,
	"step": 94
	},
	{
	"epoch": 0.5184174624829468,
	"grad_norm": 2.033288450566452,
	"learning_rate": 3.999868859197122e-05,
	"loss": 1.014,
	"step": 95
	},
	{
	"epoch": 0.5238744884038199,
	"grad_norm": 1.64201358795121,
	"learning_rate": 3.999766862776556e-05,
	"loss": 0.9962,
	"step": 96
	},
	{
	"epoch": 0.529331514324693,
	"grad_norm": 1.9801453443085917,
	"learning_rate": 3.999635727069373e-05,
	"loss": 0.9898,
	"step": 97
	},
	{
	"epoch": 0.5347885402455662,
	"grad_norm": 1.6558664282997086,
	"learning_rate": 3.9994754539863984e-05,
	"loss": 0.9937,
	"step": 98
	},
	{
	"epoch": 0.5402455661664393,
	"grad_norm": 1.702235161068369,
	"learning_rate": 3.999286045863026e-05,
	"loss": 0.9922,
	"step": 99
	},
	{
	"epoch": 0.5457025920873124,
	"grad_norm": 1.6798920660304613,
	"learning_rate": 3.999067505459185e-05,
	"loss": 0.9922,
	"step": 100
	},
	{
	"epoch": 0.5511596180081856,
	"grad_norm": 1.14927571951454,
	"learning_rate": 3.998819835959304e-05,
	"loss": 0.959,
	"step": 101
	},
	{
	"epoch": 0.5566166439290586,
	"grad_norm": 1.994460504643915,
	"learning_rate": 3.998543040972259e-05,
	"loss": 0.9896,
	"step": 102
	},
	{
	"epoch": 0.5620736698499318,
	"grad_norm": 2.225475662267806,
	"learning_rate": 3.998237124531324e-05,
	"loss": 0.9838,
	"step": 103
	},
	{
	"epoch": 0.567530695770805,
	"grad_norm": 0.9844824291875355,
	"learning_rate": 3.9979020910941135e-05,
	"loss": 0.9851,
	"step": 104
	},
	{
	"epoch": 0.572987721691678,
	"grad_norm": 2.4932772876759817,
	"learning_rate": 3.9975379455425126e-05,
	"loss": 0.9843,
	"step": 105
	},
	{
	"epoch": 0.5784447476125512,
	"grad_norm": 1.8029107577553645,
	"learning_rate": 3.9971446931826116e-05,
	"loss": 0.9991,
	"step": 106
	},
	{
	"epoch": 0.5839017735334243,
	"grad_norm": 2.290841965389965,
	"learning_rate": 3.996722339744625e-05,
	"loss": 1.0061,
	"step": 107
	},
	{
	"epoch": 0.5893587994542974,
	"grad_norm": 1.8729223351387532,
	"learning_rate": 3.9962708913828086e-05,
	"loss": 0.9968,
	"step": 108
	},
	{
	"epoch": 0.5948158253751705,
	"grad_norm": 2.1962460148515826,
	"learning_rate": 3.995790354675372e-05,
	"loss": 1.0082,
	"step": 109
	},
	{
	"epoch": 0.6002728512960437,
	"grad_norm": 1.9722134818162933,
	"learning_rate": 3.995280736624378e-05,
	"loss": 0.9975,
	"step": 110
	},
	{
	"epoch": 0.6057298772169167,
	"grad_norm": 2.0118864615891394,
	"learning_rate": 3.994742044655647e-05,
	"loss": 0.9889,
	"step": 111
	},
	{
	"epoch": 0.6111869031377899,
	"grad_norm": 2.090834428592416,
	"learning_rate": 3.994174286618643e-05,
	"loss": 1.0247,
	"step": 112
	},
	{
	"epoch": 0.616643929058663,
	"grad_norm": 1.5840918067308427,
	"learning_rate": 3.993577470786363e-05,
	"loss": 0.9859,
	"step": 113
	},
	{
	"epoch": 0.6221009549795361,
	"grad_norm": 1.4515746682829112,
	"learning_rate": 3.9929516058552143e-05,
	"loss": 0.9761,
	"step": 114
	},
	{
	"epoch": 0.6275579809004093,
	"grad_norm": 1.504559871894639,
	"learning_rate": 3.992296700944889e-05,
	"loss": 0.975,
	"step": 115
	},
	{
	"epoch": 0.6330150068212824,
	"grad_norm": 1.5927280628411824,
	"learning_rate": 3.99161276559823e-05,
	"loss": 0.9979,
	"step": 116
	},
	{
	"epoch": 0.6384720327421555,
	"grad_norm": 1.60127479724257,
	"learning_rate": 3.990899809781093e-05,
	"loss": 0.9743,
	"step": 117
	},
	{
	"epoch": 0.6439290586630286,
	"grad_norm": 1.991280239304608,
	"learning_rate": 3.990157843882202e-05,
	"loss": 0.981,
	"step": 118
	},
	{
	"epoch": 0.6493860845839018,
	"grad_norm": 1.1853516129644286,
	"learning_rate": 3.989386878712994e-05,
	"loss": 0.9767,
	"step": 119
	},
	{
	"epoch": 0.654843110504775,
	"grad_norm": 1.3174203496686017,
	"learning_rate": 3.9885869255074674e-05,
	"loss": 0.9904,
	"step": 120
	},
	{
	"epoch": 0.660300136425648,
	"grad_norm": 1.5305788456446745,
	"learning_rate": 3.987757995922014e-05,
	"loss": 0.9925,
	"step": 121
	},
	{
	"epoch": 0.6657571623465212,
	"grad_norm": 1.881540433498657,
	"learning_rate": 3.9869001020352484e-05,
	"loss": 1.0114,
	"step": 122
	},
	{
	"epoch": 0.6712141882673943,
	"grad_norm": 1.1981839977942124,
	"learning_rate": 3.9860132563478384e-05,
	"loss": 0.9883,
	"step": 123
	},
	{
	"epoch": 0.6766712141882674,
	"grad_norm": 2.0059502915759264,
	"learning_rate": 3.985097471782313e-05,
	"loss": 0.9939,
	"step": 124
	},
	{
	"epoch": 0.6821282401091405,
	"grad_norm": 1.4590850776551136,
	"learning_rate": 3.984152761682884e-05,
	"loss": 0.9831,
	"step": 125
	},
	{
	"epoch": 0.6875852660300137,
	"grad_norm": 1.1239926129461735,
	"learning_rate": 3.983179139815245e-05,
	"loss": 1.0005,
	"step": 126
	},
	{
	"epoch": 0.6930422919508867,
	"grad_norm": 2.1543984625500836,
	"learning_rate": 3.982176620366372e-05,
	"loss": 0.9639,
	"step": 127
	},
	{
	"epoch": 0.6984993178717599,
	"grad_norm": 1.8429479992055005,
	"learning_rate": 3.98114521794432e-05,
	"loss": 0.9941,
	"step": 128
	},
	{
	"epoch": 0.703956343792633,
	"grad_norm": 1.0868587312281466,
	"learning_rate": 3.9800849475780054e-05,
	"loss": 1.0049,
	"step": 129
	},
	{
	"epoch": 0.7094133697135061,
	"grad_norm": 2.118679896726006,
	"learning_rate": 3.97899582471699e-05,
	"loss": 0.9724,
	"step": 130
	},
	{
	"epoch": 0.7148703956343793,
	"grad_norm": 1.1508635163751133,
	"learning_rate": 3.977877865231256e-05,
	"loss": 0.9917,
	"step": 131
	},
	{
	"epoch": 0.7203274215552524,
	"grad_norm": 2.0430027109665905,
	"learning_rate": 3.976731085410974e-05,
	"loss": 0.9862,
	"step": 132
	},
	{
	"epoch": 0.7257844474761255,
	"grad_norm": 1.4515209852628121,
	"learning_rate": 3.975555501966263e-05,
	"loss": 0.9895,
	"step": 133
	},
	{
	"epoch": 0.7312414733969986,
	"grad_norm": 1.6287273596496654,
	"learning_rate": 3.974351132026952e-05,
	"loss": 0.9763,
	"step": 134
	},
	{
	"epoch": 0.7366984993178718,
	"grad_norm": 1.5473296478105147,
	"learning_rate": 3.973117993142327e-05,
	"loss": 0.9817,
	"step": 135
	},
	{
	"epoch": 0.7421555252387448,
	"grad_norm": 1.403531094420758,
	"learning_rate": 3.9718561032808774e-05,
	"loss": 0.9928,
	"step": 136
	},
	{
	"epoch": 0.747612551159618,
	"grad_norm": 1.2777940256720086,
	"learning_rate": 3.97056548083003e-05,
	"loss": 0.9654,
	"step": 137
	},
	{
	"epoch": 0.7530695770804912,
	"grad_norm": 2.2605652171854183,
	"learning_rate": 3.9692461445958876e-05,
	"loss": 0.98,
	"step": 138
	},
	{
	"epoch": 0.7585266030013642,
	"grad_norm": 1.5555447148375732,
	"learning_rate": 3.967898113802948e-05,
	"loss": 0.973,
	"step": 139
	},
	{
	"epoch": 0.7639836289222374,
	"grad_norm": 1.5712062419592667,
	"learning_rate": 3.9665214080938294e-05,
	"loss": 0.9837,
	"step": 140
	},
	{
	"epoch": 0.7694406548431105,
	"grad_norm": 1.87211562183804,
	"learning_rate": 3.9651160475289805e-05,
	"loss": 1.0069,
	"step": 141
	},
	{
	"epoch": 0.7748976807639836,
	"grad_norm": 1.684924662180551,
	"learning_rate": 3.963682052586392e-05,
	"loss": 0.9854,
	"step": 142
	},
	{
	"epoch": 0.7803547066848567,
	"grad_norm": 1.1116249825439455,
	"learning_rate": 3.962219444161294e-05,
	"loss": 0.9808,
	"step": 143
	},
	{
	"epoch": 0.7858117326057299,
	"grad_norm": 1.794929259692561,
	"learning_rate": 3.960728243565853e-05,
	"loss": 0.9826,
	"step": 144
	},
	{
	"epoch": 0.791268758526603,
	"grad_norm": 1.4024768691530294,
	"learning_rate": 3.959208472528863e-05,
	"loss": 0.97,
	"step": 145
	},
	{
	"epoch": 0.7967257844474761,
	"grad_norm": 1.5359858110261895,
	"learning_rate": 3.957660153195428e-05,
	"loss": 1.0029,
	"step": 146
	},
	{
	"epoch": 0.8021828103683493,
	"grad_norm": 1.8187808557656198,
	"learning_rate": 3.956083308126638e-05,
	"loss": 0.9576,
	"step": 147
	},
	{
	"epoch": 0.8076398362892224,
	"grad_norm": 1.4399907834108585,
	"learning_rate": 3.954477960299241e-05,
	"loss": 0.9612,
	"step": 148
	},
	{
	"epoch": 0.8130968622100955,
	"grad_norm": 1.1465593393044229,
	"learning_rate": 3.95284413310531e-05,
	"loss": 0.9936,
	"step": 149
	},
	{
	"epoch": 0.8185538881309686,
	"grad_norm": 1.458918663058527,
	"learning_rate": 3.9511818503518985e-05,
	"loss": 0.9813,
	"step": 150
	},
	{
	"epoch": 0.8240109140518418,
	"grad_norm": 2.6076181813742476,
	"learning_rate": 3.949491136260698e-05,
	"loss": 0.9798,
	"step": 151
	},
	{
	"epoch": 0.8294679399727148,
	"grad_norm": 1.0393193084437864,
	"learning_rate": 3.9477720154676806e-05,
	"loss": 0.9722,
	"step": 152
	},
	{
	"epoch": 0.834924965893588,
	"grad_norm": 3.9060717284201085,
	"learning_rate": 3.9460245130227435e-05,
	"loss": 0.9727,
	"step": 153
	},
	{
	"epoch": 0.8403819918144612,
	"grad_norm": 3.3082527760716767,
	"learning_rate": 3.9442486543893424e-05,
	"loss": 0.9794,
	"step": 154
	},
	{
	"epoch": 0.8458390177353342,
	"grad_norm": 2.4057404986106485,
	"learning_rate": 3.94244446544412e-05,
	"loss": 0.9837,
	"step": 155
	},
	{
	"epoch": 0.8512960436562074,
	"grad_norm": 1.8476216743035543,
	"learning_rate": 3.94061197247653e-05,
	"loss": 0.978,
	"step": 156
	},
	{
	"epoch": 0.8567530695770805,
	"grad_norm": 2.400979620356147,
	"learning_rate": 3.9387512021884555e-05,
	"loss": 0.981,
	"step": 157
	},
	{
	"epoch": 0.8622100954979536,
	"grad_norm": 2.1733630004298643,
	"learning_rate": 3.936862181693815e-05,
	"loss": 0.9776,
	"step": 158
	},
	{
	"epoch": 0.8676671214188267,
	"grad_norm": 1.8102603434505127,
	"learning_rate": 3.934944938518172e-05,
	"loss": 0.9937,
	"step": 159
	},
	{
	"epoch": 0.8731241473396999,
	"grad_norm": 2.0904632664136913,
	"learning_rate": 3.932999500598333e-05,
	"loss": 0.9577,
	"step": 160
	},
	{
	"epoch": 0.878581173260573,
	"grad_norm": 1.72487012815194,
	"learning_rate": 3.931025896281939e-05,
	"loss": 0.9885,
	"step": 161
	},
	{
	"epoch": 0.8840381991814461,
	"grad_norm": 1.859132027046651,
	"learning_rate": 3.929024154327052e-05,
	"loss": 0.9768,
	"step": 162
	},
	{
	"epoch": 0.8894952251023193,
	"grad_norm": 2.043990751240127,
	"learning_rate": 3.926994303901739e-05,
	"loss": 0.988,
	"step": 163
	},
	{
	"epoch": 0.8949522510231923,
	"grad_norm": 1.2949639926877792,
	"learning_rate": 3.9249363745836453e-05,
	"loss": 0.9803,
	"step": 164
	},
	{
	"epoch": 0.9004092769440655,
	"grad_norm": 1.95004872308144,
	"learning_rate": 3.922850396359562e-05,
	"loss": 0.9681,
	"step": 165
	},
	{
	"epoch": 0.9058663028649386,
	"grad_norm": 1.5438513810678176,
	"learning_rate": 3.92073639962499e-05,
	"loss": 0.9832,
	"step": 166
	},
	{
	"epoch": 0.9113233287858117,
	"grad_norm": 0.8915095612184046,
	"learning_rate": 3.9185944151837006e-05,
	"loss": 0.9933,
	"step": 167
	},
	{
	"epoch": 0.9167803547066848,
	"grad_norm": 1.7381086459322714,
	"learning_rate": 3.9164244742472795e-05,
	"loss": 0.9923,
	"step": 168
	},
	{
	"epoch": 0.922237380627558,
	"grad_norm": 1.5006202521018344,
	"learning_rate": 3.914226608434678e-05,
	"loss": 0.9803,
	"step": 169
	},
	{
	"epoch": 0.927694406548431,
	"grad_norm": 1.7809759035226784,
	"learning_rate": 3.912000849771751e-05,
	"loss": 0.9845,
	"step": 170
	},
	{
	"epoch": 0.9331514324693042,
	"grad_norm": 1.416880011606568,
	"learning_rate": 3.909747230690789e-05,
	"loss": 0.9813,
	"step": 171
	},
	{
	"epoch": 0.9386084583901774,
	"grad_norm": 1.2752605112134887,
	"learning_rate": 3.907465784030045e-05,
	"loss": 0.979,
	"step": 172
	},
	{
	"epoch": 0.9440654843110505,
	"grad_norm": 1.8931991472592369,
	"learning_rate": 3.90515654303326e-05,
	"loss": 0.9651,
	"step": 173
	},
	{
	"epoch": 0.9495225102319236,
	"grad_norm": 1.0457088342185985,
	"learning_rate": 3.902819541349171e-05,
	"loss": 0.9575,
	"step": 174
	},
	{
	"epoch": 0.9549795361527967,
	"grad_norm": 1.9658747343963177,
	"learning_rate": 3.900454813031032e-05,
	"loss": 0.9709,
	"step": 175
	},
	{
	"epoch": 0.9604365620736699,
	"grad_norm": 1.5573294008142207,
	"learning_rate": 3.898062392536106e-05,
	"loss": 0.9852,
	"step": 176
	},
	{
	"epoch": 0.965893587994543,
	"grad_norm": 1.7467537921928091,
	"learning_rate": 3.895642314725169e-05,
	"loss": 0.9671,
	"step": 177
	},
	{
	"epoch": 0.9713506139154161,
	"grad_norm": 1.6127230465883864,
	"learning_rate": 3.893194614862005e-05,
	"loss": 0.969,
	"step": 178
	},
	{
	"epoch": 0.9768076398362893,
	"grad_norm": 1.6603200328670693,
	"learning_rate": 3.890719328612882e-05,
	"loss": 0.9795,
	"step": 179
	},
	{
	"epoch": 0.9822646657571623,
	"grad_norm": 1.6320378665613324,
	"learning_rate": 3.888216492046045e-05,
	"loss": 0.9553,
	"step": 180
	},
	{
	"epoch": 0.9877216916780355,
	"grad_norm": 0.928699164443798,
	"learning_rate": 3.88568614163118e-05,
	"loss": 0.9844,
	"step": 181
	},
	{
	"epoch": 0.9931787175989086,
	"grad_norm": 1.2989789969103307,
	"learning_rate": 3.883128314238888e-05,
	"loss": 0.9633,
	"step": 182
	},
	{
	"epoch": 0.9986357435197817,
	"grad_norm": 1.5050415954099332,
	"learning_rate": 3.880543047140146e-05,
	"loss": 0.9832,
	"step": 183
	},
	{
	"epoch": 1.004092769440655,
	"grad_norm": 3.1493232961865725,
	"learning_rate": 3.877930378005766e-05,
	"loss": 1.6761,
	"step": 184
	},
	{
	"epoch": 1.009549795361528,
	"grad_norm": 1.045095816055446,
	"learning_rate": 3.8752903449058414e-05,
	"loss": 0.9363,
	"step": 185
	},
	{
	"epoch": 1.015006821282401,
	"grad_norm": 1.7070253819059258,
	"learning_rate": 3.872622986309198e-05,
	"loss": 0.9788,
	"step": 186
	},
	{
	"epoch": 1.0204638472032743,
	"grad_norm": 1.5326319060129026,
	"learning_rate": 3.8699283410828304e-05,
	"loss": 0.9738,
	"step": 187
	},
	{
	"epoch": 1.0259208731241474,
	"grad_norm": 1.1087556695241214,
	"learning_rate": 3.867206448491335e-05,
	"loss": 0.974,
	"step": 188
	},
	{
	"epoch": 1.0313778990450204,
	"grad_norm": 1.4845940458146507,
	"learning_rate": 3.8644573481963386e-05,
	"loss": 0.9676,
	"step": 189
	},
	{
	"epoch": 1.0368349249658937,
	"grad_norm": 1.4362719095357956,
	"learning_rate": 3.861681080255922e-05,
	"loss": 0.9382,
	"step": 190
	},
	{
	"epoch": 1.0422919508867667,
	"grad_norm": 1.4674385107699772,
	"learning_rate": 3.858877685124034e-05,
	"loss": 0.94,
	"step": 191
	},
	{
	"epoch": 1.0477489768076398,
	"grad_norm": 1.084446006406934,
	"learning_rate": 3.8560472036499044e-05,
	"loss": 0.9548,
	"step": 192
	},
	{
	"epoch": 1.053206002728513,
	"grad_norm": 1.7424024173389683,
	"learning_rate": 3.8531896770774454e-05,
	"loss": 0.966,
	"step": 193
	},
	{
	"epoch": 1.058663028649386,
	"grad_norm": 1.7927777941962322,
	"learning_rate": 3.8503051470446544e-05,
	"loss": 0.9371,
	"step": 194
	},
	{
	"epoch": 1.0641200545702592,
	"grad_norm": 0.8728719723252784,
	"learning_rate": 3.847393655583004e-05,
	"loss": 0.9778,
	"step": 195
	},
	{
	"epoch": 1.0695770804911324,
	"grad_norm": 1.5459212237514233,
	"learning_rate": 3.844455245116832e-05,
	"loss": 0.9714,
	"step": 196
	},
	{
	"epoch": 1.0750341064120055,
	"grad_norm": 1.723318009783005,
	"learning_rate": 3.8414899584627223e-05,
	"loss": 0.9483,
	"step": 197
	},
	{
	"epoch": 1.0804911323328785,
	"grad_norm": 1.6105441502277638,
	"learning_rate": 3.838497838828879e-05,
	"loss": 0.9529,
	"step": 198
	},
	{
	"epoch": 1.0859481582537518,
	"grad_norm": 1.235861043156412,
	"learning_rate": 3.835478929814502e-05,
	"loss": 0.9714,
	"step": 199
	},
	{
	"epoch": 1.0914051841746248,
	"grad_norm": 1.5553009472910362,
	"learning_rate": 3.8324332754091447e-05,
	"loss": 0.9499,
	"step": 200
	},
	{
	"epoch": 1.096862210095498,
	"grad_norm": 1.9631947357338404,
	"learning_rate": 3.82936091999208e-05,
	"loss": 0.9481,
	"step": 201
	},
	{
	"epoch": 1.1023192360163712,
	"grad_norm": 0.771286766088072,
	"learning_rate": 3.826261908331649e-05,
	"loss": 0.9528,
	"step": 202
	},
	{
	"epoch": 1.1077762619372442,
	"grad_norm": 1.8335561541725196,
	"learning_rate": 3.8231362855846105e-05,
	"loss": 0.9498,
	"step": 203
	},
	{
	"epoch": 1.1132332878581173,
	"grad_norm": 1.8424106742867963,
	"learning_rate": 3.8199840972954806e-05,
	"loss": 0.9476,
	"step": 204
	},
	{
	"epoch": 1.1186903137789905,
	"grad_norm": 0.7950788375956499,
	"learning_rate": 3.816805389395873e-05,
	"loss": 0.9422,
	"step": 205
	},
	{
	"epoch": 1.1241473396998636,
	"grad_norm": 1.6715342615720261,
	"learning_rate": 3.813600208203828e-05,
	"loss": 0.9652,
	"step": 206
	},
	{
	"epoch": 1.1296043656207366,
	"grad_norm": 1.0978850847460873,
	"learning_rate": 3.810368600423136e-05,
	"loss": 0.9578,
	"step": 207
	},
	{
	"epoch": 1.13506139154161,
	"grad_norm": 2.252408921193313,
	"learning_rate": 3.8071106131426586e-05,
	"loss": 0.9667,
	"step": 208
	},
	{
	"epoch": 1.140518417462483,
	"grad_norm": 1.1643241254847931,
	"learning_rate": 3.803826293835642e-05,
	"loss": 0.9514,
	"step": 209
	},
	{
	"epoch": 1.145975443383356,
	"grad_norm": 1.9506655247258313,
	"learning_rate": 3.8005156903590265e-05,
	"loss": 0.9436,
	"step": 210
	},
	{
	"epoch": 1.1514324693042293,
	"grad_norm": 1.6736581284768521,
	"learning_rate": 3.797178850952747e-05,
	"loss": 0.9563,
	"step": 211
	},
	{
	"epoch": 1.1568894952251023,
	"grad_norm": 1.698498967382254,
	"learning_rate": 3.79381582423903e-05,
	"loss": 0.96,
	"step": 212
	},
	{
	"epoch": 1.1623465211459754,
	"grad_norm": 1.4463473539957177,
	"learning_rate": 3.790426659221689e-05,
	"loss": 0.9583,
	"step": 213
	},
	{
	"epoch": 1.1678035470668486,
	"grad_norm": 1.996119225700199,
	"learning_rate": 3.7870114052854056e-05,
	"loss": 0.9686,
	"step": 214
	},
	{
	"epoch": 1.1732605729877217,
	"grad_norm": 1.2453858458138212,
	"learning_rate": 3.783570112195013e-05,
	"loss": 0.9476,
	"step": 215
	},
	{
	"epoch": 1.1787175989085947,
	"grad_norm": 1.9429791252993835,
	"learning_rate": 3.780102830094768e-05,
	"loss": 0.9633,
	"step": 216
	},
	{
	"epoch": 1.184174624829468,
	"grad_norm": 1.7144005781733527,
	"learning_rate": 3.7766096095076236e-05,
	"loss": 0.9452,
	"step": 217
	},
	{
	"epoch": 1.189631650750341,
	"grad_norm": 1.2919220781788054,
	"learning_rate": 3.7730905013344925e-05,
	"loss": 0.9505,
	"step": 218
	},
	{
	"epoch": 1.195088676671214,
	"grad_norm": 1.7283120463695893,
	"learning_rate": 3.7695455568535015e-05,
	"loss": 0.9583,
	"step": 219
	},
	{
	"epoch": 1.2005457025920874,
	"grad_norm": 1.2984823063070836,
	"learning_rate": 3.76597482771925e-05,
	"loss": 0.925,
	"step": 220
	},
	{
	"epoch": 1.2060027285129604,
	"grad_norm": 1.2101553255952835,
	"learning_rate": 3.7623783659620515e-05,
	"loss": 0.9671,
	"step": 221
	},
	{
	"epoch": 1.2114597544338335,
	"grad_norm": 1.9193420409227075,
	"learning_rate": 3.7587562239871804e-05,
	"loss": 0.9713,
	"step": 222
	},
	{
	"epoch": 1.2169167803547067,
	"grad_norm": 1.145139436855805,
	"learning_rate": 3.755108454574107e-05,
	"loss": 0.9688,
	"step": 223
	},
	{
	"epoch": 1.2223738062755798,
	"grad_norm": 2.3369999491203814,
	"learning_rate": 3.751435110875724e-05,
	"loss": 0.966,
	"step": 224
	},
	{
	"epoch": 1.2278308321964528,
	"grad_norm": 1.6283559400501786,
	"learning_rate": 3.7477362464175794e-05,
	"loss": 0.9629,
	"step": 225
	},
	{
	"epoch": 1.233287858117326,
	"grad_norm": 2.1896432971296447,
	"learning_rate": 3.7440119150970924e-05,
	"loss": 0.967,
	"step": 226
	},
	{
	"epoch": 1.2387448840381992,
	"grad_norm": 1.4314027126167852,
	"learning_rate": 3.7402621711827675e-05,
	"loss": 0.9391,
	"step": 227
	},
	{
	"epoch": 1.2442019099590724,
	"grad_norm": 2.448680005865948,
	"learning_rate": 3.7364870693134044e-05,
	"loss": 0.9791,
	"step": 228
	},
	{
	"epoch": 1.2496589358799455,
	"grad_norm": 1.988787930308905,
	"learning_rate": 3.732686664497304e-05,
	"loss": 0.9678,
	"step": 229
	},
	{
	"epoch": 1.2551159618008185,
	"grad_norm": 2.063824899367631,
	"learning_rate": 3.7288610121114634e-05,
	"loss": 0.9617,
	"step": 230
	},
	{
	"epoch": 1.2605729877216918,
	"grad_norm": 1.7243515110002714,
	"learning_rate": 3.725010167900772e-05,
	"loss": 0.9533,
	"step": 231
	},
	{
	"epoch": 1.2660300136425648,
	"grad_norm": 1.8647332677788166,
	"learning_rate": 3.721134187977197e-05,
	"loss": 0.9563,
	"step": 232
	},
	{
	"epoch": 1.271487039563438,
	"grad_norm": 1.636320006353433,
	"learning_rate": 3.7172331288189667e-05,
	"loss": 0.9568,
	"step": 233
	},
	{
	"epoch": 1.2769440654843112,
	"grad_norm": 1.7187722452357803,
	"learning_rate": 3.713307047269748e-05,
	"loss": 0.9538,
	"step": 234
	},
	{
	"epoch": 1.2824010914051842,
	"grad_norm": 1.5589845753526528,
	"learning_rate": 3.7093560005378175e-05,
	"loss": 0.9426,
	"step": 235
	},
	{
	"epoch": 1.2878581173260573,
	"grad_norm": 1.8373924763108647,
	"learning_rate": 3.705380046195228e-05,
	"loss": 0.9244,
	"step": 236
	},
	{
	"epoch": 1.2933151432469305,
	"grad_norm": 1.3882254378197982,
	"learning_rate": 3.701379242176969e-05,
	"loss": 0.9498,
	"step": 237
	},
	{
	"epoch": 1.2987721691678036,
	"grad_norm": 1.7021142374331253,
	"learning_rate": 3.697353646780124e-05,
	"loss": 0.9434,
	"step": 238
	},
	{
	"epoch": 1.3042291950886766,
	"grad_norm": 1.3543258636289206,
	"learning_rate": 3.693303318663019e-05,
	"loss": 0.9543,
	"step": 239
	},
	{
	"epoch": 1.30968622100955,
	"grad_norm": 1.6810213439521031,
	"learning_rate": 3.689228316844371e-05,
	"loss": 0.9462,
	"step": 240
	},
	{
	"epoch": 1.315143246930423,
	"grad_norm": 1.3377038870303093,
	"learning_rate": 3.685128700702423e-05,
	"loss": 0.9576,
	"step": 241
	},
	{
	"epoch": 1.320600272851296,
	"grad_norm": 1.5727626762086575,
	"learning_rate": 3.681004529974085e-05,
	"loss": 0.9583,
	"step": 242
	},
	{
	"epoch": 1.3260572987721693,
	"grad_norm": 1.2786793127927039,
	"learning_rate": 3.676855864754057e-05,
	"loss": 0.9357,
	"step": 243
	},
	{
	"epoch": 1.3315143246930423,
	"grad_norm": 1.648396462433026,
	"learning_rate": 3.67268276549396e-05,
	"loss": 0.9735,
	"step": 244
	},
	{
	"epoch": 1.3369713506139154,
	"grad_norm": 1.2216794004695668,
	"learning_rate": 3.668485293001448e-05,
	"loss": 0.9741,
	"step": 245
	},
	{
	"epoch": 1.3424283765347886,
	"grad_norm": 1.5971696430835944,
	"learning_rate": 3.664263508439329e-05,
	"loss": 0.9484,
	"step": 246
	},
	{
	"epoch": 1.3478854024556617,
	"grad_norm": 1.3024833094157782,
	"learning_rate": 3.660017473324669e-05,
	"loss": 0.9406,
	"step": 247
	},
	{
	"epoch": 1.3533424283765347,
	"grad_norm": 1.5316788751229022,
	"learning_rate": 3.655747249527897e-05,
	"loss": 0.9601,
	"step": 248
	},
	{
	"epoch": 1.358799454297408,
	"grad_norm": 1.5547319797496317,
	"learning_rate": 3.6514528992719044e-05,
	"loss": 0.9474,
	"step": 249
	},
	{
	"epoch": 1.364256480218281,
	"grad_norm": 1.206667830823351,
	"learning_rate": 3.6471344851311356e-05,
	"loss": 0.9502,
	"step": 250
	},
	{
	"epoch": 1.369713506139154,
	"grad_norm": 1.2600525155706597,
	"learning_rate": 3.64279207003068e-05,
	"loss": 0.9452,
	"step": 251
	},
	{
	"epoch": 1.3751705320600274,
	"grad_norm": 1.3484101306757132,
	"learning_rate": 3.638425717245353e-05,
	"loss": 0.9502,
	"step": 252
	},
	{
	"epoch": 1.3806275579809004,
	"grad_norm": 1.2235801669480915,
	"learning_rate": 3.634035490398774e-05,
	"loss": 0.9384,
	"step": 253
	},
	{
	"epoch": 1.3860845839017735,
	"grad_norm": 1.5485793543675035,
	"learning_rate": 3.629621453462438e-05,
	"loss": 0.959,
	"step": 254
	},
	{
	"epoch": 1.3915416098226467,
	"grad_norm": 1.4002101413586943,
	"learning_rate": 3.625183670754787e-05,
	"loss": 0.9472,
	"step": 255
	},
	{
	"epoch": 1.3969986357435198,
	"grad_norm": 0.9434127178746972,
	"learning_rate": 3.6207222069402696e-05,
	"loss": 0.9455,
	"step": 256
	},
	{
	"epoch": 1.4024556616643928,
	"grad_norm": 0.9858801112297753,
	"learning_rate": 3.6162371270284004e-05,
	"loss": 0.9436,
	"step": 257
	},
	{
	"epoch": 1.407912687585266,
	"grad_norm": 1.3469345939907027,
	"learning_rate": 3.611728496372813e-05,
	"loss": 0.9368,
	"step": 258
	},
	{
	"epoch": 1.4133697135061392,
	"grad_norm": 1.8149253369471827,
	"learning_rate": 3.6071963806703054e-05,
	"loss": 0.9427,
	"step": 259
	},
	{
	"epoch": 1.4188267394270122,
	"grad_norm": 0.7473132379864426,
	"learning_rate": 3.6026408459598844e-05,
	"loss": 0.9638,
	"step": 260
	},
	{
	"epoch": 1.4242837653478855,
	"grad_norm": 1.6128737568835454,
	"learning_rate": 3.598061958621804e-05,
	"loss": 0.9557,
	"step": 261
	},
	{
	"epoch": 1.4297407912687585,
	"grad_norm": 1.4020351576310623,
	"learning_rate": 3.593459785376597e-05,
	"loss": 0.9421,
	"step": 262
	},
	{
	"epoch": 1.4351978171896316,
	"grad_norm": 1.2945719219835932,
	"learning_rate": 3.5888343932841035e-05,
	"loss": 0.9532,
	"step": 263
	},
	{
	"epoch": 1.4406548431105048,
	"grad_norm": 1.2851599043172512,
	"learning_rate": 3.584185849742492e-05,
	"loss": 0.9307,
	"step": 264
	},
	{
	"epoch": 1.446111869031378,
	"grad_norm": 1.2427656903613609,
	"learning_rate": 3.579514222487281e-05,
	"loss": 0.9538,
	"step": 265
	},
	{
	"epoch": 1.451568894952251,
	"grad_norm": 1.2877332071545373,
	"learning_rate": 3.5748195795903474e-05,
	"loss": 0.9339,
	"step": 266
	},
	{
	"epoch": 1.4570259208731242,
	"grad_norm": 1.198006739181478,
	"learning_rate": 3.5701019894589376e-05,
	"loss": 0.9512,
	"step": 267
	},
	{
	"epoch": 1.4624829467939973,
	"grad_norm": 1.5795004337836194,
	"learning_rate": 3.565361520834671e-05,
	"loss": 0.9448,
	"step": 268
	},
	{
	"epoch": 1.4679399727148703,
	"grad_norm": 1.1556792865151078,
	"learning_rate": 3.5605982427925356e-05,
	"loss": 0.9332,
	"step": 269
	},
	{
	"epoch": 1.4733969986357436,
	"grad_norm": 0.5930547881100959,
	"learning_rate": 3.555812224739884e-05,
	"loss": 0.9613,
	"step": 270
	},
	{
	"epoch": 1.4788540245566166,
	"grad_norm": 1.4579608488740115,
	"learning_rate": 3.5510035364154236e-05,
	"loss": 0.957,
	"step": 271
	},
	{
	"epoch": 1.4843110504774897,
	"grad_norm": 0.9399997272018373,
	"learning_rate": 3.5461722478881935e-05,
	"loss": 0.9362,
	"step": 272
	},
	{
	"epoch": 1.489768076398363,
	"grad_norm": 1.181780640902133,
	"learning_rate": 3.541318429556552e-05,
	"loss": 0.9304,
	"step": 273
	},
	{
	"epoch": 1.495225102319236,
	"grad_norm": 2.438002638433228,
	"learning_rate": 3.5364421521471443e-05,
	"loss": 0.9539,
	"step": 274
	},
	{
	"epoch": 1.500682128240109,
	"grad_norm": 0.9264166142215685,
	"learning_rate": 3.531543486713877e-05,
	"loss": 0.9592,
	"step": 275
	},
	{
	"epoch": 1.5061391541609823,
	"grad_norm": 4.380791625672203,
	"learning_rate": 3.5266225046368765e-05,
	"loss": 0.9625,
	"step": 276
	},
	{
	"epoch": 1.5115961800818554,
	"grad_norm": 4.119745847530299,
	"learning_rate": 3.521679277621457e-05,
	"loss": 0.9811,
	"step": 277
	},
	{
	"epoch": 1.5170532060027284,
	"grad_norm": 1.3888384210153164,
	"learning_rate": 3.5167138776970686e-05,
	"loss": 0.9344,
	"step": 278
	},
	{
	"epoch": 1.5225102319236017,
	"grad_norm": 3.242363274569884,
	"learning_rate": 3.5117263772162515e-05,
	"loss": 0.9699,
	"step": 279
	},
	{
	"epoch": 1.5279672578444747,
	"grad_norm": 2.131900747816542,
	"learning_rate": 3.5067168488535794e-05,
	"loss": 0.9899,
	"step": 280
	},
	{
	"epoch": 1.5334242837653478,
	"grad_norm": 3.1589070088722515,
	"learning_rate": 3.501685365604604e-05,
	"loss": 0.9546,
	"step": 281
	},
	{
	"epoch": 1.538881309686221,
	"grad_norm": 2.6438273574397404,
	"learning_rate": 3.496632000784787e-05,
	"loss": 0.9694,
	"step": 282
	},
	{
	"epoch": 1.544338335607094,
	"grad_norm": 2.0669427502395594,
	"learning_rate": 3.4915568280284335e-05,
	"loss": 0.9452,
	"step": 283
	},
	{
	"epoch": 1.5497953615279672,
	"grad_norm": 2.1718089915480014,
	"learning_rate": 3.4864599212876234e-05,
	"loss": 0.9454,
	"step": 284
	},
	{
	"epoch": 1.5552523874488404,
	"grad_norm": 2.0439265869282193,
	"learning_rate": 3.481341354831125e-05,
	"loss": 0.9266,
	"step": 285
	},
	{
	"epoch": 1.5607094133697135,
	"grad_norm": 1.7375290887295285,
	"learning_rate": 3.476201203243322e-05,
	"loss": 0.9461,
	"step": 286
	},
	{
	"epoch": 1.5661664392905865,
	"grad_norm": 1.7370946125028597,
	"learning_rate": 3.4710395414231195e-05,
	"loss": 0.9657,
	"step": 287
	},
	{
	"epoch": 1.5716234652114598,
	"grad_norm": 1.403531131584409,
	"learning_rate": 3.465856444582856e-05,
	"loss": 0.9495,
	"step": 288
	},
	{
	"epoch": 1.5770804911323328,
	"grad_norm": 1.4819115235994536,
	"learning_rate": 3.460651988247208e-05,
	"loss": 0.9617,
	"step": 289
	},
	{
	"epoch": 1.5825375170532059,
	"grad_norm": 1.761856728208756,
	"learning_rate": 3.4554262482520875e-05,
	"loss": 0.921,
	"step": 290
	},
	{
	"epoch": 1.5879945429740792,
	"grad_norm": 1.0191878209582437,
	"learning_rate": 3.4501793007435394e-05,
	"loss": 0.9447,
	"step": 291
	},
	{
	"epoch": 1.5934515688949522,
	"grad_norm": 2.274348027783054,
	"learning_rate": 3.444911222176629e-05,
	"loss": 0.9497,
	"step": 292
	},
	{
	"epoch": 1.5989085948158253,
	"grad_norm": 1.5339383301336882,
	"learning_rate": 3.43962208931433e-05,
	"loss": 0.9669,
	"step": 293
	},
	{
	"epoch": 1.6043656207366985,
	"grad_norm": 2.550276251211631,
	"learning_rate": 3.434311979226406e-05,
	"loss": 0.956,
	"step": 294
	},
	{
	"epoch": 1.6098226466575716,
	"grad_norm": 1.7875909094899942,
	"learning_rate": 3.428980969288287e-05,
	"loss": 0.9495,
	"step": 295
	},
	{
	"epoch": 1.6152796725784446,
	"grad_norm": 2.823228050378481,
	"learning_rate": 3.42362913717994e-05,
	"loss": 0.9362,
	"step": 296
	},
	{
	"epoch": 1.620736698499318,
	"grad_norm": 2.4678216750780857,
	"learning_rate": 3.41825656088474e-05,
	"loss": 0.9386,
	"step": 297
	},
	{
	"epoch": 1.626193724420191,
	"grad_norm": 1.9114157924579258,
	"learning_rate": 3.4128633186883346e-05,
	"loss": 0.9576,
	"step": 298
	},
	{
	"epoch": 1.631650750341064,
	"grad_norm": 1.8379349077219813,
	"learning_rate": 3.407449489177499e-05,
	"loss": 0.9479,
	"step": 299
	},
	{
	"epoch": 1.6371077762619373,
	"grad_norm": 1.852909901213652,
	"learning_rate": 3.4020151512389924e-05,
	"loss": 0.9279,
	"step": 300
	},
	{
	"epoch": 1.6425648021828103,
	"grad_norm": 1.3420457124335345,
	"learning_rate": 3.396560384058413e-05,
	"loss": 0.9298,
	"step": 301
	},
	{
	"epoch": 1.6480218281036834,
	"grad_norm": 2.1617773929000172,
	"learning_rate": 3.391085267119037e-05,
	"loss": 0.9225,
	"step": 302
	},
	{
	"epoch": 1.6534788540245566,
	"grad_norm": 1.316355967958462,
	"learning_rate": 3.3855898802006644e-05,
	"loss": 0.9342,
	"step": 303
	},
	{
	"epoch": 1.65893587994543,
	"grad_norm": 2.453815979459407,
	"learning_rate": 3.380074303378458e-05,
	"loss": 0.9394,
	"step": 304
	},
	{
	"epoch": 1.6643929058663027,
	"grad_norm": 1.748815933891966,
	"learning_rate": 3.374538617021773e-05,
	"loss": 0.9315,
	"step": 305
	},
	{
	"epoch": 1.669849931787176,
	"grad_norm": 2.5597232277901973,
	"learning_rate": 3.3689829017929875e-05,
	"loss": 0.9573,
	"step": 306
	},
	{
	"epoch": 1.6753069577080493,
	"grad_norm": 2.368134432470627,
	"learning_rate": 3.363407238646327e-05,
	"loss": 0.9494,
	"step": 307
	},
	{
	"epoch": 1.680763983628922,
	"grad_norm": 1.724634315811694,
	"learning_rate": 3.357811708826686e-05,
	"loss": 0.9407,
	"step": 308
	},
	{
	"epoch": 1.6862210095497954,
	"grad_norm": 1.8226179705374004,
	"learning_rate": 3.352196393868442e-05,
	"loss": 0.9495,
	"step": 309
	},
	{
	"epoch": 1.6916780354706686,
	"grad_norm": 1.6945951192803632,
	"learning_rate": 3.34656137559427e-05,
	"loss": 0.9402,
	"step": 310
	},
	{
	"epoch": 1.6971350613915415,
	"grad_norm": 1.402641679011377,
	"learning_rate": 3.3409067361139464e-05,
	"loss": 0.9191,
	"step": 311
	},
	{
	"epoch": 1.7025920873124147,
	"grad_norm": 1.3467589645615918,
	"learning_rate": 3.3352325578231565e-05,
	"loss": 0.9636,
	"step": 312
	},
	{
	"epoch": 1.708049113233288,
	"grad_norm": 1.25752862289665,
	"learning_rate": 3.329538923402293e-05,
	"loss": 0.9554,
	"step": 313
	},
	{
	"epoch": 1.7135061391541608,
	"grad_norm": 0.986547181961436,
	"learning_rate": 3.323825915815248e-05,
	"loss": 0.9305,
	"step": 314
	},
	{
	"epoch": 1.718963165075034,
	"grad_norm": 1.4979513167093783,
	"learning_rate": 3.31809361830821e-05,
	"loss": 0.9567,
	"step": 315
	},
	{
	"epoch": 1.7244201909959074,
	"grad_norm": 0.7937925026119881,
	"learning_rate": 3.312342114408444e-05,
	"loss": 0.9458,
	"step": 316
	},
	{
	"epoch": 1.7298772169167802,
	"grad_norm": 1.8876612539551143,
	"learning_rate": 3.30657148792308e-05,
	"loss": 0.9649,
	"step": 317
	},
	{
	"epoch": 1.7353342428376535,
	"grad_norm": 1.226595551778844,
	"learning_rate": 3.3007818229378896e-05,
	"loss": 0.9643,
	"step": 318
	},
	{
	"epoch": 1.7407912687585267,
	"grad_norm": 2.213786521631912,
	"learning_rate": 3.29497320381606e-05,
	"loss": 0.9584,
	"step": 319
	},
	{
	"epoch": 1.7462482946793996,
	"grad_norm": 2.1570819482352235,
	"learning_rate": 3.2891457151969675e-05,
	"loss": 0.9531,
	"step": 320
	},
	{
	"epoch": 1.7517053206002728,
	"grad_norm": 1.4381280543608101,
	"learning_rate": 3.2832994419949393e-05,
	"loss": 0.9421,
	"step": 321
	},
	{
	"epoch": 1.7571623465211461,
	"grad_norm": 1.737184951842976,
	"learning_rate": 3.277434469398022e-05,
	"loss": 0.9416,
	"step": 322
	},
	{
	"epoch": 1.762619372442019,
	"grad_norm": 1.632657953412784,
	"learning_rate": 3.2715508828667366e-05,
	"loss": 0.9321,
	"step": 323
	},
	{
	"epoch": 1.7680763983628922,
	"grad_norm": 1.488744578094212,
	"learning_rate": 3.265648768132834e-05,
	"loss": 0.9365,
	"step": 324
	},
	{
	"epoch": 1.7735334242837655,
	"grad_norm": 1.6336003571844502,
	"learning_rate": 3.2597282111980444e-05,
	"loss": 0.9515,
	"step": 325
	},
	{
	"epoch": 1.7789904502046383,
	"grad_norm": 1.4154118064331849,
	"learning_rate": 3.253789298332828e-05,
	"loss": 0.9641,
	"step": 326
	},
	{
	"epoch": 1.7844474761255116,
	"grad_norm": 1.5366612747550772,
	"learning_rate": 3.2478321160751134e-05,
	"loss": 0.9456,
	"step": 327
	},
	{
	"epoch": 1.7899045020463848,
	"grad_norm": 1.3450928156923279,
	"learning_rate": 3.241856751229041e-05,
	"loss": 0.9486,
	"step": 328
	},
	{
	"epoch": 1.795361527967258,
	"grad_norm": 1.2765561802175178,
	"learning_rate": 3.2358632908636955e-05,
	"loss": 0.9567,
	"step": 329
	},
	{
	"epoch": 1.800818553888131,
	"grad_norm": 1.162610958798,
	"learning_rate": 3.229851822311834e-05,
	"loss": 0.9288,
	"step": 330
	},
	{
	"epoch": 1.8062755798090042,
	"grad_norm": 1.1625836925107373,
	"learning_rate": 3.223822433168623e-05,
	"loss": 0.9263,
	"step": 331
	},
	{
	"epoch": 1.8117326057298773,
	"grad_norm": 0.8071251992329053,
	"learning_rate": 3.217775211290351e-05,
	"loss": 0.9482,
	"step": 332
	},
	{
	"epoch": 1.8171896316507503,
	"grad_norm": 0.89790755928994,
	"learning_rate": 3.211710244793156e-05,
	"loss": 0.9173,
	"step": 333
	},
	{
	"epoch": 1.8226466575716236,
	"grad_norm": 0.8356390239967052,
	"learning_rate": 3.205627622051738e-05,
	"loss": 0.9504,
	"step": 334
	},
	{
	"epoch": 1.8281036834924966,
	"grad_norm": 0.6998885337784212,
	"learning_rate": 3.199527431698073e-05,
	"loss": 0.9459,
	"step": 335
	},
	{
	"epoch": 1.8335607094133697,
	"grad_norm": 0.8727569735519537,
	"learning_rate": 3.19340976262012e-05,
	"loss": 0.9435,
	"step": 336
	},
	{
	"epoch": 1.839017735334243,
	"grad_norm": 0.6362860972023866,
	"learning_rate": 3.187274703960526e-05,
	"loss": 0.9406,
	"step": 337
	},
	{
	"epoch": 1.844474761255116,
	"grad_norm": 0.8761738610839735,
	"learning_rate": 3.181122345115329e-05,
	"loss": 0.9353,
	"step": 338
	},
	{
	"epoch": 1.849931787175989,
	"grad_norm": 0.7208261657101167,
	"learning_rate": 3.174952775732651e-05,
	"loss": 0.9368,
	"step": 339
	},
	{
	"epoch": 1.8553888130968623,
	"grad_norm": 0.8342099154714143,
	"learning_rate": 3.1687660857114e-05,
	"loss": 0.9515,
	"step": 340
	},
	{
	"epoch": 1.8608458390177354,
	"grad_norm": 0.7588834066746923,
	"learning_rate": 3.1625623651999485e-05,
	"loss": 0.946,
	"step": 341
	},
	{
	"epoch": 1.8663028649386084,
	"grad_norm": 0.7261790084313842,
	"learning_rate": 3.1563417045948295e-05,
	"loss": 0.9332,
	"step": 342
	},
	{
	"epoch": 1.8717598908594817,
	"grad_norm": 0.5170313983982283,
	"learning_rate": 3.150104194539417e-05,
	"loss": 0.9305,
	"step": 343
	},
	{
	"epoch": 1.8772169167803547,
	"grad_norm": 0.7727261576998418,
	"learning_rate": 3.1438499259226e-05,
	"loss": 0.9437,
	"step": 344
	},
	{
	"epoch": 1.8826739427012278,
	"grad_norm": 1.0590324797396327,
	"learning_rate": 3.137578989877466e-05,
	"loss": 0.9496,
	"step": 345
	},
	{
	"epoch": 1.888130968622101,
	"grad_norm": 0.7511992016971163,
	"learning_rate": 3.131291477779968e-05,
	"loss": 0.9556,
	"step": 346
	},
	{
	"epoch": 1.893587994542974,
	"grad_norm": 1.081487500255035,
	"learning_rate": 3.124987481247594e-05,
	"loss": 0.9479,
	"step": 347
	},
	{
	"epoch": 1.8990450204638472,
	"grad_norm": 1.4968005117001788,
	"learning_rate": 3.118667092138033e-05,
	"loss": 0.9214,
	"step": 348
	},
	{
	"epoch": 1.9045020463847204,
	"grad_norm": 0.6464116981961434,
	"learning_rate": 3.112330402547834e-05,
	"loss": 0.9599,
	"step": 349
	},
	{
	"epoch": 1.9099590723055935,
	"grad_norm": 1.1571751705071633,
	"learning_rate": 3.10597750481107e-05,
	"loss": 0.9438,
	"step": 350
	},
	{
	"epoch": 1.9154160982264665,
	"grad_norm": 1.383173192553895,
	"learning_rate": 3.099608491497983e-05,
	"loss": 0.9369,
	"step": 351
	},
	{
	"epoch": 1.9208731241473398,
	"grad_norm": 1.0142077195831358,
	"learning_rate": 3.093223455413645e-05,
	"loss": 0.9181,
	"step": 352
	},
	{
	"epoch": 1.9263301500682128,
	"grad_norm": 1.146163334987763,
	"learning_rate": 3.0868224895965996e-05,
	"loss": 0.9396,
	"step": 353
	},
	{
	"epoch": 1.931787175989086,
	"grad_norm": 0.6987837846263671,
	"learning_rate": 3.080405687317507e-05,
	"loss": 0.9303,
	"step": 354
	},
	{
	"epoch": 1.9372442019099592,
	"grad_norm": 1.3380093833598752,
	"learning_rate": 3.073973142077788e-05,
	"loss": 0.9462,
	"step": 355
	},
	{
	"epoch": 1.9427012278308322,
	"grad_norm": 0.6049244168030435,
	"learning_rate": 3.067524947608258e-05,
	"loss": 0.9187,
	"step": 356
	},
	{
	"epoch": 1.9481582537517053,
	"grad_norm": 0.8098504286256158,
	"learning_rate": 3.061061197867763e-05,
	"loss": 0.9162,
	"step": 357
	},
	{
	"epoch": 1.9536152796725785,
	"grad_norm": 0.7357777980477844,
	"learning_rate": 3.05458198704181e-05,
	"loss": 0.9344,
	"step": 358
	},
	{
	"epoch": 1.9590723055934516,
	"grad_norm": 0.5713529931575109,
	"learning_rate": 3.0480874095411946e-05,
	"loss": 0.9515,
	"step": 359
	},
	{
	"epoch": 1.9645293315143246,
	"grad_norm": 0.8373330331353604,
	"learning_rate": 3.0415775600006267e-05,
	"loss": 0.9546,
	"step": 360
	},
	{
	"epoch": 1.969986357435198,
	"grad_norm": 0.6868147137493235,
	"learning_rate": 3.035052533277349e-05,
	"loss": 0.907,
	"step": 361
	},
	{
	"epoch": 1.975443383356071,
	"grad_norm": 0.47372940490854243,
	"learning_rate": 3.0285124244497576e-05,
	"loss": 0.9246,
	"step": 362
	},
	{
	"epoch": 1.980900409276944,
	"grad_norm": 0.6977343075907223,
	"learning_rate": 3.0219573288160128e-05,
	"loss": 0.9562,
	"step": 363
	},
	{
	"epoch": 1.9863574351978173,
	"grad_norm": 0.6563089786155916,
	"learning_rate": 3.0153873418926543e-05,
	"loss": 0.9344,
	"step": 364
	},
	{
	"epoch": 1.9918144611186903,
	"grad_norm": 0.7033335661318982,
	"learning_rate": 3.0088025594132086e-05,
	"loss": 0.9479,
	"step": 365
	},
	{
	"epoch": 1.9972714870395634,
	"grad_norm": 1.1633808323873716,
	"learning_rate": 3.0022030773267908e-05,
	"loss": 0.935,
	"step": 366
	},
	{
	"epoch": 2.0027285129604366,
	"grad_norm": 2.256649667221531,
	"learning_rate": 2.9955889917967114e-05,
	"loss": 1.6487,
	"step": 367
	},
	{
	"epoch": 2.00818553888131,
	"grad_norm": 0.9257803693615221,
	"learning_rate": 2.9889603991990718e-05,
	"loss": 0.9194,
	"step": 368
	},
	{
	"epoch": 2.0136425648021827,
	"grad_norm": 0.8374064842179173,
	"learning_rate": 2.9823173961213614e-05,
	"loss": 0.936,
	"step": 369
	},
	{
	"epoch": 2.019099590723056,
	"grad_norm": 0.6888393857507884,
	"learning_rate": 2.9756600793610477e-05,
	"loss": 0.9069,
	"step": 370
	},
	{
	"epoch": 2.0245566166439293,
	"grad_norm": 0.6078836940762362,
	"learning_rate": 2.9689885459241705e-05,
	"loss": 0.9181,
	"step": 371
	},
	{
	"epoch": 2.030013642564802,
	"grad_norm": 0.6540715623371649,
	"learning_rate": 2.9623028930239234e-05,
	"loss": 0.9365,
	"step": 372
	},
	{
	"epoch": 2.0354706684856754,
	"grad_norm": 0.6022481328295576,
	"learning_rate": 2.955603218079241e-05,
	"loss": 0.923,
	"step": 373
	},
	{
	"epoch": 2.0409276944065486,
	"grad_norm": 0.7165752848226464,
	"learning_rate": 2.9488896187133767e-05,
	"loss": 0.9181,
	"step": 374
	},
	{
	"epoch": 2.0463847203274215,
	"grad_norm": 0.8352826439816641,
	"learning_rate": 2.942162192752483e-05,
	"loss": 0.9236,
	"step": 375
	},
	{
	"epoch": 2.0518417462482947,
	"grad_norm": 1.124128627018019,
	"learning_rate": 2.935421038224182e-05,
	"loss": 0.919,
	"step": 376
	},
	{
	"epoch": 2.057298772169168,
	"grad_norm": 1.0339665065551706,
	"learning_rate": 2.9286662533561423e-05,
	"loss": 0.9367,
	"step": 377
	},
	{
	"epoch": 2.062755798090041,
	"grad_norm": 1.2298783039098067,
	"learning_rate": 2.9218979365746426e-05,
	"loss": 0.9456,
	"step": 378
	},
	{
	"epoch": 2.068212824010914,
	"grad_norm": 0.8183361526417724,
	"learning_rate": 2.9151161865031414e-05,
	"loss": 0.9444,
	"step": 379
	},
	{
	"epoch": 2.0736698499317874,
	"grad_norm": 0.484619834541414,
	"learning_rate": 2.908321101960837e-05,
	"loss": 0.9085,
	"step": 380
	},
	{
	"epoch": 2.07912687585266,
	"grad_norm": 0.3810542728807868,
	"learning_rate": 2.9015127819612292e-05,
	"loss": 0.8991,
	"step": 381
	},
	{
	"epoch": 2.0845839017735335,
	"grad_norm": 0.4925827663184475,
	"learning_rate": 2.894691325710677e-05,
	"loss": 0.9218,
	"step": 382
	},
	{
	"epoch": 2.0900409276944067,
	"grad_norm": 0.7465936328564935,
	"learning_rate": 2.8878568326069494e-05,
	"loss": 0.93,
	"step": 383
	},
	{
	"epoch": 2.0954979536152796,
	"grad_norm": 1.0199914288512335,
	"learning_rate": 2.8810094022377842e-05,
	"loss": 0.9388,
	"step": 384
	},
	{
	"epoch": 2.100954979536153,
	"grad_norm": 1.4039532764332685,
	"learning_rate": 2.8741491343794296e-05,
	"loss": 0.9205,
	"step": 385
	},
	{
	"epoch": 2.106412005457026,
	"grad_norm": 0.6570765199675046,
	"learning_rate": 2.867276128995193e-05,
	"loss": 0.9472,
	"step": 386
	},
	{
	"epoch": 2.111869031377899,
	"grad_norm": 0.47805545813863976,
	"learning_rate": 2.860390486233987e-05,
	"loss": 0.9213,
	"step": 387
	},
	{
	"epoch": 2.117326057298772,
	"grad_norm": 0.9100198379548127,
	"learning_rate": 2.8534923064288652e-05,
	"loss": 0.9185,
	"step": 388
	},
	{
	"epoch": 2.1227830832196455,
	"grad_norm": 1.359999448910369,
	"learning_rate": 2.8465816900955635e-05,
	"loss": 0.9103,
	"step": 389
	},
	{
	"epoch": 2.1282401091405183,
	"grad_norm": 0.7267473662850902,
	"learning_rate": 2.8396587379310366e-05,
	"loss": 0.9263,
	"step": 390
	},
	{
	"epoch": 2.1336971350613916,
	"grad_norm": 0.6852106225837414,
	"learning_rate": 2.8327235508119854e-05,
	"loss": 0.9056,
	"step": 391
	},
	{
	"epoch": 2.139154160982265,
	"grad_norm": 0.6935707651834161,
	"learning_rate": 2.8257762297933927e-05,
	"loss": 0.9279,
	"step": 392
	},
	{
	"epoch": 2.1446111869031377,
	"grad_norm": 0.8762210438590792,
	"learning_rate": 2.81881687610705e-05,
	"loss": 0.9069,
	"step": 393
	},
	{
	"epoch": 2.150068212824011,
	"grad_norm": 1.1906568951863223,
	"learning_rate": 2.8118455911600767e-05,
	"loss": 0.929,
	"step": 394
	},
	{
	"epoch": 2.155525238744884,
	"grad_norm": 0.980254177026494,
	"learning_rate": 2.8048624765334502e-05,
	"loss": 0.9323,
	"step": 395
	},
	{
	"epoch": 2.160982264665757,
	"grad_norm": 1.0373134164423028,
	"learning_rate": 2.7978676339805208e-05,
	"loss": 0.9208,
	"step": 396
	},
	{
	"epoch": 2.1664392905866303,
	"grad_norm": 1.0207154812500114,
	"learning_rate": 2.79086116542553e-05,
	"loss": 0.9096,
	"step": 397
	},
	{
	"epoch": 2.1718963165075036,
	"grad_norm": 1.1988463269854843,
	"learning_rate": 2.783843172962128e-05,
	"loss": 0.9402,
	"step": 398
	},
	{
	"epoch": 2.1773533424283764,
	"grad_norm": 0.7969790707530212,
	"learning_rate": 2.7768137588518807e-05,
	"loss": 0.908,
	"step": 399
	},
	{
	"epoch": 2.1828103683492497,
	"grad_norm": 0.4748645421435369,
	"learning_rate": 2.769773025522785e-05,
	"loss": 0.914,
	"step": 400
	},
	{
	"epoch": 2.188267394270123,
	"grad_norm": 0.45121822491331515,
	"learning_rate": 2.7627210755677733e-05,
	"loss": 0.9307,
	"step": 401
	},
	{
	"epoch": 2.193724420190996,
	"grad_norm": 0.8118676469523863,
	"learning_rate": 2.7556580117432185e-05,
	"loss": 0.9102,
	"step": 402
	},
	{
	"epoch": 2.199181446111869,
	"grad_norm": 1.1207703065447276,
	"learning_rate": 2.7485839369674384e-05,
	"loss": 0.9231,
	"step": 403
	},
	{
	"epoch": 2.2046384720327423,
	"grad_norm": 0.9740106870010401,
	"learning_rate": 2.7414989543191964e-05,
	"loss": 0.9087,
	"step": 404
	},
	{
	"epoch": 2.210095497953615,
	"grad_norm": 0.9634686443072049,
	"learning_rate": 2.734403167036195e-05,
	"loss": 0.9082,
	"step": 405
	},
	{
	"epoch": 2.2155525238744884,
	"grad_norm": 0.9832162277660468,
	"learning_rate": 2.727296678513577e-05,
	"loss": 0.9241,
	"step": 406
	},
	{
	"epoch": 2.2210095497953617,
	"grad_norm": 1.0746452821377297,
	"learning_rate": 2.720179592302417e-05,
	"loss": 0.9407,
	"step": 407
	},
	{
	"epoch": 2.2264665757162345,
	"grad_norm": 0.8835118585227068,
	"learning_rate": 2.71305201210821e-05,
	"loss": 0.906,
	"step": 408
	},
	{
	"epoch": 2.231923601637108,
	"grad_norm": 0.806040386235616,
	"learning_rate": 2.7059140417893645e-05,
	"loss": 0.9142,
	"step": 409
	},
	{
	"epoch": 2.237380627557981,
	"grad_norm": 0.7956258201623788,
	"learning_rate": 2.6987657853556864e-05,
	"loss": 0.8814,
	"step": 410
	},
	{
	"epoch": 2.242837653478854,
	"grad_norm": 0.7155012234587093,
	"learning_rate": 2.6916073469668633e-05,
	"loss": 0.9408,
	"step": 411
	},
	{
	"epoch": 2.248294679399727,
	"grad_norm": 0.745980798963711,
	"learning_rate": 2.6844388309309494e-05,
	"loss": 0.9334,
	"step": 412
	},
	{
	"epoch": 2.2537517053206004,
	"grad_norm": 0.8718383779341066,
	"learning_rate": 2.6772603417028408e-05,
	"loss": 0.9244,
	"step": 413
	},
	{
	"epoch": 2.2592087312414733,
	"grad_norm": 0.8697224939003284,
	"learning_rate": 2.6700719838827595e-05,
	"loss": 0.9132,
	"step": 414
	},
	{
	"epoch": 2.2646657571623465,
	"grad_norm": 0.7800957792385944,
	"learning_rate": 2.662873862214724e-05,
	"loss": 0.9253,
	"step": 415
	},
	{
	"epoch": 2.27012278308322,
	"grad_norm": 0.8009973379664055,
	"learning_rate": 2.655666081585027e-05,
	"loss": 0.9,
	"step": 416
	},
	{
	"epoch": 2.2755798090040926,
	"grad_norm": 0.8649005822972493,
	"learning_rate": 2.6484487470207035e-05,
	"loss": 0.9204,
	"step": 417
	},
	{
	"epoch": 2.281036834924966,
	"grad_norm": 0.8818657424466958,
	"learning_rate": 2.641221963688002e-05,
	"loss": 0.9155,
	"step": 418
	},
	{
	"epoch": 2.286493860845839,
	"grad_norm": 0.5647385759805507,
	"learning_rate": 2.633985836890854e-05,
	"loss": 0.9206,
	"step": 419
	},
	{
	"epoch": 2.291950886766712,
	"grad_norm": 0.5034679857244327,
	"learning_rate": 2.6267404720693375e-05,
	"loss": 0.9204,
	"step": 420
	},
	{
	"epoch": 2.2974079126875853,
	"grad_norm": 0.710256150433762,
	"learning_rate": 2.6194859747981385e-05,
	"loss": 0.9191,
	"step": 421
	},
	{
	"epoch": 2.3028649386084585,
	"grad_norm": 0.5706543763177601,
	"learning_rate": 2.6122224507850182e-05,
	"loss": 0.9185,
	"step": 422
	},
	{
	"epoch": 2.3083219645293314,
	"grad_norm": 0.6833880125599795,
	"learning_rate": 2.604950005869268e-05,
	"loss": 0.9213,
	"step": 423
	},
	{
	"epoch": 2.3137789904502046,
	"grad_norm": 0.8483843690019908,
	"learning_rate": 2.5976687460201683e-05,
	"loss": 0.9126,
	"step": 424
	},
	{
	"epoch": 2.319236016371078,
	"grad_norm": 0.8129051361925009,
	"learning_rate": 2.5903787773354463e-05,
	"loss": 0.9188,
	"step": 425
	},
	{
	"epoch": 2.3246930422919507,
	"grad_norm": 0.5996381128568273,
	"learning_rate": 2.583080206039728e-05,
	"loss": 0.9096,
	"step": 426
	},
	{
	"epoch": 2.330150068212824,
	"grad_norm": 0.41863958371356735,
	"learning_rate": 2.57577313848299e-05,
	"loss": 0.9432,
	"step": 427
	},
	{
	"epoch": 2.3356070941336973,
	"grad_norm": 0.34060059093315503,
	"learning_rate": 2.5684576811390125e-05,
	"loss": 0.9137,
	"step": 428
	},
	{
	"epoch": 2.34106412005457,
	"grad_norm": 0.5069480306429284,
	"learning_rate": 2.5611339406038257e-05,
	"loss": 0.9124,
	"step": 429
	},
	{
	"epoch": 2.3465211459754434,
	"grad_norm": 0.5427881229277935,
	"learning_rate": 2.5538020235941552e-05,
	"loss": 0.9166,
	"step": 430
	},
	{
	"epoch": 2.3519781718963166,
	"grad_norm": 0.543245106400598,
	"learning_rate": 2.5464620369458724e-05,
	"loss": 0.9197,
	"step": 431
	},
	{
	"epoch": 2.3574351978171895,
	"grad_norm": 0.5487542346479996,
	"learning_rate": 2.5391140876124305e-05,
	"loss": 0.9203,
	"step": 432
	},
	{
	"epoch": 2.3628922237380627,
	"grad_norm": 0.504474417772234,
	"learning_rate": 2.531758282663311e-05,
	"loss": 0.9139,
	"step": 433
	},
	{
	"epoch": 2.368349249658936,
	"grad_norm": 0.3570671212002871,
	"learning_rate": 2.524394729282464e-05,
	"loss": 0.9227,
	"step": 434
	},
	{
	"epoch": 2.373806275579809,
	"grad_norm": 0.33080967390463245,
	"learning_rate": 2.5170235347667425e-05,
	"loss": 0.9298,
	"step": 435
	},
	{
	"epoch": 2.379263301500682,
	"grad_norm": 0.2629370339698779,
	"learning_rate": 2.5096448065243415e-05,
	"loss": 0.9222,
	"step": 436
	},
	{
	"epoch": 2.3847203274215554,
	"grad_norm": 0.32467107495565267,
	"learning_rate": 2.5022586520732334e-05,
	"loss": 0.9092,
	"step": 437
	},
	{
	"epoch": 2.390177353342428,
	"grad_norm": 0.27556269692287366,
	"learning_rate": 2.494865179039599e-05,
	"loss": 0.8993,
	"step": 438
	},
	{
	"epoch": 2.3956343792633015,
	"grad_norm": 0.279539516282507,
	"learning_rate": 2.4874644951562618e-05,
	"loss": 0.9019,
	"step": 439
	},
	{
	"epoch": 2.4010914051841747,
	"grad_norm": 0.33354360728490134,
	"learning_rate": 2.4800567082611165e-05,
	"loss": 0.9152,
	"step": 440
	},
	{
	"epoch": 2.4065484311050476,
	"grad_norm": 0.33169175944263035,
	"learning_rate": 2.4726419262955595e-05,
	"loss": 0.9091,
	"step": 441
	},
	{
	"epoch": 2.412005457025921,
	"grad_norm": 0.3587055937970976,
	"learning_rate": 2.465220257302913e-05,
	"loss": 0.9202,
	"step": 442
	},
	{
	"epoch": 2.417462482946794,
	"grad_norm": 0.40441219606068757,
	"learning_rate": 2.4577918094268523e-05,
	"loss": 0.9226,
	"step": 443
	},
	{
	"epoch": 2.422919508867667,
	"grad_norm": 0.4865996215311924,
	"learning_rate": 2.4503566909098318e-05,
	"loss": 0.9093,
	"step": 444
	},
	{
	"epoch": 2.42837653478854,
	"grad_norm": 0.38008820904475854,
	"learning_rate": 2.4429150100915054e-05,
	"loss": 0.9322,
	"step": 445
	},
	{
	"epoch": 2.4338335607094135,
	"grad_norm": 0.41170329827458135,
	"learning_rate": 2.435466875407148e-05,
	"loss": 0.9324,
	"step": 446
	},
	{
	"epoch": 2.4392905866302863,
	"grad_norm": 0.3622800817675993,
	"learning_rate": 2.4280123953860767e-05,
	"loss": 0.9001,
	"step": 447
	},
	{
	"epoch": 2.4447476125511596,
	"grad_norm": 0.2682950261173189,
	"learning_rate": 2.4205516786500684e-05,
	"loss": 0.9314,
	"step": 448
	},
	{
	"epoch": 2.450204638472033,
	"grad_norm": 0.2805378098796358,
	"learning_rate": 2.4130848339117766e-05,
	"loss": 0.9341,
	"step": 449
	},
	{
	"epoch": 2.4556616643929057,
	"grad_norm": 0.26782126481321455,
	"learning_rate": 2.4056119699731495e-05,
	"loss": 0.9077,
	"step": 450
	},
	{
	"epoch": 2.461118690313779,
	"grad_norm": 0.37285051812558306,
	"learning_rate": 2.3981331957238414e-05,
	"loss": 0.9235,
	"step": 451
	},
	{
	"epoch": 2.466575716234652,
	"grad_norm": 0.3129713500376212,
	"learning_rate": 2.3906486201396287e-05,
	"loss": 0.9213,
	"step": 452
	},
	{
	"epoch": 2.472032742155525,
	"grad_norm": 0.36665287480858777,
	"learning_rate": 2.3831583522808224e-05,
	"loss": 0.917,
	"step": 453
	},
	{
	"epoch": 2.4774897680763983,
	"grad_norm": 0.3443704371520464,
	"learning_rate": 2.375662501290675e-05,
	"loss": 0.9189,
	"step": 454
	},
	{
	"epoch": 2.4829467939972716,
	"grad_norm": 0.31197899443616667,
	"learning_rate": 2.368161176393793e-05,
	"loss": 0.9127,
	"step": 455
	},
	{
	"epoch": 2.488403819918145,
	"grad_norm": 0.35012014939390956,
	"learning_rate": 2.360654486894548e-05,
	"loss": 0.9113,
	"step": 456
	},
	{
	"epoch": 2.4938608458390177,
	"grad_norm": 0.35258642719846595,
	"learning_rate": 2.3531425421754782e-05,
	"loss": 0.9137,
	"step": 457
	},
	{
	"epoch": 2.499317871759891,
	"grad_norm": 0.4818508820401416,
	"learning_rate": 2.3456254516956973e-05,
	"loss": 0.9322,
	"step": 458
	},
	{
	"epoch": 2.504774897680764,
	"grad_norm": 0.41831055845919374,
	"learning_rate": 2.3381033249893007e-05,
	"loss": 0.9358,
	"step": 459
	},
	{
	"epoch": 2.510231923601637,
	"grad_norm": 0.46003166070829415,
	"learning_rate": 2.3305762716637696e-05,
	"loss": 0.9134,
	"step": 460
	},
	{
	"epoch": 2.5156889495225103,
	"grad_norm": 0.34405667621405894,
	"learning_rate": 2.32304440139837e-05,
	"loss": 0.914,
	"step": 461
	},
	{
	"epoch": 2.5211459754433836,
	"grad_norm": 0.30837605247167627,
	"learning_rate": 2.315507823942559e-05,
	"loss": 0.8906,
	"step": 462
	},
	{
	"epoch": 2.5266030013642564,
	"grad_norm": 0.35159469224889583,
	"learning_rate": 2.3079666491143827e-05,
	"loss": 0.9291,
	"step": 463
	},
	{
	"epoch": 2.5320600272851297,
	"grad_norm": 0.3797916060475412,
	"learning_rate": 2.3004209867988783e-05,
	"loss": 0.9087,
	"step": 464
	},
	{
	"epoch": 2.5375170532060025,
	"grad_norm": 0.40916286067612617,
	"learning_rate": 2.2928709469464705e-05,
	"loss": 0.9158,
	"step": 465
	},
	{
	"epoch": 2.542974079126876,
	"grad_norm": 0.28077601639148303,
	"learning_rate": 2.2853166395713715e-05,
	"loss": 0.908,
	"step": 466
	},
	{
	"epoch": 2.548431105047749,
	"grad_norm": 0.30535476691189556,
	"learning_rate": 2.2777581747499767e-05,
	"loss": 0.9288,
	"step": 467
	},
	{
	"epoch": 2.5538881309686223,
	"grad_norm": 0.2741959984551279,
	"learning_rate": 2.2701956626192603e-05,
	"loss": 0.9123,
	"step": 468
	},
	{
	"epoch": 2.559345156889495,
	"grad_norm": 0.29160243799401836,
	"learning_rate": 2.262629213375173e-05,
	"loss": 0.9153,
	"step": 469
	},
	{
	"epoch": 2.5648021828103684,
	"grad_norm": 0.31211888825075323,
	"learning_rate": 2.255058937271032e-05,
	"loss": 0.9019,
	"step": 470
	},
	{
	"epoch": 2.5702592087312413,
	"grad_norm": 0.24605091808209184,
	"learning_rate": 2.2474849446159193e-05,
	"loss": 0.9041,
	"step": 471
	},
	{
	"epoch": 2.5757162346521145,
	"grad_norm": 0.296940058046894,
	"learning_rate": 2.2399073457730723e-05,
	"loss": 0.8933,
	"step": 472
	},
	{
	"epoch": 2.581173260572988,
	"grad_norm": 0.39017704428903854,
	"learning_rate": 2.2323262511582726e-05,
	"loss": 0.9219,
	"step": 473
	},
	{
	"epoch": 2.586630286493861,
	"grad_norm": 0.26845683489444067,
	"learning_rate": 2.2247417712382423e-05,
	"loss": 0.9072,
	"step": 474
	},
	{
	"epoch": 2.592087312414734,
	"grad_norm": 0.29710964002091833,
	"learning_rate": 2.217154016529031e-05,
	"loss": 0.9254,
	"step": 475
	},
	{
	"epoch": 2.597544338335607,
	"grad_norm": 0.2773002611218211,
	"learning_rate": 2.2095630975944068e-05,
	"loss": 0.9196,
	"step": 476
	},
	{
	"epoch": 2.60300136425648,
	"grad_norm": 0.27685282385866905,
	"learning_rate": 2.2019691250442442e-05,
	"loss": 0.9048,
	"step": 477
	},
	{
	"epoch": 2.6084583901773533,
	"grad_norm": 0.35014690047193237,
	"learning_rate": 2.1943722095329138e-05,
	"loss": 0.9113,
	"step": 478
	},
	{
	"epoch": 2.6139154160982265,
	"grad_norm": 0.2596786590850847,
	"learning_rate": 2.1867724617576685e-05,
	"loss": 0.9161,
	"step": 479
	},
	{
	"epoch": 2.6193724420191,
	"grad_norm": 0.3426543130719377,
	"learning_rate": 2.1791699924570313e-05,
	"loss": 0.8926,
	"step": 480
	},
	{
	"epoch": 2.6248294679399726,
	"grad_norm": 0.3078282469487072,
	"learning_rate": 2.1715649124091814e-05,
	"loss": 0.9183,
	"step": 481
	},
	{
	"epoch": 2.630286493860846,
	"grad_norm": 0.22901258390983542,
	"learning_rate": 2.16395733243034e-05,
	"loss": 0.9344,
	"step": 482
	},
	{
	"epoch": 2.6357435197817187,
	"grad_norm": 0.371108470895669,
	"learning_rate": 2.156347363373156e-05,
	"loss": 0.9192,
	"step": 483
	},
	{
	"epoch": 2.641200545702592,
	"grad_norm": 0.3675376564769477,
	"learning_rate": 2.14873511612509e-05,
	"loss": 0.914,
	"step": 484
	},
	{
	"epoch": 2.6466575716234653,
	"grad_norm": 0.47791366315200284,
	"learning_rate": 2.141120701606799e-05,
	"loss": 0.9078,
	"step": 485
	},
	{
	"epoch": 2.6521145975443385,
	"grad_norm": 0.4222978650582422,
	"learning_rate": 2.1335042307705206e-05,
	"loss": 0.9099,
	"step": 486
	},
	{
	"epoch": 2.6575716234652114,
	"grad_norm": 0.3556115683063452,
	"learning_rate": 2.125885814598454e-05,
	"loss": 0.9064,
	"step": 487
	},
	{
	"epoch": 2.6630286493860846,
	"grad_norm": 0.356222691019892,
	"learning_rate": 2.1182655641011468e-05,
	"loss": 0.9109,
	"step": 488
	},
	{
	"epoch": 2.6684856753069575,
	"grad_norm": 0.2950967727936582,
	"learning_rate": 2.1106435903158734e-05,
	"loss": 0.907,
	"step": 489
	},
	{
	"epoch": 2.6739427012278307,
	"grad_norm": 0.2589049008249365,
	"learning_rate": 2.10302000430502e-05,
	"loss": 0.9167,
	"step": 490
	},
	{
	"epoch": 2.679399727148704,
	"grad_norm": 0.2679428400644797,
	"learning_rate": 2.0953949171544646e-05,
	"loss": 0.9029,
	"step": 491
	},
	{
	"epoch": 2.6848567530695773,
	"grad_norm": 0.30000226534532,
	"learning_rate": 2.0877684399719596e-05,
	"loss": 0.902,
	"step": 492
	},
	{
	"epoch": 2.69031377899045,
	"grad_norm": 0.31357462517216056,
	"learning_rate": 2.0801406838855095e-05,
	"loss": 0.9151,
	"step": 493
	},
	{
	"epoch": 2.6957708049113234,
	"grad_norm": 0.2692910544239183,
	"learning_rate": 2.0725117600417572e-05,
	"loss": 0.9218,
	"step": 494
	},
	{
	"epoch": 2.701227830832196,
	"grad_norm": 0.30151763927530156,
	"learning_rate": 2.0648817796043598e-05,
	"loss": 0.9198,
	"step": 495
	},
	{
	"epoch": 2.7066848567530695,
	"grad_norm": 0.2758793028048215,
	"learning_rate": 2.0572508537523705e-05,
	"loss": 0.8979,
	"step": 496
	},
	{
	"epoch": 2.7121418826739427,
	"grad_norm": 0.2812105414991479,
	"learning_rate": 2.0496190936786196e-05,
	"loss": 0.9131,
	"step": 497
	},
	{
	"epoch": 2.717598908594816,
	"grad_norm": 0.2963610249601614,
	"learning_rate": 2.041986610588091e-05,
	"loss": 0.9377,
	"step": 498
	},
	{
	"epoch": 2.723055934515689,
	"grad_norm": 0.3097919911404899,
	"learning_rate": 2.0343535156963057e-05,
	"loss": 0.9262,
	"step": 499
	},
	{
	"epoch": 2.728512960436562,
	"grad_norm": 0.34847730033316476,
	"learning_rate": 2.026719920227699e-05,
	"loss": 0.8998,
	"step": 500
	},
	{
	"epoch": 2.733969986357435,
	"grad_norm": 0.30531935495612433,
	"learning_rate": 2.0190859354139994e-05,
	"loss": 0.9269,
	"step": 501
	},
	{
	"epoch": 2.739427012278308,
	"grad_norm": 0.2669945648424582,
	"learning_rate": 2.0114516724926103e-05,
	"loss": 0.9455,
	"step": 502
	},
	{
	"epoch": 2.7448840381991815,
	"grad_norm": 0.2785334692894501,
	"learning_rate": 2.0038172427049862e-05,
	"loss": 0.912,
	"step": 503
	},
	{
	"epoch": 2.7503410641200547,
	"grad_norm": 0.3445461005907961,
	"learning_rate": 1.9961827572950138e-05,
	"loss": 0.9163,
	"step": 504
	},
	{
	"epoch": 2.7557980900409276,
	"grad_norm": 0.39296279811877044,
	"learning_rate": 1.98854832750739e-05,
	"loss": 0.9369,
	"step": 505
	},
	{
	"epoch": 2.761255115961801,
	"grad_norm": 0.39702351389810686,
	"learning_rate": 1.9809140645860013e-05,
	"loss": 0.891,
	"step": 506
	},
	{
	"epoch": 2.7667121418826737,
	"grad_norm": 0.2512865215587987,
	"learning_rate": 1.9732800797723018e-05,
	"loss": 0.9115,
	"step": 507
	},
	{
	"epoch": 2.772169167803547,
	"grad_norm": 0.2820633130771331,
	"learning_rate": 1.965646484303695e-05,
	"loss": 0.9212,
	"step": 508
	},
	{
	"epoch": 2.77762619372442,
	"grad_norm": 0.32145777353057775,
	"learning_rate": 1.9580133894119098e-05,
	"loss": 0.9207,
	"step": 509
	},
	{
	"epoch": 2.7830832196452935,
	"grad_norm": 0.33762112618327617,
	"learning_rate": 1.9503809063213807e-05,
	"loss": 0.8845,
	"step": 510
	},
	{
	"epoch": 2.7885402455661663,
	"grad_norm": 0.24634508212661455,
	"learning_rate": 1.9427491462476295e-05,
	"loss": 0.9156,
	"step": 511
	},
	{
	"epoch": 2.7939972714870396,
	"grad_norm": 0.3457860742517539,
	"learning_rate": 1.9351182203956405e-05,
	"loss": 0.9106,
	"step": 512
	},
	{
	"epoch": 2.799454297407913,
	"grad_norm": 0.3810319883859794,
	"learning_rate": 1.927488239958243e-05,
	"loss": 0.8924,
	"step": 513
	},
	{
	"epoch": 2.8049113233287857,
	"grad_norm": 0.37285981835585597,
	"learning_rate": 1.919859316114491e-05,
	"loss": 0.906,
	"step": 514
	},
	{
	"epoch": 2.810368349249659,
	"grad_norm": 0.24108156149639062,
	"learning_rate": 1.9122315600280418e-05,
	"loss": 0.9175,
	"step": 515
	},
	{
	"epoch": 2.815825375170532,
	"grad_norm": 0.3943374958725155,
	"learning_rate": 1.904605082845536e-05,
	"loss": 0.9078,
	"step": 516
	},
	{
	"epoch": 2.821282401091405,
	"grad_norm": 0.3145717053046707,
	"learning_rate": 1.89697999569498e-05,
	"loss": 0.9135,
	"step": 517
	},
	{
	"epoch": 2.8267394270122783,
	"grad_norm": 0.22533549622277005,
	"learning_rate": 1.8893564096841273e-05,
	"loss": 0.909,
	"step": 518
	},
	{
	"epoch": 2.8321964529331516,
	"grad_norm": 0.23525731404627342,
	"learning_rate": 1.881734435898854e-05,
	"loss": 0.9299,
	"step": 519
	},
	{
	"epoch": 2.8376534788540244,
	"grad_norm": 0.2512060708918993,
	"learning_rate": 1.8741141854015468e-05,
	"loss": 0.8893,
	"step": 520
	},
	{
	"epoch": 2.8431105047748977,
	"grad_norm": 0.19994216173059465,
	"learning_rate": 1.8664957692294808e-05,
	"loss": 0.9221,
	"step": 521
	},
	{
	"epoch": 2.848567530695771,
	"grad_norm": 0.20556264949760783,
	"learning_rate": 1.858879298393202e-05,
	"loss": 0.9316,
	"step": 522
	},
	{
	"epoch": 2.854024556616644,
	"grad_norm": 0.20256542941627978,
	"learning_rate": 1.8512648838749105e-05,
	"loss": 0.9093,
	"step": 523
	},
	{
	"epoch": 2.859481582537517,
	"grad_norm": 0.22020875876934895,
	"learning_rate": 1.8436526366268444e-05,
	"loss": 0.9049,
	"step": 524
	},
	{
	"epoch": 2.8649386084583903,
	"grad_norm": 0.20768534379511697,
	"learning_rate": 1.8360426675696606e-05,
	"loss": 0.9144,
	"step": 525
	},
	{
	"epoch": 2.870395634379263,
	"grad_norm": 0.28896251352128466,
	"learning_rate": 1.828435087590819e-05,
	"loss": 0.9145,
	"step": 526
	},
	{
	"epoch": 2.8758526603001364,
	"grad_norm": 0.3131376106100284,
	"learning_rate": 1.8208300075429693e-05,
	"loss": 0.9308,
	"step": 527
	},
	{
	"epoch": 2.8813096862210097,
	"grad_norm": 0.24876481284966392,
	"learning_rate": 1.8132275382423325e-05,
	"loss": 0.9115,
	"step": 528
	},
	{
	"epoch": 2.8867667121418825,
	"grad_norm": 0.2530867014542135,
	"learning_rate": 1.8056277904670865e-05,
	"loss": 0.8851,
	"step": 529
	},
	{
	"epoch": 2.892223738062756,
	"grad_norm": 0.2592890449900578,
	"learning_rate": 1.798030874955756e-05,
	"loss": 0.9058,
	"step": 530
	},
	{
	"epoch": 2.897680763983629,
	"grad_norm": 0.22039748569474332,
	"learning_rate": 1.7904369024055942e-05,
	"loss": 0.9176,
	"step": 531
	},
	{
	"epoch": 2.903137789904502,
	"grad_norm": 0.2209833356939442,
	"learning_rate": 1.7828459834709694e-05,
	"loss": 0.917,
	"step": 532
	},
	{
	"epoch": 2.908594815825375,
	"grad_norm": 0.23766546854501655,
	"learning_rate": 1.7752582287617583e-05,
	"loss": 0.8989,
	"step": 533
	},
	{
	"epoch": 2.9140518417462484,
	"grad_norm": 0.2376537458371181,
	"learning_rate": 1.767673748841728e-05,
	"loss": 0.8946,
	"step": 534
	},
	{
	"epoch": 2.9195088676671213,
	"grad_norm": 0.262071528071461,
	"learning_rate": 1.7600926542269277e-05,
	"loss": 0.9231,
	"step": 535
	},
	{
	"epoch": 2.9249658935879945,
	"grad_norm": 0.29376545282596106,
	"learning_rate": 1.7525150553840806e-05,
	"loss": 0.8938,
	"step": 536
	},
	{
	"epoch": 2.930422919508868,
	"grad_norm": 0.3134884408737219,
	"learning_rate": 1.7449410627289687e-05,
	"loss": 0.9168,
	"step": 537
	},
	{
	"epoch": 2.9358799454297406,
	"grad_norm": 0.2712354478643755,
	"learning_rate": 1.7373707866248278e-05,
	"loss": 0.933,
	"step": 538
	},
	{
	"epoch": 2.941336971350614,
	"grad_norm": 0.24553201691764942,
	"learning_rate": 1.7298043373807404e-05,
	"loss": 0.9159,
	"step": 539
	},
	{
	"epoch": 2.946793997271487,
	"grad_norm": 0.3030078675065205,
	"learning_rate": 1.7222418252500243e-05,
	"loss": 0.9062,
	"step": 540
	},
	{
	"epoch": 2.9522510231923604,
	"grad_norm": 0.23890406347684276,
	"learning_rate": 1.7146833604286295e-05,
	"loss": 0.8945,
	"step": 541
	},
	{
	"epoch": 2.9577080491132333,
	"grad_norm": 0.2670091183635565,
	"learning_rate": 1.7071290530535298e-05,
	"loss": 0.909,
	"step": 542
	},
	{
	"epoch": 2.9631650750341065,
	"grad_norm": 0.23126297362235826,
	"learning_rate": 1.6995790132011223e-05,
	"loss": 0.9143,
	"step": 543
	},
	{
	"epoch": 2.9686221009549794,
	"grad_norm": 0.31050871509494943,
	"learning_rate": 1.6920333508856176e-05,
	"loss": 0.8994,
	"step": 544
	},
	{
	"epoch": 2.9740791268758526,
	"grad_norm": 0.22661046923902323,
	"learning_rate": 1.6844921760574417e-05,
	"loss": 0.9294,
	"step": 545
	},
	{
	"epoch": 2.979536152796726,
	"grad_norm": 0.3118001086032258,
	"learning_rate": 1.676955598601631e-05,
	"loss": 0.9041,
	"step": 546
	},
	{
	"epoch": 2.984993178717599,
	"grad_norm": 0.23665950368215852,
	"learning_rate": 1.6694237283362314e-05,
	"loss": 0.9038,
	"step": 547
	},
	{
	"epoch": 2.990450204638472,
	"grad_norm": 0.24492951232429386,
	"learning_rate": 1.6618966750106996e-05,
	"loss": 0.916,
	"step": 548
	},
	{
	"epoch": 2.9959072305593453,
	"grad_norm": 0.25300337782976023,
	"learning_rate": 1.6543745483043037e-05,
	"loss": 0.9083,
	"step": 549
	},
	{
	"epoch": 3.001364256480218,
	"grad_norm": 0.584103118759897,
	"learning_rate": 1.6468574578245225e-05,
	"loss": 1.6082,
	"step": 550
	},
	{
	"epoch": 3.0068212824010914,
	"grad_norm": 0.671101312579536,
	"learning_rate": 1.639345513105452e-05,
	"loss": 0.8859,
	"step": 551
	},
	{
	"epoch": 3.0122783083219646,
	"grad_norm": 0.3787017346934449,
	"learning_rate": 1.6318388236062072e-05,
	"loss": 0.8951,
	"step": 552
	},
	{
	"epoch": 3.0177353342428375,
	"grad_norm": 0.42606514302989157,
	"learning_rate": 1.624337498709326e-05,
	"loss": 0.8877,
	"step": 553
	},
	{
	"epoch": 3.0231923601637107,
	"grad_norm": 0.35542176787821733,
	"learning_rate": 1.616841647719178e-05,
	"loss": 0.8895,
	"step": 554
	},
	{
	"epoch": 3.028649386084584,
	"grad_norm": 0.35418748629561114,
	"learning_rate": 1.6093513798603713e-05,
	"loss": 0.8968,
	"step": 555
	},
	{
	"epoch": 3.034106412005457,
	"grad_norm": 0.4142394476010708,
	"learning_rate": 1.6018668042761593e-05,
	"loss": 0.8855,
	"step": 556
	},
	{
	"epoch": 3.03956343792633,
	"grad_norm": 0.26285840734342447,
	"learning_rate": 1.594388030026851e-05,
	"loss": 0.8685,
	"step": 557
	},
	{
	"epoch": 3.0450204638472034,
	"grad_norm": 0.3399484818274934,
	"learning_rate": 1.586915166088224e-05,
	"loss": 0.908,
	"step": 558
	},
	{
	"epoch": 3.050477489768076,
	"grad_norm": 0.3389204352265327,
	"learning_rate": 1.5794483213499326e-05,
	"loss": 0.8911,
	"step": 559
	},
	{
	"epoch": 3.0559345156889495,
	"grad_norm": 0.33188066961256374,
	"learning_rate": 1.5719876046139243e-05,
	"loss": 0.9147,
	"step": 560
	},
	{
	"epoch": 3.0613915416098227,
	"grad_norm": 0.3377610682449399,
	"learning_rate": 1.564533124592852e-05,
	"loss": 0.8949,
	"step": 561
	},
	{
	"epoch": 3.0668485675306956,
	"grad_norm": 0.2957318174966501,
	"learning_rate": 1.557084989908495e-05,
	"loss": 0.8986,
	"step": 562
	},
	{
	"epoch": 3.072305593451569,
	"grad_norm": 0.430673617485615,
	"learning_rate": 1.5496433090901685e-05,
	"loss": 0.8949,
	"step": 563
	},
	{
	"epoch": 3.077762619372442,
	"grad_norm": 0.2554433088355423,
	"learning_rate": 1.5422081905731484e-05,
	"loss": 0.8882,
	"step": 564
	},
	{
	"epoch": 3.083219645293315,
	"grad_norm": 0.32618011312611783,
	"learning_rate": 1.534779742697088e-05,
	"loss": 0.9174,
	"step": 565
	},
	{
	"epoch": 3.088676671214188,
	"grad_norm": 0.31352014509777587,
	"learning_rate": 1.5273580737044416e-05,
	"loss": 0.8918,
	"step": 566
	},
	{
	"epoch": 3.0941336971350615,
	"grad_norm": 0.2557790089027306,
	"learning_rate": 1.5199432917388835e-05,
	"loss": 0.9007,
	"step": 567
	},
	{
	"epoch": 3.0995907230559343,
	"grad_norm": 0.27540644472124487,
	"learning_rate": 1.5125355048437389e-05,
	"loss": 0.884,
	"step": 568
	},
	{
	"epoch": 3.1050477489768076,
	"grad_norm": 0.34235171994492863,
	"learning_rate": 1.5051348209604016e-05,
	"loss": 0.8686,
	"step": 569
	},
	{
	"epoch": 3.110504774897681,
	"grad_norm": 0.25008950788915946,
	"learning_rate": 1.4977413479267675e-05,
	"loss": 0.9026,
	"step": 570
	},
	{
	"epoch": 3.1159618008185537,
	"grad_norm": 0.3964129492366135,
	"learning_rate": 1.4903551934756592e-05,
	"loss": 0.8992,
	"step": 571
	},
	{
	"epoch": 3.121418826739427,
	"grad_norm": 0.40686134783523276,
	"learning_rate": 1.4829764652332585e-05,
	"loss": 0.9209,
	"step": 572
	},
	{
	"epoch": 3.1268758526603,
	"grad_norm": 0.2670447009105334,
	"learning_rate": 1.4756052707175361e-05,
	"loss": 0.9153,
	"step": 573
	},
	{
	"epoch": 3.132332878581173,
	"grad_norm": 0.4402126815582449,
	"learning_rate": 1.4682417173366892e-05,
	"loss": 0.907,
	"step": 574
	},
	{
	"epoch": 3.1377899045020463,
	"grad_norm": 0.23815050001596294,
	"learning_rate": 1.4608859123875703e-05,
	"loss": 0.9038,
	"step": 575
	},
	{
	"epoch": 3.1432469304229196,
	"grad_norm": 0.3030117101013267,
	"learning_rate": 1.4535379630541284e-05,
	"loss": 0.9065,
	"step": 576
	},
	{
	"epoch": 3.148703956343793,
	"grad_norm": 0.37381110214711166,
	"learning_rate": 1.4461979764058454e-05,
	"loss": 0.9096,
	"step": 577
	},
	{
	"epoch": 3.1541609822646657,
	"grad_norm": 0.24485627188888226,
	"learning_rate": 1.4388660593961756e-05,
	"loss": 0.8858,
	"step": 578
	},
	{
	"epoch": 3.159618008185539,
	"grad_norm": 0.25282112926237954,
	"learning_rate": 1.4315423188609878e-05,
	"loss": 0.8905,
	"step": 579
	},
	{
	"epoch": 3.1650750341064118,
	"grad_norm": 0.24907017187679334,
	"learning_rate": 1.4242268615170106e-05,
	"loss": 0.9068,
	"step": 580
	},
	{
	"epoch": 3.170532060027285,
	"grad_norm": 0.2129960819490356,
	"learning_rate": 1.4169197939602723e-05,
	"loss": 0.8912,
	"step": 581
	},
	{
	"epoch": 3.1759890859481583,
	"grad_norm": 0.24279078285844446,
	"learning_rate": 1.409621222664554e-05,
	"loss": 0.8838,
	"step": 582
	},
	{
	"epoch": 3.1814461118690316,
	"grad_norm": 0.23381673434042413,
	"learning_rate": 1.4023312539798322e-05,
	"loss": 0.8896,
	"step": 583
	},
	{
	"epoch": 3.1869031377899044,
	"grad_norm": 0.22227554143448716,
	"learning_rate": 1.3950499941307332e-05,
	"loss": 0.8826,
	"step": 584
	},
	{
	"epoch": 3.1923601637107777,
	"grad_norm": 0.22806009027283225,
	"learning_rate": 1.3877775492149828e-05,
	"loss": 0.899,
	"step": 585
	},
	{
	"epoch": 3.197817189631651,
	"grad_norm": 0.25047196400087585,
	"learning_rate": 1.3805140252018618e-05,
	"loss": 0.8954,
	"step": 586
	},
	{
	"epoch": 3.203274215552524,
	"grad_norm": 0.2118062936691214,
	"learning_rate": 1.373259527930663e-05,
	"loss": 0.8966,
	"step": 587
	},
	{
	"epoch": 3.208731241473397,
	"grad_norm": 0.2730005282503477,
	"learning_rate": 1.366014163109146e-05,
	"loss": 0.8795,
	"step": 588
	},
	{
	"epoch": 3.2141882673942703,
	"grad_norm": 0.29613230912460564,
	"learning_rate": 1.3587780363119986e-05,
	"loss": 0.8796,
	"step": 589
	},
	{
	"epoch": 3.219645293315143,
	"grad_norm": 0.23990776796738883,
	"learning_rate": 1.3515512529792978e-05,
	"loss": 0.9071,
	"step": 590
	},
	{
	"epoch": 3.2251023192360164,
	"grad_norm": 0.2538388076227864,
	"learning_rate": 1.3443339184149739e-05,
	"loss": 0.9036,
	"step": 591
	},
	{
	"epoch": 3.2305593451568897,
	"grad_norm": 0.24743496996389577,
	"learning_rate": 1.337126137785276e-05,
	"loss": 0.8861,
	"step": 592
	},
	{
	"epoch": 3.2360163710777625,
	"grad_norm": 0.20121450134982874,
	"learning_rate": 1.329928016117241e-05,
	"loss": 0.8939,
	"step": 593
	},
	{
	"epoch": 3.241473396998636,
	"grad_norm": 0.2869931420078408,
	"learning_rate": 1.3227396582971594e-05,
	"loss": 0.8906,
	"step": 594
	},
	{
	"epoch": 3.246930422919509,
	"grad_norm": 0.1908364191371087,
	"learning_rate": 1.3155611690690515e-05,
	"loss": 0.886,
	"step": 595
	},
	{
	"epoch": 3.252387448840382,
	"grad_norm": 0.3472699144561854,
	"learning_rate": 1.3083926530331372e-05,
	"loss": 0.9158,
	"step": 596
	},
	{
	"epoch": 3.257844474761255,
	"grad_norm": 0.22549962507966057,
	"learning_rate": 1.3012342146443144e-05,
	"loss": 0.8764,
	"step": 597
	},
	{
	"epoch": 3.2633015006821284,
	"grad_norm": 0.26789532061692434,
	"learning_rate": 1.2940859582106357e-05,
	"loss": 0.8841,
	"step": 598
	},
	{
	"epoch": 3.2687585266030013,
	"grad_norm": 0.2522357843484046,
	"learning_rate": 1.2869479878917904e-05,
	"loss": 0.8819,
	"step": 599
	},
	{
	"epoch": 3.2742155525238745,
	"grad_norm": 0.21493911054710754,
	"learning_rate": 1.2798204076975835e-05,
	"loss": 0.92,
	"step": 600
	},
	{
	"epoch": 3.279672578444748,
	"grad_norm": 0.2945646091669156,
	"learning_rate": 1.2727033214864233e-05,
	"loss": 0.8838,
	"step": 601
	},
	{
	"epoch": 3.2851296043656206,
	"grad_norm": 0.2829300287180026,
	"learning_rate": 1.265596832963806e-05,
	"loss": 0.8755,
	"step": 602
	},
	{
	"epoch": 3.290586630286494,
	"grad_norm": 0.2536303900570064,
	"learning_rate": 1.2585010456808046e-05,
	"loss": 0.8904,
	"step": 603
	},
	{
	"epoch": 3.296043656207367,
	"grad_norm": 0.3585519781803995,
	"learning_rate": 1.2514160630325617e-05,
	"loss": 0.8922,
	"step": 604
	},
	{
	"epoch": 3.30150068212824,
	"grad_norm": 0.2792945795336993,
	"learning_rate": 1.2443419882567821e-05,
	"loss": 0.8771,
	"step": 605
	},
	{
	"epoch": 3.3069577080491133,
	"grad_norm": 0.35260384633142106,
	"learning_rate": 1.2372789244322272e-05,
	"loss": 0.901,
	"step": 606
	},
	{
	"epoch": 3.3124147339699865,
	"grad_norm": 0.31364366488160306,
	"learning_rate": 1.2302269744772155e-05,
	"loss": 0.8818,
	"step": 607
	},
	{
	"epoch": 3.3178717598908594,
	"grad_norm": 0.23743622737062894,
	"learning_rate": 1.22318624114812e-05,
	"loss": 0.9072,
	"step": 608
	},
	{
	"epoch": 3.3233287858117326,
	"grad_norm": 0.3642214485244677,
	"learning_rate": 1.216156827037873e-05,
	"loss": 0.8833,
	"step": 609
	},
	{
	"epoch": 3.328785811732606,
	"grad_norm": 0.2925427624739931,
	"learning_rate": 1.2091388345744703e-05,
	"loss": 0.911,
	"step": 610
	},
	{
	"epoch": 3.3342428376534787,
	"grad_norm": 0.2377203948239386,
	"learning_rate": 1.2021323660194798e-05,
	"loss": 0.8965,
	"step": 611
	},
	{
	"epoch": 3.339699863574352,
	"grad_norm": 0.2706687731608815,
	"learning_rate": 1.1951375234665501e-05,
	"loss": 0.9036,
	"step": 612
	},
	{
	"epoch": 3.3451568894952253,
	"grad_norm": 0.2679343617436159,
	"learning_rate": 1.1881544088399237e-05,
	"loss": 0.8939,
	"step": 613
	},
	{
	"epoch": 3.350613915416098,
	"grad_norm": 0.22617857543228842,
	"learning_rate": 1.1811831238929508e-05,
	"loss": 0.9021,
	"step": 614
	},
	{
	"epoch": 3.3560709413369714,
	"grad_norm": 0.2904617911241792,
	"learning_rate": 1.1742237702066074e-05,
	"loss": 0.8863,
	"step": 615
	},
	{
	"epoch": 3.3615279672578446,
	"grad_norm": 0.22733511585309843,
	"learning_rate": 1.1672764491880153e-05,
	"loss": 0.9143,
	"step": 616
	},
	{
	"epoch": 3.3669849931787175,
	"grad_norm": 0.256013923198982,
	"learning_rate": 1.1603412620689637e-05,
	"loss": 0.899,
	"step": 617
	},
	{
	"epoch": 3.3724420190995907,
	"grad_norm": 0.25205210893149643,
	"learning_rate": 1.1534183099044363e-05,
	"loss": 0.8853,
	"step": 618
	},
	{
	"epoch": 3.377899045020464,
	"grad_norm": 0.23143271683735414,
	"learning_rate": 1.1465076935711355e-05,
	"loss": 0.8947,
	"step": 619
	},
	{
	"epoch": 3.383356070941337,
	"grad_norm": 0.22370756793978866,
	"learning_rate": 1.1396095137660134e-05,
	"loss": 0.8785,
	"step": 620
	},
	{
	"epoch": 3.38881309686221,
	"grad_norm": 0.21290283764682943,
	"learning_rate": 1.1327238710048075e-05,
	"loss": 0.9032,
	"step": 621
	},
	{
	"epoch": 3.3942701227830834,
	"grad_norm": 0.2685069204258351,
	"learning_rate": 1.1258508656205715e-05,
	"loss": 0.8941,
	"step": 622
	},
	{
	"epoch": 3.399727148703956,
	"grad_norm": 0.20912948755324795,
	"learning_rate": 1.118990597762216e-05,
	"loss": 0.8913,
	"step": 623
	},
	{
	"epoch": 3.4051841746248295,
	"grad_norm": 0.24827347077451523,
	"learning_rate": 1.1121431673930509e-05,
	"loss": 0.883,
	"step": 624
	},
	{
	"epoch": 3.4106412005457027,
	"grad_norm": 0.22274674891516377,
	"learning_rate": 1.1053086742893244e-05,
	"loss": 0.9017,
	"step": 625
	},
	{
	"epoch": 3.4160982264665756,
	"grad_norm": 0.23575151807168895,
	"learning_rate": 1.0984872180387715e-05,
	"loss": 0.8988,
	"step": 626
	},
	{
	"epoch": 3.421555252387449,
	"grad_norm": 0.21353314466163129,
	"learning_rate": 1.0916788980391633e-05,
	"loss": 0.9098,
	"step": 627
	},
	{
	"epoch": 3.427012278308322,
	"grad_norm": 0.22040517357317185,
	"learning_rate": 1.0848838134968589e-05,
	"loss": 0.884,
	"step": 628
	},
	{
	"epoch": 3.432469304229195,
	"grad_norm": 0.22910802159215685,
	"learning_rate": 1.0781020634253579e-05,
	"loss": 0.8833,
	"step": 629
	},
	{
	"epoch": 3.437926330150068,
	"grad_norm": 0.21849412085599912,
	"learning_rate": 1.0713337466438578e-05,
	"loss": 0.8839,
	"step": 630
	},
	{
	"epoch": 3.4433833560709415,
	"grad_norm": 0.21965410678288466,
	"learning_rate": 1.0645789617758181e-05,
	"loss": 0.9005,
	"step": 631
	},
	{
	"epoch": 3.4488403819918143,
	"grad_norm": 0.204035562242123,
	"learning_rate": 1.057837807247518e-05,
	"loss": 0.892,
	"step": 632
	},
	{
	"epoch": 3.4542974079126876,
	"grad_norm": 0.16983377384281073,
	"learning_rate": 1.0511103812866238e-05,
	"loss": 0.8812,
	"step": 633
	},
	{
	"epoch": 3.459754433833561,
	"grad_norm": 0.2042102923266645,
	"learning_rate": 1.0443967819207602e-05,
	"loss": 0.88,
	"step": 634
	},
	{
	"epoch": 3.4652114597544337,
	"grad_norm": 0.18518985041839892,
	"learning_rate": 1.0376971069760774e-05,
	"loss": 0.9172,
	"step": 635
	},
	{
	"epoch": 3.470668485675307,
	"grad_norm": 0.19653140995159937,
	"learning_rate": 1.0310114540758298e-05,
	"loss": 0.895,
	"step": 636
	},
	{
	"epoch": 3.47612551159618,
	"grad_norm": 0.22830479434165665,
	"learning_rate": 1.0243399206389527e-05,
	"loss": 0.9044,
	"step": 637
	},
	{
	"epoch": 3.481582537517053,
	"grad_norm": 0.19206764620071587,
	"learning_rate": 1.0176826038786394e-05,
	"loss": 0.8818,
	"step": 638
	},
	{
	"epoch": 3.4870395634379263,
	"grad_norm": 0.21389623128712906,
	"learning_rate": 1.011039600800928e-05,
	"loss": 0.8956,
	"step": 639
	},
	{
	"epoch": 3.4924965893587996,
	"grad_norm": 0.21993143291851755,
	"learning_rate": 1.004411008203289e-05,
	"loss": 0.8927,
	"step": 640
	},
	{
	"epoch": 3.4979536152796724,
	"grad_norm": 0.1894006892821513,
	"learning_rate": 9.977969226732099e-06,
	"loss": 0.8771,
	"step": 641
	},
	{
	"epoch": 3.5034106412005457,
	"grad_norm": 0.19959640202420684,
	"learning_rate": 9.911974405867917e-06,
	"loss": 0.8912,
	"step": 642
	},
	{
	"epoch": 3.508867667121419,
	"grad_norm": 0.14759174219062646,
	"learning_rate": 9.846126581073457e-06,
	"loss": 0.8992,
	"step": 643
	},
	{
	"epoch": 3.5143246930422922,
	"grad_norm": 0.20035668476318763,
	"learning_rate": 9.780426711839877e-06,
	"loss": 0.9006,
	"step": 644
	},
	{
	"epoch": 3.519781718963165,
	"grad_norm": 0.16797091670116737,
	"learning_rate": 9.714875755502429e-06,
	"loss": 0.8873,
	"step": 645
	},
	{
	"epoch": 3.5252387448840383,
	"grad_norm": 0.189909496119316,
	"learning_rate": 9.649474667226513e-06,
	"loss": 0.9186,
	"step": 646
	},
	{
	"epoch": 3.530695770804911,
	"grad_norm": 0.1662855707845877,
	"learning_rate": 9.58422439999374e-06,
	"loss": 0.9061,
	"step": 647
	},
	{
	"epoch": 3.5361527967257844,
	"grad_norm": 0.1877435970889167,
	"learning_rate": 9.519125904588059e-06,
	"loss": 0.9124,
	"step": 648
	},
	{
	"epoch": 3.5416098226466577,
	"grad_norm": 0.18966972578830213,
	"learning_rate": 9.45418012958191e-06,
	"loss": 0.9002,
	"step": 649
	},
	{
	"epoch": 3.547066848567531,
	"grad_norm": 0.18521500133290328,
	"learning_rate": 9.389388021322381e-06,
	"loss": 0.8921,
	"step": 650
	},
	{
	"epoch": 3.552523874488404,
	"grad_norm": 0.20655179032846327,
	"learning_rate": 9.32475052391742e-06,
	"loss": 0.8975,
	"step": 651
	},
	{
	"epoch": 3.557980900409277,
	"grad_norm": 0.1819692294620117,
	"learning_rate": 9.26026857922212e-06,
	"loss": 0.9082,
	"step": 652
	},
	{
	"epoch": 3.56343792633015,
	"grad_norm": 0.18675168504713038,
	"learning_rate": 9.19594312682493e-06,
	"loss": 0.9045,
	"step": 653
	},
	{
	"epoch": 3.568894952251023,
	"grad_norm": 0.16349611233292402,
	"learning_rate": 9.131775104034009e-06,
	"loss": 0.8907,
	"step": 654
	},
	{
	"epoch": 3.5743519781718964,
	"grad_norm": 0.17657868890026518,
	"learning_rate": 9.067765445863545e-06,
	"loss": 0.8777,
	"step": 655
	},
	{
	"epoch": 3.5798090040927697,
	"grad_norm": 0.1520862113066698,
	"learning_rate": 9.00391508502017e-06,
	"loss": 0.8761,
	"step": 656
	},
	{
	"epoch": 3.5852660300136425,
	"grad_norm": 0.16877815138189672,
	"learning_rate": 8.940224951889304e-06,
	"loss": 0.869,
	"step": 657
	},
	{
	"epoch": 3.590723055934516,
	"grad_norm": 0.16925000281087574,
	"learning_rate": 8.876695974521659e-06,
	"loss": 0.9011,
	"step": 658
	},
	{
	"epoch": 3.5961800818553886,
	"grad_norm": 0.16759697258423073,
	"learning_rate": 8.813329078619679e-06,
	"loss": 0.9045,
	"step": 659
	},
	{
	"epoch": 3.601637107776262,
	"grad_norm": 0.1896922083229097,
	"learning_rate": 8.750125187524068e-06,
	"loss": 0.86,
	"step": 660
	},
	{
	"epoch": 3.607094133697135,
	"grad_norm": 0.17884520359215278,
	"learning_rate": 8.687085222200323e-06,
	"loss": 0.9095,
	"step": 661
	},
	{
	"epoch": 3.6125511596180084,
	"grad_norm": 0.176877762158684,
	"learning_rate": 8.624210101225343e-06,
	"loss": 0.8985,
	"step": 662
	},
	{
	"epoch": 3.6180081855388813,
	"grad_norm": 0.2002369650449839,
	"learning_rate": 8.561500740774008e-06,
	"loss": 0.8929,
	"step": 663
	},
	{
	"epoch": 3.6234652114597545,
	"grad_norm": 0.17592875629565122,
	"learning_rate": 8.498958054605837e-06,
	"loss": 0.8778,
	"step": 664
	},
	{
	"epoch": 3.6289222373806274,
	"grad_norm": 0.21757591177018767,
	"learning_rate": 8.436582954051707e-06,
	"loss": 0.9046,
	"step": 665
	},
	{
	"epoch": 3.6343792633015006,
	"grad_norm": 0.16964570321715836,
	"learning_rate": 8.374376348000523e-06,
	"loss": 0.8766,
	"step": 666
	},
	{
	"epoch": 3.639836289222374,
	"grad_norm": 0.20816910485872794,
	"learning_rate": 8.312339142886003e-06,
	"loss": 0.8948,
	"step": 667
	},
	{
	"epoch": 3.645293315143247,
	"grad_norm": 0.21318859663355175,
	"learning_rate": 8.250472242673486e-06,
	"loss": 0.9035,
	"step": 668
	},
	{
	"epoch": 3.65075034106412,
	"grad_norm": 0.17223582052559827,
	"learning_rate": 8.188776548846717e-06,
	"loss": 0.8914,
	"step": 669
	},
	{
	"epoch": 3.6562073669849933,
	"grad_norm": 0.20492759686497783,
	"learning_rate": 8.127252960394744e-06,
	"loss": 0.8871,
	"step": 670
	},
	{
	"epoch": 3.661664392905866,
	"grad_norm": 0.17660213480793235,
	"learning_rate": 8.065902373798808e-06,
	"loss": 0.8658,
	"step": 671
	},
	{
	"epoch": 3.6671214188267394,
	"grad_norm": 0.18013543727863568,
	"learning_rate": 8.004725683019276e-06,
	"loss": 0.9016,
	"step": 672
	},
	{
	"epoch": 3.6725784447476126,
	"grad_norm": 0.1844280666804985,
	"learning_rate": 7.943723779482628e-06,
	"loss": 0.9034,
	"step": 673
	},
	{
	"epoch": 3.678035470668486,
	"grad_norm": 0.14933482527632957,
	"learning_rate": 7.882897552068447e-06,
	"loss": 0.9044,
	"step": 674
	},
	{
	"epoch": 3.6834924965893587,
	"grad_norm": 0.180577120421336,
	"learning_rate": 7.822247887096499e-06,
	"loss": 0.8987,
	"step": 675
	},
	{
	"epoch": 3.688949522510232,
	"grad_norm": 0.18976867015358279,
	"learning_rate": 7.761775668313775e-06,
	"loss": 0.9055,
	"step": 676
	},
	{
	"epoch": 3.694406548431105,
	"grad_norm": 0.14380655448071636,
	"learning_rate": 7.70148177688166e-06,
	"loss": 0.8819,
	"step": 677
	},
	{
	"epoch": 3.699863574351978,
	"grad_norm": 0.1605511243289739,
	"learning_rate": 7.641367091363056e-06,
	"loss": 0.8765,
	"step": 678
	},
	{
	"epoch": 3.7053206002728514,
	"grad_norm": 0.16966229691015783,
	"learning_rate": 7.581432487709595e-06,
	"loss": 0.8956,
	"step": 679
	},
	{
	"epoch": 3.7107776261937246,
	"grad_norm": 0.15825612639259118,
	"learning_rate": 7.521678839248867e-06,
	"loss": 0.8757,
	"step": 680
	},
	{
	"epoch": 3.7162346521145975,
	"grad_norm": 0.15905765650755102,
	"learning_rate": 7.462107016671727e-06,
	"loss": 0.9021,
	"step": 681
	},
	{
	"epoch": 3.7216916780354707,
	"grad_norm": 0.1678589543544254,
	"learning_rate": 7.402717888019561e-06,
	"loss": 0.9037,
	"step": 682
	},
	{
	"epoch": 3.7271487039563436,
	"grad_norm": 0.16250907925377683,
	"learning_rate": 7.343512318671668e-06,
	"loss": 0.8996,
	"step": 683
	},
	{
	"epoch": 3.732605729877217,
	"grad_norm": 0.1796362073897607,
	"learning_rate": 7.284491171332637e-06,
	"loss": 0.9044,
	"step": 684
	},
	{
	"epoch": 3.73806275579809,
	"grad_norm": 0.15668011051829173,
	"learning_rate": 7.225655306019783e-06,
	"loss": 0.888,
	"step": 685
	},
	{
	"epoch": 3.7435197817189634,
	"grad_norm": 0.1668930240876366,
	"learning_rate": 7.167005580050608e-06,
	"loss": 0.9017,
	"step": 686
	},
	{
	"epoch": 3.748976807639836,
	"grad_norm": 0.18870659107182658,
	"learning_rate": 7.108542848030333e-06,
	"loss": 0.8767,
	"step": 687
	},
	{
	"epoch": 3.7544338335607095,
	"grad_norm": 0.15696986217820777,
	"learning_rate": 7.050267961839407e-06,
	"loss": 0.8909,
	"step": 688
	},
	{
	"epoch": 3.7598908594815823,
	"grad_norm": 0.18431028719776638,
	"learning_rate": 6.992181770621109e-06,
	"loss": 0.8868,
	"step": 689
	},
	{
	"epoch": 3.7653478854024556,
	"grad_norm": 0.16154837397895874,
	"learning_rate": 6.934285120769206e-06,
	"loss": 0.8994,
	"step": 690
	},
	{
	"epoch": 3.770804911323329,
	"grad_norm": 0.1608522865427035,
	"learning_rate": 6.87657885591557e-06,
	"loss": 0.9054,
	"step": 691
	},
	{
	"epoch": 3.776261937244202,
	"grad_norm": 0.17546410153871858,
	"learning_rate": 6.819063816917904e-06,
	"loss": 0.8771,
	"step": 692
	},
	{
	"epoch": 3.781718963165075,
	"grad_norm": 0.17779343503619688,
	"learning_rate": 6.761740841847517e-06,
	"loss": 0.8828,
	"step": 693
	},
	{
	"epoch": 3.787175989085948,
	"grad_norm": 0.1620894791729856,
	"learning_rate": 6.704610765977073e-06,
	"loss": 0.8896,
	"step": 694
	},
	{
	"epoch": 3.792633015006821,
	"grad_norm": 0.16551990476440234,
	"learning_rate": 6.647674421768435e-06,
	"loss": 0.8885,
	"step": 695
	},
	{
	"epoch": 3.7980900409276943,
	"grad_norm": 0.17247511398164073,
	"learning_rate": 6.590932638860543e-06,
	"loss": 0.9229,
	"step": 696
	},
	{
	"epoch": 3.8035470668485676,
	"grad_norm": 0.17229017961388754,
	"learning_rate": 6.5343862440573095e-06,
	"loss": 0.8809,
	"step": 697
	},
	{
	"epoch": 3.809004092769441,
	"grad_norm": 0.15732362181652573,
	"learning_rate": 6.478036061315587e-06,
	"loss": 0.903,
	"step": 698
	},
	{
	"epoch": 3.8144611186903137,
	"grad_norm": 0.14793725507686076,
	"learning_rate": 6.421882911733146e-06,
	"loss": 0.9084,
	"step": 699
	},
	{
	"epoch": 3.819918144611187,
	"grad_norm": 0.18160474710129887,
	"learning_rate": 6.365927613536737e-06,
	"loss": 0.8833,
	"step": 700
	},
	{
	"epoch": 3.8253751705320598,
	"grad_norm": 0.16205271433369595,
	"learning_rate": 6.310170982070132e-06,
	"loss": 0.903,
	"step": 701
	},
	{
	"epoch": 3.830832196452933,
	"grad_norm": 0.1755196814184644,
	"learning_rate": 6.254613829782274e-06,
	"loss": 0.8866,
	"step": 702
	},
	{
	"epoch": 3.8362892223738063,
	"grad_norm": 0.16947891319556294,
	"learning_rate": 6.199256966215423e-06,
	"loss": 0.9072,
	"step": 703
	},
	{
	"epoch": 3.8417462482946796,
	"grad_norm": 0.1598029992685231,
	"learning_rate": 6.1441011979933615e-06,
	"loss": 0.8965,
	"step": 704
	},
	{
	"epoch": 3.8472032742155524,
	"grad_norm": 0.17633255200544773,
	"learning_rate": 6.089147328809637e-06,
	"loss": 0.9213,
	"step": 705
	},
	{
	"epoch": 3.8526603001364257,
	"grad_norm": 0.14858434315925467,
	"learning_rate": 6.034396159415874e-06,
	"loss": 0.9057,
	"step": 706
	},
	{
	"epoch": 3.8581173260572985,
	"grad_norm": 0.1359593564440916,
	"learning_rate": 5.979848487610078e-06,
	"loss": 0.9002,
	"step": 707
	},
	{
	"epoch": 3.863574351978172,
	"grad_norm": 0.1546596886497959,
	"learning_rate": 5.92550510822502e-06,
	"loss": 0.881,
	"step": 708
	},
	{
	"epoch": 3.869031377899045,
	"grad_norm": 0.1553240834204749,
	"learning_rate": 5.871366813116661e-06,
	"loss": 0.9015,
	"step": 709
	},
	{
	"epoch": 3.8744884038199183,
	"grad_norm": 0.14118959880699977,
	"learning_rate": 5.817434391152605e-06,
	"loss": 0.8907,
	"step": 710
	},
	{
	"epoch": 3.879945429740791,
	"grad_norm": 0.14059851937404533,
	"learning_rate": 5.763708628200609e-06,
	"loss": 0.8891,
	"step": 711
	},
	{
	"epoch": 3.8854024556616644,
	"grad_norm": 0.15427945771110663,
	"learning_rate": 5.710190307117138e-06,
	"loss": 0.8951,
	"step": 712
	},
	{
	"epoch": 3.8908594815825372,
	"grad_norm": 0.1445538887040146,
	"learning_rate": 5.656880207735938e-06,
	"loss": 0.8877,
	"step": 713
	},
	{
	"epoch": 3.8963165075034105,
	"grad_norm": 0.15649585838748734,
	"learning_rate": 5.603779106856699e-06,
	"loss": 0.9074,
	"step": 714
	},
	{
	"epoch": 3.901773533424284,
	"grad_norm": 0.13648774675224182,
	"learning_rate": 5.550887778233713e-06,
	"loss": 0.8941,
	"step": 715
	},
	{
	"epoch": 3.907230559345157,
	"grad_norm": 0.15565409065858304,
	"learning_rate": 5.498206992564612e-06,
	"loss": 0.9173,
	"step": 716
	},
	{
	"epoch": 3.91268758526603,
	"grad_norm": 0.13922969052192785,
	"learning_rate": 5.4457375174791325e-06,
	"loss": 0.8893,
	"step": 717
	},
	{
	"epoch": 3.918144611186903,
	"grad_norm": 0.15294676839534935,
	"learning_rate": 5.3934801175279276e-06,
	"loss": 0.9154,
	"step": 718
	},
	{
	"epoch": 3.923601637107776,
	"grad_norm": 0.15092879808147422,
	"learning_rate": 5.341435554171448e-06,
	"loss": 0.8827,
	"step": 719
	},
	{
	"epoch": 3.9290586630286493,
	"grad_norm": 0.14825666022997366,
	"learning_rate": 5.289604585768813e-06,
	"loss": 0.8848,
	"step": 720
	},
	{
	"epoch": 3.9345156889495225,
	"grad_norm": 0.1606715610763504,
	"learning_rate": 5.237987967566787e-06,
	"loss": 0.8772,
	"step": 721
	},
	{
	"epoch": 3.939972714870396,
	"grad_norm": 0.16522816411905664,
	"learning_rate": 5.1865864516887535e-06,
	"loss": 0.8976,
	"step": 722
	},
	{
	"epoch": 3.9454297407912686,
	"grad_norm": 0.15958019587002623,
	"learning_rate": 5.1354007871237765e-06,
	"loss": 0.906,
	"step": 723
	},
	{
	"epoch": 3.950886766712142,
	"grad_norm": 0.150449287740693,
	"learning_rate": 5.084431719715668e-06,
	"loss": 0.8925,
	"step": 724
	},
	{
	"epoch": 3.956343792633015,
	"grad_norm": 0.1654448721490872,
	"learning_rate": 5.033679992152143e-06,
	"loss": 0.8949,
	"step": 725
	},
	{
	"epoch": 3.961800818553888,
	"grad_norm": 0.15862344300369557,
	"learning_rate": 4.983146343953964e-06,
	"loss": 0.8802,
	"step": 726
	},
	{
	"epoch": 3.9672578444747613,
	"grad_norm": 0.13976420034767134,
	"learning_rate": 4.932831511464206e-06,
	"loss": 0.887,
	"step": 727
	},
	{
	"epoch": 3.9727148703956345,
	"grad_norm": 0.18682370943191948,
	"learning_rate": 4.88273622783749e-06,
	"loss": 0.8953,
	"step": 728
	},
	{
	"epoch": 3.9781718963165074,
	"grad_norm": 0.142893917159586,
	"learning_rate": 4.83286122302932e-06,
	"loss": 0.8823,
	"step": 729
	},
	{
	"epoch": 3.9836289222373806,
	"grad_norm": 0.1501981132875881,
	"learning_rate": 4.783207223785431e-06,
	"loss": 0.8964,
	"step": 730
	},
	{
	"epoch": 3.989085948158254,
	"grad_norm": 0.15657458729040308,
	"learning_rate": 4.733774953631238e-06,
	"loss": 0.8979,
	"step": 731
	},
	{
	"epoch": 3.9945429740791267,
	"grad_norm": 0.13982230103959686,
	"learning_rate": 4.68456513286124e-06,
	"loss": 0.8923,
	"step": 732
	},
	{
	"epoch": 4.0,
	"grad_norm": 0.27858828514063777,
	"learning_rate": 4.6355784785285615e-06,
	"loss": 1.5566,
	"step": 733
	},
	{
	"epoch": 4.005457025920873,
	"grad_norm": 0.17089905607735426,
	"learning_rate": 4.586815704434488e-06,
	"loss": 0.887,
	"step": 734
	},
	{
	"epoch": 4.0109140518417465,
	"grad_norm": 0.14705477825085042,
	"learning_rate": 4.538277521118071e-06,
	"loss": 0.8841,
	"step": 735
	},
	{
	"epoch": 4.01637107776262,
	"grad_norm": 0.1636792606316968,
	"learning_rate": 4.489964635845769e-06,
	"loss": 0.8899,
	"step": 736
	},
	{
	"epoch": 4.021828103683492,
	"grad_norm": 0.15198479944975976,
	"learning_rate": 4.44187775260116e-06,
	"loss": 0.8881,
	"step": 737
	},
	{
	"epoch": 4.0272851296043655,
	"grad_norm": 0.13291652839803894,
	"learning_rate": 4.3940175720746494e-06,
	"loss": 0.8696,
	"step": 738
	},
	{
	"epoch": 4.032742155525239,
	"grad_norm": 0.1490103061507369,
	"learning_rate": 4.346384791653298e-06,
	"loss": 0.8984,
	"step": 739
	},
	{
	"epoch": 4.038199181446112,
	"grad_norm": 0.17175563522601708,
	"learning_rate": 4.2989801054106305e-06,
	"loss": 0.8665,
	"step": 740
	},
	{
	"epoch": 4.043656207366985,
	"grad_norm": 0.1499319026668514,
	"learning_rate": 4.251804204096535e-06,
	"loss": 0.8779,
	"step": 741
	},
	{
	"epoch": 4.0491132332878585,
	"grad_norm": 0.16227165418614628,
	"learning_rate": 4.204857775127198e-06,
	"loss": 0.8755,
	"step": 742
	},
	{
	"epoch": 4.054570259208731,
	"grad_norm": 0.1581981145043867,
	"learning_rate": 4.1581415025750795e-06,
	"loss": 0.8895,
	"step": 743
	},
	{
	"epoch": 4.060027285129604,
	"grad_norm": 0.15513935379525345,
	"learning_rate": 4.111656067158971e-06,
	"loss": 0.8974,
	"step": 744
	},
	{
	"epoch": 4.0654843110504775,
	"grad_norm": 0.14535697871945671,
	"learning_rate": 4.065402146234034e-06,
	"loss": 0.8485,
	"step": 745
	},
	{
	"epoch": 4.070941336971351,
	"grad_norm": 0.1297532212724062,
	"learning_rate": 4.019380413781968e-06,
	"loss": 0.885,
	"step": 746
	},
	{
	"epoch": 4.076398362892224,
	"grad_norm": 0.1488778393601588,
	"learning_rate": 3.973591540401165e-06,
	"loss": 0.9015,
	"step": 747
	},
	{
	"epoch": 4.081855388813097,
	"grad_norm": 0.13978030494695767,
	"learning_rate": 3.928036193296958e-06,
	"loss": 0.8887,
	"step": 748
	},
	{
	"epoch": 4.08731241473397,
	"grad_norm": 0.14411923483228978,
	"learning_rate": 3.882715036271874e-06,
	"loss": 0.8734,
	"step": 749
	},
	{
	"epoch": 4.092769440654843,
	"grad_norm": 0.139081525574305,
	"learning_rate": 3.837628729715994e-06,
	"loss": 0.8781,
	"step": 750
	},
	{
	"epoch": 4.098226466575716,
	"grad_norm": 0.14858634817778646,
	"learning_rate": 3.7927779305973066e-06,
	"loss": 0.8708,
	"step": 751
	},
	{
	"epoch": 4.1036834924965895,
	"grad_norm": 0.1364174899816674,
	"learning_rate": 3.7481632924521383e-06,
	"loss": 0.8741,
	"step": 752
	},
	{
	"epoch": 4.109140518417463,
	"grad_norm": 0.13932957227692389,
	"learning_rate": 3.7037854653756287e-06,
	"loss": 0.8921,
	"step": 753
	},
	{
	"epoch": 4.114597544338336,
	"grad_norm": 0.14304788451278092,
	"learning_rate": 3.65964509601227e-06,
	"loss": 0.8765,
	"step": 754
	},
	{
	"epoch": 4.120054570259208,
	"grad_norm": 0.1629674318472855,
	"learning_rate": 3.6157428275464713e-06,
	"loss": 0.8865,
	"step": 755
	},
	{
	"epoch": 4.125511596180082,
	"grad_norm": 0.1363245824129024,
	"learning_rate": 3.572079299693201e-06,
	"loss": 0.9084,
	"step": 756
	},
	{
	"epoch": 4.130968622100955,
	"grad_norm": 0.1508822391111529,
	"learning_rate": 3.528655148688649e-06,
	"loss": 0.8851,
	"step": 757
	},
	{
	"epoch": 4.136425648021828,
	"grad_norm": 0.14303462818362056,
	"learning_rate": 3.485471007280965e-06,
	"loss": 0.8758,
	"step": 758
	},
	{
	"epoch": 4.1418826739427015,
	"grad_norm": 0.14526482585748274,
	"learning_rate": 3.4425275047210337e-06,
	"loss": 0.8888,
	"step": 759
	},
	{
	"epoch": 4.147339699863575,
	"grad_norm": 0.13337908689426514,
	"learning_rate": 3.399825266753316e-06,
	"loss": 0.8996,
	"step": 760
	},
	{
	"epoch": 4.152796725784447,
	"grad_norm": 0.12506301079113333,
	"learning_rate": 3.357364915606711e-06,
	"loss": 0.8817,
	"step": 761
	},
	{
	"epoch": 4.15825375170532,
	"grad_norm": 0.13808109230175336,
	"learning_rate": 3.3151470699855226e-06,
	"loss": 0.8784,
	"step": 762
	},
	{
	"epoch": 4.163710777626194,
	"grad_norm": 0.1322332471365764,
	"learning_rate": 3.2731723450604047e-06,
	"loss": 0.8905,
	"step": 763
	},
	{
	"epoch": 4.169167803547067,
	"grad_norm": 0.13389925768742733,
	"learning_rate": 3.23144135245943e-06,
	"loss": 0.8952,
	"step": 764
	},
	{
	"epoch": 4.17462482946794,
	"grad_norm": 0.13683886240243162,
	"learning_rate": 3.1899547002591548e-06,
	"loss": 0.8755,
	"step": 765
	},
	{
	"epoch": 4.1800818553888135,
	"grad_norm": 0.12558097802450152,
	"learning_rate": 3.148712992975773e-06,
	"loss": 0.8579,
	"step": 766
	},
	{
	"epoch": 4.185538881309686,
	"grad_norm": 0.13782990446140714,
	"learning_rate": 3.107716831556298e-06,
	"loss": 0.8929,
	"step": 767
	},
	{
	"epoch": 4.190995907230559,
	"grad_norm": 0.13743942655956906,
	"learning_rate": 3.0669668133698114e-06,
	"loss": 0.8627,
	"step": 768
	},
	{
	"epoch": 4.196452933151432,
	"grad_norm": 0.12989089669107465,
	"learning_rate": 3.026463532198767e-06,
	"loss": 0.8799,
	"step": 769
	},
	{
	"epoch": 4.201909959072306,
	"grad_norm": 0.15662525453225684,
	"learning_rate": 2.9862075782303155e-06,
	"loss": 0.8731,
	"step": 770
	},
	{
	"epoch": 4.207366984993179,
	"grad_norm": 0.1350418186415897,
	"learning_rate": 2.946199538047727e-06,
	"loss": 0.8602,
	"step": 771
	},
	{
	"epoch": 4.212824010914052,
	"grad_norm": 0.12498595424209477,
	"learning_rate": 2.9064399946218304e-06,
	"loss": 0.868,
	"step": 772
	},
	{
	"epoch": 4.218281036834925,
	"grad_norm": 0.21098257229096243,
	"learning_rate": 2.866929527302522e-06,
	"loss": 0.8883,
	"step": 773
	},
	{
	"epoch": 4.223738062755798,
	"grad_norm": 0.133123941008207,
	"learning_rate": 2.8276687118103384e-06,
	"loss": 0.8878,
	"step": 774
	},
	{
	"epoch": 4.229195088676671,
	"grad_norm": 0.1418691768230737,
	"learning_rate": 2.7886581202280338e-06,
	"loss": 0.8978,
	"step": 775
	},
	{
	"epoch": 4.234652114597544,
	"grad_norm": 0.14622777292208364,
	"learning_rate": 2.749898320992286e-06,
	"loss": 0.8855,
	"step": 776
	},
	{
	"epoch": 4.240109140518418,
	"grad_norm": 0.13868949813718004,
	"learning_rate": 2.711389878885371e-06,
	"loss": 0.8782,
	"step": 777
	},
	{
	"epoch": 4.245566166439291,
	"grad_norm": 0.12620162322262743,
	"learning_rate": 2.673133355026969e-06,
	"loss": 0.8742,
	"step": 778
	},
	{
	"epoch": 4.251023192360163,
	"grad_norm": 0.1271015484185532,
	"learning_rate": 2.6351293068659643e-06,
	"loss": 0.8748,
	"step": 779
	},
	{
	"epoch": 4.256480218281037,
	"grad_norm": 0.18196702435356202,
	"learning_rate": 2.597378288172332e-06,
	"loss": 0.8851,
	"step": 780
	},
	{
	"epoch": 4.26193724420191,
	"grad_norm": 0.16872955546686272,
	"learning_rate": 2.559880849029079e-06,
	"loss": 0.8802,
	"step": 781
	},
	{
	"epoch": 4.267394270122783,
	"grad_norm": 0.13072466845715314,
	"learning_rate": 2.5226375358242085e-06,
	"loss": 0.8877,
	"step": 782
	},
	{
	"epoch": 4.272851296043656,
	"grad_norm": 0.14754876950071485,
	"learning_rate": 2.485648891242767e-06,
	"loss": 0.8904,
	"step": 783
	},
	{
	"epoch": 4.27830832196453,
	"grad_norm": 0.1590434780138768,
	"learning_rate": 2.448915454258942e-06,
	"loss": 0.9032,
	"step": 784
	},
	{
	"epoch": 4.283765347885402,
	"grad_norm": 0.14151048099974572,
	"learning_rate": 2.412437760128199e-06,
	"loss": 0.8918,
	"step": 785
	},
	{
	"epoch": 4.289222373806275,
	"grad_norm": 0.13620855260975054,
	"learning_rate": 2.376216340379489e-06,
	"loss": 0.8845,
	"step": 786
	},
	{
	"epoch": 4.294679399727149,
	"grad_norm": 0.1901936677421411,
	"learning_rate": 2.3402517228075073e-06,
	"loss": 0.8851,
	"step": 787
	},
	{
	"epoch": 4.300136425648022,
	"grad_norm": 0.19671986170174766,
	"learning_rate": 2.3045444314649856e-06,
	"loss": 0.8678,
	"step": 788
	},
	{
	"epoch": 4.305593451568895,
	"grad_norm": 0.14899305081412742,
	"learning_rate": 2.2690949866550803e-06,
	"loss": 0.8893,
	"step": 789
	},
	{
	"epoch": 4.311050477489768,
	"grad_norm": 0.16143293820225038,
	"learning_rate": 2.2339039049237687e-06,
	"loss": 0.9024,
	"step": 790
	},
	{
	"epoch": 4.316507503410641,
	"grad_norm": 0.17932782006553405,
	"learning_rate": 2.19897169905233e-06,
	"loss": 0.8929,
	"step": 791
	},
	{
	"epoch": 4.321964529331514,
	"grad_norm": 0.14806731199839362,
	"learning_rate": 2.164298878049882e-06,
	"loss": 0.8662,
	"step": 792
	},
	{
	"epoch": 4.327421555252387,
	"grad_norm": 0.1289649779602983,
	"learning_rate": 2.1298859471459443e-06,
	"loss": 0.8813,
	"step": 793
	},
	{
	"epoch": 4.332878581173261,
	"grad_norm": 0.19801253886238948,
	"learning_rate": 2.0957334077831115e-06,
	"loss": 0.9005,
	"step": 794
	},
	{
	"epoch": 4.338335607094134,
	"grad_norm": 0.19694630717701755,
	"learning_rate": 2.0618417576097016e-06,
	"loss": 0.9052,
	"step": 795
	},
	{
	"epoch": 4.343792633015007,
	"grad_norm": 0.13211759110481675,
	"learning_rate": 2.028211490472538e-06,
	"loss": 0.8727,
	"step": 796
	},
	{
	"epoch": 4.34924965893588,
	"grad_norm": 0.16942182286893248,
	"learning_rate": 1.99484309640974e-06,
	"loss": 0.8939,
	"step": 797
	},
	{
	"epoch": 4.354706684856753,
	"grad_norm": 0.15525627631122169,
	"learning_rate": 1.9617370616435827e-06,
	"loss": 0.8769,
	"step": 798
	},
	{
	"epoch": 4.360163710777626,
	"grad_norm": 0.14568495391925143,
	"learning_rate": 1.9288938685734206e-06,
	"loss": 0.8801,
	"step": 799
	},
	{
	"epoch": 4.365620736698499,
	"grad_norm": 0.1482638689148959,
	"learning_rate": 1.8963139957686439e-06,
	"loss": 0.8865,
	"step": 800
	},
	{
	"epoch": 4.371077762619373,
	"grad_norm": 0.1698206452526069,
	"learning_rate": 1.863997917961724e-06,
	"loss": 0.8756,
	"step": 801
	},
	{
	"epoch": 4.376534788540246,
	"grad_norm": 0.15989049182819062,
	"learning_rate": 1.8319461060412735e-06,
	"loss": 0.8827,
	"step": 802
	},
	{
	"epoch": 4.381991814461118,
	"grad_norm": 0.12598713099232536,
	"learning_rate": 1.8001590270452007e-06,
	"loss": 0.8955,
	"step": 803
	},
	{
	"epoch": 4.387448840381992,
	"grad_norm": 0.13029377486709406,
	"learning_rate": 1.7686371441539041e-06,
	"loss": 0.8964,
	"step": 804
	},
	{
	"epoch": 4.392905866302865,
	"grad_norm": 0.15126612488881352,
	"learning_rate": 1.7373809166835131e-06,
	"loss": 0.8838,
	"step": 805
	},
	{
	"epoch": 4.398362892223738,
	"grad_norm": 0.13445739913334448,
	"learning_rate": 1.7063908000791984e-06,
	"loss": 0.8958,
	"step": 806
	},
	{
	"epoch": 4.403819918144611,
	"grad_norm": 0.16664103966071625,
	"learning_rate": 1.6756672459085565e-06,
	"loss": 0.8826,
	"step": 807
	},
	{
	"epoch": 4.409276944065485,
	"grad_norm": 0.1762539743129894,
	"learning_rate": 1.645210701854989e-06,
	"loss": 0.8785,
	"step": 808
	},
	{
	"epoch": 4.414733969986357,
	"grad_norm": 0.15934966334590775,
	"learning_rate": 1.615021611711216e-06,
	"loss": 0.8854,
	"step": 809
	},
	{
	"epoch": 4.42019099590723,
	"grad_norm": 0.124968014984558,
	"learning_rate": 1.5851004153727845e-06,
	"loss": 0.8788,
	"step": 810
	},
	{
	"epoch": 4.425648021828104,
	"grad_norm": 0.1385331750299138,
	"learning_rate": 1.5554475488316812e-06,
	"loss": 0.8916,
	"step": 811
	},
	{
	"epoch": 4.431105047748977,
	"grad_norm": 0.13707927403446576,
	"learning_rate": 1.5260634441699585e-06,
	"loss": 0.8742,
	"step": 812
	},
	{
	"epoch": 4.43656207366985,
	"grad_norm": 0.12627498054063097,
	"learning_rate": 1.496948529553457e-06,
	"loss": 0.887,
	"step": 813
	},
	{
	"epoch": 4.442019099590723,
	"grad_norm": 0.1486808085420501,
	"learning_rate": 1.468103229225546e-06,
	"loss": 0.8808,
	"step": 814
	},
	{
	"epoch": 4.447476125511596,
	"grad_norm": 0.14605688992873062,
	"learning_rate": 1.4395279635009595e-06,
	"loss": 0.8708,
	"step": 815
	},
	{
	"epoch": 4.452933151432469,
	"grad_norm": 0.13906895719296147,
	"learning_rate": 1.4112231487596618e-06,
	"loss": 0.8649,
	"step": 816
	},
	{
	"epoch": 4.458390177353342,
	"grad_norm": 0.11788044087197277,
	"learning_rate": 1.3831891974407862e-06,
	"loss": 0.8783,
	"step": 817
	},
	{
	"epoch": 4.463847203274216,
	"grad_norm": 0.11778162515868901,
	"learning_rate": 1.3554265180366177e-06,
	"loss": 0.91,
	"step": 818
	},
	{
	"epoch": 4.469304229195089,
	"grad_norm": 0.14670430911084376,
	"learning_rate": 1.3279355150866536e-06,
	"loss": 0.8694,
	"step": 819
	},
	{
	"epoch": 4.474761255115962,
	"grad_norm": 0.12231810737886735,
	"learning_rate": 1.3007165891716978e-06,
	"loss": 0.8519,
	"step": 820
	},
	{
	"epoch": 4.480218281036835,
	"grad_norm": 0.1271770535078628,
	"learning_rate": 1.2737701369080213e-06,
	"loss": 0.9097,
	"step": 821
	},
	{
	"epoch": 4.485675306957708,
	"grad_norm": 0.1385648556146423,
	"learning_rate": 1.2470965509415911e-06,
	"loss": 0.8968,
	"step": 822
	},
	{
	"epoch": 4.491132332878581,
	"grad_norm": 0.152826890949677,
	"learning_rate": 1.2206962199423478e-06,
	"loss": 0.8831,
	"step": 823
	},
	{
	"epoch": 4.496589358799454,
	"grad_norm": 0.12805457871619716,
	"learning_rate": 1.1945695285985437e-06,
	"loss": 0.9114,
	"step": 824
	},
	{
	"epoch": 4.502046384720328,
	"grad_norm": 0.1200667730156898,
	"learning_rate": 1.1687168576111251e-06,
	"loss": 0.897,
	"step": 825
	},
	{
	"epoch": 4.507503410641201,
	"grad_norm": 0.14528129682089547,
	"learning_rate": 1.1431385836882058e-06,
	"loss": 0.8645,
	"step": 826
	},
	{
	"epoch": 4.512960436562073,
	"grad_norm": 0.11909725664621254,
	"learning_rate": 1.1178350795395553e-06,
	"loss": 0.875,
	"step": 827
	},
	{
	"epoch": 4.5184174624829465,
	"grad_norm": 0.140122744341455,
	"learning_rate": 1.0928067138711817e-06,
	"loss": 0.8825,
	"step": 828
	},
	{
	"epoch": 4.52387448840382,
	"grad_norm": 0.15162334185887835,
	"learning_rate": 1.06805385137996e-06,
	"loss": 0.8794,
	"step": 829
	},
	{
	"epoch": 4.529331514324693,
	"grad_norm": 0.14150098143714812,
	"learning_rate": 1.0435768527483114e-06,
	"loss": 0.8937,
	"step": 830
	},
	{
	"epoch": 4.534788540245566,
	"grad_norm": 0.1260117766174468,
	"learning_rate": 1.019376074638949e-06,
	"loss": 0.8815,
	"step": 831
	},
	{
	"epoch": 4.54024556616644,
	"grad_norm": 0.12409915203852431,
	"learning_rate": 9.954518696896854e-07,
	"loss": 0.8834,
	"step": 832
	},
	{
	"epoch": 4.545702592087313,
	"grad_norm": 0.136871178123947,
	"learning_rate": 9.718045865082914e-07,
	"loss": 0.8793,
	"step": 833
	},
	{
	"epoch": 4.551159618008185,
	"grad_norm": 0.14107625789727535,
	"learning_rate": 9.484345696674135e-07,
	"loss": 0.9022,
	"step": 834
	},
	{
	"epoch": 4.5566166439290585,
	"grad_norm": 0.15144418956800026,
	"learning_rate": 9.253421596995538e-07,
	"loss": 0.8668,
	"step": 835
	},
	{
	"epoch": 4.562073669849932,
	"grad_norm": 0.14652192158608265,
	"learning_rate": 9.025276930921168e-07,
	"loss": 0.8952,
	"step": 836
	},
	{
	"epoch": 4.567530695770805,
	"grad_norm": 0.1414596872944082,
	"learning_rate": 8.799915022824912e-07,
	"loss": 0.89,
	"step": 837
	},
	{
	"epoch": 4.572987721691678,
	"grad_norm": 0.11762183453991368,
	"learning_rate": 8.577339156532228e-07,
	"loss": 0.8891,
	"step": 838
	},
	{
	"epoch": 4.578444747612551,
	"grad_norm": 0.11696302332812643,
	"learning_rate": 8.35755257527211e-07,
	"loss": 0.8865,
	"step": 839
	},
	{
	"epoch": 4.583901773533424,
	"grad_norm": 0.14096367257161824,
	"learning_rate": 8.140558481629978e-07,
	"loss": 0.883,
	"step": 840
	},
	{
	"epoch": 4.589358799454297,
	"grad_norm": 0.13025076800848065,
	"learning_rate": 7.92636003750098e-07,
	"loss": 0.861,
	"step": 841
	},
	{
	"epoch": 4.5948158253751705,
	"grad_norm": 0.13357496841366284,
	"learning_rate": 7.714960364043844e-07,
	"loss": 0.8917,
	"step": 842
	},
	{
	"epoch": 4.600272851296044,
	"grad_norm": 0.12340312706447396,
	"learning_rate": 7.506362541635482e-07,
	"loss": 0.8899,
	"step": 843
	},
	{
	"epoch": 4.605729877216917,
	"grad_norm": 0.14740826905136978,
	"learning_rate": 7.300569609826103e-07,
	"loss": 0.9164,
	"step": 844
	},
	{
	"epoch": 4.61118690313779,
	"grad_norm": 0.12349556901637186,
	"learning_rate": 7.097584567294858e-07,
	"loss": 0.9002,
	"step": 845
	},
	{
	"epoch": 4.616643929058663,
	"grad_norm": 0.12502508254095465,
	"learning_rate": 6.897410371806202e-07,
	"loss": 0.8966,
	"step": 846
	},
	{
	"epoch": 4.622100954979536,
	"grad_norm": 0.1211951289522415,
	"learning_rate": 6.70004994016673e-07,
	"loss": 0.8834,
	"step": 847
	},
	{
	"epoch": 4.627557980900409,
	"grad_norm": 0.12281440993768762,
	"learning_rate": 6.505506148182816e-07,
	"loss": 0.8871,
	"step": 848
	},
	{
	"epoch": 4.6330150068212825,
	"grad_norm": 0.12502962964548078,
	"learning_rate": 6.313781830618549e-07,
	"loss": 0.8767,
	"step": 849
	},
	{
	"epoch": 4.638472032742156,
	"grad_norm": 0.12943087930152467,
	"learning_rate": 6.124879781154458e-07,
	"loss": 0.875,
	"step": 850
	},
	{
	"epoch": 4.643929058663028,
	"grad_norm": 0.14031219133585143,
	"learning_rate": 5.938802752346972e-07,
	"loss": 0.8927,
	"step": 851
	},
	{
	"epoch": 4.6493860845839015,
	"grad_norm": 0.12542619019610873,
	"learning_rate": 5.755553455588025e-07,
	"loss": 0.8876,
	"step": 852
	},
	{
	"epoch": 4.654843110504775,
	"grad_norm": 0.12638050340038925,
	"learning_rate": 5.575134561065798e-07,
	"loss": 0.8665,
	"step": 853
	},
	{
	"epoch": 4.660300136425648,
	"grad_norm": 0.12333899862571804,
	"learning_rate": 5.397548697725686e-07,
	"loss": 0.8903,
	"step": 854
	},
	{
	"epoch": 4.665757162346521,
	"grad_norm": 0.1346635192449993,
	"learning_rate": 5.22279845323197e-07,
	"loss": 0.8725,
	"step": 855
	},
	{
	"epoch": 4.6712141882673945,
	"grad_norm": 0.13647426558512074,
	"learning_rate": 5.050886373930231e-07,
	"loss": 0.8875,
	"step": 856
	},
	{
	"epoch": 4.676671214188268,
	"grad_norm": 0.11566165671981071,
	"learning_rate": 4.881814964810172e-07,
	"loss": 0.8749,
	"step": 857
	},
	{
	"epoch": 4.68212824010914,
	"grad_norm": 0.12363326959711636,
	"learning_rate": 4.715586689469054e-07,
	"loss": 0.8769,
	"step": 858
	},
	{
	"epoch": 4.6875852660300135,
	"grad_norm": 0.11764168862039581,
	"learning_rate": 4.552203970075941e-07,
	"loss": 0.8918,
	"step": 859
	},
	{
	"epoch": 4.693042291950887,
	"grad_norm": 0.11426043356029422,
	"learning_rate": 4.391669187336267e-07,
	"loss": 0.89,
	"step": 860
	},
	{
	"epoch": 4.69849931787176,
	"grad_norm": 0.11108719415747546,
	"learning_rate": 4.2339846804572596e-07,
	"loss": 0.8804,
	"step": 861
	},
	{
	"epoch": 4.703956343792633,
	"grad_norm": 0.12913366570368975,
	"learning_rate": 4.079152747113746e-07,
	"loss": 0.8803,
	"step": 862
	},
	{
	"epoch": 4.709413369713506,
	"grad_norm": 0.11303274704940805,
	"learning_rate": 3.9271756434147825e-07,
	"loss": 0.8707,
	"step": 863
	},
	{
	"epoch": 4.714870395634379,
	"grad_norm": 0.12668292386761498,
	"learning_rate": 3.778055583870677e-07,
	"loss": 0.8615,
	"step": 864
	},
	{
	"epoch": 4.720327421555252,
	"grad_norm": 0.12160210451896335,
	"learning_rate": 3.631794741360839e-07,
	"loss": 0.8749,
	"step": 865
	},
	{
	"epoch": 4.7257844474761255,
	"grad_norm": 0.12255220583052599,
	"learning_rate": 3.4883952471019833e-07,
	"loss": 0.8656,
	"step": 866
	},
	{
	"epoch": 4.731241473396999,
	"grad_norm": 0.13097406090149366,
	"learning_rate": 3.347859190617153e-07,
	"loss": 0.9104,
	"step": 867
	},
	{
	"epoch": 4.736698499317872,
	"grad_norm": 0.13879798939381358,
	"learning_rate": 3.210188619705257e-07,
	"loss": 0.8932,
	"step": 868
	},
	{
	"epoch": 4.742155525238745,
	"grad_norm": 0.10869652399193062,
	"learning_rate": 3.0753855404112907e-07,
	"loss": 0.8617,
	"step": 869
	},
	{
	"epoch": 4.747612551159618,
	"grad_norm": 0.14405688232051542,
	"learning_rate": 2.943451916997009e-07,
	"loss": 0.8849,
	"step": 870
	},
	{
	"epoch": 4.753069577080491,
	"grad_norm": 0.10950574849744894,
	"learning_rate": 2.814389671912321e-07,
	"loss": 0.8894,
	"step": 871
	},
	{
	"epoch": 4.758526603001364,
	"grad_norm": 0.12549196376105284,
	"learning_rate": 2.6882006857672946e-07,
	"loss": 0.8666,
	"step": 872
	},
	{
	"epoch": 4.7639836289222375,
	"grad_norm": 0.12049040986742628,
	"learning_rate": 2.564886797304844e-07,
	"loss": 0.8925,
	"step": 873
	},
	{
	"epoch": 4.769440654843111,
	"grad_norm": 0.13628451786758633,
	"learning_rate": 2.444449803373772e-07,
	"loss": 0.8736,
	"step": 874
	},
	{
	"epoch": 4.774897680763983,
	"grad_norm": 0.11819888541785435,
	"learning_rate": 2.3268914589026582e-07,
	"loss": 0.876,
	"step": 875
	},
	{
	"epoch": 4.780354706684856,
	"grad_norm": 0.13249771798161303,
	"learning_rate": 2.212213476874392e-07,
	"loss": 0.8721,
	"step": 876
	},
	{
	"epoch": 4.78581173260573,
	"grad_norm": 0.16019402654757406,
	"learning_rate": 2.100417528301013e-07,
	"loss": 0.8574,
	"step": 877
	},
	{
	"epoch": 4.791268758526603,
	"grad_norm": 0.12709978273924896,
	"learning_rate": 1.9915052421995095e-07,
	"loss": 0.8788,
	"step": 878
	},
	{
	"epoch": 4.796725784447476,
	"grad_norm": 0.1269380086439239,
	"learning_rate": 1.8854782055680588e-07,
	"loss": 0.8856,
	"step": 879
	},
	{
	"epoch": 4.8021828103683495,
	"grad_norm": 0.12816104723044472,
	"learning_rate": 1.7823379633628236e-07,
	"loss": 0.8682,
	"step": 880
	},
	{
	"epoch": 4.807639836289223,
	"grad_norm": 0.11897350073492513,
	"learning_rate": 1.6820860184755705e-07,
	"loss": 0.8893,
	"step": 881
	},
	{
	"epoch": 4.813096862210095,
	"grad_norm": 0.1676441632472798,
	"learning_rate": 1.584723831711621e-07,
	"loss": 0.8827,
	"step": 882
	},
	{
	"epoch": 4.818553888130968,
	"grad_norm": 0.11260862448875701,
	"learning_rate": 1.4902528217687339e-07,
	"loss": 0.8668,
	"step": 883
	},
	{
	"epoch": 4.824010914051842,
	"grad_norm": 0.11073774182348436,
	"learning_rate": 1.398674365216235e-07,
	"loss": 0.8985,
	"step": 884
	},
	{
	"epoch": 4.829467939972715,
	"grad_norm": 0.11457097434689421,
	"learning_rate": 1.309989796475164e-07,
	"loss": 0.8671,
	"step": 885
	},
	{
	"epoch": 4.834924965893588,
	"grad_norm": 0.11278616103798808,
	"learning_rate": 1.22420040779867e-07,
	"loss": 0.8627,
	"step": 886
	},
	{
	"epoch": 4.8403819918144615,
	"grad_norm": 0.11658568907087213,
	"learning_rate": 1.1413074492532927e-07,
	"loss": 0.8698,
	"step": 887
	},
	{
	"epoch": 4.845839017735334,
	"grad_norm": 0.12477104191258748,
	"learning_rate": 1.06131212870062e-07,
	"loss": 0.8972,
	"step": 888
	},
	{
	"epoch": 4.851296043656207,
	"grad_norm": 0.11569142614675672,
	"learning_rate": 9.842156117798817e-08,
	"loss": 0.8808,
	"step": 889
	},
	{
	"epoch": 4.85675306957708,
	"grad_norm": 0.15639110653049954,
	"learning_rate": 9.10019021890718e-08,
	"loss": 0.8757,
	"step": 890
	},
	{
	"epoch": 4.862210095497954,
	"grad_norm": 0.1414742721261049,
	"learning_rate": 8.387234401770361e-08,
	"loss": 0.884,
	"step": 891
	},
	{
	"epoch": 4.867667121418827,
	"grad_norm": 0.11635396600358816,
	"learning_rate": 7.703299055111357e-08,
	"loss": 0.9047,
	"step": 892
	},
	{
	"epoch": 4.8731241473397,
	"grad_norm": 0.1168433074137953,
	"learning_rate": 7.048394144785863e-08,
	"loss": 0.8669,
	"step": 893
	},
	{
	"epoch": 4.878581173260573,
	"grad_norm": 0.11125431182410457,
	"learning_rate": 6.422529213637063e-08,
	"loss": 0.8713,
	"step": 894
	},
	{
	"epoch": 4.884038199181446,
	"grad_norm": 0.11391519788296704,
	"learning_rate": 5.8257133813570675e-08,
	"loss": 0.8851,
	"step": 895
	},
	{
	"epoch": 4.889495225102319,
	"grad_norm": 0.1050397723513658,
	"learning_rate": 5.257955344353471e-08,
	"loss": 0.8742,
	"step": 896
	},
	{
	"epoch": 4.894952251023192,
	"grad_norm": 0.110886347004846,
	"learning_rate": 4.71926337562234e-08,
	"loss": 0.8835,
	"step": 897
	},
	{
	"epoch": 4.900409276944066,
	"grad_norm": 0.13022649928545438,
	"learning_rate": 4.2096453246287526e-08,
	"loss": 0.8798,
	"step": 898
	},
	{
	"epoch": 4.905866302864939,
	"grad_norm": 0.11447299895739564,
	"learning_rate": 3.729108617191557e-08,
	"loss": 0.8915,
	"step": 899
	},
	{
	"epoch": 4.911323328785811,
	"grad_norm": 0.1226591978951474,
	"learning_rate": 3.277660255375237e-08,
	"loss": 0.9051,
	"step": 900
	},
	{
	"epoch": 4.916780354706685,
	"grad_norm": 0.11938229502321866,
	"learning_rate": 2.855306817388659e-08,
	"loss": 0.8961,
	"step": 901
	},
	{
	"epoch": 4.922237380627558,
	"grad_norm": 0.13559091937945114,
	"learning_rate": 2.462054457487595e-08,
	"loss": 0.8778,
	"step": 902
	},
	{
	"epoch": 4.927694406548431,
	"grad_norm": 0.12486180567731954,
	"learning_rate": 2.097908905887014e-08,
	"loss": 0.8877,
	"step": 903
	},
	{
	"epoch": 4.933151432469304,
	"grad_norm": 0.12698382896355306,
	"learning_rate": 1.7628754686760397e-08,
	"loss": 0.8837,
	"step": 904
	},
	{
	"epoch": 4.938608458390178,
	"grad_norm": 0.10840982827247776,
	"learning_rate": 1.4569590277413447e-08,
	"loss": 0.8738,
	"step": 905
	},
	{
	"epoch": 4.94406548431105,
	"grad_norm": 0.11341918799763352,
	"learning_rate": 1.1801640406963188e-08,
	"loss": 0.8731,
	"step": 906
	},
	{
	"epoch": 4.949522510231923,
	"grad_norm": 0.11594299163597076,
	"learning_rate": 9.32494540815121e-09,
	"loss": 0.8704,
	"step": 907
	},
	{
	"epoch": 4.954979536152797,
	"grad_norm": 0.10946767908645595,
	"learning_rate": 7.13954136974504e-09,
	"loss": 0.8916,
	"step": 908
	},
	{
	"epoch": 4.96043656207367,
	"grad_norm": 0.1131154133991995,
	"learning_rate": 5.245460136018565e-09,
	"loss": 0.8931,
	"step": 909
	},
	{
	"epoch": 4.965893587994543,
	"grad_norm": 0.11676272543288499,
	"learning_rate": 3.6427293062724077e-09,
	"loss": 0.8906,
	"step": 910
	},
	{
	"epoch": 4.971350613915416,
	"grad_norm": 0.11538578325055797,
	"learning_rate": 2.3313722344497914e-09,
	"loss": 0.8779,
	"step": 911
	},
	{
	"epoch": 4.97680763983629,
	"grad_norm": 0.1264648783936699,
	"learning_rate": 1.3114080287790488e-09,
	"loss": 0.8652,
	"step": 912
	},
	{
	"epoch": 4.982264665757162,
	"grad_norm": 0.11491863538487673,
	"learning_rate": 5.828515515116096e-10,
	"loss": 0.8722,
	"step": 913
	},
	{
	"epoch": 4.987721691678035,
	"grad_norm": 0.1086827877742504,
	"learning_rate": 1.457134186866327e-10,
	"loss": 0.9013,
	"step": 914
	},
	{
	"epoch": 4.993178717598909,
	"grad_norm": 0.11831005135790107,
	"learning_rate": 0.0,
	"loss": 0.8894,
	"step": 915
	},
	{
	"epoch": 4.993178717598909,
	"step": 915,
	"total_flos": 1.883960626772548e+19,
	"train_loss": 0.9399711781512192,
	"train_runtime": 49360.7108,
	"train_samples_per_second": 9.497,
	"train_steps_per_second": 0.019
	}
	],
	"logging_steps": 1.0,
	"max_steps": 915,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 5,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 1.883960626772548e+19,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}