qdocpeft / checkpoint-1200 /trainer_state.json

Upload folder using huggingface_hub

c3d42c2 verified about 1 year ago

203 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.0,
	"eval_steps": 500,
	"global_step": 1200,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0008333333333333334,
	"grad_norm": 1.4100404977798462,
	"learning_rate": 5.0000000000000004e-08,
	"loss": 1.0637,
	"step": 1
	},
	{
	"epoch": 0.0016666666666666668,
	"grad_norm": 1.3641573190689087,
	"learning_rate": 1.0000000000000001e-07,
	"loss": 1.0565,
	"step": 2
	},
	{
	"epoch": 0.0025,
	"grad_norm": 1.366743564605713,
	"learning_rate": 1.5000000000000002e-07,
	"loss": 1.0545,
	"step": 3
	},
	{
	"epoch": 0.0033333333333333335,
	"grad_norm": 1.3015836477279663,
	"learning_rate": 2.0000000000000002e-07,
	"loss": 1.0469,
	"step": 4
	},
	{
	"epoch": 0.004166666666666667,
	"grad_norm": 1.3047188520431519,
	"learning_rate": 2.5000000000000004e-07,
	"loss": 1.0484,
	"step": 5
	},
	{
	"epoch": 0.005,
	"grad_norm": 1.3143898248672485,
	"learning_rate": 3.0000000000000004e-07,
	"loss": 1.0373,
	"step": 6
	},
	{
	"epoch": 0.005833333333333334,
	"grad_norm": 1.3029078245162964,
	"learning_rate": 3.5000000000000004e-07,
	"loss": 1.0421,
	"step": 7
	},
	{
	"epoch": 0.006666666666666667,
	"grad_norm": 1.326572299003601,
	"learning_rate": 4.0000000000000003e-07,
	"loss": 1.0509,
	"step": 8
	},
	{
	"epoch": 0.0075,
	"grad_norm": 1.329242467880249,
	"learning_rate": 4.5000000000000003e-07,
	"loss": 1.0474,
	"step": 9
	},
	{
	"epoch": 0.008333333333333333,
	"grad_norm": 1.268184781074524,
	"learning_rate": 5.000000000000001e-07,
	"loss": 1.0415,
	"step": 10
	},
	{
	"epoch": 0.009166666666666667,
	"grad_norm": 1.3835687637329102,
	"learning_rate": 5.5e-07,
	"loss": 1.0718,
	"step": 11
	},
	{
	"epoch": 0.01,
	"grad_norm": 1.3036370277404785,
	"learning_rate": 6.000000000000001e-07,
	"loss": 1.044,
	"step": 12
	},
	{
	"epoch": 0.010833333333333334,
	"grad_norm": 1.2718889713287354,
	"learning_rate": 6.5e-07,
	"loss": 1.02,
	"step": 13
	},
	{
	"epoch": 0.011666666666666667,
	"grad_norm": 1.2253961563110352,
	"learning_rate": 7.000000000000001e-07,
	"loss": 1.0153,
	"step": 14
	},
	{
	"epoch": 0.0125,
	"grad_norm": 1.230002999305725,
	"learning_rate": 7.5e-07,
	"loss": 1.0349,
	"step": 15
	},
	{
	"epoch": 0.013333333333333334,
	"grad_norm": 1.218577265739441,
	"learning_rate": 8.000000000000001e-07,
	"loss": 1.0274,
	"step": 16
	},
	{
	"epoch": 0.014166666666666666,
	"grad_norm": 1.2099354267120361,
	"learning_rate": 8.500000000000001e-07,
	"loss": 1.052,
	"step": 17
	},
	{
	"epoch": 0.015,
	"grad_norm": 1.1288594007492065,
	"learning_rate": 9.000000000000001e-07,
	"loss": 1.0296,
	"step": 18
	},
	{
	"epoch": 0.015833333333333335,
	"grad_norm": 1.0674114227294922,
	"learning_rate": 9.500000000000001e-07,
	"loss": 1.0316,
	"step": 19
	},
	{
	"epoch": 0.016666666666666666,
	"grad_norm": 1.0220268964767456,
	"learning_rate": 1.0000000000000002e-06,
	"loss": 1.0331,
	"step": 20
	},
	{
	"epoch": 0.0175,
	"grad_norm": 1.0226874351501465,
	"learning_rate": 1.0500000000000001e-06,
	"loss": 1.0134,
	"step": 21
	},
	{
	"epoch": 0.018333333333333333,
	"grad_norm": 0.960559070110321,
	"learning_rate": 1.1e-06,
	"loss": 1.0047,
	"step": 22
	},
	{
	"epoch": 0.019166666666666665,
	"grad_norm": 0.9319172501564026,
	"learning_rate": 1.1500000000000002e-06,
	"loss": 1.0074,
	"step": 23
	},
	{
	"epoch": 0.02,
	"grad_norm": 0.8969493508338928,
	"learning_rate": 1.2000000000000002e-06,
	"loss": 0.9932,
	"step": 24
	},
	{
	"epoch": 0.020833333333333332,
	"grad_norm": 0.8810667991638184,
	"learning_rate": 1.25e-06,
	"loss": 0.959,
	"step": 25
	},
	{
	"epoch": 0.021666666666666667,
	"grad_norm": 0.8658521175384521,
	"learning_rate": 1.3e-06,
	"loss": 0.9808,
	"step": 26
	},
	{
	"epoch": 0.0225,
	"grad_norm": 0.8283625841140747,
	"learning_rate": 1.3500000000000002e-06,
	"loss": 0.9857,
	"step": 27
	},
	{
	"epoch": 0.023333333333333334,
	"grad_norm": 0.7852944135665894,
	"learning_rate": 1.4000000000000001e-06,
	"loss": 0.9626,
	"step": 28
	},
	{
	"epoch": 0.024166666666666666,
	"grad_norm": 0.7574114799499512,
	"learning_rate": 1.45e-06,
	"loss": 0.961,
	"step": 29
	},
	{
	"epoch": 0.025,
	"grad_norm": 0.6753239631652832,
	"learning_rate": 1.5e-06,
	"loss": 0.9559,
	"step": 30
	},
	{
	"epoch": 0.025833333333333333,
	"grad_norm": 0.7140569090843201,
	"learning_rate": 1.5500000000000002e-06,
	"loss": 0.9888,
	"step": 31
	},
	{
	"epoch": 0.02666666666666667,
	"grad_norm": 0.6629248261451721,
	"learning_rate": 1.6000000000000001e-06,
	"loss": 0.9743,
	"step": 32
	},
	{
	"epoch": 0.0275,
	"grad_norm": 0.6247519850730896,
	"learning_rate": 1.6500000000000003e-06,
	"loss": 0.9632,
	"step": 33
	},
	{
	"epoch": 0.028333333333333332,
	"grad_norm": 0.6117823719978333,
	"learning_rate": 1.7000000000000002e-06,
	"loss": 0.9748,
	"step": 34
	},
	{
	"epoch": 0.029166666666666667,
	"grad_norm": 0.588638961315155,
	"learning_rate": 1.75e-06,
	"loss": 0.925,
	"step": 35
	},
	{
	"epoch": 0.03,
	"grad_norm": 0.5774214863777161,
	"learning_rate": 1.8000000000000001e-06,
	"loss": 0.9525,
	"step": 36
	},
	{
	"epoch": 0.030833333333333334,
	"grad_norm": 0.5576947331428528,
	"learning_rate": 1.85e-06,
	"loss": 0.9276,
	"step": 37
	},
	{
	"epoch": 0.03166666666666667,
	"grad_norm": 0.5530500411987305,
	"learning_rate": 1.9000000000000002e-06,
	"loss": 0.9336,
	"step": 38
	},
	{
	"epoch": 0.0325,
	"grad_norm": 0.526444673538208,
	"learning_rate": 1.9500000000000004e-06,
	"loss": 0.9472,
	"step": 39
	},
	{
	"epoch": 0.03333333333333333,
	"grad_norm": 0.522305428981781,
	"learning_rate": 2.0000000000000003e-06,
	"loss": 0.9391,
	"step": 40
	},
	{
	"epoch": 0.034166666666666665,
	"grad_norm": 0.5324348211288452,
	"learning_rate": 2.05e-06,
	"loss": 0.932,
	"step": 41
	},
	{
	"epoch": 0.035,
	"grad_norm": 0.5140389800071716,
	"learning_rate": 2.1000000000000002e-06,
	"loss": 0.936,
	"step": 42
	},
	{
	"epoch": 0.035833333333333335,
	"grad_norm": 0.4937451183795929,
	"learning_rate": 2.15e-06,
	"loss": 0.9156,
	"step": 43
	},
	{
	"epoch": 0.03666666666666667,
	"grad_norm": 0.4914454221725464,
	"learning_rate": 2.2e-06,
	"loss": 0.9017,
	"step": 44
	},
	{
	"epoch": 0.0375,
	"grad_norm": 0.463674396276474,
	"learning_rate": 2.25e-06,
	"loss": 0.919,
	"step": 45
	},
	{
	"epoch": 0.03833333333333333,
	"grad_norm": 0.47291600704193115,
	"learning_rate": 2.3000000000000004e-06,
	"loss": 0.9055,
	"step": 46
	},
	{
	"epoch": 0.03916666666666667,
	"grad_norm": 0.4750823974609375,
	"learning_rate": 2.35e-06,
	"loss": 0.9014,
	"step": 47
	},
	{
	"epoch": 0.04,
	"grad_norm": 0.46855229139328003,
	"learning_rate": 2.4000000000000003e-06,
	"loss": 0.913,
	"step": 48
	},
	{
	"epoch": 0.04083333333333333,
	"grad_norm": 0.44282588362693787,
	"learning_rate": 2.4500000000000003e-06,
	"loss": 0.8786,
	"step": 49
	},
	{
	"epoch": 0.041666666666666664,
	"grad_norm": 0.44580671191215515,
	"learning_rate": 2.5e-06,
	"loss": 0.8723,
	"step": 50
	},
	{
	"epoch": 0.0425,
	"grad_norm": 0.4055674076080322,
	"learning_rate": 2.55e-06,
	"loss": 0.8608,
	"step": 51
	},
	{
	"epoch": 0.043333333333333335,
	"grad_norm": 0.4235178530216217,
	"learning_rate": 2.6e-06,
	"loss": 0.8634,
	"step": 52
	},
	{
	"epoch": 0.04416666666666667,
	"grad_norm": 0.40961897373199463,
	"learning_rate": 2.6500000000000005e-06,
	"loss": 0.8787,
	"step": 53
	},
	{
	"epoch": 0.045,
	"grad_norm": 0.4077180325984955,
	"learning_rate": 2.7000000000000004e-06,
	"loss": 0.8812,
	"step": 54
	},
	{
	"epoch": 0.04583333333333333,
	"grad_norm": 0.3950030207633972,
	"learning_rate": 2.7500000000000004e-06,
	"loss": 0.9077,
	"step": 55
	},
	{
	"epoch": 0.04666666666666667,
	"grad_norm": 0.39791586995124817,
	"learning_rate": 2.8000000000000003e-06,
	"loss": 0.8598,
	"step": 56
	},
	{
	"epoch": 0.0475,
	"grad_norm": 0.3972901999950409,
	"learning_rate": 2.85e-06,
	"loss": 0.895,
	"step": 57
	},
	{
	"epoch": 0.04833333333333333,
	"grad_norm": 0.3858731687068939,
	"learning_rate": 2.9e-06,
	"loss": 0.8546,
	"step": 58
	},
	{
	"epoch": 0.049166666666666664,
	"grad_norm": 0.3872743248939514,
	"learning_rate": 2.95e-06,
	"loss": 0.8564,
	"step": 59
	},
	{
	"epoch": 0.05,
	"grad_norm": 0.39333608746528625,
	"learning_rate": 3e-06,
	"loss": 0.8712,
	"step": 60
	},
	{
	"epoch": 0.050833333333333335,
	"grad_norm": 0.3825393319129944,
	"learning_rate": 3.05e-06,
	"loss": 0.8393,
	"step": 61
	},
	{
	"epoch": 0.051666666666666666,
	"grad_norm": 0.37787196040153503,
	"learning_rate": 3.1000000000000004e-06,
	"loss": 0.8615,
	"step": 62
	},
	{
	"epoch": 0.0525,
	"grad_norm": 0.3709644675254822,
	"learning_rate": 3.1500000000000003e-06,
	"loss": 0.8514,
	"step": 63
	},
	{
	"epoch": 0.05333333333333334,
	"grad_norm": 0.37211689352989197,
	"learning_rate": 3.2000000000000003e-06,
	"loss": 0.8692,
	"step": 64
	},
	{
	"epoch": 0.05416666666666667,
	"grad_norm": 0.368915319442749,
	"learning_rate": 3.2500000000000002e-06,
	"loss": 0.8569,
	"step": 65
	},
	{
	"epoch": 0.055,
	"grad_norm": 0.37553271651268005,
	"learning_rate": 3.3000000000000006e-06,
	"loss": 0.8795,
	"step": 66
	},
	{
	"epoch": 0.05583333333333333,
	"grad_norm": 0.352721631526947,
	"learning_rate": 3.3500000000000005e-06,
	"loss": 0.8358,
	"step": 67
	},
	{
	"epoch": 0.056666666666666664,
	"grad_norm": 0.36005082726478577,
	"learning_rate": 3.4000000000000005e-06,
	"loss": 0.8384,
	"step": 68
	},
	{
	"epoch": 0.0575,
	"grad_norm": 0.3655393421649933,
	"learning_rate": 3.45e-06,
	"loss": 0.8483,
	"step": 69
	},
	{
	"epoch": 0.058333333333333334,
	"grad_norm": 0.36913320422172546,
	"learning_rate": 3.5e-06,
	"loss": 0.8355,
	"step": 70
	},
	{
	"epoch": 0.059166666666666666,
	"grad_norm": 0.35906630754470825,
	"learning_rate": 3.5500000000000003e-06,
	"loss": 0.8362,
	"step": 71
	},
	{
	"epoch": 0.06,
	"grad_norm": 0.35950616002082825,
	"learning_rate": 3.6000000000000003e-06,
	"loss": 0.8419,
	"step": 72
	},
	{
	"epoch": 0.060833333333333336,
	"grad_norm": 0.35736384987831116,
	"learning_rate": 3.65e-06,
	"loss": 0.8039,
	"step": 73
	},
	{
	"epoch": 0.06166666666666667,
	"grad_norm": 0.34134334325790405,
	"learning_rate": 3.7e-06,
	"loss": 0.8325,
	"step": 74
	},
	{
	"epoch": 0.0625,
	"grad_norm": 0.35043129324913025,
	"learning_rate": 3.7500000000000005e-06,
	"loss": 0.8374,
	"step": 75
	},
	{
	"epoch": 0.06333333333333334,
	"grad_norm": 0.3583405017852783,
	"learning_rate": 3.8000000000000005e-06,
	"loss": 0.8379,
	"step": 76
	},
	{
	"epoch": 0.06416666666666666,
	"grad_norm": 0.3533692955970764,
	"learning_rate": 3.85e-06,
	"loss": 0.8408,
	"step": 77
	},
	{
	"epoch": 0.065,
	"grad_norm": 0.33973240852355957,
	"learning_rate": 3.900000000000001e-06,
	"loss": 0.8432,
	"step": 78
	},
	{
	"epoch": 0.06583333333333333,
	"grad_norm": 0.35633859038352966,
	"learning_rate": 3.95e-06,
	"loss": 0.8436,
	"step": 79
	},
	{
	"epoch": 0.06666666666666667,
	"grad_norm": 0.3565576374530792,
	"learning_rate": 4.000000000000001e-06,
	"loss": 0.8369,
	"step": 80
	},
	{
	"epoch": 0.0675,
	"grad_norm": 0.3609810173511505,
	"learning_rate": 4.05e-06,
	"loss": 0.8073,
	"step": 81
	},
	{
	"epoch": 0.06833333333333333,
	"grad_norm": 0.35566118359565735,
	"learning_rate": 4.1e-06,
	"loss": 0.8445,
	"step": 82
	},
	{
	"epoch": 0.06916666666666667,
	"grad_norm": 0.35150593519210815,
	"learning_rate": 4.15e-06,
	"loss": 0.8718,
	"step": 83
	},
	{
	"epoch": 0.07,
	"grad_norm": 0.35017678141593933,
	"learning_rate": 4.2000000000000004e-06,
	"loss": 0.8618,
	"step": 84
	},
	{
	"epoch": 0.07083333333333333,
	"grad_norm": 0.3438548743724823,
	"learning_rate": 4.25e-06,
	"loss": 0.8255,
	"step": 85
	},
	{
	"epoch": 0.07166666666666667,
	"grad_norm": 0.3373638391494751,
	"learning_rate": 4.3e-06,
	"loss": 0.8342,
	"step": 86
	},
	{
	"epoch": 0.0725,
	"grad_norm": 0.3417414128780365,
	"learning_rate": 4.350000000000001e-06,
	"loss": 0.8243,
	"step": 87
	},
	{
	"epoch": 0.07333333333333333,
	"grad_norm": 0.3668825030326843,
	"learning_rate": 4.4e-06,
	"loss": 0.8324,
	"step": 88
	},
	{
	"epoch": 0.07416666666666667,
	"grad_norm": 0.3487826883792877,
	"learning_rate": 4.450000000000001e-06,
	"loss": 0.8071,
	"step": 89
	},
	{
	"epoch": 0.075,
	"grad_norm": 0.3577321767807007,
	"learning_rate": 4.5e-06,
	"loss": 0.8272,
	"step": 90
	},
	{
	"epoch": 0.07583333333333334,
	"grad_norm": 0.3431159555912018,
	"learning_rate": 4.5500000000000005e-06,
	"loss": 0.8146,
	"step": 91
	},
	{
	"epoch": 0.07666666666666666,
	"grad_norm": 0.3591880798339844,
	"learning_rate": 4.600000000000001e-06,
	"loss": 0.8378,
	"step": 92
	},
	{
	"epoch": 0.0775,
	"grad_norm": 0.33692434430122375,
	"learning_rate": 4.65e-06,
	"loss": 0.8226,
	"step": 93
	},
	{
	"epoch": 0.07833333333333334,
	"grad_norm": 0.3472079932689667,
	"learning_rate": 4.7e-06,
	"loss": 0.8159,
	"step": 94
	},
	{
	"epoch": 0.07916666666666666,
	"grad_norm": 0.3522193133831024,
	"learning_rate": 4.75e-06,
	"loss": 0.8244,
	"step": 95
	},
	{
	"epoch": 0.08,
	"grad_norm": 0.3516963720321655,
	"learning_rate": 4.800000000000001e-06,
	"loss": 0.8287,
	"step": 96
	},
	{
	"epoch": 0.08083333333333333,
	"grad_norm": 0.335097074508667,
	"learning_rate": 4.85e-06,
	"loss": 0.8287,
	"step": 97
	},
	{
	"epoch": 0.08166666666666667,
	"grad_norm": 0.3417796194553375,
	"learning_rate": 4.9000000000000005e-06,
	"loss": 0.797,
	"step": 98
	},
	{
	"epoch": 0.0825,
	"grad_norm": 0.33278194069862366,
	"learning_rate": 4.95e-06,
	"loss": 0.8085,
	"step": 99
	},
	{
	"epoch": 0.08333333333333333,
	"grad_norm": 0.3478794991970062,
	"learning_rate": 5e-06,
	"loss": 0.8104,
	"step": 100
	},
	{
	"epoch": 0.08416666666666667,
	"grad_norm": 0.3505585789680481,
	"learning_rate": 4.9999997552667074e-06,
	"loss": 0.8152,
	"step": 101
	},
	{
	"epoch": 0.085,
	"grad_norm": 0.3526367247104645,
	"learning_rate": 4.999999021066877e-06,
	"loss": 0.8219,
	"step": 102
	},
	{
	"epoch": 0.08583333333333333,
	"grad_norm": 0.37416499853134155,
	"learning_rate": 4.999997797400651e-06,
	"loss": 0.8043,
	"step": 103
	},
	{
	"epoch": 0.08666666666666667,
	"grad_norm": 0.35329508781433105,
	"learning_rate": 4.999996084268271e-06,
	"loss": 0.8313,
	"step": 104
	},
	{
	"epoch": 0.0875,
	"grad_norm": 0.347540944814682,
	"learning_rate": 4.999993881670071e-06,
	"loss": 0.8266,
	"step": 105
	},
	{
	"epoch": 0.08833333333333333,
	"grad_norm": 0.33843380212783813,
	"learning_rate": 4.999991189606484e-06,
	"loss": 0.8019,
	"step": 106
	},
	{
	"epoch": 0.08916666666666667,
	"grad_norm": 0.34694716334342957,
	"learning_rate": 4.999988008078035e-06,
	"loss": 0.7936,
	"step": 107
	},
	{
	"epoch": 0.09,
	"grad_norm": 0.36330705881118774,
	"learning_rate": 4.9999843370853485e-06,
	"loss": 0.8258,
	"step": 108
	},
	{
	"epoch": 0.09083333333333334,
	"grad_norm": 0.35987865924835205,
	"learning_rate": 4.999980176629142e-06,
	"loss": 0.7897,
	"step": 109
	},
	{
	"epoch": 0.09166666666666666,
	"grad_norm": 0.3725634813308716,
	"learning_rate": 4.99997552671023e-06,
	"loss": 0.7987,
	"step": 110
	},
	{
	"epoch": 0.0925,
	"grad_norm": 0.3425033390522003,
	"learning_rate": 4.999970387329525e-06,
	"loss": 0.7963,
	"step": 111
	},
	{
	"epoch": 0.09333333333333334,
	"grad_norm": 0.3447592258453369,
	"learning_rate": 4.999964758488031e-06,
	"loss": 0.7929,
	"step": 112
	},
	{
	"epoch": 0.09416666666666666,
	"grad_norm": 0.3550160229206085,
	"learning_rate": 4.9999586401868515e-06,
	"loss": 0.81,
	"step": 113
	},
	{
	"epoch": 0.095,
	"grad_norm": 0.35416096448898315,
	"learning_rate": 4.999952032427183e-06,
	"loss": 0.8218,
	"step": 114
	},
	{
	"epoch": 0.09583333333333334,
	"grad_norm": 0.3488410711288452,
	"learning_rate": 4.99994493521032e-06,
	"loss": 0.7769,
	"step": 115
	},
	{
	"epoch": 0.09666666666666666,
	"grad_norm": 0.3451888859272003,
	"learning_rate": 4.999937348537652e-06,
	"loss": 0.8145,
	"step": 116
	},
	{
	"epoch": 0.0975,
	"grad_norm": 0.3621158003807068,
	"learning_rate": 4.999929272410665e-06,
	"loss": 0.8121,
	"step": 117
	},
	{
	"epoch": 0.09833333333333333,
	"grad_norm": 0.35885924100875854,
	"learning_rate": 4.999920706830939e-06,
	"loss": 0.8155,
	"step": 118
	},
	{
	"epoch": 0.09916666666666667,
	"grad_norm": 0.339515745639801,
	"learning_rate": 4.999911651800151e-06,
	"loss": 0.7966,
	"step": 119
	},
	{
	"epoch": 0.1,
	"grad_norm": 0.35636720061302185,
	"learning_rate": 4.9999021073200754e-06,
	"loss": 0.8152,
	"step": 120
	},
	{
	"epoch": 0.10083333333333333,
	"grad_norm": 0.37600013613700867,
	"learning_rate": 4.999892073392579e-06,
	"loss": 0.8198,
	"step": 121
	},
	{
	"epoch": 0.10166666666666667,
	"grad_norm": 0.3581588864326477,
	"learning_rate": 4.999881550019628e-06,
	"loss": 0.8118,
	"step": 122
	},
	{
	"epoch": 0.1025,
	"grad_norm": 0.38209372758865356,
	"learning_rate": 4.9998705372032815e-06,
	"loss": 0.8029,
	"step": 123
	},
	{
	"epoch": 0.10333333333333333,
	"grad_norm": 0.3533329367637634,
	"learning_rate": 4.999859034945696e-06,
	"loss": 0.8257,
	"step": 124
	},
	{
	"epoch": 0.10416666666666667,
	"grad_norm": 0.3652520179748535,
	"learning_rate": 4.999847043249124e-06,
	"loss": 0.8253,
	"step": 125
	},
	{
	"epoch": 0.105,
	"grad_norm": 0.3446200489997864,
	"learning_rate": 4.999834562115912e-06,
	"loss": 0.7962,
	"step": 126
	},
	{
	"epoch": 0.10583333333333333,
	"grad_norm": 0.3734533488750458,
	"learning_rate": 4.9998215915485055e-06,
	"loss": 0.7822,
	"step": 127
	},
	{
	"epoch": 0.10666666666666667,
	"grad_norm": 0.36829882860183716,
	"learning_rate": 4.999808131549443e-06,
	"loss": 0.7825,
	"step": 128
	},
	{
	"epoch": 0.1075,
	"grad_norm": 0.34977245330810547,
	"learning_rate": 4.999794182121359e-06,
	"loss": 0.7878,
	"step": 129
	},
	{
	"epoch": 0.10833333333333334,
	"grad_norm": 0.34649035334587097,
	"learning_rate": 4.9997797432669855e-06,
	"loss": 0.7917,
	"step": 130
	},
	{
	"epoch": 0.10916666666666666,
	"grad_norm": 0.36581557989120483,
	"learning_rate": 4.9997648149891494e-06,
	"loss": 0.7879,
	"step": 131
	},
	{
	"epoch": 0.11,
	"grad_norm": 0.35695648193359375,
	"learning_rate": 4.999749397290774e-06,
	"loss": 0.8084,
	"step": 132
	},
	{
	"epoch": 0.11083333333333334,
	"grad_norm": 0.35371989011764526,
	"learning_rate": 4.999733490174877e-06,
	"loss": 0.7914,
	"step": 133
	},
	{
	"epoch": 0.11166666666666666,
	"grad_norm": 0.3545876741409302,
	"learning_rate": 4.999717093644572e-06,
	"loss": 0.7989,
	"step": 134
	},
	{
	"epoch": 0.1125,
	"grad_norm": 0.36388111114501953,
	"learning_rate": 4.999700207703072e-06,
	"loss": 0.8097,
	"step": 135
	},
	{
	"epoch": 0.11333333333333333,
	"grad_norm": 0.36010992527008057,
	"learning_rate": 4.9996828323536805e-06,
	"loss": 0.7973,
	"step": 136
	},
	{
	"epoch": 0.11416666666666667,
	"grad_norm": 0.34787869453430176,
	"learning_rate": 4.9996649675997995e-06,
	"loss": 0.789,
	"step": 137
	},
	{
	"epoch": 0.115,
	"grad_norm": 0.36334118247032166,
	"learning_rate": 4.9996466134449286e-06,
	"loss": 0.7868,
	"step": 138
	},
	{
	"epoch": 0.11583333333333333,
	"grad_norm": 0.34462034702301025,
	"learning_rate": 4.999627769892659e-06,
	"loss": 0.8011,
	"step": 139
	},
	{
	"epoch": 0.11666666666666667,
	"grad_norm": 0.3529531955718994,
	"learning_rate": 4.999608436946682e-06,
	"loss": 0.806,
	"step": 140
	},
	{
	"epoch": 0.1175,
	"grad_norm": 0.3514865040779114,
	"learning_rate": 4.999588614610781e-06,
	"loss": 0.7768,
	"step": 141
	},
	{
	"epoch": 0.11833333333333333,
	"grad_norm": 0.36210018396377563,
	"learning_rate": 4.999568302888839e-06,
	"loss": 0.7725,
	"step": 142
	},
	{
	"epoch": 0.11916666666666667,
	"grad_norm": 0.356653094291687,
	"learning_rate": 4.999547501784831e-06,
	"loss": 0.7524,
	"step": 143
	},
	{
	"epoch": 0.12,
	"grad_norm": 0.3627665042877197,
	"learning_rate": 4.999526211302828e-06,
	"loss": 0.789,
	"step": 144
	},
	{
	"epoch": 0.12083333333333333,
	"grad_norm": 0.3673461675643921,
	"learning_rate": 4.999504431447003e-06,
	"loss": 0.7918,
	"step": 145
	},
	{
	"epoch": 0.12166666666666667,
	"grad_norm": 0.3700329661369324,
	"learning_rate": 4.999482162221617e-06,
	"loss": 0.7974,
	"step": 146
	},
	{
	"epoch": 0.1225,
	"grad_norm": 0.3536025583744049,
	"learning_rate": 4.9994594036310315e-06,
	"loss": 0.7861,
	"step": 147
	},
	{
	"epoch": 0.12333333333333334,
	"grad_norm": 0.3679131269454956,
	"learning_rate": 4.9994361556797e-06,
	"loss": 0.7763,
	"step": 148
	},
	{
	"epoch": 0.12416666666666666,
	"grad_norm": 0.36771222949028015,
	"learning_rate": 4.999412418372177e-06,
	"loss": 0.7711,
	"step": 149
	},
	{
	"epoch": 0.125,
	"grad_norm": 0.3634738624095917,
	"learning_rate": 4.9993881917131086e-06,
	"loss": 0.7912,
	"step": 150
	},
	{
	"epoch": 0.12583333333333332,
	"grad_norm": 0.3649067282676697,
	"learning_rate": 4.999363475707237e-06,
	"loss": 0.7627,
	"step": 151
	},
	{
	"epoch": 0.12666666666666668,
	"grad_norm": 0.35532045364379883,
	"learning_rate": 4.999338270359403e-06,
	"loss": 0.7926,
	"step": 152
	},
	{
	"epoch": 0.1275,
	"grad_norm": 0.35826247930526733,
	"learning_rate": 4.999312575674541e-06,
	"loss": 0.7931,
	"step": 153
	},
	{
	"epoch": 0.12833333333333333,
	"grad_norm": 0.36087995767593384,
	"learning_rate": 4.9992863916576804e-06,
	"loss": 0.8066,
	"step": 154
	},
	{
	"epoch": 0.12916666666666668,
	"grad_norm": 0.35800597071647644,
	"learning_rate": 4.9992597183139506e-06,
	"loss": 0.7628,
	"step": 155
	},
	{
	"epoch": 0.13,
	"grad_norm": 0.36373597383499146,
	"learning_rate": 4.9992325556485705e-06,
	"loss": 0.7708,
	"step": 156
	},
	{
	"epoch": 0.13083333333333333,
	"grad_norm": 0.3661397099494934,
	"learning_rate": 4.99920490366686e-06,
	"loss": 0.7743,
	"step": 157
	},
	{
	"epoch": 0.13166666666666665,
	"grad_norm": 0.37233859300613403,
	"learning_rate": 4.999176762374234e-06,
	"loss": 0.7974,
	"step": 158
	},
	{
	"epoch": 0.1325,
	"grad_norm": 0.35442104935646057,
	"learning_rate": 4.999148131776199e-06,
	"loss": 0.7652,
	"step": 159
	},
	{
	"epoch": 0.13333333333333333,
	"grad_norm": 0.3924972414970398,
	"learning_rate": 4.999119011878364e-06,
	"loss": 0.7978,
	"step": 160
	},
	{
	"epoch": 0.13416666666666666,
	"grad_norm": 0.4362795650959015,
	"learning_rate": 4.9990894026864275e-06,
	"loss": 0.7947,
	"step": 161
	},
	{
	"epoch": 0.135,
	"grad_norm": 0.3709726333618164,
	"learning_rate": 4.999059304206189e-06,
	"loss": 0.7908,
	"step": 162
	},
	{
	"epoch": 0.13583333333333333,
	"grad_norm": 0.35826730728149414,
	"learning_rate": 4.999028716443539e-06,
	"loss": 0.7814,
	"step": 163
	},
	{
	"epoch": 0.13666666666666666,
	"grad_norm": 0.38429173827171326,
	"learning_rate": 4.998997639404468e-06,
	"loss": 0.7678,
	"step": 164
	},
	{
	"epoch": 0.1375,
	"grad_norm": 0.376558393239975,
	"learning_rate": 4.99896607309506e-06,
	"loss": 0.7593,
	"step": 165
	},
	{
	"epoch": 0.13833333333333334,
	"grad_norm": 0.3639720678329468,
	"learning_rate": 4.998934017521495e-06,
	"loss": 0.7769,
	"step": 166
	},
	{
	"epoch": 0.13916666666666666,
	"grad_norm": 0.38841623067855835,
	"learning_rate": 4.998901472690049e-06,
	"loss": 0.7728,
	"step": 167
	},
	{
	"epoch": 0.14,
	"grad_norm": 0.36425021290779114,
	"learning_rate": 4.998868438607094e-06,
	"loss": 0.7702,
	"step": 168
	},
	{
	"epoch": 0.14083333333333334,
	"grad_norm": 0.376455157995224,
	"learning_rate": 4.998834915279097e-06,
	"loss": 0.7645,
	"step": 169
	},
	{
	"epoch": 0.14166666666666666,
	"grad_norm": 0.3707723319530487,
	"learning_rate": 4.998800902712623e-06,
	"loss": 0.7711,
	"step": 170
	},
	{
	"epoch": 0.1425,
	"grad_norm": 0.3775656223297119,
	"learning_rate": 4.998766400914329e-06,
	"loss": 0.7659,
	"step": 171
	},
	{
	"epoch": 0.14333333333333334,
	"grad_norm": 0.3919985294342041,
	"learning_rate": 4.998731409890972e-06,
	"loss": 0.7811,
	"step": 172
	},
	{
	"epoch": 0.14416666666666667,
	"grad_norm": 0.39199399948120117,
	"learning_rate": 4.9986959296494016e-06,
	"loss": 0.7704,
	"step": 173
	},
	{
	"epoch": 0.145,
	"grad_norm": 0.39340391755104065,
	"learning_rate": 4.9986599601965656e-06,
	"loss": 0.7732,
	"step": 174
	},
	{
	"epoch": 0.14583333333333334,
	"grad_norm": 0.37447303533554077,
	"learning_rate": 4.998623501539504e-06,
	"loss": 0.7541,
	"step": 175
	},
	{
	"epoch": 0.14666666666666667,
	"grad_norm": 0.3860747814178467,
	"learning_rate": 4.998586553685359e-06,
	"loss": 0.7935,
	"step": 176
	},
	{
	"epoch": 0.1475,
	"grad_norm": 0.3735111653804779,
	"learning_rate": 4.998549116641359e-06,
	"loss": 0.785,
	"step": 177
	},
	{
	"epoch": 0.14833333333333334,
	"grad_norm": 0.3839254379272461,
	"learning_rate": 4.9985111904148384e-06,
	"loss": 0.7578,
	"step": 178
	},
	{
	"epoch": 0.14916666666666667,
	"grad_norm": 0.38898995518684387,
	"learning_rate": 4.99847277501322e-06,
	"loss": 0.7866,
	"step": 179
	},
	{
	"epoch": 0.15,
	"grad_norm": 0.3699515163898468,
	"learning_rate": 4.998433870444026e-06,
	"loss": 0.7663,
	"step": 180
	},
	{
	"epoch": 0.15083333333333335,
	"grad_norm": 0.3879365622997284,
	"learning_rate": 4.998394476714874e-06,
	"loss": 0.7429,
	"step": 181
	},
	{
	"epoch": 0.15166666666666667,
	"grad_norm": 0.3695140779018402,
	"learning_rate": 4.9983545938334756e-06,
	"loss": 0.7968,
	"step": 182
	},
	{
	"epoch": 0.1525,
	"grad_norm": 0.3635151982307434,
	"learning_rate": 4.998314221807638e-06,
	"loss": 0.7682,
	"step": 183
	},
	{
	"epoch": 0.15333333333333332,
	"grad_norm": 0.35855668783187866,
	"learning_rate": 4.99827336064527e-06,
	"loss": 0.7543,
	"step": 184
	},
	{
	"epoch": 0.15416666666666667,
	"grad_norm": 0.37712377309799194,
	"learning_rate": 4.998232010354367e-06,
	"loss": 0.7869,
	"step": 185
	},
	{
	"epoch": 0.155,
	"grad_norm": 0.37327340245246887,
	"learning_rate": 4.998190170943028e-06,
	"loss": 0.7617,
	"step": 186
	},
	{
	"epoch": 0.15583333333333332,
	"grad_norm": 0.38740837574005127,
	"learning_rate": 4.998147842419442e-06,
	"loss": 0.7932,
	"step": 187
	},
	{
	"epoch": 0.15666666666666668,
	"grad_norm": 0.3772065341472626,
	"learning_rate": 4.998105024791898e-06,
	"loss": 0.7672,
	"step": 188
	},
	{
	"epoch": 0.1575,
	"grad_norm": 0.38418206572532654,
	"learning_rate": 4.99806171806878e-06,
	"loss": 0.762,
	"step": 189
	},
	{
	"epoch": 0.15833333333333333,
	"grad_norm": 0.38887330889701843,
	"learning_rate": 4.998017922258564e-06,
	"loss": 0.7764,
	"step": 190
	},
	{
	"epoch": 0.15916666666666668,
	"grad_norm": 0.36791321635246277,
	"learning_rate": 4.997973637369828e-06,
	"loss": 0.766,
	"step": 191
	},
	{
	"epoch": 0.16,
	"grad_norm": 0.3709692060947418,
	"learning_rate": 4.99792886341124e-06,
	"loss": 0.7609,
	"step": 192
	},
	{
	"epoch": 0.16083333333333333,
	"grad_norm": 0.3846558630466461,
	"learning_rate": 4.997883600391567e-06,
	"loss": 0.7509,
	"step": 193
	},
	{
	"epoch": 0.16166666666666665,
	"grad_norm": 0.3780789077281952,
	"learning_rate": 4.99783784831967e-06,
	"loss": 0.7634,
	"step": 194
	},
	{
	"epoch": 0.1625,
	"grad_norm": 0.36646682024002075,
	"learning_rate": 4.997791607204509e-06,
	"loss": 0.7804,
	"step": 195
	},
	{
	"epoch": 0.16333333333333333,
	"grad_norm": 0.37776893377304077,
	"learning_rate": 4.997744877055134e-06,
	"loss": 0.7636,
	"step": 196
	},
	{
	"epoch": 0.16416666666666666,
	"grad_norm": 0.3815717101097107,
	"learning_rate": 4.9976976578806965e-06,
	"loss": 0.751,
	"step": 197
	},
	{
	"epoch": 0.165,
	"grad_norm": 0.39156651496887207,
	"learning_rate": 4.997649949690442e-06,
	"loss": 0.7613,
	"step": 198
	},
	{
	"epoch": 0.16583333333333333,
	"grad_norm": 0.36160358786582947,
	"learning_rate": 4.997601752493709e-06,
	"loss": 0.7679,
	"step": 199
	},
	{
	"epoch": 0.16666666666666666,
	"grad_norm": 0.3756240904331207,
	"learning_rate": 4.997553066299934e-06,
	"loss": 0.7573,
	"step": 200
	},
	{
	"epoch": 0.1675,
	"grad_norm": 0.3761761486530304,
	"learning_rate": 4.997503891118651e-06,
	"loss": 0.7628,
	"step": 201
	},
	{
	"epoch": 0.16833333333333333,
	"grad_norm": 0.3864724338054657,
	"learning_rate": 4.9974542269594865e-06,
	"loss": 0.7392,
	"step": 202
	},
	{
	"epoch": 0.16916666666666666,
	"grad_norm": 0.3820183277130127,
	"learning_rate": 4.997404073832165e-06,
	"loss": 0.7653,
	"step": 203
	},
	{
	"epoch": 0.17,
	"grad_norm": 0.3783702552318573,
	"learning_rate": 4.997353431746504e-06,
	"loss": 0.7336,
	"step": 204
	},
	{
	"epoch": 0.17083333333333334,
	"grad_norm": 0.3944641947746277,
	"learning_rate": 4.99730230071242e-06,
	"loss": 0.7692,
	"step": 205
	},
	{
	"epoch": 0.17166666666666666,
	"grad_norm": 0.39105913043022156,
	"learning_rate": 4.997250680739923e-06,
	"loss": 0.7691,
	"step": 206
	},
	{
	"epoch": 0.1725,
	"grad_norm": 0.4006231725215912,
	"learning_rate": 4.997198571839121e-06,
	"loss": 0.755,
	"step": 207
	},
	{
	"epoch": 0.17333333333333334,
	"grad_norm": 0.3811741769313812,
	"learning_rate": 4.9971459740202145e-06,
	"loss": 0.7718,
	"step": 208
	},
	{
	"epoch": 0.17416666666666666,
	"grad_norm": 0.3822275400161743,
	"learning_rate": 4.997092887293503e-06,
	"loss": 0.7544,
	"step": 209
	},
	{
	"epoch": 0.175,
	"grad_norm": 0.401355504989624,
	"learning_rate": 4.9970393116693785e-06,
	"loss": 0.7595,
	"step": 210
	},
	{
	"epoch": 0.17583333333333334,
	"grad_norm": 0.39196428656578064,
	"learning_rate": 4.996985247158331e-06,
	"loss": 0.765,
	"step": 211
	},
	{
	"epoch": 0.17666666666666667,
	"grad_norm": 0.4076025187969208,
	"learning_rate": 4.996930693770947e-06,
	"loss": 0.752,
	"step": 212
	},
	{
	"epoch": 0.1775,
	"grad_norm": 0.3844936490058899,
	"learning_rate": 4.996875651517905e-06,
	"loss": 0.7242,
	"step": 213
	},
	{
	"epoch": 0.17833333333333334,
	"grad_norm": 0.37500861287117004,
	"learning_rate": 4.996820120409983e-06,
	"loss": 0.7525,
	"step": 214
	},
	{
	"epoch": 0.17916666666666667,
	"grad_norm": 0.3904462158679962,
	"learning_rate": 4.996764100458053e-06,
	"loss": 0.7521,
	"step": 215
	},
	{
	"epoch": 0.18,
	"grad_norm": 0.37583500146865845,
	"learning_rate": 4.996707591673084e-06,
	"loss": 0.7814,
	"step": 216
	},
	{
	"epoch": 0.18083333333333335,
	"grad_norm": 0.3917851448059082,
	"learning_rate": 4.996650594066137e-06,
	"loss": 0.7557,
	"step": 217
	},
	{
	"epoch": 0.18166666666666667,
	"grad_norm": 0.40137824416160583,
	"learning_rate": 4.9965931076483735e-06,
	"loss": 0.7534,
	"step": 218
	},
	{
	"epoch": 0.1825,
	"grad_norm": 0.40111401677131653,
	"learning_rate": 4.996535132431048e-06,
	"loss": 0.7738,
	"step": 219
	},
	{
	"epoch": 0.18333333333333332,
	"grad_norm": 0.39719894528388977,
	"learning_rate": 4.99647666842551e-06,
	"loss": 0.7726,
	"step": 220
	},
	{
	"epoch": 0.18416666666666667,
	"grad_norm": 0.39689141511917114,
	"learning_rate": 4.996417715643209e-06,
	"loss": 0.7541,
	"step": 221
	},
	{
	"epoch": 0.185,
	"grad_norm": 0.39099663496017456,
	"learning_rate": 4.996358274095684e-06,
	"loss": 0.7547,
	"step": 222
	},
	{
	"epoch": 0.18583333333333332,
	"grad_norm": 0.39196664094924927,
	"learning_rate": 4.996298343794576e-06,
	"loss": 0.7644,
	"step": 223
	},
	{
	"epoch": 0.18666666666666668,
	"grad_norm": 0.3910345733165741,
	"learning_rate": 4.996237924751616e-06,
	"loss": 0.7396,
	"step": 224
	},
	{
	"epoch": 0.1875,
	"grad_norm": 0.3950398564338684,
	"learning_rate": 4.996177016978633e-06,
	"loss": 0.7432,
	"step": 225
	},
	{
	"epoch": 0.18833333333333332,
	"grad_norm": 0.39441680908203125,
	"learning_rate": 4.996115620487554e-06,
	"loss": 0.7692,
	"step": 226
	},
	{
	"epoch": 0.18916666666666668,
	"grad_norm": 0.3933153450489044,
	"learning_rate": 4.996053735290398e-06,
	"loss": 0.7589,
	"step": 227
	},
	{
	"epoch": 0.19,
	"grad_norm": 0.3911586403846741,
	"learning_rate": 4.9959913613992824e-06,
	"loss": 0.7373,
	"step": 228
	},
	{
	"epoch": 0.19083333333333333,
	"grad_norm": 0.40785402059555054,
	"learning_rate": 4.995928498826419e-06,
	"loss": 0.7658,
	"step": 229
	},
	{
	"epoch": 0.19166666666666668,
	"grad_norm": 0.3948311507701874,
	"learning_rate": 4.9958651475841145e-06,
	"loss": 0.7809,
	"step": 230
	},
	{
	"epoch": 0.1925,
	"grad_norm": 0.3839765191078186,
	"learning_rate": 4.995801307684773e-06,
	"loss": 0.7771,
	"step": 231
	},
	{
	"epoch": 0.19333333333333333,
	"grad_norm": 0.39128726720809937,
	"learning_rate": 4.995736979140894e-06,
	"loss": 0.7322,
	"step": 232
	},
	{
	"epoch": 0.19416666666666665,
	"grad_norm": 0.3875157833099365,
	"learning_rate": 4.995672161965071e-06,
	"loss": 0.7712,
	"step": 233
	},
	{
	"epoch": 0.195,
	"grad_norm": 0.39921367168426514,
	"learning_rate": 4.995606856169995e-06,
	"loss": 0.7687,
	"step": 234
	},
	{
	"epoch": 0.19583333333333333,
	"grad_norm": 0.3909481167793274,
	"learning_rate": 4.995541061768451e-06,
	"loss": 0.7435,
	"step": 235
	},
	{
	"epoch": 0.19666666666666666,
	"grad_norm": 0.4150286912918091,
	"learning_rate": 4.995474778773322e-06,
	"loss": 0.8013,
	"step": 236
	},
	{
	"epoch": 0.1975,
	"grad_norm": 0.3832659423351288,
	"learning_rate": 4.995408007197585e-06,
	"loss": 0.7769,
	"step": 237
	},
	{
	"epoch": 0.19833333333333333,
	"grad_norm": 0.3956066370010376,
	"learning_rate": 4.9953407470543126e-06,
	"loss": 0.7424,
	"step": 238
	},
	{
	"epoch": 0.19916666666666666,
	"grad_norm": 0.4045463800430298,
	"learning_rate": 4.995272998356674e-06,
	"loss": 0.7529,
	"step": 239
	},
	{
	"epoch": 0.2,
	"grad_norm": 0.41016334295272827,
	"learning_rate": 4.995204761117933e-06,
	"loss": 0.783,
	"step": 240
	},
	{
	"epoch": 0.20083333333333334,
	"grad_norm": 0.39553338289260864,
	"learning_rate": 4.9951360353514494e-06,
	"loss": 0.7452,
	"step": 241
	},
	{
	"epoch": 0.20166666666666666,
	"grad_norm": 0.40888774394989014,
	"learning_rate": 4.9950668210706795e-06,
	"loss": 0.7444,
	"step": 242
	},
	{
	"epoch": 0.2025,
	"grad_norm": 0.40222835540771484,
	"learning_rate": 4.994997118289174e-06,
	"loss": 0.764,
	"step": 243
	},
	{
	"epoch": 0.20333333333333334,
	"grad_norm": 0.4101916253566742,
	"learning_rate": 4.994926927020579e-06,
	"loss": 0.7444,
	"step": 244
	},
	{
	"epoch": 0.20416666666666666,
	"grad_norm": 0.3984578847885132,
	"learning_rate": 4.994856247278639e-06,
	"loss": 0.7623,
	"step": 245
	},
	{
	"epoch": 0.205,
	"grad_norm": 0.404247522354126,
	"learning_rate": 4.994785079077192e-06,
	"loss": 0.7791,
	"step": 246
	},
	{
	"epoch": 0.20583333333333334,
	"grad_norm": 0.40907022356987,
	"learning_rate": 4.994713422430169e-06,
	"loss": 0.7534,
	"step": 247
	},
	{
	"epoch": 0.20666666666666667,
	"grad_norm": 0.3909395933151245,
	"learning_rate": 4.994641277351601e-06,
	"loss": 0.7506,
	"step": 248
	},
	{
	"epoch": 0.2075,
	"grad_norm": 0.3906393349170685,
	"learning_rate": 4.994568643855614e-06,
	"loss": 0.7391,
	"step": 249
	},
	{
	"epoch": 0.20833333333333334,
	"grad_norm": 0.4059241712093353,
	"learning_rate": 4.9944955219564285e-06,
	"loss": 0.7648,
	"step": 250
	},
	{
	"epoch": 0.20916666666666667,
	"grad_norm": 0.4067172706127167,
	"learning_rate": 4.994421911668359e-06,
	"loss": 0.74,
	"step": 251
	},
	{
	"epoch": 0.21,
	"grad_norm": 0.39897552132606506,
	"learning_rate": 4.9943478130058194e-06,
	"loss": 0.7678,
	"step": 252
	},
	{
	"epoch": 0.21083333333333334,
	"grad_norm": 0.39684775471687317,
	"learning_rate": 4.994273225983317e-06,
	"loss": 0.776,
	"step": 253
	},
	{
	"epoch": 0.21166666666666667,
	"grad_norm": 0.4042363166809082,
	"learning_rate": 4.994198150615454e-06,
	"loss": 0.7596,
	"step": 254
	},
	{
	"epoch": 0.2125,
	"grad_norm": 0.40387728810310364,
	"learning_rate": 4.994122586916928e-06,
	"loss": 0.754,
	"step": 255
	},
	{
	"epoch": 0.21333333333333335,
	"grad_norm": 0.419778972864151,
	"learning_rate": 4.994046534902537e-06,
	"loss": 0.7358,
	"step": 256
	},
	{
	"epoch": 0.21416666666666667,
	"grad_norm": 0.40244922041893005,
	"learning_rate": 4.9939699945871685e-06,
	"loss": 0.7718,
	"step": 257
	},
	{
	"epoch": 0.215,
	"grad_norm": 0.4182301163673401,
	"learning_rate": 4.993892965985808e-06,
	"loss": 0.7385,
	"step": 258
	},
	{
	"epoch": 0.21583333333333332,
	"grad_norm": 0.41493624448776245,
	"learning_rate": 4.993815449113537e-06,
	"loss": 0.7551,
	"step": 259
	},
	{
	"epoch": 0.21666666666666667,
	"grad_norm": 0.40071433782577515,
	"learning_rate": 4.9937374439855336e-06,
	"loss": 0.7604,
	"step": 260
	},
	{
	"epoch": 0.2175,
	"grad_norm": 0.4069051146507263,
	"learning_rate": 4.993658950617067e-06,
	"loss": 0.7527,
	"step": 261
	},
	{
	"epoch": 0.21833333333333332,
	"grad_norm": 0.4501640796661377,
	"learning_rate": 4.993579969023509e-06,
	"loss": 0.7632,
	"step": 262
	},
	{
	"epoch": 0.21916666666666668,
	"grad_norm": 0.3968100845813751,
	"learning_rate": 4.993500499220321e-06,
	"loss": 0.7507,
	"step": 263
	},
	{
	"epoch": 0.22,
	"grad_norm": 0.40784579515457153,
	"learning_rate": 4.99342054122306e-06,
	"loss": 0.7467,
	"step": 264
	},
	{
	"epoch": 0.22083333333333333,
	"grad_norm": 0.4129437208175659,
	"learning_rate": 4.993340095047387e-06,
	"loss": 0.7645,
	"step": 265
	},
	{
	"epoch": 0.22166666666666668,
	"grad_norm": 0.40144386887550354,
	"learning_rate": 4.9932591607090456e-06,
	"loss": 0.7491,
	"step": 266
	},
	{
	"epoch": 0.2225,
	"grad_norm": 0.4076482951641083,
	"learning_rate": 4.993177738223885e-06,
	"loss": 0.741,
	"step": 267
	},
	{
	"epoch": 0.22333333333333333,
	"grad_norm": 0.4115305542945862,
	"learning_rate": 4.993095827607846e-06,
	"loss": 0.7351,
	"step": 268
	},
	{
	"epoch": 0.22416666666666665,
	"grad_norm": 0.419331818819046,
	"learning_rate": 4.993013428876966e-06,
	"loss": 0.7459,
	"step": 269
	},
	{
	"epoch": 0.225,
	"grad_norm": 0.39884573221206665,
	"learning_rate": 4.992930542047377e-06,
	"loss": 0.7704,
	"step": 270
	},
	{
	"epoch": 0.22583333333333333,
	"grad_norm": 0.40413135290145874,
	"learning_rate": 4.992847167135308e-06,
	"loss": 0.7608,
	"step": 271
	},
	{
	"epoch": 0.22666666666666666,
	"grad_norm": 0.3927971422672272,
	"learning_rate": 4.992763304157081e-06,
	"loss": 0.7541,
	"step": 272
	},
	{
	"epoch": 0.2275,
	"grad_norm": 0.411477655172348,
	"learning_rate": 4.992678953129117e-06,
	"loss": 0.7539,
	"step": 273
	},
	{
	"epoch": 0.22833333333333333,
	"grad_norm": 0.4042636752128601,
	"learning_rate": 4.99259411406793e-06,
	"loss": 0.7293,
	"step": 274
	},
	{
	"epoch": 0.22916666666666666,
	"grad_norm": 0.4152175784111023,
	"learning_rate": 4.992508786990131e-06,
	"loss": 0.751,
	"step": 275
	},
	{
	"epoch": 0.23,
	"grad_norm": 0.4228000342845917,
	"learning_rate": 4.992422971912425e-06,
	"loss": 0.7747,
	"step": 276
	},
	{
	"epoch": 0.23083333333333333,
	"grad_norm": 0.42432528734207153,
	"learning_rate": 4.992336668851614e-06,
	"loss": 0.7465,
	"step": 277
	},
	{
	"epoch": 0.23166666666666666,
	"grad_norm": 0.40531831979751587,
	"learning_rate": 4.992249877824594e-06,
	"loss": 0.7411,
	"step": 278
	},
	{
	"epoch": 0.2325,
	"grad_norm": 0.4052167236804962,
	"learning_rate": 4.992162598848359e-06,
	"loss": 0.7544,
	"step": 279
	},
	{
	"epoch": 0.23333333333333334,
	"grad_norm": 0.40429621934890747,
	"learning_rate": 4.992074831939997e-06,
	"loss": 0.7673,
	"step": 280
	},
	{
	"epoch": 0.23416666666666666,
	"grad_norm": 0.41028928756713867,
	"learning_rate": 4.9919865771166895e-06,
	"loss": 0.7408,
	"step": 281
	},
	{
	"epoch": 0.235,
	"grad_norm": 0.413400799036026,
	"learning_rate": 4.991897834395718e-06,
	"loss": 0.7352,
	"step": 282
	},
	{
	"epoch": 0.23583333333333334,
	"grad_norm": 0.4166741371154785,
	"learning_rate": 4.991808603794457e-06,
	"loss": 0.7348,
	"step": 283
	},
	{
	"epoch": 0.23666666666666666,
	"grad_norm": 0.39821478724479675,
	"learning_rate": 4.991718885330375e-06,
	"loss": 0.7426,
	"step": 284
	},
	{
	"epoch": 0.2375,
	"grad_norm": 0.41993921995162964,
	"learning_rate": 4.991628679021038e-06,
	"loss": 0.7349,
	"step": 285
	},
	{
	"epoch": 0.23833333333333334,
	"grad_norm": 0.4206007719039917,
	"learning_rate": 4.9915379848841086e-06,
	"loss": 0.7275,
	"step": 286
	},
	{
	"epoch": 0.23916666666666667,
	"grad_norm": 0.426255464553833,
	"learning_rate": 4.991446802937342e-06,
	"loss": 0.7696,
	"step": 287
	},
	{
	"epoch": 0.24,
	"grad_norm": 0.4184487760066986,
	"learning_rate": 4.991355133198592e-06,
	"loss": 0.7385,
	"step": 288
	},
	{
	"epoch": 0.24083333333333334,
	"grad_norm": 0.41202300786972046,
	"learning_rate": 4.9912629756858045e-06,
	"loss": 0.7284,
	"step": 289
	},
	{
	"epoch": 0.24166666666666667,
	"grad_norm": 0.39601144194602966,
	"learning_rate": 4.991170330417024e-06,
	"loss": 0.7339,
	"step": 290
	},
	{
	"epoch": 0.2425,
	"grad_norm": 0.4065456688404083,
	"learning_rate": 4.991077197410389e-06,
	"loss": 0.7457,
	"step": 291
	},
	{
	"epoch": 0.24333333333333335,
	"grad_norm": 0.40557557344436646,
	"learning_rate": 4.990983576684133e-06,
	"loss": 0.7233,
	"step": 292
	},
	{
	"epoch": 0.24416666666666667,
	"grad_norm": 0.4060608744621277,
	"learning_rate": 4.990889468256587e-06,
	"loss": 0.7252,
	"step": 293
	},
	{
	"epoch": 0.245,
	"grad_norm": 0.39837005734443665,
	"learning_rate": 4.990794872146175e-06,
	"loss": 0.7382,
	"step": 294
	},
	{
	"epoch": 0.24583333333333332,
	"grad_norm": 0.4049685001373291,
	"learning_rate": 4.990699788371417e-06,
	"loss": 0.7675,
	"step": 295
	},
	{
	"epoch": 0.24666666666666667,
	"grad_norm": 0.4153214395046234,
	"learning_rate": 4.990604216950932e-06,
	"loss": 0.7576,
	"step": 296
	},
	{
	"epoch": 0.2475,
	"grad_norm": 0.41540607810020447,
	"learning_rate": 4.990508157903427e-06,
	"loss": 0.7442,
	"step": 297
	},
	{
	"epoch": 0.24833333333333332,
	"grad_norm": 0.40810921788215637,
	"learning_rate": 4.990411611247714e-06,
	"loss": 0.7267,
	"step": 298
	},
	{
	"epoch": 0.24916666666666668,
	"grad_norm": 0.4171510636806488,
	"learning_rate": 4.990314577002694e-06,
	"loss": 0.743,
	"step": 299
	},
	{
	"epoch": 0.25,
	"grad_norm": 0.41149425506591797,
	"learning_rate": 4.990217055187363e-06,
	"loss": 0.7324,
	"step": 300
	},
	{
	"epoch": 0.25083333333333335,
	"grad_norm": 0.44357189536094666,
	"learning_rate": 4.990119045820816e-06,
	"loss": 0.7585,
	"step": 301
	},
	{
	"epoch": 0.25166666666666665,
	"grad_norm": 0.42975008487701416,
	"learning_rate": 4.990020548922241e-06,
	"loss": 0.7256,
	"step": 302
	},
	{
	"epoch": 0.2525,
	"grad_norm": 0.42218875885009766,
	"learning_rate": 4.9899215645109245e-06,
	"loss": 0.7547,
	"step": 303
	},
	{
	"epoch": 0.25333333333333335,
	"grad_norm": 0.41412419080734253,
	"learning_rate": 4.9898220926062445e-06,
	"loss": 0.7367,
	"step": 304
	},
	{
	"epoch": 0.25416666666666665,
	"grad_norm": 0.4209183156490326,
	"learning_rate": 4.989722133227677e-06,
	"loss": 0.7125,
	"step": 305
	},
	{
	"epoch": 0.255,
	"grad_norm": 0.4184161424636841,
	"learning_rate": 4.989621686394792e-06,
	"loss": 0.7559,
	"step": 306
	},
	{
	"epoch": 0.25583333333333336,
	"grad_norm": 0.4240727722644806,
	"learning_rate": 4.989520752127256e-06,
	"loss": 0.7465,
	"step": 307
	},
	{
	"epoch": 0.25666666666666665,
	"grad_norm": 0.41498860716819763,
	"learning_rate": 4.989419330444831e-06,
	"loss": 0.7606,
	"step": 308
	},
	{
	"epoch": 0.2575,
	"grad_norm": 0.426451712846756,
	"learning_rate": 4.989317421367374e-06,
	"loss": 0.7243,
	"step": 309
	},
	{
	"epoch": 0.25833333333333336,
	"grad_norm": 0.43363121151924133,
	"learning_rate": 4.989215024914836e-06,
	"loss": 0.7308,
	"step": 310
	},
	{
	"epoch": 0.25916666666666666,
	"grad_norm": 0.40274131298065186,
	"learning_rate": 4.989112141107267e-06,
	"loss": 0.7425,
	"step": 311
	},
	{
	"epoch": 0.26,
	"grad_norm": 0.4230787754058838,
	"learning_rate": 4.989008769964809e-06,
	"loss": 0.7659,
	"step": 312
	},
	{
	"epoch": 0.2608333333333333,
	"grad_norm": 0.41552403569221497,
	"learning_rate": 4.9889049115077e-06,
	"loss": 0.7617,
	"step": 313
	},
	{
	"epoch": 0.26166666666666666,
	"grad_norm": 0.4259801506996155,
	"learning_rate": 4.9888005657562766e-06,
	"loss": 0.7787,
	"step": 314
	},
	{
	"epoch": 0.2625,
	"grad_norm": 0.4154621660709381,
	"learning_rate": 4.988695732730966e-06,
	"loss": 0.7475,
	"step": 315
	},
	{
	"epoch": 0.2633333333333333,
	"grad_norm": 0.41139304637908936,
	"learning_rate": 4.988590412452293e-06,
	"loss": 0.7332,
	"step": 316
	},
	{
	"epoch": 0.26416666666666666,
	"grad_norm": 0.42044857144355774,
	"learning_rate": 4.98848460494088e-06,
	"loss": 0.7548,
	"step": 317
	},
	{
	"epoch": 0.265,
	"grad_norm": 0.4254603683948517,
	"learning_rate": 4.988378310217441e-06,
	"loss": 0.7367,
	"step": 318
	},
	{
	"epoch": 0.2658333333333333,
	"grad_norm": 0.4228353202342987,
	"learning_rate": 4.988271528302788e-06,
	"loss": 0.7319,
	"step": 319
	},
	{
	"epoch": 0.26666666666666666,
	"grad_norm": 0.4186948239803314,
	"learning_rate": 4.988164259217827e-06,
	"loss": 0.7259,
	"step": 320
	},
	{
	"epoch": 0.2675,
	"grad_norm": 0.4253525137901306,
	"learning_rate": 4.988056502983559e-06,
	"loss": 0.7363,
	"step": 321
	},
	{
	"epoch": 0.2683333333333333,
	"grad_norm": 0.4164015054702759,
	"learning_rate": 4.987948259621083e-06,
	"loss": 0.7432,
	"step": 322
	},
	{
	"epoch": 0.26916666666666667,
	"grad_norm": 0.4166833460330963,
	"learning_rate": 4.9878395291515906e-06,
	"loss": 0.7058,
	"step": 323
	},
	{
	"epoch": 0.27,
	"grad_norm": 0.4276393949985504,
	"learning_rate": 4.987730311596369e-06,
	"loss": 0.7675,
	"step": 324
	},
	{
	"epoch": 0.2708333333333333,
	"grad_norm": 0.427462637424469,
	"learning_rate": 4.9876206069768025e-06,
	"loss": 0.7257,
	"step": 325
	},
	{
	"epoch": 0.27166666666666667,
	"grad_norm": 0.41950249671936035,
	"learning_rate": 4.987510415314371e-06,
	"loss": 0.7477,
	"step": 326
	},
	{
	"epoch": 0.2725,
	"grad_norm": 0.43789610266685486,
	"learning_rate": 4.987399736630646e-06,
	"loss": 0.7304,
	"step": 327
	},
	{
	"epoch": 0.2733333333333333,
	"grad_norm": 0.4318910241127014,
	"learning_rate": 4.987288570947298e-06,
	"loss": 0.7414,
	"step": 328
	},
	{
	"epoch": 0.27416666666666667,
	"grad_norm": 0.42547401785850525,
	"learning_rate": 4.987176918286093e-06,
	"loss": 0.7404,
	"step": 329
	},
	{
	"epoch": 0.275,
	"grad_norm": 0.45188772678375244,
	"learning_rate": 4.987064778668888e-06,
	"loss": 0.7131,
	"step": 330
	},
	{
	"epoch": 0.2758333333333333,
	"grad_norm": 0.42341092228889465,
	"learning_rate": 4.986952152117643e-06,
	"loss": 0.7417,
	"step": 331
	},
	{
	"epoch": 0.27666666666666667,
	"grad_norm": 0.42618414759635925,
	"learning_rate": 4.986839038654406e-06,
	"loss": 0.7151,
	"step": 332
	},
	{
	"epoch": 0.2775,
	"grad_norm": 0.4244473874568939,
	"learning_rate": 4.986725438301321e-06,
	"loss": 0.7551,
	"step": 333
	},
	{
	"epoch": 0.2783333333333333,
	"grad_norm": 0.430927038192749,
	"learning_rate": 4.986611351080633e-06,
	"loss": 0.7088,
	"step": 334
	},
	{
	"epoch": 0.2791666666666667,
	"grad_norm": 0.4299659729003906,
	"learning_rate": 4.986496777014678e-06,
	"loss": 0.7035,
	"step": 335
	},
	{
	"epoch": 0.28,
	"grad_norm": 0.42113977670669556,
	"learning_rate": 4.986381716125887e-06,
	"loss": 0.7203,
	"step": 336
	},
	{
	"epoch": 0.2808333333333333,
	"grad_norm": 0.4511653780937195,
	"learning_rate": 4.986266168436789e-06,
	"loss": 0.7496,
	"step": 337
	},
	{
	"epoch": 0.2816666666666667,
	"grad_norm": 0.44857802987098694,
	"learning_rate": 4.986150133970004e-06,
	"loss": 0.6979,
	"step": 338
	},
	{
	"epoch": 0.2825,
	"grad_norm": 0.4449015259742737,
	"learning_rate": 4.986033612748253e-06,
	"loss": 0.7465,
	"step": 339
	},
	{
	"epoch": 0.2833333333333333,
	"grad_norm": 0.4319685399532318,
	"learning_rate": 4.985916604794348e-06,
	"loss": 0.7442,
	"step": 340
	},
	{
	"epoch": 0.2841666666666667,
	"grad_norm": 0.4102455675601959,
	"learning_rate": 4.985799110131197e-06,
	"loss": 0.7365,
	"step": 341
	},
	{
	"epoch": 0.285,
	"grad_norm": 0.4212186336517334,
	"learning_rate": 4.985681128781804e-06,
	"loss": 0.7375,
	"step": 342
	},
	{
	"epoch": 0.28583333333333333,
	"grad_norm": 0.42774149775505066,
	"learning_rate": 4.98556266076927e-06,
	"loss": 0.7442,
	"step": 343
	},
	{
	"epoch": 0.2866666666666667,
	"grad_norm": 0.4243312478065491,
	"learning_rate": 4.985443706116787e-06,
	"loss": 0.7381,
	"step": 344
	},
	{
	"epoch": 0.2875,
	"grad_norm": 0.44701287150382996,
	"learning_rate": 4.9853242648476465e-06,
	"loss": 0.7158,
	"step": 345
	},
	{
	"epoch": 0.28833333333333333,
	"grad_norm": 0.43794766068458557,
	"learning_rate": 4.985204336985232e-06,
	"loss": 0.7455,
	"step": 346
	},
	{
	"epoch": 0.2891666666666667,
	"grad_norm": 0.4464855492115021,
	"learning_rate": 4.985083922553024e-06,
	"loss": 0.7648,
	"step": 347
	},
	{
	"epoch": 0.29,
	"grad_norm": 0.42439213395118713,
	"learning_rate": 4.9849630215746e-06,
	"loss": 0.7446,
	"step": 348
	},
	{
	"epoch": 0.29083333333333333,
	"grad_norm": 0.4272073209285736,
	"learning_rate": 4.9848416340736285e-06,
	"loss": 0.7241,
	"step": 349
	},
	{
	"epoch": 0.2916666666666667,
	"grad_norm": 0.4212620258331299,
	"learning_rate": 4.984719760073877e-06,
	"loss": 0.7222,
	"step": 350
	},
	{
	"epoch": 0.2925,
	"grad_norm": 0.42391151189804077,
	"learning_rate": 4.984597399599206e-06,
	"loss": 0.7232,
	"step": 351
	},
	{
	"epoch": 0.29333333333333333,
	"grad_norm": 0.4544355273246765,
	"learning_rate": 4.984474552673573e-06,
	"loss": 0.7315,
	"step": 352
	},
	{
	"epoch": 0.2941666666666667,
	"grad_norm": 0.42181697487831116,
	"learning_rate": 4.984351219321028e-06,
	"loss": 0.7313,
	"step": 353
	},
	{
	"epoch": 0.295,
	"grad_norm": 0.43560174107551575,
	"learning_rate": 4.984227399565719e-06,
	"loss": 0.7301,
	"step": 354
	},
	{
	"epoch": 0.29583333333333334,
	"grad_norm": 0.4335043430328369,
	"learning_rate": 4.98410309343189e-06,
	"loss": 0.7273,
	"step": 355
	},
	{
	"epoch": 0.2966666666666667,
	"grad_norm": 0.44462448358535767,
	"learning_rate": 4.983978300943876e-06,
	"loss": 0.749,
	"step": 356
	},
	{
	"epoch": 0.2975,
	"grad_norm": 0.44785431027412415,
	"learning_rate": 4.9838530221261095e-06,
	"loss": 0.7462,
	"step": 357
	},
	{
	"epoch": 0.29833333333333334,
	"grad_norm": 0.45324379205703735,
	"learning_rate": 4.98372725700312e-06,
	"loss": 0.7573,
	"step": 358
	},
	{
	"epoch": 0.2991666666666667,
	"grad_norm": 0.43796685338020325,
	"learning_rate": 4.98360100559953e-06,
	"loss": 0.7513,
	"step": 359
	},
	{
	"epoch": 0.3,
	"grad_norm": 0.4299045205116272,
	"learning_rate": 4.983474267940059e-06,
	"loss": 0.7169,
	"step": 360
	},
	{
	"epoch": 0.30083333333333334,
	"grad_norm": 0.42903605103492737,
	"learning_rate": 4.983347044049519e-06,
	"loss": 0.7471,
	"step": 361
	},
	{
	"epoch": 0.3016666666666667,
	"grad_norm": 0.45894020795822144,
	"learning_rate": 4.983219333952819e-06,
	"loss": 0.7188,
	"step": 362
	},
	{
	"epoch": 0.3025,
	"grad_norm": 0.4472663700580597,
	"learning_rate": 4.9830911376749626e-06,
	"loss": 0.7493,
	"step": 363
	},
	{
	"epoch": 0.30333333333333334,
	"grad_norm": 0.4302862286567688,
	"learning_rate": 4.98296245524105e-06,
	"loss": 0.7253,
	"step": 364
	},
	{
	"epoch": 0.30416666666666664,
	"grad_norm": 0.4276480972766876,
	"learning_rate": 4.982833286676274e-06,
	"loss": 0.7233,
	"step": 365
	},
	{
	"epoch": 0.305,
	"grad_norm": 0.4444246292114258,
	"learning_rate": 4.982703632005926e-06,
	"loss": 0.7318,
	"step": 366
	},
	{
	"epoch": 0.30583333333333335,
	"grad_norm": 0.42736467719078064,
	"learning_rate": 4.98257349125539e-06,
	"loss": 0.7292,
	"step": 367
	},
	{
	"epoch": 0.30666666666666664,
	"grad_norm": 0.457657128572464,
	"learning_rate": 4.982442864450145e-06,
	"loss": 0.7342,
	"step": 368
	},
	{
	"epoch": 0.3075,
	"grad_norm": 0.4388102889060974,
	"learning_rate": 4.982311751615766e-06,
	"loss": 0.7367,
	"step": 369
	},
	{
	"epoch": 0.30833333333333335,
	"grad_norm": 0.42860573530197144,
	"learning_rate": 4.982180152777925e-06,
	"loss": 0.7267,
	"step": 370
	},
	{
	"epoch": 0.30916666666666665,
	"grad_norm": 0.43819475173950195,
	"learning_rate": 4.982048067962384e-06,
	"loss": 0.7399,
	"step": 371
	},
	{
	"epoch": 0.31,
	"grad_norm": 0.4660872220993042,
	"learning_rate": 4.981915497195007e-06,
	"loss": 0.7032,
	"step": 372
	},
	{
	"epoch": 0.31083333333333335,
	"grad_norm": 0.4358060956001282,
	"learning_rate": 4.981782440501748e-06,
	"loss": 0.7213,
	"step": 373
	},
	{
	"epoch": 0.31166666666666665,
	"grad_norm": 0.4425748288631439,
	"learning_rate": 4.981648897908656e-06,
	"loss": 0.7309,
	"step": 374
	},
	{
	"epoch": 0.3125,
	"grad_norm": 0.4365919530391693,
	"learning_rate": 4.98151486944188e-06,
	"loss": 0.746,
	"step": 375
	},
	{
	"epoch": 0.31333333333333335,
	"grad_norm": 0.4414806067943573,
	"learning_rate": 4.981380355127658e-06,
	"loss": 0.7462,
	"step": 376
	},
	{
	"epoch": 0.31416666666666665,
	"grad_norm": 0.44274869561195374,
	"learning_rate": 4.981245354992329e-06,
	"loss": 0.732,
	"step": 377
	},
	{
	"epoch": 0.315,
	"grad_norm": 0.45117679238319397,
	"learning_rate": 4.981109869062323e-06,
	"loss": 0.747,
	"step": 378
	},
	{
	"epoch": 0.31583333333333335,
	"grad_norm": 0.4164119064807892,
	"learning_rate": 4.980973897364166e-06,
	"loss": 0.7163,
	"step": 379
	},
	{
	"epoch": 0.31666666666666665,
	"grad_norm": 0.44350653886795044,
	"learning_rate": 4.980837439924479e-06,
	"loss": 0.7339,
	"step": 380
	},
	{
	"epoch": 0.3175,
	"grad_norm": 0.4421967566013336,
	"learning_rate": 4.980700496769979e-06,
	"loss": 0.7397,
	"step": 381
	},
	{
	"epoch": 0.31833333333333336,
	"grad_norm": 0.4458411931991577,
	"learning_rate": 4.980563067927478e-06,
	"loss": 0.7079,
	"step": 382
	},
	{
	"epoch": 0.31916666666666665,
	"grad_norm": 0.44256216287612915,
	"learning_rate": 4.980425153423883e-06,
	"loss": 0.756,
	"step": 383
	},
	{
	"epoch": 0.32,
	"grad_norm": 0.42830541729927063,
	"learning_rate": 4.980286753286196e-06,
	"loss": 0.7219,
	"step": 384
	},
	{
	"epoch": 0.32083333333333336,
	"grad_norm": 0.4483656585216522,
	"learning_rate": 4.980147867541512e-06,
	"loss": 0.7362,
	"step": 385
	},
	{
	"epoch": 0.32166666666666666,
	"grad_norm": 0.42397555708885193,
	"learning_rate": 4.9800084962170235e-06,
	"loss": 0.7318,
	"step": 386
	},
	{
	"epoch": 0.3225,
	"grad_norm": 0.41890963912010193,
	"learning_rate": 4.97986863934002e-06,
	"loss": 0.7137,
	"step": 387
	},
	{
	"epoch": 0.3233333333333333,
	"grad_norm": 0.4360620081424713,
	"learning_rate": 4.97972829693788e-06,
	"loss": 0.7364,
	"step": 388
	},
	{
	"epoch": 0.32416666666666666,
	"grad_norm": 0.4450368881225586,
	"learning_rate": 4.979587469038084e-06,
	"loss": 0.7188,
	"step": 389
	},
	{
	"epoch": 0.325,
	"grad_norm": 0.4503145217895508,
	"learning_rate": 4.979446155668202e-06,
	"loss": 0.7524,
	"step": 390
	},
	{
	"epoch": 0.3258333333333333,
	"grad_norm": 0.43446269631385803,
	"learning_rate": 4.979304356855902e-06,
	"loss": 0.7477,
	"step": 391
	},
	{
	"epoch": 0.32666666666666666,
	"grad_norm": 0.430242657661438,
	"learning_rate": 4.979162072628947e-06,
	"loss": 0.7324,
	"step": 392
	},
	{
	"epoch": 0.3275,
	"grad_norm": 0.44269561767578125,
	"learning_rate": 4.979019303015194e-06,
	"loss": 0.7389,
	"step": 393
	},
	{
	"epoch": 0.3283333333333333,
	"grad_norm": 0.44329893589019775,
	"learning_rate": 4.978876048042593e-06,
	"loss": 0.7286,
	"step": 394
	},
	{
	"epoch": 0.32916666666666666,
	"grad_norm": 0.43951505422592163,
	"learning_rate": 4.978732307739196e-06,
	"loss": 0.7286,
	"step": 395
	},
	{
	"epoch": 0.33,
	"grad_norm": 0.43779468536376953,
	"learning_rate": 4.9785880821331415e-06,
	"loss": 0.7514,
	"step": 396
	},
	{
	"epoch": 0.3308333333333333,
	"grad_norm": 0.44083550572395325,
	"learning_rate": 4.978443371252668e-06,
	"loss": 0.7169,
	"step": 397
	},
	{
	"epoch": 0.33166666666666667,
	"grad_norm": 0.4317465126514435,
	"learning_rate": 4.97829817512611e-06,
	"loss": 0.7137,
	"step": 398
	},
	{
	"epoch": 0.3325,
	"grad_norm": 0.44962823390960693,
	"learning_rate": 4.9781524937818914e-06,
	"loss": 0.7285,
	"step": 399
	},
	{
	"epoch": 0.3333333333333333,
	"grad_norm": 0.4581443667411804,
	"learning_rate": 4.978006327248537e-06,
	"loss": 0.7255,
	"step": 400
	},
	{
	"epoch": 0.33416666666666667,
	"grad_norm": 0.44889774918556213,
	"learning_rate": 4.977859675554664e-06,
	"loss": 0.7178,
	"step": 401
	},
	{
	"epoch": 0.335,
	"grad_norm": 0.4475254714488983,
	"learning_rate": 4.977712538728985e-06,
	"loss": 0.7347,
	"step": 402
	},
	{
	"epoch": 0.3358333333333333,
	"grad_norm": 0.47498849034309387,
	"learning_rate": 4.977564916800306e-06,
	"loss": 0.7435,
	"step": 403
	},
	{
	"epoch": 0.33666666666666667,
	"grad_norm": 0.4499281346797943,
	"learning_rate": 4.977416809797531e-06,
	"loss": 0.7195,
	"step": 404
	},
	{
	"epoch": 0.3375,
	"grad_norm": 0.44963398575782776,
	"learning_rate": 4.977268217749656e-06,
	"loss": 0.7317,
	"step": 405
	},
	{
	"epoch": 0.3383333333333333,
	"grad_norm": 0.465316504240036,
	"learning_rate": 4.977119140685775e-06,
	"loss": 0.7312,
	"step": 406
	},
	{
	"epoch": 0.33916666666666667,
	"grad_norm": 0.44482365250587463,
	"learning_rate": 4.976969578635075e-06,
	"loss": 0.7204,
	"step": 407
	},
	{
	"epoch": 0.34,
	"grad_norm": 0.43372973799705505,
	"learning_rate": 4.976819531626838e-06,
	"loss": 0.7307,
	"step": 408
	},
	{
	"epoch": 0.3408333333333333,
	"grad_norm": 0.44234418869018555,
	"learning_rate": 4.9766689996904394e-06,
	"loss": 0.7325,
	"step": 409
	},
	{
	"epoch": 0.3416666666666667,
	"grad_norm": 0.452543169260025,
	"learning_rate": 4.976517982855353e-06,
	"loss": 0.7089,
	"step": 410
	},
	{
	"epoch": 0.3425,
	"grad_norm": 0.45068028569221497,
	"learning_rate": 4.976366481151147e-06,
	"loss": 0.7492,
	"step": 411
	},
	{
	"epoch": 0.3433333333333333,
	"grad_norm": 0.4673871397972107,
	"learning_rate": 4.976214494607481e-06,
	"loss": 0.7212,
	"step": 412
	},
	{
	"epoch": 0.3441666666666667,
	"grad_norm": 0.44686195254325867,
	"learning_rate": 4.976062023254114e-06,
	"loss": 0.7237,
	"step": 413
	},
	{
	"epoch": 0.345,
	"grad_norm": 0.4662364721298218,
	"learning_rate": 4.975909067120895e-06,
	"loss": 0.7392,
	"step": 414
	},
	{
	"epoch": 0.3458333333333333,
	"grad_norm": 0.4416569173336029,
	"learning_rate": 4.9757556262377745e-06,
	"loss": 0.7324,
	"step": 415
	},
	{
	"epoch": 0.3466666666666667,
	"grad_norm": 0.45594707131385803,
	"learning_rate": 4.975601700634791e-06,
	"loss": 0.7398,
	"step": 416
	},
	{
	"epoch": 0.3475,
	"grad_norm": 0.4480917751789093,
	"learning_rate": 4.975447290342084e-06,
	"loss": 0.7396,
	"step": 417
	},
	{
	"epoch": 0.34833333333333333,
	"grad_norm": 0.46372804045677185,
	"learning_rate": 4.9752923953898826e-06,
	"loss": 0.7279,
	"step": 418
	},
	{
	"epoch": 0.3491666666666667,
	"grad_norm": 0.4589317739009857,
	"learning_rate": 4.975137015808513e-06,
	"loss": 0.7266,
	"step": 419
	},
	{
	"epoch": 0.35,
	"grad_norm": 0.4607466459274292,
	"learning_rate": 4.974981151628398e-06,
	"loss": 0.7377,
	"step": 420
	},
	{
	"epoch": 0.35083333333333333,
	"grad_norm": 0.4491315484046936,
	"learning_rate": 4.974824802880054e-06,
	"loss": 0.7101,
	"step": 421
	},
	{
	"epoch": 0.3516666666666667,
	"grad_norm": 0.4505137801170349,
	"learning_rate": 4.9746679695940904e-06,
	"loss": 0.7199,
	"step": 422
	},
	{
	"epoch": 0.3525,
	"grad_norm": 0.4504340887069702,
	"learning_rate": 4.9745106518012146e-06,
	"loss": 0.7233,
	"step": 423
	},
	{
	"epoch": 0.35333333333333333,
	"grad_norm": 0.47033044695854187,
	"learning_rate": 4.974352849532226e-06,
	"loss": 0.7016,
	"step": 424
	},
	{
	"epoch": 0.3541666666666667,
	"grad_norm": 0.4403928518295288,
	"learning_rate": 4.97419456281802e-06,
	"loss": 0.7023,
	"step": 425
	},
	{
	"epoch": 0.355,
	"grad_norm": 0.4770509898662567,
	"learning_rate": 4.974035791689588e-06,
	"loss": 0.7207,
	"step": 426
	},
	{
	"epoch": 0.35583333333333333,
	"grad_norm": 0.4648571312427521,
	"learning_rate": 4.973876536178015e-06,
	"loss": 0.7255,
	"step": 427
	},
	{
	"epoch": 0.3566666666666667,
	"grad_norm": 0.4399651885032654,
	"learning_rate": 4.973716796314482e-06,
	"loss": 0.7315,
	"step": 428
	},
	{
	"epoch": 0.3575,
	"grad_norm": 0.468749463558197,
	"learning_rate": 4.9735565721302615e-06,
	"loss": 0.7215,
	"step": 429
	},
	{
	"epoch": 0.35833333333333334,
	"grad_norm": 0.4581863582134247,
	"learning_rate": 4.973395863656726e-06,
	"loss": 0.7283,
	"step": 430
	},
	{
	"epoch": 0.3591666666666667,
	"grad_norm": 0.4445386826992035,
	"learning_rate": 4.973234670925338e-06,
	"loss": 0.6994,
	"step": 431
	},
	{
	"epoch": 0.36,
	"grad_norm": 0.45476222038269043,
	"learning_rate": 4.973072993967658e-06,
	"loss": 0.7208,
	"step": 432
	},
	{
	"epoch": 0.36083333333333334,
	"grad_norm": 0.45746493339538574,
	"learning_rate": 4.97291083281534e-06,
	"loss": 0.7231,
	"step": 433
	},
	{
	"epoch": 0.3616666666666667,
	"grad_norm": 0.4445231854915619,
	"learning_rate": 4.9727481875001326e-06,
	"loss": 0.7316,
	"step": 434
	},
	{
	"epoch": 0.3625,
	"grad_norm": 0.46907079219818115,
	"learning_rate": 4.972585058053879e-06,
	"loss": 0.7311,
	"step": 435
	},
	{
	"epoch": 0.36333333333333334,
	"grad_norm": 0.47230264544487,
	"learning_rate": 4.972421444508521e-06,
	"loss": 0.7352,
	"step": 436
	},
	{
	"epoch": 0.3641666666666667,
	"grad_norm": 0.44319337606430054,
	"learning_rate": 4.972257346896088e-06,
	"loss": 0.7219,
	"step": 437
	},
	{
	"epoch": 0.365,
	"grad_norm": 0.46985113620758057,
	"learning_rate": 4.972092765248709e-06,
	"loss": 0.733,
	"step": 438
	},
	{
	"epoch": 0.36583333333333334,
	"grad_norm": 0.4737989604473114,
	"learning_rate": 4.971927699598609e-06,
	"loss": 0.7217,
	"step": 439
	},
	{
	"epoch": 0.36666666666666664,
	"grad_norm": 0.44317662715911865,
	"learning_rate": 4.971762149978103e-06,
	"loss": 0.7001,
	"step": 440
	},
	{
	"epoch": 0.3675,
	"grad_norm": 0.46036818623542786,
	"learning_rate": 4.971596116419606e-06,
	"loss": 0.7159,
	"step": 441
	},
	{
	"epoch": 0.36833333333333335,
	"grad_norm": 0.47075971961021423,
	"learning_rate": 4.971429598955623e-06,
	"loss": 0.711,
	"step": 442
	},
	{
	"epoch": 0.36916666666666664,
	"grad_norm": 0.45767584443092346,
	"learning_rate": 4.971262597618756e-06,
	"loss": 0.7232,
	"step": 443
	},
	{
	"epoch": 0.37,
	"grad_norm": 0.48424965143203735,
	"learning_rate": 4.971095112441703e-06,
	"loss": 0.7182,
	"step": 444
	},
	{
	"epoch": 0.37083333333333335,
	"grad_norm": 0.4523642659187317,
	"learning_rate": 4.970927143457255e-06,
	"loss": 0.7455,
	"step": 445
	},
	{
	"epoch": 0.37166666666666665,
	"grad_norm": 0.44370710849761963,
	"learning_rate": 4.970758690698297e-06,
	"loss": 0.7195,
	"step": 446
	},
	{
	"epoch": 0.3725,
	"grad_norm": 0.48020926117897034,
	"learning_rate": 4.970589754197811e-06,
	"loss": 0.7396,
	"step": 447
	},
	{
	"epoch": 0.37333333333333335,
	"grad_norm": 0.477601557970047,
	"learning_rate": 4.970420333988873e-06,
	"loss": 0.7159,
	"step": 448
	},
	{
	"epoch": 0.37416666666666665,
	"grad_norm": 0.47169166803359985,
	"learning_rate": 4.9702504301046505e-06,
	"loss": 0.7265,
	"step": 449
	},
	{
	"epoch": 0.375,
	"grad_norm": 0.47068580985069275,
	"learning_rate": 4.97008004257841e-06,
	"loss": 0.705,
	"step": 450
	},
	{
	"epoch": 0.37583333333333335,
	"grad_norm": 0.45133304595947266,
	"learning_rate": 4.969909171443512e-06,
	"loss": 0.73,
	"step": 451
	},
	{
	"epoch": 0.37666666666666665,
	"grad_norm": 0.4500066637992859,
	"learning_rate": 4.969737816733411e-06,
	"loss": 0.7277,
	"step": 452
	},
	{
	"epoch": 0.3775,
	"grad_norm": 0.475951611995697,
	"learning_rate": 4.969565978481654e-06,
	"loss": 0.6951,
	"step": 453
	},
	{
	"epoch": 0.37833333333333335,
	"grad_norm": 0.44676122069358826,
	"learning_rate": 4.969393656721886e-06,
	"loss": 0.7306,
	"step": 454
	},
	{
	"epoch": 0.37916666666666665,
	"grad_norm": 0.4901207685470581,
	"learning_rate": 4.9692208514878445e-06,
	"loss": 0.7209,
	"step": 455
	},
	{
	"epoch": 0.38,
	"grad_norm": 0.459177166223526,
	"learning_rate": 4.969047562813363e-06,
	"loss": 0.7301,
	"step": 456
	},
	{
	"epoch": 0.38083333333333336,
	"grad_norm": 0.4697854816913605,
	"learning_rate": 4.96887379073237e-06,
	"loss": 0.7512,
	"step": 457
	},
	{
	"epoch": 0.38166666666666665,
	"grad_norm": 0.4652157127857208,
	"learning_rate": 4.968699535278886e-06,
	"loss": 0.7559,
	"step": 458
	},
	{
	"epoch": 0.3825,
	"grad_norm": 0.4756168723106384,
	"learning_rate": 4.968524796487028e-06,
	"loss": 0.7294,
	"step": 459
	},
	{
	"epoch": 0.38333333333333336,
	"grad_norm": 0.4670083820819855,
	"learning_rate": 4.968349574391009e-06,
	"loss": 0.7335,
	"step": 460
	},
	{
	"epoch": 0.38416666666666666,
	"grad_norm": 0.46000048518180847,
	"learning_rate": 4.968173869025134e-06,
	"loss": 0.6845,
	"step": 461
	},
	{
	"epoch": 0.385,
	"grad_norm": 0.464958131313324,
	"learning_rate": 4.967997680423804e-06,
	"loss": 0.7077,
	"step": 462
	},
	{
	"epoch": 0.3858333333333333,
	"grad_norm": 0.46760886907577515,
	"learning_rate": 4.967821008621515e-06,
	"loss": 0.7256,
	"step": 463
	},
	{
	"epoch": 0.38666666666666666,
	"grad_norm": 0.4775695502758026,
	"learning_rate": 4.967643853652856e-06,
	"loss": 0.7247,
	"step": 464
	},
	{
	"epoch": 0.3875,
	"grad_norm": 0.4554520547389984,
	"learning_rate": 4.967466215552511e-06,
	"loss": 0.719,
	"step": 465
	},
	{
	"epoch": 0.3883333333333333,
	"grad_norm": 0.46731194853782654,
	"learning_rate": 4.967288094355262e-06,
	"loss": 0.7196,
	"step": 466
	},
	{
	"epoch": 0.38916666666666666,
	"grad_norm": 0.46212297677993774,
	"learning_rate": 4.9671094900959804e-06,
	"loss": 0.7253,
	"step": 467
	},
	{
	"epoch": 0.39,
	"grad_norm": 0.481896311044693,
	"learning_rate": 4.9669304028096345e-06,
	"loss": 0.7356,
	"step": 468
	},
	{
	"epoch": 0.3908333333333333,
	"grad_norm": 0.4651428461074829,
	"learning_rate": 4.966750832531288e-06,
	"loss": 0.7347,
	"step": 469
	},
	{
	"epoch": 0.39166666666666666,
	"grad_norm": 0.46207377314567566,
	"learning_rate": 4.966570779296098e-06,
	"loss": 0.6938,
	"step": 470
	},
	{
	"epoch": 0.3925,
	"grad_norm": 0.45925164222717285,
	"learning_rate": 4.9663902431393165e-06,
	"loss": 0.7241,
	"step": 471
	},
	{
	"epoch": 0.3933333333333333,
	"grad_norm": 0.46172574162483215,
	"learning_rate": 4.96620922409629e-06,
	"loss": 0.739,
	"step": 472
	},
	{
	"epoch": 0.39416666666666667,
	"grad_norm": 0.4509231746196747,
	"learning_rate": 4.96602772220246e-06,
	"loss": 0.7043,
	"step": 473
	},
	{
	"epoch": 0.395,
	"grad_norm": 0.4675430357456207,
	"learning_rate": 4.965845737493363e-06,
	"loss": 0.7062,
	"step": 474
	},
	{
	"epoch": 0.3958333333333333,
	"grad_norm": 0.4617745876312256,
	"learning_rate": 4.965663270004627e-06,
	"loss": 0.7084,
	"step": 475
	},
	{
	"epoch": 0.39666666666666667,
	"grad_norm": 0.4648987054824829,
	"learning_rate": 4.965480319771978e-06,
	"loss": 0.7355,
	"step": 476
	},
	{
	"epoch": 0.3975,
	"grad_norm": 0.48100748658180237,
	"learning_rate": 4.9652968868312346e-06,
	"loss": 0.7131,
	"step": 477
	},
	{
	"epoch": 0.3983333333333333,
	"grad_norm": 0.46484121680259705,
	"learning_rate": 4.9651129712183116e-06,
	"loss": 0.7103,
	"step": 478
	},
	{
	"epoch": 0.39916666666666667,
	"grad_norm": 0.46905842423439026,
	"learning_rate": 4.964928572969216e-06,
	"loss": 0.72,
	"step": 479
	},
	{
	"epoch": 0.4,
	"grad_norm": 0.4665108621120453,
	"learning_rate": 4.9647436921200514e-06,
	"loss": 0.7293,
	"step": 480
	},
	{
	"epoch": 0.4008333333333333,
	"grad_norm": 0.47185784578323364,
	"learning_rate": 4.9645583287070145e-06,
	"loss": 0.7181,
	"step": 481
	},
	{
	"epoch": 0.40166666666666667,
	"grad_norm": 0.48065367341041565,
	"learning_rate": 4.964372482766397e-06,
	"loss": 0.7192,
	"step": 482
	},
	{
	"epoch": 0.4025,
	"grad_norm": 0.4816732704639435,
	"learning_rate": 4.964186154334586e-06,
	"loss": 0.7361,
	"step": 483
	},
	{
	"epoch": 0.4033333333333333,
	"grad_norm": 0.4730132520198822,
	"learning_rate": 4.96399934344806e-06,
	"loss": 0.7365,
	"step": 484
	},
	{
	"epoch": 0.4041666666666667,
	"grad_norm": 0.4708881676197052,
	"learning_rate": 4.963812050143398e-06,
	"loss": 0.7244,
	"step": 485
	},
	{
	"epoch": 0.405,
	"grad_norm": 0.4635087847709656,
	"learning_rate": 4.963624274457264e-06,
	"loss": 0.7189,
	"step": 486
	},
	{
	"epoch": 0.4058333333333333,
	"grad_norm": 0.4617489278316498,
	"learning_rate": 4.963436016426426e-06,
	"loss": 0.7164,
	"step": 487
	},
	{
	"epoch": 0.4066666666666667,
	"grad_norm": 0.4764353334903717,
	"learning_rate": 4.963247276087742e-06,
	"loss": 0.7196,
	"step": 488
	},
	{
	"epoch": 0.4075,
	"grad_norm": 0.45897895097732544,
	"learning_rate": 4.963058053478162e-06,
	"loss": 0.7278,
	"step": 489
	},
	{
	"epoch": 0.4083333333333333,
	"grad_norm": 0.46642646193504333,
	"learning_rate": 4.962868348634737e-06,
	"loss": 0.7164,
	"step": 490
	},
	{
	"epoch": 0.4091666666666667,
	"grad_norm": 0.47697651386260986,
	"learning_rate": 4.962678161594608e-06,
	"loss": 0.7411,
	"step": 491
	},
	{
	"epoch": 0.41,
	"grad_norm": 0.47984251379966736,
	"learning_rate": 4.962487492395008e-06,
	"loss": 0.7393,
	"step": 492
	},
	{
	"epoch": 0.41083333333333333,
	"grad_norm": 0.46771949529647827,
	"learning_rate": 4.96229634107327e-06,
	"loss": 0.7354,
	"step": 493
	},
	{
	"epoch": 0.4116666666666667,
	"grad_norm": 0.46159738302230835,
	"learning_rate": 4.96210470766682e-06,
	"loss": 0.7254,
	"step": 494
	},
	{
	"epoch": 0.4125,
	"grad_norm": 0.473518967628479,
	"learning_rate": 4.961912592213174e-06,
	"loss": 0.7249,
	"step": 495
	},
	{
	"epoch": 0.41333333333333333,
	"grad_norm": 0.4579017460346222,
	"learning_rate": 4.961719994749948e-06,
	"loss": 0.7088,
	"step": 496
	},
	{
	"epoch": 0.4141666666666667,
	"grad_norm": 0.4698212742805481,
	"learning_rate": 4.96152691531485e-06,
	"loss": 0.7222,
	"step": 497
	},
	{
	"epoch": 0.415,
	"grad_norm": 0.4671380817890167,
	"learning_rate": 4.9613333539456805e-06,
	"loss": 0.7188,
	"step": 498
	},
	{
	"epoch": 0.41583333333333333,
	"grad_norm": 0.46331900358200073,
	"learning_rate": 4.961139310680339e-06,
	"loss": 0.7003,
	"step": 499
	},
	{
	"epoch": 0.4166666666666667,
	"grad_norm": 0.4642249047756195,
	"learning_rate": 4.960944785556814e-06,
	"loss": 0.7121,
	"step": 500
	},
	{
	"epoch": 0.4175,
	"grad_norm": 0.44827917218208313,
	"learning_rate": 4.960749778613193e-06,
	"loss": 0.7223,
	"step": 501
	},
	{
	"epoch": 0.41833333333333333,
	"grad_norm": 0.47208625078201294,
	"learning_rate": 4.960554289887653e-06,
	"loss": 0.7422,
	"step": 502
	},
	{
	"epoch": 0.4191666666666667,
	"grad_norm": 0.4699961841106415,
	"learning_rate": 4.960358319418472e-06,
	"loss": 0.7467,
	"step": 503
	},
	{
	"epoch": 0.42,
	"grad_norm": 0.47173166275024414,
	"learning_rate": 4.960161867244015e-06,
	"loss": 0.7302,
	"step": 504
	},
	{
	"epoch": 0.42083333333333334,
	"grad_norm": 0.4668010175228119,
	"learning_rate": 4.959964933402746e-06,
	"loss": 0.7074,
	"step": 505
	},
	{
	"epoch": 0.4216666666666667,
	"grad_norm": 0.46306827664375305,
	"learning_rate": 4.959767517933222e-06,
	"loss": 0.738,
	"step": 506
	},
	{
	"epoch": 0.4225,
	"grad_norm": 0.4671972692012787,
	"learning_rate": 4.959569620874094e-06,
	"loss": 0.7097,
	"step": 507
	},
	{
	"epoch": 0.42333333333333334,
	"grad_norm": 0.47125792503356934,
	"learning_rate": 4.959371242264109e-06,
	"loss": 0.7166,
	"step": 508
	},
	{
	"epoch": 0.4241666666666667,
	"grad_norm": 0.46299198269844055,
	"learning_rate": 4.959172382142105e-06,
	"loss": 0.7488,
	"step": 509
	},
	{
	"epoch": 0.425,
	"grad_norm": 0.4751565456390381,
	"learning_rate": 4.958973040547016e-06,
	"loss": 0.72,
	"step": 510
	},
	{
	"epoch": 0.42583333333333334,
	"grad_norm": 0.46424582600593567,
	"learning_rate": 4.958773217517873e-06,
	"loss": 0.745,
	"step": 511
	},
	{
	"epoch": 0.4266666666666667,
	"grad_norm": 0.45838502049446106,
	"learning_rate": 4.958572913093795e-06,
	"loss": 0.7209,
	"step": 512
	},
	{
	"epoch": 0.4275,
	"grad_norm": 0.47205454111099243,
	"learning_rate": 4.958372127314003e-06,
	"loss": 0.7313,
	"step": 513
	},
	{
	"epoch": 0.42833333333333334,
	"grad_norm": 0.46480584144592285,
	"learning_rate": 4.958170860217804e-06,
	"loss": 0.7014,
	"step": 514
	},
	{
	"epoch": 0.42916666666666664,
	"grad_norm": 0.4785641133785248,
	"learning_rate": 4.957969111844607e-06,
	"loss": 0.7039,
	"step": 515
	},
	{
	"epoch": 0.43,
	"grad_norm": 0.48162949085235596,
	"learning_rate": 4.95776688223391e-06,
	"loss": 0.7166,
	"step": 516
	},
	{
	"epoch": 0.43083333333333335,
	"grad_norm": 0.4745679795742035,
	"learning_rate": 4.957564171425307e-06,
	"loss": 0.7142,
	"step": 517
	},
	{
	"epoch": 0.43166666666666664,
	"grad_norm": 0.4671272337436676,
	"learning_rate": 4.9573609794584856e-06,
	"loss": 0.6994,
	"step": 518
	},
	{
	"epoch": 0.4325,
	"grad_norm": 0.4763210713863373,
	"learning_rate": 4.9571573063732295e-06,
	"loss": 0.7264,
	"step": 519
	},
	{
	"epoch": 0.43333333333333335,
	"grad_norm": 0.47782424092292786,
	"learning_rate": 4.956953152209412e-06,
	"loss": 0.6988,
	"step": 520
	},
	{
	"epoch": 0.43416666666666665,
	"grad_norm": 0.46321046352386475,
	"learning_rate": 4.956748517007008e-06,
	"loss": 0.7131,
	"step": 521
	},
	{
	"epoch": 0.435,
	"grad_norm": 0.4767902195453644,
	"learning_rate": 4.9565434008060795e-06,
	"loss": 0.7127,
	"step": 522
	},
	{
	"epoch": 0.43583333333333335,
	"grad_norm": 0.4774905741214752,
	"learning_rate": 4.956337803646787e-06,
	"loss": 0.7114,
	"step": 523
	},
	{
	"epoch": 0.43666666666666665,
	"grad_norm": 0.4685854911804199,
	"learning_rate": 4.956131725569382e-06,
	"loss": 0.7448,
	"step": 524
	},
	{
	"epoch": 0.4375,
	"grad_norm": 0.47481775283813477,
	"learning_rate": 4.9559251666142135e-06,
	"loss": 0.7348,
	"step": 525
	},
	{
	"epoch": 0.43833333333333335,
	"grad_norm": 0.4648106098175049,
	"learning_rate": 4.9557181268217225e-06,
	"loss": 0.6891,
	"step": 526
	},
	{
	"epoch": 0.43916666666666665,
	"grad_norm": 0.45128193497657776,
	"learning_rate": 4.955510606232444e-06,
	"loss": 0.7326,
	"step": 527
	},
	{
	"epoch": 0.44,
	"grad_norm": 0.46679434180259705,
	"learning_rate": 4.955302604887008e-06,
	"loss": 0.6952,
	"step": 528
	},
	{
	"epoch": 0.44083333333333335,
	"grad_norm": 0.4732985496520996,
	"learning_rate": 4.955094122826138e-06,
	"loss": 0.6818,
	"step": 529
	},
	{
	"epoch": 0.44166666666666665,
	"grad_norm": 0.4654479920864105,
	"learning_rate": 4.954885160090653e-06,
	"loss": 0.7348,
	"step": 530
	},
	{
	"epoch": 0.4425,
	"grad_norm": 0.4805556833744049,
	"learning_rate": 4.954675716721465e-06,
	"loss": 0.722,
	"step": 531
	},
	{
	"epoch": 0.44333333333333336,
	"grad_norm": 0.4614372253417969,
	"learning_rate": 4.95446579275958e-06,
	"loss": 0.7129,
	"step": 532
	},
	{
	"epoch": 0.44416666666666665,
	"grad_norm": 0.483749657869339,
	"learning_rate": 4.954255388246098e-06,
	"loss": 0.7222,
	"step": 533
	},
	{
	"epoch": 0.445,
	"grad_norm": 0.4642612934112549,
	"learning_rate": 4.954044503222214e-06,
	"loss": 0.7115,
	"step": 534
	},
	{
	"epoch": 0.44583333333333336,
	"grad_norm": 0.469172865152359,
	"learning_rate": 4.953833137729216e-06,
	"loss": 0.7219,
	"step": 535
	},
	{
	"epoch": 0.44666666666666666,
	"grad_norm": 0.4773421287536621,
	"learning_rate": 4.953621291808486e-06,
	"loss": 0.7061,
	"step": 536
	},
	{
	"epoch": 0.4475,
	"grad_norm": 0.45834067463874817,
	"learning_rate": 4.953408965501502e-06,
	"loss": 0.7319,
	"step": 537
	},
	{
	"epoch": 0.4483333333333333,
	"grad_norm": 0.49582624435424805,
	"learning_rate": 4.9531961588498325e-06,
	"loss": 0.7175,
	"step": 538
	},
	{
	"epoch": 0.44916666666666666,
	"grad_norm": 0.47507691383361816,
	"learning_rate": 4.9529828718951445e-06,
	"loss": 0.7108,
	"step": 539
	},
	{
	"epoch": 0.45,
	"grad_norm": 0.49403703212738037,
	"learning_rate": 4.952769104679195e-06,
	"loss": 0.7099,
	"step": 540
	},
	{
	"epoch": 0.4508333333333333,
	"grad_norm": 0.4854276478290558,
	"learning_rate": 4.952554857243839e-06,
	"loss": 0.7008,
	"step": 541
	},
	{
	"epoch": 0.45166666666666666,
	"grad_norm": 0.49015265703201294,
	"learning_rate": 4.95234012963102e-06,
	"loss": 0.7213,
	"step": 542
	},
	{
	"epoch": 0.4525,
	"grad_norm": 0.4704878330230713,
	"learning_rate": 4.952124921882782e-06,
	"loss": 0.7202,
	"step": 543
	},
	{
	"epoch": 0.4533333333333333,
	"grad_norm": 0.47394639253616333,
	"learning_rate": 4.9519092340412575e-06,
	"loss": 0.719,
	"step": 544
	},
	{
	"epoch": 0.45416666666666666,
	"grad_norm": 0.49865660071372986,
	"learning_rate": 4.951693066148678e-06,
	"loss": 0.7021,
	"step": 545
	},
	{
	"epoch": 0.455,
	"grad_norm": 0.4725435972213745,
	"learning_rate": 4.951476418247362e-06,
	"loss": 0.7171,
	"step": 546
	},
	{
	"epoch": 0.4558333333333333,
	"grad_norm": 0.4926277697086334,
	"learning_rate": 4.95125929037973e-06,
	"loss": 0.7246,
	"step": 547
	},
	{
	"epoch": 0.45666666666666667,
	"grad_norm": 0.47587206959724426,
	"learning_rate": 4.951041682588291e-06,
	"loss": 0.7076,
	"step": 548
	},
	{
	"epoch": 0.4575,
	"grad_norm": 0.49358779191970825,
	"learning_rate": 4.950823594915651e-06,
	"loss": 0.6869,
	"step": 549
	},
	{
	"epoch": 0.4583333333333333,
	"grad_norm": 0.4723842442035675,
	"learning_rate": 4.9506050274045076e-06,
	"loss": 0.728,
	"step": 550
	},
	{
	"epoch": 0.45916666666666667,
	"grad_norm": 0.4840109050273895,
	"learning_rate": 4.950385980097653e-06,
	"loss": 0.7164,
	"step": 551
	},
	{
	"epoch": 0.46,
	"grad_norm": 0.4879574775695801,
	"learning_rate": 4.950166453037976e-06,
	"loss": 0.7026,
	"step": 552
	},
	{
	"epoch": 0.4608333333333333,
	"grad_norm": 0.4803706407546997,
	"learning_rate": 4.9499464462684535e-06,
	"loss": 0.7362,
	"step": 553
	},
	{
	"epoch": 0.46166666666666667,
	"grad_norm": 0.48380714654922485,
	"learning_rate": 4.9497259598321625e-06,
	"loss": 0.7061,
	"step": 554
	},
	{
	"epoch": 0.4625,
	"grad_norm": 0.4886619746685028,
	"learning_rate": 4.949504993772271e-06,
	"loss": 0.7227,
	"step": 555
	},
	{
	"epoch": 0.4633333333333333,
	"grad_norm": 0.4812595844268799,
	"learning_rate": 4.949283548132041e-06,
	"loss": 0.725,
	"step": 556
	},
	{
	"epoch": 0.46416666666666667,
	"grad_norm": 0.49524056911468506,
	"learning_rate": 4.949061622954828e-06,
	"loss": 0.722,
	"step": 557
	},
	{
	"epoch": 0.465,
	"grad_norm": 0.47137996554374695,
	"learning_rate": 4.948839218284082e-06,
	"loss": 0.6922,
	"step": 558
	},
	{
	"epoch": 0.4658333333333333,
	"grad_norm": 0.4778903126716614,
	"learning_rate": 4.9486163341633474e-06,
	"loss": 0.6906,
	"step": 559
	},
	{
	"epoch": 0.4666666666666667,
	"grad_norm": 0.4881589710712433,
	"learning_rate": 4.948392970636262e-06,
	"loss": 0.7277,
	"step": 560
	},
	{
	"epoch": 0.4675,
	"grad_norm": 0.48768582940101624,
	"learning_rate": 4.948169127746558e-06,
	"loss": 0.7292,
	"step": 561
	},
	{
	"epoch": 0.4683333333333333,
	"grad_norm": 0.4845133423805237,
	"learning_rate": 4.947944805538059e-06,
	"loss": 0.7328,
	"step": 562
	},
	{
	"epoch": 0.4691666666666667,
	"grad_norm": 0.4743124842643738,
	"learning_rate": 4.9477200040546855e-06,
	"loss": 0.7167,
	"step": 563
	},
	{
	"epoch": 0.47,
	"grad_norm": 0.470243901014328,
	"learning_rate": 4.947494723340451e-06,
	"loss": 0.7275,
	"step": 564
	},
	{
	"epoch": 0.4708333333333333,
	"grad_norm": 0.4756235182285309,
	"learning_rate": 4.947268963439461e-06,
	"loss": 0.7004,
	"step": 565
	},
	{
	"epoch": 0.4716666666666667,
	"grad_norm": 0.47655385732650757,
	"learning_rate": 4.947042724395918e-06,
	"loss": 0.7204,
	"step": 566
	},
	{
	"epoch": 0.4725,
	"grad_norm": 0.48011791706085205,
	"learning_rate": 4.9468160062541154e-06,
	"loss": 0.7189,
	"step": 567
	},
	{
	"epoch": 0.47333333333333333,
	"grad_norm": 0.47994154691696167,
	"learning_rate": 4.9465888090584425e-06,
	"loss": 0.7111,
	"step": 568
	},
	{
	"epoch": 0.4741666666666667,
	"grad_norm": 0.4681757986545563,
	"learning_rate": 4.94636113285338e-06,
	"loss": 0.7033,
	"step": 569
	},
	{
	"epoch": 0.475,
	"grad_norm": 0.47301357984542847,
	"learning_rate": 4.946132977683505e-06,
	"loss": 0.7051,
	"step": 570
	},
	{
	"epoch": 0.47583333333333333,
	"grad_norm": 0.4891713261604309,
	"learning_rate": 4.945904343593487e-06,
	"loss": 0.7174,
	"step": 571
	},
	{
	"epoch": 0.4766666666666667,
	"grad_norm": 0.5102998614311218,
	"learning_rate": 4.945675230628089e-06,
	"loss": 0.7265,
	"step": 572
	},
	{
	"epoch": 0.4775,
	"grad_norm": 0.5052884221076965,
	"learning_rate": 4.94544563883217e-06,
	"loss": 0.7089,
	"step": 573
	},
	{
	"epoch": 0.47833333333333333,
	"grad_norm": 0.499349981546402,
	"learning_rate": 4.94521556825068e-06,
	"loss": 0.7214,
	"step": 574
	},
	{
	"epoch": 0.4791666666666667,
	"grad_norm": 0.4990192949771881,
	"learning_rate": 4.944985018928662e-06,
	"loss": 0.7302,
	"step": 575
	},
	{
	"epoch": 0.48,
	"grad_norm": 0.4947417080402374,
	"learning_rate": 4.944753990911257e-06,
	"loss": 0.6959,
	"step": 576
	},
	{
	"epoch": 0.48083333333333333,
	"grad_norm": 0.46811023354530334,
	"learning_rate": 4.944522484243696e-06,
	"loss": 0.734,
	"step": 577
	},
	{
	"epoch": 0.4816666666666667,
	"grad_norm": 0.48916953802108765,
	"learning_rate": 4.944290498971305e-06,
	"loss": 0.7044,
	"step": 578
	},
	{
	"epoch": 0.4825,
	"grad_norm": 0.4881554841995239,
	"learning_rate": 4.944058035139504e-06,
	"loss": 0.7165,
	"step": 579
	},
	{
	"epoch": 0.48333333333333334,
	"grad_norm": 0.49451276659965515,
	"learning_rate": 4.943825092793806e-06,
	"loss": 0.7201,
	"step": 580
	},
	{
	"epoch": 0.4841666666666667,
	"grad_norm": 0.4869428277015686,
	"learning_rate": 4.943591671979817e-06,
	"loss": 0.6992,
	"step": 581
	},
	{
	"epoch": 0.485,
	"grad_norm": 0.4971383512020111,
	"learning_rate": 4.94335777274324e-06,
	"loss": 0.7133,
	"step": 582
	},
	{
	"epoch": 0.48583333333333334,
	"grad_norm": 0.5005112886428833,
	"learning_rate": 4.9431233951298675e-06,
	"loss": 0.6998,
	"step": 583
	},
	{
	"epoch": 0.4866666666666667,
	"grad_norm": 0.465410053730011,
	"learning_rate": 4.942888539185587e-06,
	"loss": 0.7306,
	"step": 584
	},
	{
	"epoch": 0.4875,
	"grad_norm": 0.5041592121124268,
	"learning_rate": 4.942653204956383e-06,
	"loss": 0.7266,
	"step": 585
	},
	{
	"epoch": 0.48833333333333334,
	"grad_norm": 0.47696638107299805,
	"learning_rate": 4.942417392488329e-06,
	"loss": 0.7062,
	"step": 586
	},
	{
	"epoch": 0.4891666666666667,
	"grad_norm": 0.4918696880340576,
	"learning_rate": 4.9421811018275925e-06,
	"loss": 0.7203,
	"step": 587
	},
	{
	"epoch": 0.49,
	"grad_norm": 0.47475212812423706,
	"learning_rate": 4.941944333020438e-06,
	"loss": 0.7011,
	"step": 588
	},
	{
	"epoch": 0.49083333333333334,
	"grad_norm": 0.4766216576099396,
	"learning_rate": 4.941707086113221e-06,
	"loss": 0.7105,
	"step": 589
	},
	{
	"epoch": 0.49166666666666664,
	"grad_norm": 0.493965744972229,
	"learning_rate": 4.941469361152392e-06,
	"loss": 0.7094,
	"step": 590
	},
	{
	"epoch": 0.4925,
	"grad_norm": 0.4940367639064789,
	"learning_rate": 4.941231158184494e-06,
	"loss": 0.7115,
	"step": 591
	},
	{
	"epoch": 0.49333333333333335,
	"grad_norm": 0.4859408438205719,
	"learning_rate": 4.940992477256163e-06,
	"loss": 0.6983,
	"step": 592
	},
	{
	"epoch": 0.49416666666666664,
	"grad_norm": 0.49589014053344727,
	"learning_rate": 4.94075331841413e-06,
	"loss": 0.6963,
	"step": 593
	},
	{
	"epoch": 0.495,
	"grad_norm": 0.5000094771385193,
	"learning_rate": 4.9405136817052205e-06,
	"loss": 0.7082,
	"step": 594
	},
	{
	"epoch": 0.49583333333333335,
	"grad_norm": 0.5032265186309814,
	"learning_rate": 4.94027356717635e-06,
	"loss": 0.7093,
	"step": 595
	},
	{
	"epoch": 0.49666666666666665,
	"grad_norm": 0.5027580261230469,
	"learning_rate": 4.9400329748745316e-06,
	"loss": 0.7371,
	"step": 596
	},
	{
	"epoch": 0.4975,
	"grad_norm": 0.476223886013031,
	"learning_rate": 4.939791904846869e-06,
	"loss": 0.7186,
	"step": 597
	},
	{
	"epoch": 0.49833333333333335,
	"grad_norm": 0.48328179121017456,
	"learning_rate": 4.93955035714056e-06,
	"loss": 0.6914,
	"step": 598
	},
	{
	"epoch": 0.49916666666666665,
	"grad_norm": 0.5076419711112976,
	"learning_rate": 4.9393083318028984e-06,
	"loss": 0.7268,
	"step": 599
	},
	{
	"epoch": 0.5,
	"grad_norm": 0.4889422357082367,
	"learning_rate": 4.9390658288812675e-06,
	"loss": 0.7083,
	"step": 600
	},
	{
	"epoch": 0.5008333333333334,
	"grad_norm": 0.4899008572101593,
	"learning_rate": 4.938822848423147e-06,
	"loss": 0.7132,
	"step": 601
	},
	{
	"epoch": 0.5016666666666667,
	"grad_norm": 0.4912792146205902,
	"learning_rate": 4.938579390476109e-06,
	"loss": 0.718,
	"step": 602
	},
	{
	"epoch": 0.5025,
	"grad_norm": 0.4838503897190094,
	"learning_rate": 4.93833545508782e-06,
	"loss": 0.7215,
	"step": 603
	},
	{
	"epoch": 0.5033333333333333,
	"grad_norm": 0.4929048418998718,
	"learning_rate": 4.938091042306038e-06,
	"loss": 0.7015,
	"step": 604
	},
	{
	"epoch": 0.5041666666666667,
	"grad_norm": 0.49849268794059753,
	"learning_rate": 4.9378461521786165e-06,
	"loss": 0.7154,
	"step": 605
	},
	{
	"epoch": 0.505,
	"grad_norm": 0.4948844015598297,
	"learning_rate": 4.937600784753502e-06,
	"loss": 0.7311,
	"step": 606
	},
	{
	"epoch": 0.5058333333333334,
	"grad_norm": 0.48736852407455444,
	"learning_rate": 4.937354940078733e-06,
	"loss": 0.6813,
	"step": 607
	},
	{
	"epoch": 0.5066666666666667,
	"grad_norm": 0.49282482266426086,
	"learning_rate": 4.9371086182024445e-06,
	"loss": 0.7193,
	"step": 608
	},
	{
	"epoch": 0.5075,
	"grad_norm": 0.48460039496421814,
	"learning_rate": 4.936861819172861e-06,
	"loss": 0.7199,
	"step": 609
	},
	{
	"epoch": 0.5083333333333333,
	"grad_norm": 0.484996497631073,
	"learning_rate": 4.936614543038305e-06,
	"loss": 0.7247,
	"step": 610
	},
	{
	"epoch": 0.5091666666666667,
	"grad_norm": 0.5049502849578857,
	"learning_rate": 4.936366789847187e-06,
	"loss": 0.7281,
	"step": 611
	},
	{
	"epoch": 0.51,
	"grad_norm": 0.500078558921814,
	"learning_rate": 4.936118559648015e-06,
	"loss": 0.7334,
	"step": 612
	},
	{
	"epoch": 0.5108333333333334,
	"grad_norm": 0.4830380380153656,
	"learning_rate": 4.93586985248939e-06,
	"loss": 0.7233,
	"step": 613
	},
	{
	"epoch": 0.5116666666666667,
	"grad_norm": 0.48667341470718384,
	"learning_rate": 4.9356206684200045e-06,
	"loss": 0.6953,
	"step": 614
	},
	{
	"epoch": 0.5125,
	"grad_norm": 0.46916696429252625,
	"learning_rate": 4.9353710074886454e-06,
	"loss": 0.6844,
	"step": 615
	},
	{
	"epoch": 0.5133333333333333,
	"grad_norm": 0.48398151993751526,
	"learning_rate": 4.935120869744194e-06,
	"loss": 0.7127,
	"step": 616
	},
	{
	"epoch": 0.5141666666666667,
	"grad_norm": 0.499497652053833,
	"learning_rate": 4.934870255235622e-06,
	"loss": 0.6896,
	"step": 617
	},
	{
	"epoch": 0.515,
	"grad_norm": 0.48984643816947937,
	"learning_rate": 4.934619164011998e-06,
	"loss": 0.7299,
	"step": 618
	},
	{
	"epoch": 0.5158333333333334,
	"grad_norm": 0.5016290545463562,
	"learning_rate": 4.934367596122482e-06,
	"loss": 0.7174,
	"step": 619
	},
	{
	"epoch": 0.5166666666666667,
	"grad_norm": 0.4891358017921448,
	"learning_rate": 4.9341155516163275e-06,
	"loss": 0.6922,
	"step": 620
	},
	{
	"epoch": 0.5175,
	"grad_norm": 0.5024811029434204,
	"learning_rate": 4.9338630305428815e-06,
	"loss": 0.7393,
	"step": 621
	},
	{
	"epoch": 0.5183333333333333,
	"grad_norm": 0.4832116961479187,
	"learning_rate": 4.9336100329515835e-06,
	"loss": 0.6903,
	"step": 622
	},
	{
	"epoch": 0.5191666666666667,
	"grad_norm": 0.48036712408065796,
	"learning_rate": 4.933356558891968e-06,
	"loss": 0.7136,
	"step": 623
	},
	{
	"epoch": 0.52,
	"grad_norm": 0.48273342847824097,
	"learning_rate": 4.933102608413662e-06,
	"loss": 0.6828,
	"step": 624
	},
	{
	"epoch": 0.5208333333333334,
	"grad_norm": 0.4953583776950836,
	"learning_rate": 4.9328481815663845e-06,
	"loss": 0.7203,
	"step": 625
	},
	{
	"epoch": 0.5216666666666666,
	"grad_norm": 0.5053473711013794,
	"learning_rate": 4.93259327839995e-06,
	"loss": 0.7141,
	"step": 626
	},
	{
	"epoch": 0.5225,
	"grad_norm": 0.4935609996318817,
	"learning_rate": 4.932337898964264e-06,
	"loss": 0.7097,
	"step": 627
	},
	{
	"epoch": 0.5233333333333333,
	"grad_norm": 0.5030904412269592,
	"learning_rate": 4.932082043309328e-06,
	"loss": 0.7261,
	"step": 628
	},
	{
	"epoch": 0.5241666666666667,
	"grad_norm": 0.48916617035865784,
	"learning_rate": 4.9318257114852336e-06,
	"loss": 0.7203,
	"step": 629
	},
	{
	"epoch": 0.525,
	"grad_norm": 0.49389857053756714,
	"learning_rate": 4.931568903542168e-06,
	"loss": 0.7149,
	"step": 630
	},
	{
	"epoch": 0.5258333333333334,
	"grad_norm": 0.49069395661354065,
	"learning_rate": 4.93131161953041e-06,
	"loss": 0.7314,
	"step": 631
	},
	{
	"epoch": 0.5266666666666666,
	"grad_norm": 0.50567626953125,
	"learning_rate": 4.931053859500334e-06,
	"loss": 0.7185,
	"step": 632
	},
	{
	"epoch": 0.5275,
	"grad_norm": 0.49401047825813293,
	"learning_rate": 4.9307956235024025e-06,
	"loss": 0.701,
	"step": 633
	},
	{
	"epoch": 0.5283333333333333,
	"grad_norm": 0.5027605891227722,
	"learning_rate": 4.930536911587179e-06,
	"loss": 0.7029,
	"step": 634
	},
	{
	"epoch": 0.5291666666666667,
	"grad_norm": 0.48128971457481384,
	"learning_rate": 4.930277723805313e-06,
	"loss": 0.7098,
	"step": 635
	},
	{
	"epoch": 0.53,
	"grad_norm": 0.4842052161693573,
	"learning_rate": 4.930018060207551e-06,
	"loss": 0.7053,
	"step": 636
	},
	{
	"epoch": 0.5308333333333334,
	"grad_norm": 0.5151858925819397,
	"learning_rate": 4.929757920844731e-06,
	"loss": 0.6984,
	"step": 637
	},
	{
	"epoch": 0.5316666666666666,
	"grad_norm": 0.48803043365478516,
	"learning_rate": 4.929497305767786e-06,
	"loss": 0.7087,
	"step": 638
	},
	{
	"epoch": 0.5325,
	"grad_norm": 0.49492281675338745,
	"learning_rate": 4.92923621502774e-06,
	"loss": 0.726,
	"step": 639
	},
	{
	"epoch": 0.5333333333333333,
	"grad_norm": 0.5118134617805481,
	"learning_rate": 4.928974648675711e-06,
	"loss": 0.6862,
	"step": 640
	},
	{
	"epoch": 0.5341666666666667,
	"grad_norm": 0.5026904344558716,
	"learning_rate": 4.928712606762911e-06,
	"loss": 0.7116,
	"step": 641
	},
	{
	"epoch": 0.535,
	"grad_norm": 0.5102514028549194,
	"learning_rate": 4.928450089340644e-06,
	"loss": 0.7135,
	"step": 642
	},
	{
	"epoch": 0.5358333333333334,
	"grad_norm": 0.4974600672721863,
	"learning_rate": 4.928187096460306e-06,
	"loss": 0.7186,
	"step": 643
	},
	{
	"epoch": 0.5366666666666666,
	"grad_norm": 0.49446332454681396,
	"learning_rate": 4.92792362817339e-06,
	"loss": 0.7229,
	"step": 644
	},
	{
	"epoch": 0.5375,
	"grad_norm": 0.49716511368751526,
	"learning_rate": 4.927659684531477e-06,
	"loss": 0.7164,
	"step": 645
	},
	{
	"epoch": 0.5383333333333333,
	"grad_norm": 0.5083909034729004,
	"learning_rate": 4.927395265586246e-06,
	"loss": 0.7209,
	"step": 646
	},
	{
	"epoch": 0.5391666666666667,
	"grad_norm": 0.49926912784576416,
	"learning_rate": 4.927130371389465e-06,
	"loss": 0.7043,
	"step": 647
	},
	{
	"epoch": 0.54,
	"grad_norm": 0.4805012047290802,
	"learning_rate": 4.926865001992998e-06,
	"loss": 0.6756,
	"step": 648
	},
	{
	"epoch": 0.5408333333333334,
	"grad_norm": 0.4931069612503052,
	"learning_rate": 4.926599157448799e-06,
	"loss": 0.6855,
	"step": 649
	},
	{
	"epoch": 0.5416666666666666,
	"grad_norm": 0.4891999065876007,
	"learning_rate": 4.926332837808918e-06,
	"loss": 0.7248,
	"step": 650
	},
	{
	"epoch": 0.5425,
	"grad_norm": 0.4911347031593323,
	"learning_rate": 4.926066043125498e-06,
	"loss": 0.6852,
	"step": 651
	},
	{
	"epoch": 0.5433333333333333,
	"grad_norm": 0.5025411248207092,
	"learning_rate": 4.9257987734507715e-06,
	"loss": 0.695,
	"step": 652
	},
	{
	"epoch": 0.5441666666666667,
	"grad_norm": 0.5224595069885254,
	"learning_rate": 4.9255310288370685e-06,
	"loss": 0.7078,
	"step": 653
	},
	{
	"epoch": 0.545,
	"grad_norm": 0.5079106092453003,
	"learning_rate": 4.925262809336808e-06,
	"loss": 0.7028,
	"step": 654
	},
	{
	"epoch": 0.5458333333333333,
	"grad_norm": 0.49983689188957214,
	"learning_rate": 4.924994115002504e-06,
	"loss": 0.6802,
	"step": 655
	},
	{
	"epoch": 0.5466666666666666,
	"grad_norm": 0.48790889978408813,
	"learning_rate": 4.9247249458867645e-06,
	"loss": 0.6909,
	"step": 656
	},
	{
	"epoch": 0.5475,
	"grad_norm": 0.5053600072860718,
	"learning_rate": 4.924455302042289e-06,
	"loss": 0.686,
	"step": 657
	},
	{
	"epoch": 0.5483333333333333,
	"grad_norm": 0.48766225576400757,
	"learning_rate": 4.924185183521868e-06,
	"loss": 0.715,
	"step": 658
	},
	{
	"epoch": 0.5491666666666667,
	"grad_norm": 0.4844707250595093,
	"learning_rate": 4.92391459037839e-06,
	"loss": 0.686,
	"step": 659
	},
	{
	"epoch": 0.55,
	"grad_norm": 0.5116406083106995,
	"learning_rate": 4.923643522664833e-06,
	"loss": 0.7119,
	"step": 660
	},
	{
	"epoch": 0.5508333333333333,
	"grad_norm": 0.5154091715812683,
	"learning_rate": 4.923371980434266e-06,
	"loss": 0.7185,
	"step": 661
	},
	{
	"epoch": 0.5516666666666666,
	"grad_norm": 0.5236364006996155,
	"learning_rate": 4.923099963739856e-06,
	"loss": 0.7253,
	"step": 662
	},
	{
	"epoch": 0.5525,
	"grad_norm": 0.5012351870536804,
	"learning_rate": 4.922827472634859e-06,
	"loss": 0.693,
	"step": 663
	},
	{
	"epoch": 0.5533333333333333,
	"grad_norm": 0.49236923456192017,
	"learning_rate": 4.922554507172626e-06,
	"loss": 0.7268,
	"step": 664
	},
	{
	"epoch": 0.5541666666666667,
	"grad_norm": 0.49417221546173096,
	"learning_rate": 4.922281067406598e-06,
	"loss": 0.7305,
	"step": 665
	},
	{
	"epoch": 0.555,
	"grad_norm": 0.5097923874855042,
	"learning_rate": 4.922007153390313e-06,
	"loss": 0.6999,
	"step": 666
	},
	{
	"epoch": 0.5558333333333333,
	"grad_norm": 0.499994158744812,
	"learning_rate": 4.921732765177399e-06,
	"loss": 0.7233,
	"step": 667
	},
	{
	"epoch": 0.5566666666666666,
	"grad_norm": 0.511122465133667,
	"learning_rate": 4.921457902821578e-06,
	"loss": 0.7006,
	"step": 668
	},
	{
	"epoch": 0.5575,
	"grad_norm": 0.5105845332145691,
	"learning_rate": 4.921182566376663e-06,
	"loss": 0.7038,
	"step": 669
	},
	{
	"epoch": 0.5583333333333333,
	"grad_norm": 0.5096433162689209,
	"learning_rate": 4.920906755896563e-06,
	"loss": 0.7363,
	"step": 670
	},
	{
	"epoch": 0.5591666666666667,
	"grad_norm": 0.49480730295181274,
	"learning_rate": 4.920630471435277e-06,
	"loss": 0.6972,
	"step": 671
	},
	{
	"epoch": 0.56,
	"grad_norm": 0.505930483341217,
	"learning_rate": 4.920353713046897e-06,
	"loss": 0.699,
	"step": 672
	},
	{
	"epoch": 0.5608333333333333,
	"grad_norm": 0.4985577464103699,
	"learning_rate": 4.92007648078561e-06,
	"loss": 0.7055,
	"step": 673
	},
	{
	"epoch": 0.5616666666666666,
	"grad_norm": 0.4965658187866211,
	"learning_rate": 4.919798774705694e-06,
	"loss": 0.7258,
	"step": 674
	},
	{
	"epoch": 0.5625,
	"grad_norm": 0.5078153014183044,
	"learning_rate": 4.91952059486152e-06,
	"loss": 0.7277,
	"step": 675
	},
	{
	"epoch": 0.5633333333333334,
	"grad_norm": 0.4960659444332123,
	"learning_rate": 4.919241941307551e-06,
	"loss": 0.7215,
	"step": 676
	},
	{
	"epoch": 0.5641666666666667,
	"grad_norm": 0.5092875361442566,
	"learning_rate": 4.9189628140983454e-06,
	"loss": 0.6959,
	"step": 677
	},
	{
	"epoch": 0.565,
	"grad_norm": 0.505517840385437,
	"learning_rate": 4.918683213288551e-06,
	"loss": 0.6918,
	"step": 678
	},
	{
	"epoch": 0.5658333333333333,
	"grad_norm": 0.4938601851463318,
	"learning_rate": 4.9184031389329114e-06,
	"loss": 0.7288,
	"step": 679
	},
	{
	"epoch": 0.5666666666666667,
	"grad_norm": 0.5383937954902649,
	"learning_rate": 4.91812259108626e-06,
	"loss": 0.7165,
	"step": 680
	},
	{
	"epoch": 0.5675,
	"grad_norm": 0.501088559627533,
	"learning_rate": 4.917841569803525e-06,
	"loss": 0.7036,
	"step": 681
	},
	{
	"epoch": 0.5683333333333334,
	"grad_norm": 0.512438178062439,
	"learning_rate": 4.917560075139727e-06,
	"loss": 0.741,
	"step": 682
	},
	{
	"epoch": 0.5691666666666667,
	"grad_norm": 0.5291407108306885,
	"learning_rate": 4.917278107149978e-06,
	"loss": 0.691,
	"step": 683
	},
	{
	"epoch": 0.57,
	"grad_norm": 0.5237842202186584,
	"learning_rate": 4.916995665889485e-06,
	"loss": 0.7238,
	"step": 684
	},
	{
	"epoch": 0.5708333333333333,
	"grad_norm": 0.5278199911117554,
	"learning_rate": 4.9167127514135436e-06,
	"loss": 0.7362,
	"step": 685
	},
	{
	"epoch": 0.5716666666666667,
	"grad_norm": 0.5081051588058472,
	"learning_rate": 4.916429363777547e-06,
	"loss": 0.7275,
	"step": 686
	},
	{
	"epoch": 0.5725,
	"grad_norm": 0.4862457513809204,
	"learning_rate": 4.916145503036978e-06,
	"loss": 0.6797,
	"step": 687
	},
	{
	"epoch": 0.5733333333333334,
	"grad_norm": 0.5127841830253601,
	"learning_rate": 4.915861169247413e-06,
	"loss": 0.7076,
	"step": 688
	},
	{
	"epoch": 0.5741666666666667,
	"grad_norm": 0.4955374002456665,
	"learning_rate": 4.91557636246452e-06,
	"loss": 0.7151,
	"step": 689
	},
	{
	"epoch": 0.575,
	"grad_norm": 0.5174440145492554,
	"learning_rate": 4.9152910827440615e-06,
	"loss": 0.7042,
	"step": 690
	},
	{
	"epoch": 0.5758333333333333,
	"grad_norm": 0.5315648317337036,
	"learning_rate": 4.91500533014189e-06,
	"loss": 0.6797,
	"step": 691
	},
	{
	"epoch": 0.5766666666666667,
	"grad_norm": 0.5086205005645752,
	"learning_rate": 4.9147191047139535e-06,
	"loss": 0.7123,
	"step": 692
	},
	{
	"epoch": 0.5775,
	"grad_norm": 0.5061271786689758,
	"learning_rate": 4.91443240651629e-06,
	"loss": 0.7099,
	"step": 693
	},
	{
	"epoch": 0.5783333333333334,
	"grad_norm": 0.5256630778312683,
	"learning_rate": 4.914145235605032e-06,
	"loss": 0.727,
	"step": 694
	},
	{
	"epoch": 0.5791666666666667,
	"grad_norm": 0.5153964757919312,
	"learning_rate": 4.913857592036403e-06,
	"loss": 0.7091,
	"step": 695
	},
	{
	"epoch": 0.58,
	"grad_norm": 0.5042173862457275,
	"learning_rate": 4.913569475866721e-06,
	"loss": 0.6992,
	"step": 696
	},
	{
	"epoch": 0.5808333333333333,
	"grad_norm": 0.5220386385917664,
	"learning_rate": 4.913280887152394e-06,
	"loss": 0.6889,
	"step": 697
	},
	{
	"epoch": 0.5816666666666667,
	"grad_norm": 0.49453794956207275,
	"learning_rate": 4.912991825949923e-06,
	"loss": 0.7045,
	"step": 698
	},
	{
	"epoch": 0.5825,
	"grad_norm": 0.541048526763916,
	"learning_rate": 4.912702292315905e-06,
	"loss": 0.717,
	"step": 699
	},
	{
	"epoch": 0.5833333333333334,
	"grad_norm": 0.5255627632141113,
	"learning_rate": 4.912412286307025e-06,
	"loss": 0.6917,
	"step": 700
	},
	{
	"epoch": 0.5841666666666666,
	"grad_norm": 0.5208636522293091,
	"learning_rate": 4.912121807980063e-06,
	"loss": 0.6966,
	"step": 701
	},
	{
	"epoch": 0.585,
	"grad_norm": 0.5166336894035339,
	"learning_rate": 4.9118308573918905e-06,
	"loss": 0.6893,
	"step": 702
	},
	{
	"epoch": 0.5858333333333333,
	"grad_norm": 0.5058565735816956,
	"learning_rate": 4.911539434599471e-06,
	"loss": 0.6801,
	"step": 703
	},
	{
	"epoch": 0.5866666666666667,
	"grad_norm": 0.4997437000274658,
	"learning_rate": 4.911247539659863e-06,
	"loss": 0.6935,
	"step": 704
	},
	{
	"epoch": 0.5875,
	"grad_norm": 0.49939316511154175,
	"learning_rate": 4.9109551726302125e-06,
	"loss": 0.7179,
	"step": 705
	},
	{
	"epoch": 0.5883333333333334,
	"grad_norm": 0.5002568960189819,
	"learning_rate": 4.910662333567765e-06,
	"loss": 0.7015,
	"step": 706
	},
	{
	"epoch": 0.5891666666666666,
	"grad_norm": 0.5086607336997986,
	"learning_rate": 4.910369022529851e-06,
	"loss": 0.732,
	"step": 707
	},
	{
	"epoch": 0.59,
	"grad_norm": 0.518061637878418,
	"learning_rate": 4.9100752395739e-06,
	"loss": 0.69,
	"step": 708
	},
	{
	"epoch": 0.5908333333333333,
	"grad_norm": 0.5153642296791077,
	"learning_rate": 4.909780984757428e-06,
	"loss": 0.7203,
	"step": 709
	},
	{
	"epoch": 0.5916666666666667,
	"grad_norm": 0.5164903998374939,
	"learning_rate": 4.909486258138048e-06,
	"loss": 0.7081,
	"step": 710
	},
	{
	"epoch": 0.5925,
	"grad_norm": 0.5227023959159851,
	"learning_rate": 4.9091910597734624e-06,
	"loss": 0.6969,
	"step": 711
	},
	{
	"epoch": 0.5933333333333334,
	"grad_norm": 0.531080424785614,
	"learning_rate": 4.908895389721469e-06,
	"loss": 0.7138,
	"step": 712
	},
	{
	"epoch": 0.5941666666666666,
	"grad_norm": 0.5179861783981323,
	"learning_rate": 4.9085992480399526e-06,
	"loss": 0.7082,
	"step": 713
	},
	{
	"epoch": 0.595,
	"grad_norm": 0.49200907349586487,
	"learning_rate": 4.908302634786897e-06,
	"loss": 0.6779,
	"step": 714
	},
	{
	"epoch": 0.5958333333333333,
	"grad_norm": 0.5001080632209778,
	"learning_rate": 4.908005550020374e-06,
	"loss": 0.7186,
	"step": 715
	},
	{
	"epoch": 0.5966666666666667,
	"grad_norm": 0.5192794799804688,
	"learning_rate": 4.907707993798548e-06,
	"loss": 0.6823,
	"step": 716
	},
	{
	"epoch": 0.5975,
	"grad_norm": 0.5092243552207947,
	"learning_rate": 4.9074099661796775e-06,
	"loss": 0.6951,
	"step": 717
	},
	{
	"epoch": 0.5983333333333334,
	"grad_norm": 0.5013896226882935,
	"learning_rate": 4.907111467222112e-06,
	"loss": 0.7003,
	"step": 718
	},
	{
	"epoch": 0.5991666666666666,
	"grad_norm": 0.5117473006248474,
	"learning_rate": 4.906812496984294e-06,
	"loss": 0.6876,
	"step": 719
	},
	{
	"epoch": 0.6,
	"grad_norm": 0.5007987022399902,
	"learning_rate": 4.906513055524757e-06,
	"loss": 0.7177,
	"step": 720
	},
	{
	"epoch": 0.6008333333333333,
	"grad_norm": 0.512077808380127,
	"learning_rate": 4.90621314290213e-06,
	"loss": 0.7262,
	"step": 721
	},
	{
	"epoch": 0.6016666666666667,
	"grad_norm": 0.5171950459480286,
	"learning_rate": 4.9059127591751284e-06,
	"loss": 0.7142,
	"step": 722
	},
	{
	"epoch": 0.6025,
	"grad_norm": 0.5047792792320251,
	"learning_rate": 4.905611904402566e-06,
	"loss": 0.7035,
	"step": 723
	},
	{
	"epoch": 0.6033333333333334,
	"grad_norm": 0.5052487850189209,
	"learning_rate": 4.905310578643344e-06,
	"loss": 0.7148,
	"step": 724
	},
	{
	"epoch": 0.6041666666666666,
	"grad_norm": 0.5292346477508545,
	"learning_rate": 4.90500878195646e-06,
	"loss": 0.7156,
	"step": 725
	},
	{
	"epoch": 0.605,
	"grad_norm": 0.5053814649581909,
	"learning_rate": 4.904706514401001e-06,
	"loss": 0.7299,
	"step": 726
	},
	{
	"epoch": 0.6058333333333333,
	"grad_norm": 0.5022679567337036,
	"learning_rate": 4.9044037760361464e-06,
	"loss": 0.7007,
	"step": 727
	},
	{
	"epoch": 0.6066666666666667,
	"grad_norm": 0.5067057013511658,
	"learning_rate": 4.9041005669211686e-06,
	"loss": 0.6975,
	"step": 728
	},
	{
	"epoch": 0.6075,
	"grad_norm": 0.5200228095054626,
	"learning_rate": 4.903796887115433e-06,
	"loss": 0.6953,
	"step": 729
	},
	{
	"epoch": 0.6083333333333333,
	"grad_norm": 0.5037333369255066,
	"learning_rate": 4.903492736678393e-06,
	"loss": 0.6907,
	"step": 730
	},
	{
	"epoch": 0.6091666666666666,
	"grad_norm": 0.519079327583313,
	"learning_rate": 4.903188115669602e-06,
	"loss": 0.6959,
	"step": 731
	},
	{
	"epoch": 0.61,
	"grad_norm": 0.525310754776001,
	"learning_rate": 4.902883024148696e-06,
	"loss": 0.6889,
	"step": 732
	},
	{
	"epoch": 0.6108333333333333,
	"grad_norm": 0.5057506561279297,
	"learning_rate": 4.90257746217541e-06,
	"loss": 0.6485,
	"step": 733
	},
	{
	"epoch": 0.6116666666666667,
	"grad_norm": 0.5262610912322998,
	"learning_rate": 4.90227142980957e-06,
	"loss": 0.6897,
	"step": 734
	},
	{
	"epoch": 0.6125,
	"grad_norm": 0.5470754504203796,
	"learning_rate": 4.901964927111091e-06,
	"loss": 0.6965,
	"step": 735
	},
	{
	"epoch": 0.6133333333333333,
	"grad_norm": 0.5268189311027527,
	"learning_rate": 4.901657954139983e-06,
	"loss": 0.694,
	"step": 736
	},
	{
	"epoch": 0.6141666666666666,
	"grad_norm": 0.5172377824783325,
	"learning_rate": 4.901350510956347e-06,
	"loss": 0.6912,
	"step": 737
	},
	{
	"epoch": 0.615,
	"grad_norm": 0.512689471244812,
	"learning_rate": 4.9010425976203775e-06,
	"loss": 0.7014,
	"step": 738
	},
	{
	"epoch": 0.6158333333333333,
	"grad_norm": 0.5084899663925171,
	"learning_rate": 4.900734214192358e-06,
	"loss": 0.7167,
	"step": 739
	},
	{
	"epoch": 0.6166666666666667,
	"grad_norm": 0.5255918502807617,
	"learning_rate": 4.900425360732667e-06,
	"loss": 0.7238,
	"step": 740
	},
	{
	"epoch": 0.6175,
	"grad_norm": 0.5194475650787354,
	"learning_rate": 4.900116037301773e-06,
	"loss": 0.6933,
	"step": 741
	},
	{
	"epoch": 0.6183333333333333,
	"grad_norm": 0.5156967639923096,
	"learning_rate": 4.899806243960238e-06,
	"loss": 0.7113,
	"step": 742
	},
	{
	"epoch": 0.6191666666666666,
	"grad_norm": 0.5053946375846863,
	"learning_rate": 4.899495980768715e-06,
	"loss": 0.7265,
	"step": 743
	},
	{
	"epoch": 0.62,
	"grad_norm": 0.5088186860084534,
	"learning_rate": 4.899185247787951e-06,
	"loss": 0.6802,
	"step": 744
	},
	{
	"epoch": 0.6208333333333333,
	"grad_norm": 0.5136875510215759,
	"learning_rate": 4.89887404507878e-06,
	"loss": 0.701,
	"step": 745
	},
	{
	"epoch": 0.6216666666666667,
	"grad_norm": 0.5318417549133301,
	"learning_rate": 4.898562372702135e-06,
	"loss": 0.6949,
	"step": 746
	},
	{
	"epoch": 0.6225,
	"grad_norm": 0.5200463533401489,
	"learning_rate": 4.898250230719035e-06,
	"loss": 0.6897,
	"step": 747
	},
	{
	"epoch": 0.6233333333333333,
	"grad_norm": 0.5077635645866394,
	"learning_rate": 4.897937619190594e-06,
	"loss": 0.7199,
	"step": 748
	},
	{
	"epoch": 0.6241666666666666,
	"grad_norm": 0.5357377529144287,
	"learning_rate": 4.897624538178016e-06,
	"loss": 0.6934,
	"step": 749
	},
	{
	"epoch": 0.625,
	"grad_norm": 0.5099722743034363,
	"learning_rate": 4.8973109877426e-06,
	"loss": 0.7035,
	"step": 750
	},
	{
	"epoch": 0.6258333333333334,
	"grad_norm": 0.5247126817703247,
	"learning_rate": 4.8969969679457356e-06,
	"loss": 0.6929,
	"step": 751
	},
	{
	"epoch": 0.6266666666666667,
	"grad_norm": 0.5198376178741455,
	"learning_rate": 4.8966824788489e-06,
	"loss": 0.672,
	"step": 752
	},
	{
	"epoch": 0.6275,
	"grad_norm": 0.5000905394554138,
	"learning_rate": 4.896367520513669e-06,
	"loss": 0.6997,
	"step": 753
	},
	{
	"epoch": 0.6283333333333333,
	"grad_norm": 0.5157536268234253,
	"learning_rate": 4.896052093001706e-06,
	"loss": 0.6991,
	"step": 754
	},
	{
	"epoch": 0.6291666666666667,
	"grad_norm": 0.515041172504425,
	"learning_rate": 4.895736196374769e-06,
	"loss": 0.7068,
	"step": 755
	},
	{
	"epoch": 0.63,
	"grad_norm": 0.5365301966667175,
	"learning_rate": 4.895419830694704e-06,
	"loss": 0.6737,
	"step": 756
	},
	{
	"epoch": 0.6308333333333334,
	"grad_norm": 0.5136700868606567,
	"learning_rate": 4.895102996023453e-06,
	"loss": 0.6918,
	"step": 757
	},
	{
	"epoch": 0.6316666666666667,
	"grad_norm": 0.5233005881309509,
	"learning_rate": 4.894785692423047e-06,
	"loss": 0.6965,
	"step": 758
	},
	{
	"epoch": 0.6325,
	"grad_norm": 0.5384533405303955,
	"learning_rate": 4.89446791995561e-06,
	"loss": 0.7077,
	"step": 759
	},
	{
	"epoch": 0.6333333333333333,
	"grad_norm": 0.563629686832428,
	"learning_rate": 4.8941496786833585e-06,
	"loss": 0.6964,
	"step": 760
	},
	{
	"epoch": 0.6341666666666667,
	"grad_norm": 0.534803569316864,
	"learning_rate": 4.893830968668598e-06,
	"loss": 0.6948,
	"step": 761
	},
	{
	"epoch": 0.635,
	"grad_norm": 0.5261678099632263,
	"learning_rate": 4.89351178997373e-06,
	"loss": 0.7119,
	"step": 762
	},
	{
	"epoch": 0.6358333333333334,
	"grad_norm": 0.5127663016319275,
	"learning_rate": 4.8931921426612436e-06,
	"loss": 0.678,
	"step": 763
	},
	{
	"epoch": 0.6366666666666667,
	"grad_norm": 0.5464842915534973,
	"learning_rate": 4.8928720267937225e-06,
	"loss": 0.7248,
	"step": 764
	},
	{
	"epoch": 0.6375,
	"grad_norm": 0.524034321308136,
	"learning_rate": 4.89255144243384e-06,
	"loss": 0.7226,
	"step": 765
	},
	{
	"epoch": 0.6383333333333333,
	"grad_norm": 0.5386018753051758,
	"learning_rate": 4.892230389644364e-06,
	"loss": 0.7075,
	"step": 766
	},
	{
	"epoch": 0.6391666666666667,
	"grad_norm": 0.508327066898346,
	"learning_rate": 4.89190886848815e-06,
	"loss": 0.6874,
	"step": 767
	},
	{
	"epoch": 0.64,
	"grad_norm": 0.5330120921134949,
	"learning_rate": 4.89158687902815e-06,
	"loss": 0.7053,
	"step": 768
	},
	{
	"epoch": 0.6408333333333334,
	"grad_norm": 0.523970901966095,
	"learning_rate": 4.891264421327404e-06,
	"loss": 0.6953,
	"step": 769
	},
	{
	"epoch": 0.6416666666666667,
	"grad_norm": 0.5083604454994202,
	"learning_rate": 4.890941495449045e-06,
	"loss": 0.7051,
	"step": 770
	},
	{
	"epoch": 0.6425,
	"grad_norm": 0.518703818321228,
	"learning_rate": 4.890618101456297e-06,
	"loss": 0.6998,
	"step": 771
	},
	{
	"epoch": 0.6433333333333333,
	"grad_norm": 0.5182946920394897,
	"learning_rate": 4.890294239412477e-06,
	"loss": 0.6861,
	"step": 772
	},
	{
	"epoch": 0.6441666666666667,
	"grad_norm": 0.5185273885726929,
	"learning_rate": 4.889969909380993e-06,
	"loss": 0.6932,
	"step": 773
	},
	{
	"epoch": 0.645,
	"grad_norm": 0.518583357334137,
	"learning_rate": 4.889645111425343e-06,
	"loss": 0.7127,
	"step": 774
	},
	{
	"epoch": 0.6458333333333334,
	"grad_norm": 0.5055477023124695,
	"learning_rate": 4.889319845609121e-06,
	"loss": 0.6848,
	"step": 775
	},
	{
	"epoch": 0.6466666666666666,
	"grad_norm": 0.5145213007926941,
	"learning_rate": 4.888994111996007e-06,
	"loss": 0.675,
	"step": 776
	},
	{
	"epoch": 0.6475,
	"grad_norm": 0.5357155203819275,
	"learning_rate": 4.888667910649776e-06,
	"loss": 0.6852,
	"step": 777
	},
	{
	"epoch": 0.6483333333333333,
	"grad_norm": 0.5249659419059753,
	"learning_rate": 4.888341241634294e-06,
	"loss": 0.6758,
	"step": 778
	},
	{
	"epoch": 0.6491666666666667,
	"grad_norm": 0.5111972689628601,
	"learning_rate": 4.888014105013519e-06,
	"loss": 0.7135,
	"step": 779
	},
	{
	"epoch": 0.65,
	"grad_norm": 0.5049281716346741,
	"learning_rate": 4.887686500851499e-06,
	"loss": 0.7005,
	"step": 780
	},
	{
	"epoch": 0.6508333333333334,
	"grad_norm": 0.5292990207672119,
	"learning_rate": 4.887358429212376e-06,
	"loss": 0.693,
	"step": 781
	},
	{
	"epoch": 0.6516666666666666,
	"grad_norm": 0.5458861589431763,
	"learning_rate": 4.8870298901603795e-06,
	"loss": 0.6847,
	"step": 782
	},
	{
	"epoch": 0.6525,
	"grad_norm": 0.4995274543762207,
	"learning_rate": 4.886700883759835e-06,
	"loss": 0.6937,
	"step": 783
	},
	{
	"epoch": 0.6533333333333333,
	"grad_norm": 0.5324481129646301,
	"learning_rate": 4.886371410075158e-06,
	"loss": 0.6893,
	"step": 784
	},
	{
	"epoch": 0.6541666666666667,
	"grad_norm": 0.5349828600883484,
	"learning_rate": 4.886041469170853e-06,
	"loss": 0.7125,
	"step": 785
	},
	{
	"epoch": 0.655,
	"grad_norm": 0.5064926743507385,
	"learning_rate": 4.885711061111521e-06,
	"loss": 0.6848,
	"step": 786
	},
	{
	"epoch": 0.6558333333333334,
	"grad_norm": 0.5255186557769775,
	"learning_rate": 4.8853801859618485e-06,
	"loss": 0.7015,
	"step": 787
	},
	{
	"epoch": 0.6566666666666666,
	"grad_norm": 0.5162312388420105,
	"learning_rate": 4.8850488437866175e-06,
	"loss": 0.6814,
	"step": 788
	},
	{
	"epoch": 0.6575,
	"grad_norm": 0.5064243078231812,
	"learning_rate": 4.8847170346507015e-06,
	"loss": 0.7018,
	"step": 789
	},
	{
	"epoch": 0.6583333333333333,
	"grad_norm": 0.5234450697898865,
	"learning_rate": 4.884384758619062e-06,
	"loss": 0.7105,
	"step": 790
	},
	{
	"epoch": 0.6591666666666667,
	"grad_norm": 0.5111430883407593,
	"learning_rate": 4.884052015756756e-06,
	"loss": 0.6954,
	"step": 791
	},
	{
	"epoch": 0.66,
	"grad_norm": 0.5288181900978088,
	"learning_rate": 4.88371880612893e-06,
	"loss": 0.6786,
	"step": 792
	},
	{
	"epoch": 0.6608333333333334,
	"grad_norm": 0.5146850347518921,
	"learning_rate": 4.883385129800821e-06,
	"loss": 0.7104,
	"step": 793
	},
	{
	"epoch": 0.6616666666666666,
	"grad_norm": 0.5834770798683167,
	"learning_rate": 4.883050986837759e-06,
	"loss": 0.6993,
	"step": 794
	},
	{
	"epoch": 0.6625,
	"grad_norm": 0.5055618286132812,
	"learning_rate": 4.882716377305165e-06,
	"loss": 0.7007,
	"step": 795
	},
	{
	"epoch": 0.6633333333333333,
	"grad_norm": 0.5314000844955444,
	"learning_rate": 4.882381301268551e-06,
	"loss": 0.7126,
	"step": 796
	},
	{
	"epoch": 0.6641666666666667,
	"grad_norm": 0.5144740343093872,
	"learning_rate": 4.882045758793519e-06,
	"loss": 0.701,
	"step": 797
	},
	{
	"epoch": 0.665,
	"grad_norm": 0.5358453392982483,
	"learning_rate": 4.881709749945766e-06,
	"loss": 0.6765,
	"step": 798
	},
	{
	"epoch": 0.6658333333333334,
	"grad_norm": 0.5019009709358215,
	"learning_rate": 4.881373274791077e-06,
	"loss": 0.6888,
	"step": 799
	},
	{
	"epoch": 0.6666666666666666,
	"grad_norm": 0.504955530166626,
	"learning_rate": 4.881036333395329e-06,
	"loss": 0.6985,
	"step": 800
	},
	{
	"epoch": 0.6675,
	"grad_norm": 0.5426459908485413,
	"learning_rate": 4.880698925824491e-06,
	"loss": 0.7185,
	"step": 801
	},
	{
	"epoch": 0.6683333333333333,
	"grad_norm": 0.5174799561500549,
	"learning_rate": 4.880361052144622e-06,
	"loss": 0.6948,
	"step": 802
	},
	{
	"epoch": 0.6691666666666667,
	"grad_norm": 0.5137911438941956,
	"learning_rate": 4.880022712421875e-06,
	"loss": 0.7224,
	"step": 803
	},
	{
	"epoch": 0.67,
	"grad_norm": 0.5264410972595215,
	"learning_rate": 4.879683906722491e-06,
	"loss": 0.7044,
	"step": 804
	},
	{
	"epoch": 0.6708333333333333,
	"grad_norm": 0.5121612548828125,
	"learning_rate": 4.879344635112804e-06,
	"loss": 0.7228,
	"step": 805
	},
	{
	"epoch": 0.6716666666666666,
	"grad_norm": 0.5080540180206299,
	"learning_rate": 4.879004897659239e-06,
	"loss": 0.6855,
	"step": 806
	},
	{
	"epoch": 0.6725,
	"grad_norm": 0.5224771499633789,
	"learning_rate": 4.878664694428311e-06,
	"loss": 0.7008,
	"step": 807
	},
	{
	"epoch": 0.6733333333333333,
	"grad_norm": 0.5215049386024475,
	"learning_rate": 4.878324025486629e-06,
	"loss": 0.7121,
	"step": 808
	},
	{
	"epoch": 0.6741666666666667,
	"grad_norm": 0.5437601208686829,
	"learning_rate": 4.87798289090089e-06,
	"loss": 0.6709,
	"step": 809
	},
	{
	"epoch": 0.675,
	"grad_norm": 0.5079526901245117,
	"learning_rate": 4.8776412907378845e-06,
	"loss": 0.6944,
	"step": 810
	},
	{
	"epoch": 0.6758333333333333,
	"grad_norm": 0.5485474467277527,
	"learning_rate": 4.877299225064492e-06,
	"loss": 0.7243,
	"step": 811
	},
	{
	"epoch": 0.6766666666666666,
	"grad_norm": 0.5193931460380554,
	"learning_rate": 4.876956693947686e-06,
	"loss": 0.7031,
	"step": 812
	},
	{
	"epoch": 0.6775,
	"grad_norm": 0.5287131667137146,
	"learning_rate": 4.87661369745453e-06,
	"loss": 0.6992,
	"step": 813
	},
	{
	"epoch": 0.6783333333333333,
	"grad_norm": 0.5193741321563721,
	"learning_rate": 4.8762702356521755e-06,
	"loss": 0.7001,
	"step": 814
	},
	{
	"epoch": 0.6791666666666667,
	"grad_norm": 0.5219745635986328,
	"learning_rate": 4.875926308607869e-06,
	"loss": 0.688,
	"step": 815
	},
	{
	"epoch": 0.68,
	"grad_norm": 0.5148146152496338,
	"learning_rate": 4.875581916388947e-06,
	"loss": 0.7017,
	"step": 816
	},
	{
	"epoch": 0.6808333333333333,
	"grad_norm": 0.5096646547317505,
	"learning_rate": 4.875237059062837e-06,
	"loss": 0.6998,
	"step": 817
	},
	{
	"epoch": 0.6816666666666666,
	"grad_norm": 0.5043613910675049,
	"learning_rate": 4.8748917366970575e-06,
	"loss": 0.7139,
	"step": 818
	},
	{
	"epoch": 0.6825,
	"grad_norm": 0.5209697484970093,
	"learning_rate": 4.874545949359218e-06,
	"loss": 0.7058,
	"step": 819
	},
	{
	"epoch": 0.6833333333333333,
	"grad_norm": 0.510082483291626,
	"learning_rate": 4.874199697117019e-06,
	"loss": 0.7101,
	"step": 820
	},
	{
	"epoch": 0.6841666666666667,
	"grad_norm": 0.5097037553787231,
	"learning_rate": 4.873852980038251e-06,
	"loss": 0.6997,
	"step": 821
	},
	{
	"epoch": 0.685,
	"grad_norm": 0.5249111652374268,
	"learning_rate": 4.8735057981907985e-06,
	"loss": 0.6966,
	"step": 822
	},
	{
	"epoch": 0.6858333333333333,
	"grad_norm": 0.5364351868629456,
	"learning_rate": 4.873158151642633e-06,
	"loss": 0.7089,
	"step": 823
	},
	{
	"epoch": 0.6866666666666666,
	"grad_norm": 0.5414480566978455,
	"learning_rate": 4.87281004046182e-06,
	"loss": 0.7027,
	"step": 824
	},
	{
	"epoch": 0.6875,
	"grad_norm": 0.5269333720207214,
	"learning_rate": 4.8724614647165165e-06,
	"loss": 0.6871,
	"step": 825
	},
	{
	"epoch": 0.6883333333333334,
	"grad_norm": 0.5062053799629211,
	"learning_rate": 4.8721124244749675e-06,
	"loss": 0.7059,
	"step": 826
	},
	{
	"epoch": 0.6891666666666667,
	"grad_norm": 0.5331844687461853,
	"learning_rate": 4.871762919805509e-06,
	"loss": 0.6924,
	"step": 827
	},
	{
	"epoch": 0.69,
	"grad_norm": 0.5113570094108582,
	"learning_rate": 4.871412950776572e-06,
	"loss": 0.7176,
	"step": 828
	},
	{
	"epoch": 0.6908333333333333,
	"grad_norm": 0.5091599822044373,
	"learning_rate": 4.8710625174566746e-06,
	"loss": 0.7009,
	"step": 829
	},
	{
	"epoch": 0.6916666666666667,
	"grad_norm": 0.5157275795936584,
	"learning_rate": 4.870711619914427e-06,
	"loss": 0.6823,
	"step": 830
	},
	{
	"epoch": 0.6925,
	"grad_norm": 0.5111780762672424,
	"learning_rate": 4.870360258218529e-06,
	"loss": 0.7126,
	"step": 831
	},
	{
	"epoch": 0.6933333333333334,
	"grad_norm": 0.5205333232879639,
	"learning_rate": 4.870008432437775e-06,
	"loss": 0.6862,
	"step": 832
	},
	{
	"epoch": 0.6941666666666667,
	"grad_norm": 0.5357934832572937,
	"learning_rate": 4.869656142641046e-06,
	"loss": 0.6843,
	"step": 833
	},
	{
	"epoch": 0.695,
	"grad_norm": 0.5192294716835022,
	"learning_rate": 4.869303388897316e-06,
	"loss": 0.7239,
	"step": 834
	},
	{
	"epoch": 0.6958333333333333,
	"grad_norm": 0.5110365748405457,
	"learning_rate": 4.86895017127565e-06,
	"loss": 0.6775,
	"step": 835
	},
	{
	"epoch": 0.6966666666666667,
	"grad_norm": 0.5330725312232971,
	"learning_rate": 4.868596489845202e-06,
	"loss": 0.6859,
	"step": 836
	},
	{
	"epoch": 0.6975,
	"grad_norm": 0.5269964337348938,
	"learning_rate": 4.8682423446752205e-06,
	"loss": 0.68,
	"step": 837
	},
	{
	"epoch": 0.6983333333333334,
	"grad_norm": 0.5197260975837708,
	"learning_rate": 4.8678877358350395e-06,
	"loss": 0.7141,
	"step": 838
	},
	{
	"epoch": 0.6991666666666667,
	"grad_norm": 0.5159953832626343,
	"learning_rate": 4.867532663394089e-06,
	"loss": 0.7068,
	"step": 839
	},
	{
	"epoch": 0.7,
	"grad_norm": 0.5161412358283997,
	"learning_rate": 4.867177127421886e-06,
	"loss": 0.6867,
	"step": 840
	},
	{
	"epoch": 0.7008333333333333,
	"grad_norm": 0.5148288607597351,
	"learning_rate": 4.866821127988041e-06,
	"loss": 0.6788,
	"step": 841
	},
	{
	"epoch": 0.7016666666666667,
	"grad_norm": 0.5343820452690125,
	"learning_rate": 4.8664646651622525e-06,
	"loss": 0.6934,
	"step": 842
	},
	{
	"epoch": 0.7025,
	"grad_norm": 0.5303324460983276,
	"learning_rate": 4.8661077390143116e-06,
	"loss": 0.7257,
	"step": 843
	},
	{
	"epoch": 0.7033333333333334,
	"grad_norm": 0.5165217518806458,
	"learning_rate": 4.8657503496141e-06,
	"loss": 0.7094,
	"step": 844
	},
	{
	"epoch": 0.7041666666666667,
	"grad_norm": 0.5399205088615417,
	"learning_rate": 4.86539249703159e-06,
	"loss": 0.6867,
	"step": 845
	},
	{
	"epoch": 0.705,
	"grad_norm": 0.5127713084220886,
	"learning_rate": 4.865034181336843e-06,
	"loss": 0.7245,
	"step": 846
	},
	{
	"epoch": 0.7058333333333333,
	"grad_norm": 0.5517030358314514,
	"learning_rate": 4.864675402600014e-06,
	"loss": 0.7152,
	"step": 847
	},
	{
	"epoch": 0.7066666666666667,
	"grad_norm": 0.5316351652145386,
	"learning_rate": 4.864316160891347e-06,
	"loss": 0.6969,
	"step": 848
	},
	{
	"epoch": 0.7075,
	"grad_norm": 0.5376459956169128,
	"learning_rate": 4.863956456281176e-06,
	"loss": 0.6885,
	"step": 849
	},
	{
	"epoch": 0.7083333333333334,
	"grad_norm": 0.5351783633232117,
	"learning_rate": 4.863596288839926e-06,
	"loss": 0.6858,
	"step": 850
	},
	{
	"epoch": 0.7091666666666666,
	"grad_norm": 0.5073575973510742,
	"learning_rate": 4.863235658638114e-06,
	"loss": 0.6926,
	"step": 851
	},
	{
	"epoch": 0.71,
	"grad_norm": 0.5288323760032654,
	"learning_rate": 4.862874565746346e-06,
	"loss": 0.6655,
	"step": 852
	},
	{
	"epoch": 0.7108333333333333,
	"grad_norm": 0.5252835750579834,
	"learning_rate": 4.862513010235319e-06,
	"loss": 0.6828,
	"step": 853
	},
	{
	"epoch": 0.7116666666666667,
	"grad_norm": 0.5355015993118286,
	"learning_rate": 4.862150992175821e-06,
	"loss": 0.6983,
	"step": 854
	},
	{
	"epoch": 0.7125,
	"grad_norm": 0.5402361750602722,
	"learning_rate": 4.861788511638731e-06,
	"loss": 0.6796,
	"step": 855
	},
	{
	"epoch": 0.7133333333333334,
	"grad_norm": 0.555108904838562,
	"learning_rate": 4.861425568695016e-06,
	"loss": 0.6692,
	"step": 856
	},
	{
	"epoch": 0.7141666666666666,
	"grad_norm": 0.5432515740394592,
	"learning_rate": 4.861062163415737e-06,
	"loss": 0.6953,
	"step": 857
	},
	{
	"epoch": 0.715,
	"grad_norm": 0.5291070938110352,
	"learning_rate": 4.860698295872044e-06,
	"loss": 0.6832,
	"step": 858
	},
	{
	"epoch": 0.7158333333333333,
	"grad_norm": 0.5087788701057434,
	"learning_rate": 4.860333966135177e-06,
	"loss": 0.6802,
	"step": 859
	},
	{
	"epoch": 0.7166666666666667,
	"grad_norm": 0.5214117765426636,
	"learning_rate": 4.859969174276465e-06,
	"loss": 0.6958,
	"step": 860
	},
	{
	"epoch": 0.7175,
	"grad_norm": 0.5283812284469604,
	"learning_rate": 4.859603920367333e-06,
	"loss": 0.6857,
	"step": 861
	},
	{
	"epoch": 0.7183333333333334,
	"grad_norm": 0.5406526327133179,
	"learning_rate": 4.85923820447929e-06,
	"loss": 0.7026,
	"step": 862
	},
	{
	"epoch": 0.7191666666666666,
	"grad_norm": 0.5307414531707764,
	"learning_rate": 4.8588720266839394e-06,
	"loss": 0.7016,
	"step": 863
	},
	{
	"epoch": 0.72,
	"grad_norm": 0.5175375938415527,
	"learning_rate": 4.858505387052974e-06,
	"loss": 0.7003,
	"step": 864
	},
	{
	"epoch": 0.7208333333333333,
	"grad_norm": 0.5153360366821289,
	"learning_rate": 4.858138285658176e-06,
	"loss": 0.6846,
	"step": 865
	},
	{
	"epoch": 0.7216666666666667,
	"grad_norm": 0.5288724899291992,
	"learning_rate": 4.85777072257142e-06,
	"loss": 0.6662,
	"step": 866
	},
	{
	"epoch": 0.7225,
	"grad_norm": 0.5373950004577637,
	"learning_rate": 4.857402697864669e-06,
	"loss": 0.6913,
	"step": 867
	},
	{
	"epoch": 0.7233333333333334,
	"grad_norm": 0.540603518486023,
	"learning_rate": 4.857034211609979e-06,
	"loss": 0.677,
	"step": 868
	},
	{
	"epoch": 0.7241666666666666,
	"grad_norm": 0.5345202088356018,
	"learning_rate": 4.856665263879492e-06,
	"loss": 0.6824,
	"step": 869
	},
	{
	"epoch": 0.725,
	"grad_norm": 0.5688567161560059,
	"learning_rate": 4.856295854745446e-06,
	"loss": 0.7228,
	"step": 870
	},
	{
	"epoch": 0.7258333333333333,
	"grad_norm": 0.5296337604522705,
	"learning_rate": 4.855925984280164e-06,
	"loss": 0.6924,
	"step": 871
	},
	{
	"epoch": 0.7266666666666667,
	"grad_norm": 0.5505181550979614,
	"learning_rate": 4.855555652556063e-06,
	"loss": 0.7014,
	"step": 872
	},
	{
	"epoch": 0.7275,
	"grad_norm": 0.5318360328674316,
	"learning_rate": 4.855184859645648e-06,
	"loss": 0.7082,
	"step": 873
	},
	{
	"epoch": 0.7283333333333334,
	"grad_norm": 0.533689558506012,
	"learning_rate": 4.854813605621518e-06,
	"loss": 0.7105,
	"step": 874
	},
	{
	"epoch": 0.7291666666666666,
	"grad_norm": 0.5644373893737793,
	"learning_rate": 4.8544418905563556e-06,
	"loss": 0.6798,
	"step": 875
	},
	{
	"epoch": 0.73,
	"grad_norm": 0.5328598618507385,
	"learning_rate": 4.85406971452294e-06,
	"loss": 0.6585,
	"step": 876
	},
	{
	"epoch": 0.7308333333333333,
	"grad_norm": 0.5422435402870178,
	"learning_rate": 4.853697077594139e-06,
	"loss": 0.6833,
	"step": 877
	},
	{
	"epoch": 0.7316666666666667,
	"grad_norm": 0.5485203266143799,
	"learning_rate": 4.853323979842907e-06,
	"loss": 0.7094,
	"step": 878
	},
	{
	"epoch": 0.7325,
	"grad_norm": 0.5323787927627563,
	"learning_rate": 4.852950421342294e-06,
	"loss": 0.69,
	"step": 879
	},
	{
	"epoch": 0.7333333333333333,
	"grad_norm": 0.5386905074119568,
	"learning_rate": 4.852576402165436e-06,
	"loss": 0.6926,
	"step": 880
	},
	{
	"epoch": 0.7341666666666666,
	"grad_norm": 0.5184804797172546,
	"learning_rate": 4.852201922385564e-06,
	"loss": 0.7036,
	"step": 881
	},
	{
	"epoch": 0.735,
	"grad_norm": 0.5275572538375854,
	"learning_rate": 4.851826982075993e-06,
	"loss": 0.6837,
	"step": 882
	},
	{
	"epoch": 0.7358333333333333,
	"grad_norm": 0.5331025123596191,
	"learning_rate": 4.851451581310134e-06,
	"loss": 0.6822,
	"step": 883
	},
	{
	"epoch": 0.7366666666666667,
	"grad_norm": 0.5557110905647278,
	"learning_rate": 4.851075720161482e-06,
	"loss": 0.7043,
	"step": 884
	},
	{
	"epoch": 0.7375,
	"grad_norm": 0.5354774594306946,
	"learning_rate": 4.850699398703629e-06,
	"loss": 0.6986,
	"step": 885
	},
	{
	"epoch": 0.7383333333333333,
	"grad_norm": 0.5475578904151917,
	"learning_rate": 4.850322617010251e-06,
	"loss": 0.7064,
	"step": 886
	},
	{
	"epoch": 0.7391666666666666,
	"grad_norm": 0.5287150144577026,
	"learning_rate": 4.849945375155119e-06,
	"loss": 0.6898,
	"step": 887
	},
	{
	"epoch": 0.74,
	"grad_norm": 0.5327820777893066,
	"learning_rate": 4.84956767321209e-06,
	"loss": 0.7019,
	"step": 888
	},
	{
	"epoch": 0.7408333333333333,
	"grad_norm": 0.5362345576286316,
	"learning_rate": 4.849189511255115e-06,
	"loss": 0.6977,
	"step": 889
	},
	{
	"epoch": 0.7416666666666667,
	"grad_norm": 0.512047290802002,
	"learning_rate": 4.848810889358232e-06,
	"loss": 0.6945,
	"step": 890
	},
	{
	"epoch": 0.7425,
	"grad_norm": 0.5216673612594604,
	"learning_rate": 4.848431807595569e-06,
	"loss": 0.6769,
	"step": 891
	},
	{
	"epoch": 0.7433333333333333,
	"grad_norm": 0.5360478758811951,
	"learning_rate": 4.8480522660413476e-06,
	"loss": 0.6755,
	"step": 892
	},
	{
	"epoch": 0.7441666666666666,
	"grad_norm": 0.5182502865791321,
	"learning_rate": 4.8476722647698745e-06,
	"loss": 0.7005,
	"step": 893
	},
	{
	"epoch": 0.745,
	"grad_norm": 0.5161767601966858,
	"learning_rate": 4.847291803855551e-06,
	"loss": 0.7003,
	"step": 894
	},
	{
	"epoch": 0.7458333333333333,
	"grad_norm": 0.5291750431060791,
	"learning_rate": 4.8469108833728655e-06,
	"loss": 0.6688,
	"step": 895
	},
	{
	"epoch": 0.7466666666666667,
	"grad_norm": 0.5470592379570007,
	"learning_rate": 4.846529503396395e-06,
	"loss": 0.7092,
	"step": 896
	},
	{
	"epoch": 0.7475,
	"grad_norm": 0.5536440014839172,
	"learning_rate": 4.8461476640008125e-06,
	"loss": 0.7177,
	"step": 897
	},
	{
	"epoch": 0.7483333333333333,
	"grad_norm": 0.5416380167007446,
	"learning_rate": 4.845765365260874e-06,
	"loss": 0.6917,
	"step": 898
	},
	{
	"epoch": 0.7491666666666666,
	"grad_norm": 0.5404486656188965,
	"learning_rate": 4.84538260725143e-06,
	"loss": 0.7035,
	"step": 899
	},
	{
	"epoch": 0.75,
	"grad_norm": 0.5136855840682983,
	"learning_rate": 4.844999390047419e-06,
	"loss": 0.7087,
	"step": 900
	},
	{
	"epoch": 0.7508333333333334,
	"grad_norm": 0.5188578367233276,
	"learning_rate": 4.84461571372387e-06,
	"loss": 0.6981,
	"step": 901
	},
	{
	"epoch": 0.7516666666666667,
	"grad_norm": 0.5364389419555664,
	"learning_rate": 4.8442315783559005e-06,
	"loss": 0.6794,
	"step": 902
	},
	{
	"epoch": 0.7525,
	"grad_norm": 0.5432283878326416,
	"learning_rate": 4.8438469840187206e-06,
	"loss": 0.6994,
	"step": 903
	},
	{
	"epoch": 0.7533333333333333,
	"grad_norm": 0.5308606028556824,
	"learning_rate": 4.843461930787629e-06,
	"loss": 0.7245,
	"step": 904
	},
	{
	"epoch": 0.7541666666666667,
	"grad_norm": 0.5469908714294434,
	"learning_rate": 4.843076418738012e-06,
	"loss": 0.694,
	"step": 905
	},
	{
	"epoch": 0.755,
	"grad_norm": 0.5533103346824646,
	"learning_rate": 4.842690447945349e-06,
	"loss": 0.6934,
	"step": 906
	},
	{
	"epoch": 0.7558333333333334,
	"grad_norm": 0.5339813232421875,
	"learning_rate": 4.842304018485208e-06,
	"loss": 0.675,
	"step": 907
	},
	{
	"epoch": 0.7566666666666667,
	"grad_norm": 0.5356221795082092,
	"learning_rate": 4.841917130433246e-06,
	"loss": 0.7119,
	"step": 908
	},
	{
	"epoch": 0.7575,
	"grad_norm": 0.5247910022735596,
	"learning_rate": 4.8415297838652106e-06,
	"loss": 0.6911,
	"step": 909
	},
	{
	"epoch": 0.7583333333333333,
	"grad_norm": 0.5224043726921082,
	"learning_rate": 4.84114197885694e-06,
	"loss": 0.6747,
	"step": 910
	},
	{
	"epoch": 0.7591666666666667,
	"grad_norm": 0.5057650208473206,
	"learning_rate": 4.840753715484362e-06,
	"loss": 0.6923,
	"step": 911
	},
	{
	"epoch": 0.76,
	"grad_norm": 0.5337413549423218,
	"learning_rate": 4.84036499382349e-06,
	"loss": 0.6881,
	"step": 912
	},
	{
	"epoch": 0.7608333333333334,
	"grad_norm": 0.5334152579307556,
	"learning_rate": 4.839975813950434e-06,
	"loss": 0.6769,
	"step": 913
	},
	{
	"epoch": 0.7616666666666667,
	"grad_norm": 0.526846170425415,
	"learning_rate": 4.839586175941389e-06,
	"loss": 0.6973,
	"step": 914
	},
	{
	"epoch": 0.7625,
	"grad_norm": 0.542777419090271,
	"learning_rate": 4.83919607987264e-06,
	"loss": 0.6995,
	"step": 915
	},
	{
	"epoch": 0.7633333333333333,
	"grad_norm": 0.5465850830078125,
	"learning_rate": 4.838805525820563e-06,
	"loss": 0.6937,
	"step": 916
	},
	{
	"epoch": 0.7641666666666667,
	"grad_norm": 0.5348052382469177,
	"learning_rate": 4.838414513861624e-06,
	"loss": 0.6572,
	"step": 917
	},
	{
	"epoch": 0.765,
	"grad_norm": 0.524090051651001,
	"learning_rate": 4.8380230440723775e-06,
	"loss": 0.6837,
	"step": 918
	},
	{
	"epoch": 0.7658333333333334,
	"grad_norm": 0.5454646348953247,
	"learning_rate": 4.837631116529468e-06,
	"loss": 0.6876,
	"step": 919
	},
	{
	"epoch": 0.7666666666666667,
	"grad_norm": 0.5396842360496521,
	"learning_rate": 4.83723873130963e-06,
	"loss": 0.6788,
	"step": 920
	},
	{
	"epoch": 0.7675,
	"grad_norm": 0.5233221054077148,
	"learning_rate": 4.836845888489687e-06,
	"loss": 0.7025,
	"step": 921
	},
	{
	"epoch": 0.7683333333333333,
	"grad_norm": 0.54860520362854,
	"learning_rate": 4.836452588146552e-06,
	"loss": 0.6757,
	"step": 922
	},
	{
	"epoch": 0.7691666666666667,
	"grad_norm": 0.5379807353019714,
	"learning_rate": 4.836058830357229e-06,
	"loss": 0.7022,
	"step": 923
	},
	{
	"epoch": 0.77,
	"grad_norm": 0.5269885063171387,
	"learning_rate": 4.835664615198808e-06,
	"loss": 0.7005,
	"step": 924
	},
	{
	"epoch": 0.7708333333333334,
	"grad_norm": 0.5360590815544128,
	"learning_rate": 4.835269942748475e-06,
	"loss": 0.6788,
	"step": 925
	},
	{
	"epoch": 0.7716666666666666,
	"grad_norm": 0.5308401584625244,
	"learning_rate": 4.834874813083499e-06,
	"loss": 0.6915,
	"step": 926
	},
	{
	"epoch": 0.7725,
	"grad_norm": 0.525095522403717,
	"learning_rate": 4.834479226281241e-06,
	"loss": 0.7025,
	"step": 927
	},
	{
	"epoch": 0.7733333333333333,
	"grad_norm": 0.5442466139793396,
	"learning_rate": 4.834083182419153e-06,
	"loss": 0.6862,
	"step": 928
	},
	{
	"epoch": 0.7741666666666667,
	"grad_norm": 0.5249763131141663,
	"learning_rate": 4.833686681574774e-06,
	"loss": 0.7004,
	"step": 929
	},
	{
	"epoch": 0.775,
	"grad_norm": 0.558108925819397,
	"learning_rate": 4.8332897238257335e-06,
	"loss": 0.6897,
	"step": 930
	},
	{
	"epoch": 0.7758333333333334,
	"grad_norm": 0.5417056083679199,
	"learning_rate": 4.832892309249751e-06,
	"loss": 0.689,
	"step": 931
	},
	{
	"epoch": 0.7766666666666666,
	"grad_norm": 0.549426257610321,
	"learning_rate": 4.8324944379246355e-06,
	"loss": 0.687,
	"step": 932
	},
	{
	"epoch": 0.7775,
	"grad_norm": 0.5361883044242859,
	"learning_rate": 4.832096109928284e-06,
	"loss": 0.6948,
	"step": 933
	},
	{
	"epoch": 0.7783333333333333,
	"grad_norm": 0.5358255505561829,
	"learning_rate": 4.831697325338684e-06,
	"loss": 0.7043,
	"step": 934
	},
	{
	"epoch": 0.7791666666666667,
	"grad_norm": 0.5400095582008362,
	"learning_rate": 4.831298084233912e-06,
	"loss": 0.6859,
	"step": 935
	},
	{
	"epoch": 0.78,
	"grad_norm": 0.5766608715057373,
	"learning_rate": 4.830898386692133e-06,
	"loss": 0.6808,
	"step": 936
	},
	{
	"epoch": 0.7808333333333334,
	"grad_norm": 0.5335484147071838,
	"learning_rate": 4.830498232791606e-06,
	"loss": 0.708,
	"step": 937
	},
	{
	"epoch": 0.7816666666666666,
	"grad_norm": 0.5256344079971313,
	"learning_rate": 4.830097622610672e-06,
	"loss": 0.6801,
	"step": 938
	},
	{
	"epoch": 0.7825,
	"grad_norm": 0.5297211408615112,
	"learning_rate": 4.8296965562277675e-06,
	"loss": 0.7031,
	"step": 939
	},
	{
	"epoch": 0.7833333333333333,
	"grad_norm": 0.5368627905845642,
	"learning_rate": 4.829295033721415e-06,
	"loss": 0.7011,
	"step": 940
	},
	{
	"epoch": 0.7841666666666667,
	"grad_norm": 0.5508820414543152,
	"learning_rate": 4.828893055170228e-06,
	"loss": 0.6943,
	"step": 941
	},
	{
	"epoch": 0.785,
	"grad_norm": 0.536708652973175,
	"learning_rate": 4.8284906206529056e-06,
	"loss": 0.6958,
	"step": 942
	},
	{
	"epoch": 0.7858333333333334,
	"grad_norm": 0.5180797576904297,
	"learning_rate": 4.828087730248243e-06,
	"loss": 0.6938,
	"step": 943
	},
	{
	"epoch": 0.7866666666666666,
	"grad_norm": 0.5381445288658142,
	"learning_rate": 4.827684384035119e-06,
	"loss": 0.7108,
	"step": 944
	},
	{
	"epoch": 0.7875,
	"grad_norm": 0.5434241890907288,
	"learning_rate": 4.827280582092503e-06,
	"loss": 0.7045,
	"step": 945
	},
	{
	"epoch": 0.7883333333333333,
	"grad_norm": 0.5350834727287292,
	"learning_rate": 4.826876324499455e-06,
	"loss": 0.6886,
	"step": 946
	},
	{
	"epoch": 0.7891666666666667,
	"grad_norm": 0.5226648449897766,
	"learning_rate": 4.8264716113351226e-06,
	"loss": 0.6708,
	"step": 947
	},
	{
	"epoch": 0.79,
	"grad_norm": 0.5469403266906738,
	"learning_rate": 4.826066442678744e-06,
	"loss": 0.7029,
	"step": 948
	},
	{
	"epoch": 0.7908333333333334,
	"grad_norm": 0.5216239094734192,
	"learning_rate": 4.8256608186096445e-06,
	"loss": 0.7043,
	"step": 949
	},
	{
	"epoch": 0.7916666666666666,
	"grad_norm": 0.5428479909896851,
	"learning_rate": 4.8252547392072415e-06,
	"loss": 0.6977,
	"step": 950
	},
	{
	"epoch": 0.7925,
	"grad_norm": 0.5288153886795044,
	"learning_rate": 4.824848204551037e-06,
	"loss": 0.688,
	"step": 951
	},
	{
	"epoch": 0.7933333333333333,
	"grad_norm": 0.5270776748657227,
	"learning_rate": 4.824441214720629e-06,
	"loss": 0.6809,
	"step": 952
	},
	{
	"epoch": 0.7941666666666667,
	"grad_norm": 0.5376223921775818,
	"learning_rate": 4.8240337697956976e-06,
	"loss": 0.6683,
	"step": 953
	},
	{
	"epoch": 0.795,
	"grad_norm": 0.5337541699409485,
	"learning_rate": 4.823625869856017e-06,
	"loss": 0.6995,
	"step": 954
	},
	{
	"epoch": 0.7958333333333333,
	"grad_norm": 0.5436489582061768,
	"learning_rate": 4.823217514981447e-06,
	"loss": 0.6672,
	"step": 955
	},
	{
	"epoch": 0.7966666666666666,
	"grad_norm": 0.5323599576950073,
	"learning_rate": 4.822808705251939e-06,
	"loss": 0.7188,
	"step": 956
	},
	{
	"epoch": 0.7975,
	"grad_norm": 0.5533539652824402,
	"learning_rate": 4.822399440747533e-06,
	"loss": 0.6981,
	"step": 957
	},
	{
	"epoch": 0.7983333333333333,
	"grad_norm": 0.5329532027244568,
	"learning_rate": 4.821989721548356e-06,
	"loss": 0.6736,
	"step": 958
	},
	{
	"epoch": 0.7991666666666667,
	"grad_norm": 0.5280501246452332,
	"learning_rate": 4.821579547734626e-06,
	"loss": 0.6857,
	"step": 959
	},
	{
	"epoch": 0.8,
	"grad_norm": 0.5292397141456604,
	"learning_rate": 4.82116891938665e-06,
	"loss": 0.7014,
	"step": 960
	},
	{
	"epoch": 0.8008333333333333,
	"grad_norm": 0.5427101254463196,
	"learning_rate": 4.820757836584824e-06,
	"loss": 0.6781,
	"step": 961
	},
	{
	"epoch": 0.8016666666666666,
	"grad_norm": 0.5340928435325623,
	"learning_rate": 4.820346299409632e-06,
	"loss": 0.6682,
	"step": 962
	},
	{
	"epoch": 0.8025,
	"grad_norm": 0.5200477838516235,
	"learning_rate": 4.819934307941647e-06,
	"loss": 0.7215,
	"step": 963
	},
	{
	"epoch": 0.8033333333333333,
	"grad_norm": 0.5545709133148193,
	"learning_rate": 4.819521862261532e-06,
	"loss": 0.7024,
	"step": 964
	},
	{
	"epoch": 0.8041666666666667,
	"grad_norm": 0.5368270874023438,
	"learning_rate": 4.819108962450037e-06,
	"loss": 0.6959,
	"step": 965
	},
	{
	"epoch": 0.805,
	"grad_norm": 0.5460261702537537,
	"learning_rate": 4.818695608588005e-06,
	"loss": 0.6836,
	"step": 966
	},
	{
	"epoch": 0.8058333333333333,
	"grad_norm": 0.5270740985870361,
	"learning_rate": 4.8182818007563625e-06,
	"loss": 0.7292,
	"step": 967
	},
	{
	"epoch": 0.8066666666666666,
	"grad_norm": 0.5230692625045776,
	"learning_rate": 4.8178675390361295e-06,
	"loss": 0.683,
	"step": 968
	},
	{
	"epoch": 0.8075,
	"grad_norm": 0.5471054315567017,
	"learning_rate": 4.817452823508412e-06,
	"loss": 0.684,
	"step": 969
	},
	{
	"epoch": 0.8083333333333333,
	"grad_norm": 0.5346125960350037,
	"learning_rate": 4.817037654254405e-06,
	"loss": 0.6845,
	"step": 970
	},
	{
	"epoch": 0.8091666666666667,
	"grad_norm": 0.5467856526374817,
	"learning_rate": 4.8166220313553944e-06,
	"loss": 0.7051,
	"step": 971
	},
	{
	"epoch": 0.81,
	"grad_norm": 0.5343219041824341,
	"learning_rate": 4.816205954892753e-06,
	"loss": 0.7122,
	"step": 972
	},
	{
	"epoch": 0.8108333333333333,
	"grad_norm": 0.5341103672981262,
	"learning_rate": 4.815789424947943e-06,
	"loss": 0.6817,
	"step": 973
	},
	{
	"epoch": 0.8116666666666666,
	"grad_norm": 0.5252223610877991,
	"learning_rate": 4.815372441602516e-06,
	"loss": 0.7046,
	"step": 974
	},
	{
	"epoch": 0.8125,
	"grad_norm": 0.5397008061408997,
	"learning_rate": 4.814955004938111e-06,
	"loss": 0.7016,
	"step": 975
	},
	{
	"epoch": 0.8133333333333334,
	"grad_norm": 0.5315702557563782,
	"learning_rate": 4.814537115036457e-06,
	"loss": 0.6579,
	"step": 976
	},
	{
	"epoch": 0.8141666666666667,
	"grad_norm": 0.5206130146980286,
	"learning_rate": 4.814118771979371e-06,
	"loss": 0.6899,
	"step": 977
	},
	{
	"epoch": 0.815,
	"grad_norm": 0.5563502907752991,
	"learning_rate": 4.813699975848758e-06,
	"loss": 0.7034,
	"step": 978
	},
	{
	"epoch": 0.8158333333333333,
	"grad_norm": 0.5461870431900024,
	"learning_rate": 4.813280726726615e-06,
	"loss": 0.6722,
	"step": 979
	},
	{
	"epoch": 0.8166666666666667,
	"grad_norm": 0.5501440167427063,
	"learning_rate": 4.812861024695024e-06,
	"loss": 0.7042,
	"step": 980
	},
	{
	"epoch": 0.8175,
	"grad_norm": 0.5670163631439209,
	"learning_rate": 4.812440869836157e-06,
	"loss": 0.6947,
	"step": 981
	},
	{
	"epoch": 0.8183333333333334,
	"grad_norm": 0.5279183387756348,
	"learning_rate": 4.812020262232274e-06,
	"loss": 0.6468,
	"step": 982
	},
	{
	"epoch": 0.8191666666666667,
	"grad_norm": 0.5182305574417114,
	"learning_rate": 4.811599201965727e-06,
	"loss": 0.6933,
	"step": 983
	},
	{
	"epoch": 0.82,
	"grad_norm": 0.5424363017082214,
	"learning_rate": 4.81117768911895e-06,
	"loss": 0.6863,
	"step": 984
	},
	{
	"epoch": 0.8208333333333333,
	"grad_norm": 0.5456661581993103,
	"learning_rate": 4.810755723774473e-06,
	"loss": 0.6852,
	"step": 985
	},
	{
	"epoch": 0.8216666666666667,
	"grad_norm": 0.5676931738853455,
	"learning_rate": 4.81033330601491e-06,
	"loss": 0.6857,
	"step": 986
	},
	{
	"epoch": 0.8225,
	"grad_norm": 0.5600205659866333,
	"learning_rate": 4.8099104359229645e-06,
	"loss": 0.6913,
	"step": 987
	},
	{
	"epoch": 0.8233333333333334,
	"grad_norm": 0.5599549412727356,
	"learning_rate": 4.809487113581428e-06,
	"loss": 0.6858,
	"step": 988
	},
	{
	"epoch": 0.8241666666666667,
	"grad_norm": 0.5413509607315063,
	"learning_rate": 4.809063339073184e-06,
	"loss": 0.6813,
	"step": 989
	},
	{
	"epoch": 0.825,
	"grad_norm": 0.5218127369880676,
	"learning_rate": 4.808639112481199e-06,
	"loss": 0.6726,
	"step": 990
	},
	{
	"epoch": 0.8258333333333333,
	"grad_norm": 0.5233421921730042,
	"learning_rate": 4.808214433888533e-06,
	"loss": 0.6965,
	"step": 991
	},
	{
	"epoch": 0.8266666666666667,
	"grad_norm": 0.5167056918144226,
	"learning_rate": 4.807789303378331e-06,
	"loss": 0.7156,
	"step": 992
	},
	{
	"epoch": 0.8275,
	"grad_norm": 0.5601177215576172,
	"learning_rate": 4.807363721033829e-06,
	"loss": 0.6911,
	"step": 993
	},
	{
	"epoch": 0.8283333333333334,
	"grad_norm": 0.5393472909927368,
	"learning_rate": 4.806937686938349e-06,
	"loss": 0.6867,
	"step": 994
	},
	{
	"epoch": 0.8291666666666667,
	"grad_norm": 0.5309321880340576,
	"learning_rate": 4.8065112011753036e-06,
	"loss": 0.711,
	"step": 995
	},
	{
	"epoch": 0.83,
	"grad_norm": 0.560248613357544,
	"learning_rate": 4.806084263828193e-06,
	"loss": 0.6886,
	"step": 996
	},
	{
	"epoch": 0.8308333333333333,
	"grad_norm": 0.5477662682533264,
	"learning_rate": 4.805656874980606e-06,
	"loss": 0.6665,
	"step": 997
	},
	{
	"epoch": 0.8316666666666667,
	"grad_norm": 0.5480148196220398,
	"learning_rate": 4.805229034716219e-06,
	"loss": 0.7082,
	"step": 998
	},
	{
	"epoch": 0.8325,
	"grad_norm": 0.5657473206520081,
	"learning_rate": 4.804800743118798e-06,
	"loss": 0.6772,
	"step": 999
	},
	{
	"epoch": 0.8333333333333334,
	"grad_norm": 0.5312777757644653,
	"learning_rate": 4.804372000272196e-06,
	"loss": 0.6848,
	"step": 1000
	},
	{
	"epoch": 0.8341666666666666,
	"grad_norm": 0.5284767746925354,
	"learning_rate": 4.803942806260356e-06,
	"loss": 0.6664,
	"step": 1001
	},
	{
	"epoch": 0.835,
	"grad_norm": 0.5451256632804871,
	"learning_rate": 4.803513161167309e-06,
	"loss": 0.6726,
	"step": 1002
	},
	{
	"epoch": 0.8358333333333333,
	"grad_norm": 0.5377514958381653,
	"learning_rate": 4.803083065077172e-06,
	"loss": 0.6862,
	"step": 1003
	},
	{
	"epoch": 0.8366666666666667,
	"grad_norm": 0.538153350353241,
	"learning_rate": 4.802652518074153e-06,
	"loss": 0.6755,
	"step": 1004
	},
	{
	"epoch": 0.8375,
	"grad_norm": 0.5532846450805664,
	"learning_rate": 4.802221520242547e-06,
	"loss": 0.699,
	"step": 1005
	},
	{
	"epoch": 0.8383333333333334,
	"grad_norm": 0.5389847755432129,
	"learning_rate": 4.801790071666739e-06,
	"loss": 0.689,
	"step": 1006
	},
	{
	"epoch": 0.8391666666666666,
	"grad_norm": 0.5523820519447327,
	"learning_rate": 4.801358172431199e-06,
	"loss": 0.7009,
	"step": 1007
	},
	{
	"epoch": 0.84,
	"grad_norm": 0.545132040977478,
	"learning_rate": 4.800925822620487e-06,
	"loss": 0.6931,
	"step": 1008
	},
	{
	"epoch": 0.8408333333333333,
	"grad_norm": 0.5307531952857971,
	"learning_rate": 4.800493022319254e-06,
	"loss": 0.6799,
	"step": 1009
	},
	{
	"epoch": 0.8416666666666667,
	"grad_norm": 0.5223236083984375,
	"learning_rate": 4.800059771612234e-06,
	"loss": 0.703,
	"step": 1010
	},
	{
	"epoch": 0.8425,
	"grad_norm": 0.544477105140686,
	"learning_rate": 4.799626070584252e-06,
	"loss": 0.6481,
	"step": 1011
	},
	{
	"epoch": 0.8433333333333334,
	"grad_norm": 0.5555903911590576,
	"learning_rate": 4.799191919320221e-06,
	"loss": 0.6984,
	"step": 1012
	},
	{
	"epoch": 0.8441666666666666,
	"grad_norm": 0.5147600173950195,
	"learning_rate": 4.7987573179051426e-06,
	"loss": 0.7008,
	"step": 1013
	},
	{
	"epoch": 0.845,
	"grad_norm": 0.5319939255714417,
	"learning_rate": 4.7983222664241055e-06,
	"loss": 0.6767,
	"step": 1014
	},
	{
	"epoch": 0.8458333333333333,
	"grad_norm": 0.5582086443901062,
	"learning_rate": 4.797886764962289e-06,
	"loss": 0.6767,
	"step": 1015
	},
	{
	"epoch": 0.8466666666666667,
	"grad_norm": 0.5470446348190308,
	"learning_rate": 4.797450813604954e-06,
	"loss": 0.7031,
	"step": 1016
	},
	{
	"epoch": 0.8475,
	"grad_norm": 0.5527660250663757,
	"learning_rate": 4.797014412437457e-06,
	"loss": 0.6734,
	"step": 1017
	},
	{
	"epoch": 0.8483333333333334,
	"grad_norm": 0.5340491533279419,
	"learning_rate": 4.7965775615452395e-06,
	"loss": 0.6721,
	"step": 1018
	},
	{
	"epoch": 0.8491666666666666,
	"grad_norm": 0.5458944439888,
	"learning_rate": 4.796140261013831e-06,
	"loss": 0.6899,
	"step": 1019
	},
	{
	"epoch": 0.85,
	"grad_norm": 0.5495284199714661,
	"learning_rate": 4.795702510928848e-06,
	"loss": 0.6759,
	"step": 1020
	},
	{
	"epoch": 0.8508333333333333,
	"grad_norm": 0.544189453125,
	"learning_rate": 4.795264311375997e-06,
	"loss": 0.6689,
	"step": 1021
	},
	{
	"epoch": 0.8516666666666667,
	"grad_norm": 0.5305647253990173,
	"learning_rate": 4.794825662441072e-06,
	"loss": 0.7005,
	"step": 1022
	},
	{
	"epoch": 0.8525,
	"grad_norm": 0.5430959463119507,
	"learning_rate": 4.794386564209953e-06,
	"loss": 0.6753,
	"step": 1023
	},
	{
	"epoch": 0.8533333333333334,
	"grad_norm": 0.5616235136985779,
	"learning_rate": 4.7939470167686115e-06,
	"loss": 0.6846,
	"step": 1024
	},
	{
	"epoch": 0.8541666666666666,
	"grad_norm": 0.5440129041671753,
	"learning_rate": 4.793507020203104e-06,
	"loss": 0.6906,
	"step": 1025
	},
	{
	"epoch": 0.855,
	"grad_norm": 0.5231167674064636,
	"learning_rate": 4.793066574599576e-06,
	"loss": 0.6926,
	"step": 1026
	},
	{
	"epoch": 0.8558333333333333,
	"grad_norm": 0.5591561198234558,
	"learning_rate": 4.79262568004426e-06,
	"loss": 0.7114,
	"step": 1027
	},
	{
	"epoch": 0.8566666666666667,
	"grad_norm": 0.5525199174880981,
	"learning_rate": 4.7921843366234785e-06,
	"loss": 0.6815,
	"step": 1028
	},
	{
	"epoch": 0.8575,
	"grad_norm": 0.5386251211166382,
	"learning_rate": 4.791742544423641e-06,
	"loss": 0.6891,
	"step": 1029
	},
	{
	"epoch": 0.8583333333333333,
	"grad_norm": 0.5424612164497375,
	"learning_rate": 4.791300303531243e-06,
	"loss": 0.6991,
	"step": 1030
	},
	{
	"epoch": 0.8591666666666666,
	"grad_norm": 0.532472550868988,
	"learning_rate": 4.790857614032871e-06,
	"loss": 0.6762,
	"step": 1031
	},
	{
	"epoch": 0.86,
	"grad_norm": 0.5242069959640503,
	"learning_rate": 4.790414476015196e-06,
	"loss": 0.6828,
	"step": 1032
	},
	{
	"epoch": 0.8608333333333333,
	"grad_norm": 0.5251231789588928,
	"learning_rate": 4.78997088956498e-06,
	"loss": 0.6996,
	"step": 1033
	},
	{
	"epoch": 0.8616666666666667,
	"grad_norm": 0.5173211693763733,
	"learning_rate": 4.78952685476907e-06,
	"loss": 0.7218,
	"step": 1034
	},
	{
	"epoch": 0.8625,
	"grad_norm": 0.5456705689430237,
	"learning_rate": 4.789082371714404e-06,
	"loss": 0.666,
	"step": 1035
	},
	{
	"epoch": 0.8633333333333333,
	"grad_norm": 0.537186324596405,
	"learning_rate": 4.788637440488003e-06,
	"loss": 0.6982,
	"step": 1036
	},
	{
	"epoch": 0.8641666666666666,
	"grad_norm": 0.5428951978683472,
	"learning_rate": 4.788192061176982e-06,
	"loss": 0.6766,
	"step": 1037
	},
	{
	"epoch": 0.865,
	"grad_norm": 0.548636257648468,
	"learning_rate": 4.787746233868537e-06,
	"loss": 0.6615,
	"step": 1038
	},
	{
	"epoch": 0.8658333333333333,
	"grad_norm": 0.5503275394439697,
	"learning_rate": 4.787299958649957e-06,
	"loss": 0.7208,
	"step": 1039
	},
	{
	"epoch": 0.8666666666666667,
	"grad_norm": 0.5472001433372498,
	"learning_rate": 4.786853235608616e-06,
	"loss": 0.6888,
	"step": 1040
	},
	{
	"epoch": 0.8675,
	"grad_norm": 0.5650719404220581,
	"learning_rate": 4.7864060648319765e-06,
	"loss": 0.6656,
	"step": 1041
	},
	{
	"epoch": 0.8683333333333333,
	"grad_norm": 0.5397439002990723,
	"learning_rate": 4.7859584464075895e-06,
	"loss": 0.6753,
	"step": 1042
	},
	{
	"epoch": 0.8691666666666666,
	"grad_norm": 0.5307998061180115,
	"learning_rate": 4.785510380423091e-06,
	"loss": 0.705,
	"step": 1043
	},
	{
	"epoch": 0.87,
	"grad_norm": 0.5306239128112793,
	"learning_rate": 4.785061866966208e-06,
	"loss": 0.6923,
	"step": 1044
	},
	{
	"epoch": 0.8708333333333333,
	"grad_norm": 0.5280582904815674,
	"learning_rate": 4.784612906124752e-06,
	"loss": 0.6686,
	"step": 1045
	},
	{
	"epoch": 0.8716666666666667,
	"grad_norm": 0.5160478353500366,
	"learning_rate": 4.784163497986625e-06,
	"loss": 0.6797,
	"step": 1046
	},
	{
	"epoch": 0.8725,
	"grad_norm": 0.5494632720947266,
	"learning_rate": 4.783713642639814e-06,
	"loss": 0.7221,
	"step": 1047
	},
	{
	"epoch": 0.8733333333333333,
	"grad_norm": 0.5483080148696899,
	"learning_rate": 4.783263340172394e-06,
	"loss": 0.6929,
	"step": 1048
	},
	{
	"epoch": 0.8741666666666666,
	"grad_norm": 0.5433019399642944,
	"learning_rate": 4.78281259067253e-06,
	"loss": 0.689,
	"step": 1049
	},
	{
	"epoch": 0.875,
	"grad_norm": 0.5325921177864075,
	"learning_rate": 4.7823613942284716e-06,
	"loss": 0.6757,
	"step": 1050
	},
	{
	"epoch": 0.8758333333333334,
	"grad_norm": 0.5252819657325745,
	"learning_rate": 4.781909750928558e-06,
	"loss": 0.6934,
	"step": 1051
	},
	{
	"epoch": 0.8766666666666667,
	"grad_norm": 0.5434681177139282,
	"learning_rate": 4.781457660861214e-06,
	"loss": 0.6739,
	"step": 1052
	},
	{
	"epoch": 0.8775,
	"grad_norm": 0.5192910432815552,
	"learning_rate": 4.781005124114953e-06,
	"loss": 0.6974,
	"step": 1053
	},
	{
	"epoch": 0.8783333333333333,
	"grad_norm": 0.5509209036827087,
	"learning_rate": 4.780552140778376e-06,
	"loss": 0.6786,
	"step": 1054
	},
	{
	"epoch": 0.8791666666666667,
	"grad_norm": 0.5670494437217712,
	"learning_rate": 4.78009871094017e-06,
	"loss": 0.6971,
	"step": 1055
	},
	{
	"epoch": 0.88,
	"grad_norm": 0.5494702458381653,
	"learning_rate": 4.779644834689112e-06,
	"loss": 0.6719,
	"step": 1056
	},
	{
	"epoch": 0.8808333333333334,
	"grad_norm": 0.5554876327514648,
	"learning_rate": 4.779190512114063e-06,
	"loss": 0.6744,
	"step": 1057
	},
	{
	"epoch": 0.8816666666666667,
	"grad_norm": 0.5288978219032288,
	"learning_rate": 4.778735743303976e-06,
	"loss": 0.6982,
	"step": 1058
	},
	{
	"epoch": 0.8825,
	"grad_norm": 0.5391525030136108,
	"learning_rate": 4.778280528347887e-06,
	"loss": 0.6771,
	"step": 1059
	},
	{
	"epoch": 0.8833333333333333,
	"grad_norm": 0.5409436821937561,
	"learning_rate": 4.77782486733492e-06,
	"loss": 0.679,
	"step": 1060
	},
	{
	"epoch": 0.8841666666666667,
	"grad_norm": 0.5622888803482056,
	"learning_rate": 4.77736876035429e-06,
	"loss": 0.6948,
	"step": 1061
	},
	{
	"epoch": 0.885,
	"grad_norm": 0.5387107133865356,
	"learning_rate": 4.776912207495294e-06,
	"loss": 0.687,
	"step": 1062
	},
	{
	"epoch": 0.8858333333333334,
	"grad_norm": 0.5317919254302979,
	"learning_rate": 4.77645520884732e-06,
	"loss": 0.6855,
	"step": 1063
	},
	{
	"epoch": 0.8866666666666667,
	"grad_norm": 0.533784031867981,
	"learning_rate": 4.775997764499843e-06,
	"loss": 0.6989,
	"step": 1064
	},
	{
	"epoch": 0.8875,
	"grad_norm": 0.5367893576622009,
	"learning_rate": 4.775539874542423e-06,
	"loss": 0.6715,
	"step": 1065
	},
	{
	"epoch": 0.8883333333333333,
	"grad_norm": 0.5293227434158325,
	"learning_rate": 4.77508153906471e-06,
	"loss": 0.7038,
	"step": 1066
	},
	{
	"epoch": 0.8891666666666667,
	"grad_norm": 0.5636188387870789,
	"learning_rate": 4.77462275815644e-06,
	"loss": 0.6986,
	"step": 1067
	},
	{
	"epoch": 0.89,
	"grad_norm": 0.5615501999855042,
	"learning_rate": 4.774163531907436e-06,
	"loss": 0.6874,
	"step": 1068
	},
	{
	"epoch": 0.8908333333333334,
	"grad_norm": 0.5406633615493774,
	"learning_rate": 4.7737038604076055e-06,
	"loss": 0.6495,
	"step": 1069
	},
	{
	"epoch": 0.8916666666666667,
	"grad_norm": 0.5543058514595032,
	"learning_rate": 4.77324374374695e-06,
	"loss": 0.6881,
	"step": 1070
	},
	{
	"epoch": 0.8925,
	"grad_norm": 0.5436853766441345,
	"learning_rate": 4.772783182015554e-06,
	"loss": 0.6962,
	"step": 1071
	},
	{
	"epoch": 0.8933333333333333,
	"grad_norm": 0.5333845019340515,
	"learning_rate": 4.7723221753035865e-06,
	"loss": 0.6855,
	"step": 1072
	},
	{
	"epoch": 0.8941666666666667,
	"grad_norm": 0.5417557954788208,
	"learning_rate": 4.7718607237013085e-06,
	"loss": 0.6698,
	"step": 1073
	},
	{
	"epoch": 0.895,
	"grad_norm": 0.5388748645782471,
	"learning_rate": 4.771398827299065e-06,
	"loss": 0.6807,
	"step": 1074
	},
	{
	"epoch": 0.8958333333333334,
	"grad_norm": 0.5663542747497559,
	"learning_rate": 4.770936486187291e-06,
	"loss": 0.6815,
	"step": 1075
	},
	{
	"epoch": 0.8966666666666666,
	"grad_norm": 0.5452628135681152,
	"learning_rate": 4.770473700456505e-06,
	"loss": 0.6999,
	"step": 1076
	},
	{
	"epoch": 0.8975,
	"grad_norm": 0.541050374507904,
	"learning_rate": 4.770010470197314e-06,
	"loss": 0.6719,
	"step": 1077
	},
	{
	"epoch": 0.8983333333333333,
	"grad_norm": 0.5387743711471558,
	"learning_rate": 4.769546795500414e-06,
	"loss": 0.6736,
	"step": 1078
	},
	{
	"epoch": 0.8991666666666667,
	"grad_norm": 0.5280100107192993,
	"learning_rate": 4.769082676456585e-06,
	"loss": 0.6858,
	"step": 1079
	},
	{
	"epoch": 0.9,
	"grad_norm": 0.535346269607544,
	"learning_rate": 4.768618113156695e-06,
	"loss": 0.689,
	"step": 1080
	},
	{
	"epoch": 0.9008333333333334,
	"grad_norm": 0.5523096323013306,
	"learning_rate": 4.7681531056917e-06,
	"loss": 0.6826,
	"step": 1081
	},
	{
	"epoch": 0.9016666666666666,
	"grad_norm": 0.5523461699485779,
	"learning_rate": 4.767687654152642e-06,
	"loss": 0.6838,
	"step": 1082
	},
	{
	"epoch": 0.9025,
	"grad_norm": 0.5431815981864929,
	"learning_rate": 4.767221758630651e-06,
	"loss": 0.6921,
	"step": 1083
	},
	{
	"epoch": 0.9033333333333333,
	"grad_norm": 0.5458906292915344,
	"learning_rate": 4.766755419216942e-06,
	"loss": 0.6931,
	"step": 1084
	},
	{
	"epoch": 0.9041666666666667,
	"grad_norm": 0.5406618714332581,
	"learning_rate": 4.766288636002818e-06,
	"loss": 0.7017,
	"step": 1085
	},
	{
	"epoch": 0.905,
	"grad_norm": 0.5302971601486206,
	"learning_rate": 4.7658214090796705e-06,
	"loss": 0.6681,
	"step": 1086
	},
	{
	"epoch": 0.9058333333333334,
	"grad_norm": 0.5316381454467773,
	"learning_rate": 4.7653537385389745e-06,
	"loss": 0.6941,
	"step": 1087
	},
	{
	"epoch": 0.9066666666666666,
	"grad_norm": 0.5475829243659973,
	"learning_rate": 4.764885624472295e-06,
	"loss": 0.7189,
	"step": 1088
	},
	{
	"epoch": 0.9075,
	"grad_norm": 0.5711652040481567,
	"learning_rate": 4.764417066971281e-06,
	"loss": 0.6873,
	"step": 1089
	},
	{
	"epoch": 0.9083333333333333,
	"grad_norm": 0.5479061603546143,
	"learning_rate": 4.763948066127671e-06,
	"loss": 0.6662,
	"step": 1090
	},
	{
	"epoch": 0.9091666666666667,
	"grad_norm": 0.5251897573471069,
	"learning_rate": 4.763478622033288e-06,
	"loss": 0.6786,
	"step": 1091
	},
	{
	"epoch": 0.91,
	"grad_norm": 0.5401804447174072,
	"learning_rate": 4.763008734780044e-06,
	"loss": 0.6851,
	"step": 1092
	},
	{
	"epoch": 0.9108333333333334,
	"grad_norm": 0.5489534139633179,
	"learning_rate": 4.762538404459937e-06,
	"loss": 0.7017,
	"step": 1093
	},
	{
	"epoch": 0.9116666666666666,
	"grad_norm": 0.5508617758750916,
	"learning_rate": 4.762067631165049e-06,
	"loss": 0.6776,
	"step": 1094
	},
	{
	"epoch": 0.9125,
	"grad_norm": 0.5428087115287781,
	"learning_rate": 4.761596414987553e-06,
	"loss": 0.6748,
	"step": 1095
	},
	{
	"epoch": 0.9133333333333333,
	"grad_norm": 0.54740309715271,
	"learning_rate": 4.761124756019708e-06,
	"loss": 0.6824,
	"step": 1096
	},
	{
	"epoch": 0.9141666666666667,
	"grad_norm": 0.5550034046173096,
	"learning_rate": 4.760652654353856e-06,
	"loss": 0.7002,
	"step": 1097
	},
	{
	"epoch": 0.915,
	"grad_norm": 0.5526885986328125,
	"learning_rate": 4.76018011008243e-06,
	"loss": 0.6636,
	"step": 1098
	},
	{
	"epoch": 0.9158333333333334,
	"grad_norm": 0.5593960285186768,
	"learning_rate": 4.7597071232979456e-06,
	"loss": 0.6753,
	"step": 1099
	},
	{
	"epoch": 0.9166666666666666,
	"grad_norm": 0.5551512241363525,
	"learning_rate": 4.75923369409301e-06,
	"loss": 0.6875,
	"step": 1100
	},
	{
	"epoch": 0.9175,
	"grad_norm": 0.5616668462753296,
	"learning_rate": 4.7587598225603125e-06,
	"loss": 0.6963,
	"step": 1101
	},
	{
	"epoch": 0.9183333333333333,
	"grad_norm": 0.5372278690338135,
	"learning_rate": 4.7582855087926325e-06,
	"loss": 0.6988,
	"step": 1102
	},
	{
	"epoch": 0.9191666666666667,
	"grad_norm": 0.5442941784858704,
	"learning_rate": 4.757810752882832e-06,
	"loss": 0.6405,
	"step": 1103
	},
	{
	"epoch": 0.92,
	"grad_norm": 0.5227256417274475,
	"learning_rate": 4.757335554923863e-06,
	"loss": 0.6523,
	"step": 1104
	},
	{
	"epoch": 0.9208333333333333,
	"grad_norm": 0.5390055775642395,
	"learning_rate": 4.756859915008765e-06,
	"loss": 0.6956,
	"step": 1105
	},
	{
	"epoch": 0.9216666666666666,
	"grad_norm": 0.5312950015068054,
	"learning_rate": 4.756383833230658e-06,
	"loss": 0.6756,
	"step": 1106
	},
	{
	"epoch": 0.9225,
	"grad_norm": 0.5549653768539429,
	"learning_rate": 4.755907309682755e-06,
	"loss": 0.6726,
	"step": 1107
	},
	{
	"epoch": 0.9233333333333333,
	"grad_norm": 0.5344476103782654,
	"learning_rate": 4.755430344458352e-06,
	"loss": 0.6857,
	"step": 1108
	},
	{
	"epoch": 0.9241666666666667,
	"grad_norm": 0.5309156179428101,
	"learning_rate": 4.754952937650833e-06,
	"loss": 0.698,
	"step": 1109
	},
	{
	"epoch": 0.925,
	"grad_norm": 0.5390446782112122,
	"learning_rate": 4.754475089353667e-06,
	"loss": 0.685,
	"step": 1110
	},
	{
	"epoch": 0.9258333333333333,
	"grad_norm": 0.5390679836273193,
	"learning_rate": 4.753996799660412e-06,
	"loss": 0.6838,
	"step": 1111
	},
	{
	"epoch": 0.9266666666666666,
	"grad_norm": 0.5447319746017456,
	"learning_rate": 4.7535180686647085e-06,
	"loss": 0.6996,
	"step": 1112
	},
	{
	"epoch": 0.9275,
	"grad_norm": 0.5378071069717407,
	"learning_rate": 4.753038896460288e-06,
	"loss": 0.6873,
	"step": 1113
	},
	{
	"epoch": 0.9283333333333333,
	"grad_norm": 0.5611705183982849,
	"learning_rate": 4.752559283140964e-06,
	"loss": 0.6803,
	"step": 1114
	},
	{
	"epoch": 0.9291666666666667,
	"grad_norm": 0.5532156229019165,
	"learning_rate": 4.752079228800639e-06,
	"loss": 0.6772,
	"step": 1115
	},
	{
	"epoch": 0.93,
	"grad_norm": 0.5641983151435852,
	"learning_rate": 4.751598733533302e-06,
	"loss": 0.6821,
	"step": 1116
	},
	{
	"epoch": 0.9308333333333333,
	"grad_norm": 0.5632778406143188,
	"learning_rate": 4.751117797433027e-06,
	"loss": 0.6781,
	"step": 1117
	},
	{
	"epoch": 0.9316666666666666,
	"grad_norm": 0.5254220962524414,
	"learning_rate": 4.7506364205939745e-06,
	"loss": 0.674,
	"step": 1118
	},
	{
	"epoch": 0.9325,
	"grad_norm": 0.547807514667511,
	"learning_rate": 4.750154603110392e-06,
	"loss": 0.6891,
	"step": 1119
	},
	{
	"epoch": 0.9333333333333333,
	"grad_norm": 0.5461582541465759,
	"learning_rate": 4.749672345076613e-06,
	"loss": 0.7057,
	"step": 1120
	},
	{
	"epoch": 0.9341666666666667,
	"grad_norm": 0.5285746455192566,
	"learning_rate": 4.749189646587057e-06,
	"loss": 0.6602,
	"step": 1121
	},
	{
	"epoch": 0.935,
	"grad_norm": 0.5460460782051086,
	"learning_rate": 4.748706507736229e-06,
	"loss": 0.6683,
	"step": 1122
	},
	{
	"epoch": 0.9358333333333333,
	"grad_norm": 0.5611393451690674,
	"learning_rate": 4.7482229286187236e-06,
	"loss": 0.677,
	"step": 1123
	},
	{
	"epoch": 0.9366666666666666,
	"grad_norm": 0.5334330201148987,
	"learning_rate": 4.747738909329216e-06,
	"loss": 0.6835,
	"step": 1124
	},
	{
	"epoch": 0.9375,
	"grad_norm": 0.5364940166473389,
	"learning_rate": 4.747254449962474e-06,
	"loss": 0.6797,
	"step": 1125
	},
	{
	"epoch": 0.9383333333333334,
	"grad_norm": 0.5399084091186523,
	"learning_rate": 4.746769550613346e-06,
	"loss": 0.7012,
	"step": 1126
	},
	{
	"epoch": 0.9391666666666667,
	"grad_norm": 0.5443120002746582,
	"learning_rate": 4.746284211376769e-06,
	"loss": 0.6521,
	"step": 1127
	},
	{
	"epoch": 0.94,
	"grad_norm": 0.5568748712539673,
	"learning_rate": 4.745798432347767e-06,
	"loss": 0.7101,
	"step": 1128
	},
	{
	"epoch": 0.9408333333333333,
	"grad_norm": 0.5697879195213318,
	"learning_rate": 4.745312213621447e-06,
	"loss": 0.706,
	"step": 1129
	},
	{
	"epoch": 0.9416666666666667,
	"grad_norm": 0.556804358959198,
	"learning_rate": 4.744825555293007e-06,
	"loss": 0.6791,
	"step": 1130
	},
	{
	"epoch": 0.9425,
	"grad_norm": 0.5465302467346191,
	"learning_rate": 4.744338457457727e-06,
	"loss": 0.6892,
	"step": 1131
	},
	{
	"epoch": 0.9433333333333334,
	"grad_norm": 0.5576493144035339,
	"learning_rate": 4.7438509202109725e-06,
	"loss": 0.6663,
	"step": 1132
	},
	{
	"epoch": 0.9441666666666667,
	"grad_norm": 0.5397078990936279,
	"learning_rate": 4.743362943648199e-06,
	"loss": 0.671,
	"step": 1133
	},
	{
	"epoch": 0.945,
	"grad_norm": 0.5395886898040771,
	"learning_rate": 4.7428745278649455e-06,
	"loss": 0.6778,
	"step": 1134
	},
	{
	"epoch": 0.9458333333333333,
	"grad_norm": 0.5800783634185791,
	"learning_rate": 4.742385672956837e-06,
	"loss": 0.6976,
	"step": 1135
	},
	{
	"epoch": 0.9466666666666667,
	"grad_norm": 0.5482068061828613,
	"learning_rate": 4.7418963790195825e-06,
	"loss": 0.6797,
	"step": 1136
	},
	{
	"epoch": 0.9475,
	"grad_norm": 0.5531644225120544,
	"learning_rate": 4.7414066461489836e-06,
	"loss": 0.6806,
	"step": 1137
	},
	{
	"epoch": 0.9483333333333334,
	"grad_norm": 0.5455755591392517,
	"learning_rate": 4.74091647444092e-06,
	"loss": 0.6927,
	"step": 1138
	},
	{
	"epoch": 0.9491666666666667,
	"grad_norm": 0.5663310885429382,
	"learning_rate": 4.740425863991362e-06,
	"loss": 0.6799,
	"step": 1139
	},
	{
	"epoch": 0.95,
	"grad_norm": 0.5616320967674255,
	"learning_rate": 4.7399348148963646e-06,
	"loss": 0.6852,
	"step": 1140
	},
	{
	"epoch": 0.9508333333333333,
	"grad_norm": 0.5891749262809753,
	"learning_rate": 4.7394433272520686e-06,
	"loss": 0.6737,
	"step": 1141
	},
	{
	"epoch": 0.9516666666666667,
	"grad_norm": 0.555493950843811,
	"learning_rate": 4.7389514011547e-06,
	"loss": 0.6773,
	"step": 1142
	},
	{
	"epoch": 0.9525,
	"grad_norm": 0.5803748369216919,
	"learning_rate": 4.738459036700573e-06,
	"loss": 0.7122,
	"step": 1143
	},
	{
	"epoch": 0.9533333333333334,
	"grad_norm": 0.5740647315979004,
	"learning_rate": 4.7379662339860844e-06,
	"loss": 0.7011,
	"step": 1144
	},
	{
	"epoch": 0.9541666666666667,
	"grad_norm": 0.5698148608207703,
	"learning_rate": 4.7374729931077194e-06,
	"loss": 0.6641,
	"step": 1145
	},
	{
	"epoch": 0.955,
	"grad_norm": 0.5703817009925842,
	"learning_rate": 4.7369793141620466e-06,
	"loss": 0.6793,
	"step": 1146
	},
	{
	"epoch": 0.9558333333333333,
	"grad_norm": 0.5403212308883667,
	"learning_rate": 4.736485197245723e-06,
	"loss": 0.685,
	"step": 1147
	},
	{
	"epoch": 0.9566666666666667,
	"grad_norm": 0.5556619167327881,
	"learning_rate": 4.73599064245549e-06,
	"loss": 0.6775,
	"step": 1148
	},
	{
	"epoch": 0.9575,
	"grad_norm": 0.5645613670349121,
	"learning_rate": 4.735495649888175e-06,
	"loss": 0.6778,
	"step": 1149
	},
	{
	"epoch": 0.9583333333333334,
	"grad_norm": 0.5446354150772095,
	"learning_rate": 4.735000219640689e-06,
	"loss": 0.6932,
	"step": 1150
	},
	{
	"epoch": 0.9591666666666666,
	"grad_norm": 0.5600216388702393,
	"learning_rate": 4.734504351810034e-06,
	"loss": 0.6897,
	"step": 1151
	},
	{
	"epoch": 0.96,
	"grad_norm": 0.5426549911499023,
	"learning_rate": 4.734008046493291e-06,
	"loss": 0.6467,
	"step": 1152
	},
	{
	"epoch": 0.9608333333333333,
	"grad_norm": 0.5596107840538025,
	"learning_rate": 4.733511303787633e-06,
	"loss": 0.6803,
	"step": 1153
	},
	{
	"epoch": 0.9616666666666667,
	"grad_norm": 0.556390106678009,
	"learning_rate": 4.733014123790312e-06,
	"loss": 0.6782,
	"step": 1154
	},
	{
	"epoch": 0.9625,
	"grad_norm": 0.5332323312759399,
	"learning_rate": 4.732516506598672e-06,
	"loss": 0.698,
	"step": 1155
	},
	{
	"epoch": 0.9633333333333334,
	"grad_norm": 0.545379638671875,
	"learning_rate": 4.732018452310139e-06,
	"loss": 0.6935,
	"step": 1156
	},
	{
	"epoch": 0.9641666666666666,
	"grad_norm": 0.5710763931274414,
	"learning_rate": 4.731519961022225e-06,
	"loss": 0.6834,
	"step": 1157
	},
	{
	"epoch": 0.965,
	"grad_norm": 0.5500915050506592,
	"learning_rate": 4.7310210328325285e-06,
	"loss": 0.6871,
	"step": 1158
	},
	{
	"epoch": 0.9658333333333333,
	"grad_norm": 0.5522690415382385,
	"learning_rate": 4.730521667838733e-06,
	"loss": 0.6716,
	"step": 1159
	},
	{
	"epoch": 0.9666666666666667,
	"grad_norm": 0.5778139233589172,
	"learning_rate": 4.730021866138607e-06,
	"loss": 0.7024,
	"step": 1160
	},
	{
	"epoch": 0.9675,
	"grad_norm": 0.5582888722419739,
	"learning_rate": 4.729521627830005e-06,
	"loss": 0.7,
	"step": 1161
	},
	{
	"epoch": 0.9683333333333334,
	"grad_norm": 0.5494309663772583,
	"learning_rate": 4.729020953010867e-06,
	"loss": 0.6887,
	"step": 1162
	},
	{
	"epoch": 0.9691666666666666,
	"grad_norm": 0.5512510538101196,
	"learning_rate": 4.728519841779219e-06,
	"loss": 0.6736,
	"step": 1163
	},
	{
	"epoch": 0.97,
	"grad_norm": 0.5724416971206665,
	"learning_rate": 4.728018294233171e-06,
	"loss": 0.6886,
	"step": 1164
	},
	{
	"epoch": 0.9708333333333333,
	"grad_norm": 0.5454419851303101,
	"learning_rate": 4.72751631047092e-06,
	"loss": 0.6774,
	"step": 1165
	},
	{
	"epoch": 0.9716666666666667,
	"grad_norm": 0.5404846668243408,
	"learning_rate": 4.727013890590748e-06,
	"loss": 0.7012,
	"step": 1166
	},
	{
	"epoch": 0.9725,
	"grad_norm": 0.5304462313652039,
	"learning_rate": 4.726511034691021e-06,
	"loss": 0.6678,
	"step": 1167
	},
	{
	"epoch": 0.9733333333333334,
	"grad_norm": 0.5502594113349915,
	"learning_rate": 4.726007742870192e-06,
	"loss": 0.6653,
	"step": 1168
	},
	{
	"epoch": 0.9741666666666666,
	"grad_norm": 0.5499830842018127,
	"learning_rate": 4.7255040152268e-06,
	"loss": 0.7064,
	"step": 1169
	},
	{
	"epoch": 0.975,
	"grad_norm": 0.5555225014686584,
	"learning_rate": 4.724999851859465e-06,
	"loss": 0.7001,
	"step": 1170
	},
	{
	"epoch": 0.9758333333333333,
	"grad_norm": 0.5441496968269348,
	"learning_rate": 4.724495252866899e-06,
	"loss": 0.6817,
	"step": 1171
	},
	{
	"epoch": 0.9766666666666667,
	"grad_norm": 0.5462631583213806,
	"learning_rate": 4.723990218347893e-06,
	"loss": 0.6888,
	"step": 1172
	},
	{
	"epoch": 0.9775,
	"grad_norm": 0.5420259833335876,
	"learning_rate": 4.723484748401329e-06,
	"loss": 0.6811,
	"step": 1173
	},
	{
	"epoch": 0.9783333333333334,
	"grad_norm": 0.5751280784606934,
	"learning_rate": 4.722978843126168e-06,
	"loss": 0.6722,
	"step": 1174
	},
	{
	"epoch": 0.9791666666666666,
	"grad_norm": 0.5355557799339294,
	"learning_rate": 4.722472502621462e-06,
	"loss": 0.7011,
	"step": 1175
	},
	{
	"epoch": 0.98,
	"grad_norm": 0.5431925654411316,
	"learning_rate": 4.721965726986344e-06,
	"loss": 0.6804,
	"step": 1176
	},
	{
	"epoch": 0.9808333333333333,
	"grad_norm": 0.5622472167015076,
	"learning_rate": 4.721458516320035e-06,
	"loss": 0.6837,
	"step": 1177
	},
	{
	"epoch": 0.9816666666666667,
	"grad_norm": 0.5559244155883789,
	"learning_rate": 4.720950870721839e-06,
	"loss": 0.6703,
	"step": 1178
	},
	{
	"epoch": 0.9825,
	"grad_norm": 0.590329110622406,
	"learning_rate": 4.720442790291147e-06,
	"loss": 0.656,
	"step": 1179
	},
	{
	"epoch": 0.9833333333333333,
	"grad_norm": 0.5614374279975891,
	"learning_rate": 4.719934275127435e-06,
	"loss": 0.6825,
	"step": 1180
	},
	{
	"epoch": 0.9841666666666666,
	"grad_norm": 0.5458409786224365,
	"learning_rate": 4.719425325330261e-06,
	"loss": 0.6808,
	"step": 1181
	},
	{
	"epoch": 0.985,
	"grad_norm": 0.5773490071296692,
	"learning_rate": 4.718915940999274e-06,
	"loss": 0.7012,
	"step": 1182
	},
	{
	"epoch": 0.9858333333333333,
	"grad_norm": 0.5712911486625671,
	"learning_rate": 4.7184061222342025e-06,
	"loss": 0.6956,
	"step": 1183
	},
	{
	"epoch": 0.9866666666666667,
	"grad_norm": 0.5503310561180115,
	"learning_rate": 4.717895869134862e-06,
	"loss": 0.6927,
	"step": 1184
	},
	{
	"epoch": 0.9875,
	"grad_norm": 0.5725301504135132,
	"learning_rate": 4.717385181801154e-06,
	"loss": 0.6736,
	"step": 1185
	},
	{
	"epoch": 0.9883333333333333,
	"grad_norm": 0.5685477256774902,
	"learning_rate": 4.716874060333064e-06,
	"loss": 0.6731,
	"step": 1186
	},
	{
	"epoch": 0.9891666666666666,
	"grad_norm": 0.5521795749664307,
	"learning_rate": 4.716362504830664e-06,
	"loss": 0.7048,
	"step": 1187
	},
	{
	"epoch": 0.99,
	"grad_norm": 0.5841538310050964,
	"learning_rate": 4.715850515394108e-06,
	"loss": 0.6782,
	"step": 1188
	},
	{
	"epoch": 0.9908333333333333,
	"grad_norm": 0.563755989074707,
	"learning_rate": 4.715338092123636e-06,
	"loss": 0.6917,
	"step": 1189
	},
	{
	"epoch": 0.9916666666666667,
	"grad_norm": 0.546774685382843,
	"learning_rate": 4.714825235119576e-06,
	"loss": 0.684,
	"step": 1190
	},
	{
	"epoch": 0.9925,
	"grad_norm": 0.5788719654083252,
	"learning_rate": 4.714311944482337e-06,
	"loss": 0.6882,
	"step": 1191
	},
	{
	"epoch": 0.9933333333333333,
	"grad_norm": 0.5720913410186768,
	"learning_rate": 4.713798220312416e-06,
	"loss": 0.7028,
	"step": 1192
	},
	{
	"epoch": 0.9941666666666666,
	"grad_norm": 0.556336522102356,
	"learning_rate": 4.713284062710391e-06,
	"loss": 0.6831,
	"step": 1193
	},
	{
	"epoch": 0.995,
	"grad_norm": 0.5456176996231079,
	"learning_rate": 4.712769471776929e-06,
	"loss": 0.7123,
	"step": 1194
	},
	{
	"epoch": 0.9958333333333333,
	"grad_norm": 0.5574368834495544,
	"learning_rate": 4.712254447612779e-06,
	"loss": 0.7003,
	"step": 1195
	},
	{
	"epoch": 0.9966666666666667,
	"grad_norm": 0.5731207132339478,
	"learning_rate": 4.711738990318776e-06,
	"loss": 0.6608,
	"step": 1196
	},
	{
	"epoch": 0.9975,
	"grad_norm": 0.5490906834602356,
	"learning_rate": 4.7112230999958405e-06,
	"loss": 0.6543,
	"step": 1197
	},
	{
	"epoch": 0.9983333333333333,
	"grad_norm": 0.5476967096328735,
	"learning_rate": 4.710706776744976e-06,
	"loss": 0.686,
	"step": 1198
	},
	{
	"epoch": 0.9991666666666666,
	"grad_norm": 0.5661789774894714,
	"learning_rate": 4.710190020667272e-06,
	"loss": 0.682,
	"step": 1199
	},
	{
	"epoch": 1.0,
	"grad_norm": 0.5539546608924866,
	"learning_rate": 4.709672831863903e-06,
	"loss": 0.6406,
	"step": 1200
	}
	],
	"logging_steps": 1,
	"max_steps": 7200,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 6,
	"save_steps": 1200,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 2.6881716048101376e+18,
	"train_batch_size": 6,
	"trial_name": null,
	"trial_params": null
	}