HoldMy4B / checkpoint-480 /trainer_state.json

Training in progress, step 480, checkpoint

35295ec verified 10 months ago

80.7 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 2.0,
	"eval_steps": 30,
	"global_step": 480,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0,
	"eval_loss": 2.642014741897583,
	"eval_runtime": 20.9906,
	"eval_samples_per_second": 117.672,
	"eval_steps_per_second": 29.442,
	"step": 0
	},
	{
	"epoch": 0.004166666666666667,
	"grad_norm": 7.6875,
	"learning_rate": 0.0,
	"loss": 2.2679,
	"step": 1
	},
	{
	"epoch": 0.008333333333333333,
	"grad_norm": 7.3125,
	"learning_rate": 4.1666666666666667e-07,
	"loss": 2.0764,
	"step": 2
	},
	{
	"epoch": 0.0125,
	"grad_norm": 7.9375,
	"learning_rate": 8.333333333333333e-07,
	"loss": 2.2987,
	"step": 3
	},
	{
	"epoch": 0.016666666666666666,
	"grad_norm": 7.5,
	"learning_rate": 1.25e-06,
	"loss": 2.1665,
	"step": 4
	},
	{
	"epoch": 0.020833333333333332,
	"grad_norm": 7.90625,
	"learning_rate": 1.6666666666666667e-06,
	"loss": 2.2858,
	"step": 5
	},
	{
	"epoch": 0.025,
	"grad_norm": 7.5625,
	"learning_rate": 2.0833333333333334e-06,
	"loss": 2.1824,
	"step": 6
	},
	{
	"epoch": 0.029166666666666667,
	"grad_norm": 7.71875,
	"learning_rate": 2.5e-06,
	"loss": 2.1229,
	"step": 7
	},
	{
	"epoch": 0.03333333333333333,
	"grad_norm": 7.3125,
	"learning_rate": 2.916666666666667e-06,
	"loss": 2.1932,
	"step": 8
	},
	{
	"epoch": 0.0375,
	"grad_norm": 6.59375,
	"learning_rate": 3.3333333333333333e-06,
	"loss": 2.0353,
	"step": 9
	},
	{
	"epoch": 0.041666666666666664,
	"grad_norm": 6.65625,
	"learning_rate": 3.7500000000000005e-06,
	"loss": 2.0662,
	"step": 10
	},
	{
	"epoch": 0.04583333333333333,
	"grad_norm": 5.84375,
	"learning_rate": 4.166666666666667e-06,
	"loss": 2.0314,
	"step": 11
	},
	{
	"epoch": 0.05,
	"grad_norm": 5.71875,
	"learning_rate": 4.583333333333333e-06,
	"loss": 1.9706,
	"step": 12
	},
	{
	"epoch": 0.05416666666666667,
	"grad_norm": 5.3125,
	"learning_rate": 5e-06,
	"loss": 2.1048,
	"step": 13
	},
	{
	"epoch": 0.058333333333333334,
	"grad_norm": 5.0,
	"learning_rate": 5.416666666666667e-06,
	"loss": 2.0047,
	"step": 14
	},
	{
	"epoch": 0.0625,
	"grad_norm": 4.1875,
	"learning_rate": 5.833333333333334e-06,
	"loss": 2.2391,
	"step": 15
	},
	{
	"epoch": 0.06666666666666667,
	"grad_norm": 3.59375,
	"learning_rate": 6.25e-06,
	"loss": 1.8211,
	"step": 16
	},
	{
	"epoch": 0.07083333333333333,
	"grad_norm": 3.0,
	"learning_rate": 6.666666666666667e-06,
	"loss": 1.9592,
	"step": 17
	},
	{
	"epoch": 0.075,
	"grad_norm": 2.421875,
	"learning_rate": 7.083333333333335e-06,
	"loss": 2.0998,
	"step": 18
	},
	{
	"epoch": 0.07916666666666666,
	"grad_norm": 2.046875,
	"learning_rate": 7.500000000000001e-06,
	"loss": 2.0714,
	"step": 19
	},
	{
	"epoch": 0.08333333333333333,
	"grad_norm": 1.4609375,
	"learning_rate": 7.916666666666667e-06,
	"loss": 1.8589,
	"step": 20
	},
	{
	"epoch": 0.0875,
	"grad_norm": 1.5234375,
	"learning_rate": 8.333333333333334e-06,
	"loss": 1.8568,
	"step": 21
	},
	{
	"epoch": 0.09166666666666666,
	"grad_norm": 1.46875,
	"learning_rate": 8.750000000000001e-06,
	"loss": 1.9781,
	"step": 22
	},
	{
	"epoch": 0.09583333333333334,
	"grad_norm": 1.4375,
	"learning_rate": 9.166666666666666e-06,
	"loss": 1.9,
	"step": 23
	},
	{
	"epoch": 0.1,
	"grad_norm": 1.3671875,
	"learning_rate": 9.583333333333335e-06,
	"loss": 2.0628,
	"step": 24
	},
	{
	"epoch": 0.10416666666666667,
	"grad_norm": 1.484375,
	"learning_rate": 1e-05,
	"loss": 1.7862,
	"step": 25
	},
	{
	"epoch": 0.10833333333333334,
	"grad_norm": 1.3046875,
	"learning_rate": 9.999881338905204e-06,
	"loss": 1.8664,
	"step": 26
	},
	{
	"epoch": 0.1125,
	"grad_norm": 1.125,
	"learning_rate": 9.999525361252996e-06,
	"loss": 2.1209,
	"step": 27
	},
	{
	"epoch": 0.11666666666666667,
	"grad_norm": 1.1484375,
	"learning_rate": 9.998932083939657e-06,
	"loss": 1.8622,
	"step": 28
	},
	{
	"epoch": 0.12083333333333333,
	"grad_norm": 0.9765625,
	"learning_rate": 9.998101535124758e-06,
	"loss": 1.9644,
	"step": 29
	},
	{
	"epoch": 0.125,
	"grad_norm": 0.89453125,
	"learning_rate": 9.997033754229835e-06,
	"loss": 2.0119,
	"step": 30
	},
	{
	"epoch": 0.125,
	"eval_loss": 2.210519313812256,
	"eval_runtime": 18.6736,
	"eval_samples_per_second": 132.272,
	"eval_steps_per_second": 33.095,
	"step": 30
	},
	{
	"epoch": 0.12916666666666668,
	"grad_norm": 1.015625,
	"learning_rate": 9.995728791936505e-06,
	"loss": 1.837,
	"step": 31
	},
	{
	"epoch": 0.13333333333333333,
	"grad_norm": 0.859375,
	"learning_rate": 9.994186710184073e-06,
	"loss": 1.8761,
	"step": 32
	},
	{
	"epoch": 0.1375,
	"grad_norm": 0.9375,
	"learning_rate": 9.992407582166582e-06,
	"loss": 1.9664,
	"step": 33
	},
	{
	"epoch": 0.14166666666666666,
	"grad_norm": 0.93359375,
	"learning_rate": 9.990391492329341e-06,
	"loss": 1.9572,
	"step": 34
	},
	{
	"epoch": 0.14583333333333334,
	"grad_norm": 0.8828125,
	"learning_rate": 9.988138536364922e-06,
	"loss": 1.8877,
	"step": 35
	},
	{
	"epoch": 0.15,
	"grad_norm": 0.7265625,
	"learning_rate": 9.985648821208616e-06,
	"loss": 1.7866,
	"step": 36
	},
	{
	"epoch": 0.15416666666666667,
	"grad_norm": 0.86328125,
	"learning_rate": 9.98292246503335e-06,
	"loss": 1.9915,
	"step": 37
	},
	{
	"epoch": 0.15833333333333333,
	"grad_norm": 0.69921875,
	"learning_rate": 9.979959597244089e-06,
	"loss": 1.8569,
	"step": 38
	},
	{
	"epoch": 0.1625,
	"grad_norm": 0.71484375,
	"learning_rate": 9.976760358471687e-06,
	"loss": 1.8634,
	"step": 39
	},
	{
	"epoch": 0.16666666666666666,
	"grad_norm": 0.80859375,
	"learning_rate": 9.973324900566214e-06,
	"loss": 1.7219,
	"step": 40
	},
	{
	"epoch": 0.17083333333333334,
	"grad_norm": 0.78515625,
	"learning_rate": 9.969653386589749e-06,
	"loss": 1.8311,
	"step": 41
	},
	{
	"epoch": 0.175,
	"grad_norm": 0.71875,
	"learning_rate": 9.965745990808638e-06,
	"loss": 1.8661,
	"step": 42
	},
	{
	"epoch": 0.17916666666666667,
	"grad_norm": 0.734375,
	"learning_rate": 9.961602898685225e-06,
	"loss": 1.7509,
	"step": 43
	},
	{
	"epoch": 0.18333333333333332,
	"grad_norm": 0.73046875,
	"learning_rate": 9.957224306869053e-06,
	"loss": 1.8696,
	"step": 44
	},
	{
	"epoch": 0.1875,
	"grad_norm": 0.671875,
	"learning_rate": 9.952610423187516e-06,
	"loss": 1.9372,
	"step": 45
	},
	{
	"epoch": 0.19166666666666668,
	"grad_norm": 0.640625,
	"learning_rate": 9.947761466636014e-06,
	"loss": 1.8945,
	"step": 46
	},
	{
	"epoch": 0.19583333333333333,
	"grad_norm": 0.66015625,
	"learning_rate": 9.942677667367541e-06,
	"loss": 1.8202,
	"step": 47
	},
	{
	"epoch": 0.2,
	"grad_norm": 0.73046875,
	"learning_rate": 9.937359266681774e-06,
	"loss": 1.9365,
	"step": 48
	},
	{
	"epoch": 0.20416666666666666,
	"grad_norm": 0.64453125,
	"learning_rate": 9.931806517013612e-06,
	"loss": 1.8413,
	"step": 49
	},
	{
	"epoch": 0.20833333333333334,
	"grad_norm": 0.640625,
	"learning_rate": 9.926019681921196e-06,
	"loss": 1.7936,
	"step": 50
	},
	{
	"epoch": 0.2125,
	"grad_norm": 0.65625,
	"learning_rate": 9.9199990360734e-06,
	"loss": 1.9076,
	"step": 51
	},
	{
	"epoch": 0.21666666666666667,
	"grad_norm": 0.66796875,
	"learning_rate": 9.913744865236798e-06,
	"loss": 1.8004,
	"step": 52
	},
	{
	"epoch": 0.22083333333333333,
	"grad_norm": 0.67578125,
	"learning_rate": 9.90725746626209e-06,
	"loss": 1.9583,
	"step": 53
	},
	{
	"epoch": 0.225,
	"grad_norm": 0.66796875,
	"learning_rate": 9.900537147070025e-06,
	"loss": 2.0294,
	"step": 54
	},
	{
	"epoch": 0.22916666666666666,
	"grad_norm": 0.66796875,
	"learning_rate": 9.893584226636773e-06,
	"loss": 1.8147,
	"step": 55
	},
	{
	"epoch": 0.23333333333333334,
	"grad_norm": 0.6171875,
	"learning_rate": 9.886399034978798e-06,
	"loss": 1.8956,
	"step": 56
	},
	{
	"epoch": 0.2375,
	"grad_norm": 0.69140625,
	"learning_rate": 9.878981913137178e-06,
	"loss": 1.87,
	"step": 57
	},
	{
	"epoch": 0.24166666666666667,
	"grad_norm": 0.62109375,
	"learning_rate": 9.871333213161438e-06,
	"loss": 1.8292,
	"step": 58
	},
	{
	"epoch": 0.24583333333333332,
	"grad_norm": 0.609375,
	"learning_rate": 9.86345329809282e-06,
	"loss": 1.7773,
	"step": 59
	},
	{
	"epoch": 0.25,
	"grad_norm": 0.62890625,
	"learning_rate": 9.855342541947065e-06,
	"loss": 1.8963,
	"step": 60
	},
	{
	"epoch": 0.25,
	"eval_loss": 2.1865341663360596,
	"eval_runtime": 18.0999,
	"eval_samples_per_second": 136.465,
	"eval_steps_per_second": 34.144,
	"step": 60
	},
	{
	"epoch": 0.25416666666666665,
	"grad_norm": 0.58984375,
	"learning_rate": 9.847001329696653e-06,
	"loss": 1.8404,
	"step": 61
	},
	{
	"epoch": 0.25833333333333336,
	"grad_norm": 0.6953125,
	"learning_rate": 9.838430057252537e-06,
	"loss": 1.9001,
	"step": 62
	},
	{
	"epoch": 0.2625,
	"grad_norm": 0.57421875,
	"learning_rate": 9.829629131445342e-06,
	"loss": 1.799,
	"step": 63
	},
	{
	"epoch": 0.26666666666666666,
	"grad_norm": 0.6796875,
	"learning_rate": 9.820598970006068e-06,
	"loss": 1.7145,
	"step": 64
	},
	{
	"epoch": 0.2708333333333333,
	"grad_norm": 0.62109375,
	"learning_rate": 9.811340001546252e-06,
	"loss": 1.886,
	"step": 65
	},
	{
	"epoch": 0.275,
	"grad_norm": 0.6953125,
	"learning_rate": 9.801852665537628e-06,
	"loss": 1.9257,
	"step": 66
	},
	{
	"epoch": 0.2791666666666667,
	"grad_norm": 0.62109375,
	"learning_rate": 9.792137412291265e-06,
	"loss": 1.8697,
	"step": 67
	},
	{
	"epoch": 0.2833333333333333,
	"grad_norm": 0.64453125,
	"learning_rate": 9.782194702936198e-06,
	"loss": 1.8609,
	"step": 68
	},
	{
	"epoch": 0.2875,
	"grad_norm": 0.63671875,
	"learning_rate": 9.772025009397538e-06,
	"loss": 1.7834,
	"step": 69
	},
	{
	"epoch": 0.2916666666666667,
	"grad_norm": 0.625,
	"learning_rate": 9.761628814374074e-06,
	"loss": 1.9522,
	"step": 70
	},
	{
	"epoch": 0.29583333333333334,
	"grad_norm": 0.61328125,
	"learning_rate": 9.751006611315357e-06,
	"loss": 1.8662,
	"step": 71
	},
	{
	"epoch": 0.3,
	"grad_norm": 0.6015625,
	"learning_rate": 9.740158904398286e-06,
	"loss": 1.9992,
	"step": 72
	},
	{
	"epoch": 0.30416666666666664,
	"grad_norm": 0.625,
	"learning_rate": 9.729086208503174e-06,
	"loss": 1.9478,
	"step": 73
	},
	{
	"epoch": 0.30833333333333335,
	"grad_norm": 0.59765625,
	"learning_rate": 9.717789049189306e-06,
	"loss": 1.8988,
	"step": 74
	},
	{
	"epoch": 0.3125,
	"grad_norm": 0.625,
	"learning_rate": 9.706267962669999e-06,
	"loss": 1.885,
	"step": 75
	},
	{
	"epoch": 0.31666666666666665,
	"grad_norm": 0.6171875,
	"learning_rate": 9.694523495787149e-06,
	"loss": 1.8579,
	"step": 76
	},
	{
	"epoch": 0.32083333333333336,
	"grad_norm": 0.60546875,
	"learning_rate": 9.682556205985274e-06,
	"loss": 1.9366,
	"step": 77
	},
	{
	"epoch": 0.325,
	"grad_norm": 0.6484375,
	"learning_rate": 9.670366661285061e-06,
	"loss": 1.795,
	"step": 78
	},
	{
	"epoch": 0.32916666666666666,
	"grad_norm": 0.5859375,
	"learning_rate": 9.657955440256396e-06,
	"loss": 1.8783,
	"step": 79
	},
	{
	"epoch": 0.3333333333333333,
	"grad_norm": 0.6953125,
	"learning_rate": 9.645323131990908e-06,
	"loss": 1.7912,
	"step": 80
	},
	{
	"epoch": 0.3375,
	"grad_norm": 0.66015625,
	"learning_rate": 9.632470336074009e-06,
	"loss": 1.8866,
	"step": 81
	},
	{
	"epoch": 0.3416666666666667,
	"grad_norm": 0.6171875,
	"learning_rate": 9.619397662556434e-06,
	"loss": 1.636,
	"step": 82
	},
	{
	"epoch": 0.3458333333333333,
	"grad_norm": 0.609375,
	"learning_rate": 9.606105731925284e-06,
	"loss": 1.8458,
	"step": 83
	},
	{
	"epoch": 0.35,
	"grad_norm": 0.7109375,
	"learning_rate": 9.592595175074573e-06,
	"loss": 1.7535,
	"step": 84
	},
	{
	"epoch": 0.3541666666666667,
	"grad_norm": 0.63671875,
	"learning_rate": 9.578866633275289e-06,
	"loss": 2.0323,
	"step": 85
	},
	{
	"epoch": 0.35833333333333334,
	"grad_norm": 0.6484375,
	"learning_rate": 9.564920758144951e-06,
	"loss": 1.9079,
	"step": 86
	},
	{
	"epoch": 0.3625,
	"grad_norm": 0.59765625,
	"learning_rate": 9.550758211616684e-06,
	"loss": 1.8647,
	"step": 87
	},
	{
	"epoch": 0.36666666666666664,
	"grad_norm": 0.5703125,
	"learning_rate": 9.536379665907801e-06,
	"loss": 1.9201,
	"step": 88
	},
	{
	"epoch": 0.37083333333333335,
	"grad_norm": 0.609375,
	"learning_rate": 9.521785803487888e-06,
	"loss": 1.815,
	"step": 89
	},
	{
	"epoch": 0.375,
	"grad_norm": 0.5859375,
	"learning_rate": 9.506977317046424e-06,
	"loss": 1.8623,
	"step": 90
	},
	{
	"epoch": 0.375,
	"eval_loss": 2.178661823272705,
	"eval_runtime": 18.5546,
	"eval_samples_per_second": 133.121,
	"eval_steps_per_second": 33.307,
	"step": 90
	},
	{
	"epoch": 0.37916666666666665,
	"grad_norm": 0.65625,
	"learning_rate": 9.491954909459895e-06,
	"loss": 1.8012,
	"step": 91
	},
	{
	"epoch": 0.38333333333333336,
	"grad_norm": 0.66796875,
	"learning_rate": 9.476719293758431e-06,
	"loss": 2.0764,
	"step": 92
	},
	{
	"epoch": 0.3875,
	"grad_norm": 0.640625,
	"learning_rate": 9.461271193091971e-06,
	"loss": 1.8221,
	"step": 93
	},
	{
	"epoch": 0.39166666666666666,
	"grad_norm": 0.578125,
	"learning_rate": 9.445611340695926e-06,
	"loss": 1.799,
	"step": 94
	},
	{
	"epoch": 0.3958333333333333,
	"grad_norm": 0.60546875,
	"learning_rate": 9.42974047985639e-06,
	"loss": 1.8854,
	"step": 95
	},
	{
	"epoch": 0.4,
	"grad_norm": 0.6171875,
	"learning_rate": 9.413659363874855e-06,
	"loss": 1.7773,
	"step": 96
	},
	{
	"epoch": 0.4041666666666667,
	"grad_norm": 0.64453125,
	"learning_rate": 9.397368756032445e-06,
	"loss": 1.9003,
	"step": 97
	},
	{
	"epoch": 0.4083333333333333,
	"grad_norm": 0.58984375,
	"learning_rate": 9.380869429553712e-06,
	"loss": 1.7719,
	"step": 98
	},
	{
	"epoch": 0.4125,
	"grad_norm": 0.5625,
	"learning_rate": 9.364162167569907e-06,
	"loss": 1.8732,
	"step": 99
	},
	{
	"epoch": 0.4166666666666667,
	"grad_norm": 0.640625,
	"learning_rate": 9.347247763081834e-06,
	"loss": 1.8782,
	"step": 100
	},
	{
	"epoch": 0.42083333333333334,
	"grad_norm": 0.59375,
	"learning_rate": 9.330127018922195e-06,
	"loss": 1.8727,
	"step": 101
	},
	{
	"epoch": 0.425,
	"grad_norm": 0.5859375,
	"learning_rate": 9.312800747717484e-06,
	"loss": 1.9571,
	"step": 102
	},
	{
	"epoch": 0.42916666666666664,
	"grad_norm": 0.6015625,
	"learning_rate": 9.295269771849426e-06,
	"loss": 1.7569,
	"step": 103
	},
	{
	"epoch": 0.43333333333333335,
	"grad_norm": 0.55859375,
	"learning_rate": 9.277534923415941e-06,
	"loss": 1.9862,
	"step": 104
	},
	{
	"epoch": 0.4375,
	"grad_norm": 0.60546875,
	"learning_rate": 9.259597044191635e-06,
	"loss": 1.7464,
	"step": 105
	},
	{
	"epoch": 0.44166666666666665,
	"grad_norm": 0.66796875,
	"learning_rate": 9.241456985587868e-06,
	"loss": 1.771,
	"step": 106
	},
	{
	"epoch": 0.44583333333333336,
	"grad_norm": 0.60546875,
	"learning_rate": 9.223115608612325e-06,
	"loss": 1.8531,
	"step": 107
	},
	{
	"epoch": 0.45,
	"grad_norm": 0.59765625,
	"learning_rate": 9.204573783828153e-06,
	"loss": 1.7752,
	"step": 108
	},
	{
	"epoch": 0.45416666666666666,
	"grad_norm": 0.671875,
	"learning_rate": 9.185832391312644e-06,
	"loss": 1.8505,
	"step": 109
	},
	{
	"epoch": 0.4583333333333333,
	"grad_norm": 0.6171875,
	"learning_rate": 9.166892320615459e-06,
	"loss": 1.8294,
	"step": 110
	},
	{
	"epoch": 0.4625,
	"grad_norm": 0.625,
	"learning_rate": 9.147754470716407e-06,
	"loss": 1.8943,
	"step": 111
	},
	{
	"epoch": 0.4666666666666667,
	"grad_norm": 0.57421875,
	"learning_rate": 9.12841974998278e-06,
	"loss": 2.0161,
	"step": 112
	},
	{
	"epoch": 0.4708333333333333,
	"grad_norm": 0.55859375,
	"learning_rate": 9.108889076126226e-06,
	"loss": 1.827,
	"step": 113
	},
	{
	"epoch": 0.475,
	"grad_norm": 0.5625,
	"learning_rate": 9.089163376159205e-06,
	"loss": 1.8712,
	"step": 114
	},
	{
	"epoch": 0.4791666666666667,
	"grad_norm": 0.5859375,
	"learning_rate": 9.069243586350976e-06,
	"loss": 1.8358,
	"step": 115
	},
	{
	"epoch": 0.48333333333333334,
	"grad_norm": 0.6171875,
	"learning_rate": 9.049130652183167e-06,
	"loss": 1.8587,
	"step": 116
	},
	{
	"epoch": 0.4875,
	"grad_norm": 0.60546875,
	"learning_rate": 9.028825528304892e-06,
	"loss": 1.8179,
	"step": 117
	},
	{
	"epoch": 0.49166666666666664,
	"grad_norm": 0.58984375,
	"learning_rate": 9.008329178487442e-06,
	"loss": 1.6971,
	"step": 118
	},
	{
	"epoch": 0.49583333333333335,
	"grad_norm": 0.609375,
	"learning_rate": 8.987642575578546e-06,
	"loss": 1.91,
	"step": 119
	},
	{
	"epoch": 0.5,
	"grad_norm": 0.609375,
	"learning_rate": 8.966766701456177e-06,
	"loss": 1.8528,
	"step": 120
	},
	{
	"epoch": 0.5,
	"eval_loss": 2.1745619773864746,
	"eval_runtime": 18.083,
	"eval_samples_per_second": 136.593,
	"eval_steps_per_second": 34.176,
	"step": 120
	},
	{
	"epoch": 0.5041666666666667,
	"grad_norm": 0.59765625,
	"learning_rate": 8.94570254698197e-06,
	"loss": 1.9986,
	"step": 121
	},
	{
	"epoch": 0.5083333333333333,
	"grad_norm": 0.61328125,
	"learning_rate": 8.924451111954173e-06,
	"loss": 2.055,
	"step": 122
	},
	{
	"epoch": 0.5125,
	"grad_norm": 0.57421875,
	"learning_rate": 8.903013405060212e-06,
	"loss": 1.9035,
	"step": 123
	},
	{
	"epoch": 0.5166666666666667,
	"grad_norm": 0.61328125,
	"learning_rate": 8.881390443828788e-06,
	"loss": 1.9556,
	"step": 124
	},
	{
	"epoch": 0.5208333333333334,
	"grad_norm": 0.58203125,
	"learning_rate": 8.859583254581604e-06,
	"loss": 1.8308,
	"step": 125
	},
	{
	"epoch": 0.525,
	"grad_norm": 0.578125,
	"learning_rate": 8.837592872384643e-06,
	"loss": 1.8267,
	"step": 126
	},
	{
	"epoch": 0.5291666666666667,
	"grad_norm": 0.640625,
	"learning_rate": 8.815420340999034e-06,
	"loss": 1.9509,
	"step": 127
	},
	{
	"epoch": 0.5333333333333333,
	"grad_norm": 0.640625,
	"learning_rate": 8.793066712831515e-06,
	"loss": 2.0599,
	"step": 128
	},
	{
	"epoch": 0.5375,
	"grad_norm": 0.5625,
	"learning_rate": 8.770533048884483e-06,
	"loss": 1.9489,
	"step": 129
	},
	{
	"epoch": 0.5416666666666666,
	"grad_norm": 0.58984375,
	"learning_rate": 8.747820418705632e-06,
	"loss": 1.7887,
	"step": 130
	},
	{
	"epoch": 0.5458333333333333,
	"grad_norm": 0.5625,
	"learning_rate": 8.724929900337186e-06,
	"loss": 1.886,
	"step": 131
	},
	{
	"epoch": 0.55,
	"grad_norm": 0.640625,
	"learning_rate": 8.701862580264735e-06,
	"loss": 1.6192,
	"step": 132
	},
	{
	"epoch": 0.5541666666666667,
	"grad_norm": 0.5703125,
	"learning_rate": 8.67861955336566e-06,
	"loss": 1.848,
	"step": 133
	},
	{
	"epoch": 0.5583333333333333,
	"grad_norm": 0.57421875,
	"learning_rate": 8.655201922857166e-06,
	"loss": 1.8832,
	"step": 134
	},
	{
	"epoch": 0.5625,
	"grad_norm": 0.55859375,
	"learning_rate": 8.631610800243926e-06,
	"loss": 1.7343,
	"step": 135
	},
	{
	"epoch": 0.5666666666666667,
	"grad_norm": 0.5625,
	"learning_rate": 8.607847305265312e-06,
	"loss": 1.8137,
	"step": 136
	},
	{
	"epoch": 0.5708333333333333,
	"grad_norm": 0.5703125,
	"learning_rate": 8.583912565842258e-06,
	"loss": 1.8875,
	"step": 137
	},
	{
	"epoch": 0.575,
	"grad_norm": 0.6015625,
	"learning_rate": 8.559807718023715e-06,
	"loss": 1.8311,
	"step": 138
	},
	{
	"epoch": 0.5791666666666667,
	"grad_norm": 0.54296875,
	"learning_rate": 8.535533905932739e-06,
	"loss": 1.7797,
	"step": 139
	},
	{
	"epoch": 0.5833333333333334,
	"grad_norm": 0.59375,
	"learning_rate": 8.511092281712174e-06,
	"loss": 1.8119,
	"step": 140
	},
	{
	"epoch": 0.5875,
	"grad_norm": 0.59375,
	"learning_rate": 8.486484005469977e-06,
	"loss": 1.8417,
	"step": 141
	},
	{
	"epoch": 0.5916666666666667,
	"grad_norm": 0.58984375,
	"learning_rate": 8.461710245224149e-06,
	"loss": 1.7081,
	"step": 142
	},
	{
	"epoch": 0.5958333333333333,
	"grad_norm": 0.578125,
	"learning_rate": 8.436772176847295e-06,
	"loss": 1.9393,
	"step": 143
	},
	{
	"epoch": 0.6,
	"grad_norm": 0.62109375,
	"learning_rate": 8.41167098401081e-06,
	"loss": 1.775,
	"step": 144
	},
	{
	"epoch": 0.6041666666666666,
	"grad_norm": 0.58984375,
	"learning_rate": 8.386407858128707e-06,
	"loss": 1.8468,
	"step": 145
	},
	{
	"epoch": 0.6083333333333333,
	"grad_norm": 0.56640625,
	"learning_rate": 8.360983998301053e-06,
	"loss": 1.9168,
	"step": 146
	},
	{
	"epoch": 0.6125,
	"grad_norm": 0.6640625,
	"learning_rate": 8.335400611257067e-06,
	"loss": 1.8175,
	"step": 147
	},
	{
	"epoch": 0.6166666666666667,
	"grad_norm": 0.6171875,
	"learning_rate": 8.309658911297833e-06,
	"loss": 1.7795,
	"step": 148
	},
	{
	"epoch": 0.6208333333333333,
	"grad_norm": 0.57421875,
	"learning_rate": 8.283760120238672e-06,
	"loss": 1.9254,
	"step": 149
	},
	{
	"epoch": 0.625,
	"grad_norm": 0.62109375,
	"learning_rate": 8.257705467351144e-06,
	"loss": 1.8784,
	"step": 150
	},
	{
	"epoch": 0.625,
	"eval_loss": 2.170564889907837,
	"eval_runtime": 18.0804,
	"eval_samples_per_second": 136.612,
	"eval_steps_per_second": 34.181,
	"step": 150
	},
	{
	"epoch": 0.6291666666666667,
	"grad_norm": 0.5859375,
	"learning_rate": 8.231496189304704e-06,
	"loss": 1.9573,
	"step": 151
	},
	{
	"epoch": 0.6333333333333333,
	"grad_norm": 0.57421875,
	"learning_rate": 8.205133530108003e-06,
	"loss": 1.9005,
	"step": 152
	},
	{
	"epoch": 0.6375,
	"grad_norm": 0.578125,
	"learning_rate": 8.178618741049841e-06,
	"loss": 1.858,
	"step": 153
	},
	{
	"epoch": 0.6416666666666667,
	"grad_norm": 0.54296875,
	"learning_rate": 8.151953080639777e-06,
	"loss": 1.8415,
	"step": 154
	},
	{
	"epoch": 0.6458333333333334,
	"grad_norm": 0.62109375,
	"learning_rate": 8.125137814548394e-06,
	"loss": 1.8377,
	"step": 155
	},
	{
	"epoch": 0.65,
	"grad_norm": 0.62890625,
	"learning_rate": 8.098174215547224e-06,
	"loss": 1.8115,
	"step": 156
	},
	{
	"epoch": 0.6541666666666667,
	"grad_norm": 0.55078125,
	"learning_rate": 8.071063563448341e-06,
	"loss": 1.7547,
	"step": 157
	},
	{
	"epoch": 0.6583333333333333,
	"grad_norm": 0.6015625,
	"learning_rate": 8.043807145043604e-06,
	"loss": 1.7335,
	"step": 158
	},
	{
	"epoch": 0.6625,
	"grad_norm": 0.5546875,
	"learning_rate": 8.016406254043595e-06,
	"loss": 1.7631,
	"step": 159
	},
	{
	"epoch": 0.6666666666666666,
	"grad_norm": 0.56640625,
	"learning_rate": 7.988862191016204e-06,
	"loss": 1.8128,
	"step": 160
	},
	{
	"epoch": 0.6708333333333333,
	"grad_norm": 0.58984375,
	"learning_rate": 7.961176263324902e-06,
	"loss": 1.8938,
	"step": 161
	},
	{
	"epoch": 0.675,
	"grad_norm": 0.56640625,
	"learning_rate": 7.93334978506668e-06,
	"loss": 1.6676,
	"step": 162
	},
	{
	"epoch": 0.6791666666666667,
	"grad_norm": 0.55078125,
	"learning_rate": 7.905384077009693e-06,
	"loss": 1.7388,
	"step": 163
	},
	{
	"epoch": 0.6833333333333333,
	"grad_norm": 0.625,
	"learning_rate": 7.877280466530552e-06,
	"loss": 1.8675,
	"step": 164
	},
	{
	"epoch": 0.6875,
	"grad_norm": 0.578125,
	"learning_rate": 7.849040287551331e-06,
	"loss": 1.9701,
	"step": 165
	},
	{
	"epoch": 0.6916666666666667,
	"grad_norm": 0.62890625,
	"learning_rate": 7.820664880476257e-06,
	"loss": 1.9176,
	"step": 166
	},
	{
	"epoch": 0.6958333333333333,
	"grad_norm": 0.59765625,
	"learning_rate": 7.792155592128072e-06,
	"loss": 1.8905,
	"step": 167
	},
	{
	"epoch": 0.7,
	"grad_norm": 0.57421875,
	"learning_rate": 7.763513775684125e-06,
	"loss": 1.9383,
	"step": 168
	},
	{
	"epoch": 0.7041666666666667,
	"grad_norm": 0.5859375,
	"learning_rate": 7.734740790612137e-06,
	"loss": 1.8599,
	"step": 169
	},
	{
	"epoch": 0.7083333333333334,
	"grad_norm": 0.58203125,
	"learning_rate": 7.705838002605665e-06,
	"loss": 1.7492,
	"step": 170
	},
	{
	"epoch": 0.7125,
	"grad_norm": 0.58984375,
	"learning_rate": 7.676806783519304e-06,
	"loss": 1.874,
	"step": 171
	},
	{
	"epoch": 0.7166666666666667,
	"grad_norm": 0.56640625,
	"learning_rate": 7.647648511303545e-06,
	"loss": 1.8562,
	"step": 172
	},
	{
	"epoch": 0.7208333333333333,
	"grad_norm": 0.58203125,
	"learning_rate": 7.61836456993939e-06,
	"loss": 1.9492,
	"step": 173
	},
	{
	"epoch": 0.725,
	"grad_norm": 0.6171875,
	"learning_rate": 7.588956349372657e-06,
	"loss": 1.6813,
	"step": 174
	},
	{
	"epoch": 0.7291666666666666,
	"grad_norm": 0.57421875,
	"learning_rate": 7.559425245448006e-06,
	"loss": 1.7416,
	"step": 175
	},
	{
	"epoch": 0.7333333333333333,
	"grad_norm": 0.58203125,
	"learning_rate": 7.529772659842685e-06,
	"loss": 1.8194,
	"step": 176
	},
	{
	"epoch": 0.7375,
	"grad_norm": 0.58984375,
	"learning_rate": 7.500000000000001e-06,
	"loss": 1.8523,
	"step": 177
	},
	{
	"epoch": 0.7416666666666667,
	"grad_norm": 0.59375,
	"learning_rate": 7.470108679062521e-06,
	"loss": 1.7934,
	"step": 178
	},
	{
	"epoch": 0.7458333333333333,
	"grad_norm": 0.59375,
	"learning_rate": 7.440100115804991e-06,
	"loss": 2.101,
	"step": 179
	},
	{
	"epoch": 0.75,
	"grad_norm": 0.6328125,
	"learning_rate": 7.409975734566998e-06,
	"loss": 1.9961,
	"step": 180
	},
	{
	"epoch": 0.75,
	"eval_loss": 2.168635845184326,
	"eval_runtime": 18.1066,
	"eval_samples_per_second": 136.414,
	"eval_steps_per_second": 34.131,
	"step": 180
	},
	{
	"epoch": 0.7541666666666667,
	"grad_norm": 0.55859375,
	"learning_rate": 7.379736965185369e-06,
	"loss": 1.7288,
	"step": 181
	},
	{
	"epoch": 0.7583333333333333,
	"grad_norm": 0.6328125,
	"learning_rate": 7.349385242926291e-06,
	"loss": 1.8504,
	"step": 182
	},
	{
	"epoch": 0.7625,
	"grad_norm": 0.6328125,
	"learning_rate": 7.318922008417203e-06,
	"loss": 1.9159,
	"step": 183
	},
	{
	"epoch": 0.7666666666666667,
	"grad_norm": 0.5625,
	"learning_rate": 7.288348707578409e-06,
	"loss": 1.787,
	"step": 184
	},
	{
	"epoch": 0.7708333333333334,
	"grad_norm": 0.5546875,
	"learning_rate": 7.257666791554448e-06,
	"loss": 1.8314,
	"step": 185
	},
	{
	"epoch": 0.775,
	"grad_norm": 0.61328125,
	"learning_rate": 7.2268777166452175e-06,
	"loss": 1.915,
	"step": 186
	},
	{
	"epoch": 0.7791666666666667,
	"grad_norm": 0.5625,
	"learning_rate": 7.195982944236853e-06,
	"loss": 1.9086,
	"step": 187
	},
	{
	"epoch": 0.7833333333333333,
	"grad_norm": 0.64453125,
	"learning_rate": 7.1649839407323606e-06,
	"loss": 1.7966,
	"step": 188
	},
	{
	"epoch": 0.7875,
	"grad_norm": 0.58203125,
	"learning_rate": 7.133882177482019e-06,
	"loss": 1.7277,
	"step": 189
	},
	{
	"epoch": 0.7916666666666666,
	"grad_norm": 0.5390625,
	"learning_rate": 7.102679130713538e-06,
	"loss": 1.6565,
	"step": 190
	},
	{
	"epoch": 0.7958333333333333,
	"grad_norm": 0.59375,
	"learning_rate": 7.071376281461994e-06,
	"loss": 1.8509,
	"step": 191
	},
	{
	"epoch": 0.8,
	"grad_norm": 0.57421875,
	"learning_rate": 7.039975115499534e-06,
	"loss": 1.9617,
	"step": 192
	},
	{
	"epoch": 0.8041666666666667,
	"grad_norm": 0.59765625,
	"learning_rate": 7.008477123264849e-06,
	"loss": 1.8768,
	"step": 193
	},
	{
	"epoch": 0.8083333333333333,
	"grad_norm": 0.62890625,
	"learning_rate": 6.976883799792434e-06,
	"loss": 1.8889,
	"step": 194
	},
	{
	"epoch": 0.8125,
	"grad_norm": 0.59765625,
	"learning_rate": 6.945196644641631e-06,
	"loss": 1.8929,
	"step": 195
	},
	{
	"epoch": 0.8166666666666667,
	"grad_norm": 0.578125,
	"learning_rate": 6.913417161825449e-06,
	"loss": 1.8091,
	"step": 196
	},
	{
	"epoch": 0.8208333333333333,
	"grad_norm": 0.59375,
	"learning_rate": 6.8815468597391785e-06,
	"loss": 1.9076,
	"step": 197
	},
	{
	"epoch": 0.825,
	"grad_norm": 0.62890625,
	"learning_rate": 6.84958725108879e-06,
	"loss": 1.9901,
	"step": 198
	},
	{
	"epoch": 0.8291666666666667,
	"grad_norm": 0.63671875,
	"learning_rate": 6.817539852819149e-06,
	"loss": 1.8836,
	"step": 199
	},
	{
	"epoch": 0.8333333333333334,
	"grad_norm": 0.55859375,
	"learning_rate": 6.785406186042e-06,
	"loss": 1.9231,
	"step": 200
	},
	{
	"epoch": 0.8375,
	"grad_norm": 0.609375,
	"learning_rate": 6.753187775963773e-06,
	"loss": 1.7803,
	"step": 201
	},
	{
	"epoch": 0.8416666666666667,
	"grad_norm": 0.55078125,
	"learning_rate": 6.720886151813194e-06,
	"loss": 1.8339,
	"step": 202
	},
	{
	"epoch": 0.8458333333333333,
	"grad_norm": 0.62890625,
	"learning_rate": 6.688502846768697e-06,
	"loss": 1.9179,
	"step": 203
	},
	{
	"epoch": 0.85,
	"grad_norm": 0.5625,
	"learning_rate": 6.656039397885653e-06,
	"loss": 1.8147,
	"step": 204
	},
	{
	"epoch": 0.8541666666666666,
	"grad_norm": 0.61328125,
	"learning_rate": 6.6234973460234184e-06,
	"loss": 1.7996,
	"step": 205
	},
	{
	"epoch": 0.8583333333333333,
	"grad_norm": 0.71484375,
	"learning_rate": 6.5908782357721914e-06,
	"loss": 1.9165,
	"step": 206
	},
	{
	"epoch": 0.8625,
	"grad_norm": 0.5703125,
	"learning_rate": 6.558183615379708e-06,
	"loss": 1.8397,
	"step": 207
	},
	{
	"epoch": 0.8666666666666667,
	"grad_norm": 0.56640625,
	"learning_rate": 6.525415036677745e-06,
	"loss": 1.8636,
	"step": 208
	},
	{
	"epoch": 0.8708333333333333,
	"grad_norm": 0.63671875,
	"learning_rate": 6.492574055008474e-06,
	"loss": 2.0345,
	"step": 209
	},
	{
	"epoch": 0.875,
	"grad_norm": 0.6171875,
	"learning_rate": 6.45966222915063e-06,
	"loss": 1.8748,
	"step": 210
	},
	{
	"epoch": 0.875,
	"eval_loss": 2.167238712310791,
	"eval_runtime": 18.0652,
	"eval_samples_per_second": 136.727,
	"eval_steps_per_second": 34.209,
	"step": 210
	},
	{
	"epoch": 0.8791666666666667,
	"grad_norm": 0.57421875,
	"learning_rate": 6.426681121245527e-06,
	"loss": 1.774,
	"step": 211
	},
	{
	"epoch": 0.8833333333333333,
	"grad_norm": 0.578125,
	"learning_rate": 6.393632296722916e-06,
	"loss": 1.8357,
	"step": 212
	},
	{
	"epoch": 0.8875,
	"grad_norm": 0.55078125,
	"learning_rate": 6.360517324226676e-06,
	"loss": 1.6954,
	"step": 213
	},
	{
	"epoch": 0.8916666666666667,
	"grad_norm": 0.5859375,
	"learning_rate": 6.327337775540362e-06,
	"loss": 1.8854,
	"step": 214
	},
	{
	"epoch": 0.8958333333333334,
	"grad_norm": 0.59765625,
	"learning_rate": 6.294095225512604e-06,
	"loss": 1.9444,
	"step": 215
	},
	{
	"epoch": 0.9,
	"grad_norm": 0.6328125,
	"learning_rate": 6.260791251982354e-06,
	"loss": 1.9477,
	"step": 216
	},
	{
	"epoch": 0.9041666666666667,
	"grad_norm": 0.578125,
	"learning_rate": 6.227427435703997e-06,
	"loss": 1.8354,
	"step": 217
	},
	{
	"epoch": 0.9083333333333333,
	"grad_norm": 0.57421875,
	"learning_rate": 6.194005360272317e-06,
	"loss": 1.9716,
	"step": 218
	},
	{
	"epoch": 0.9125,
	"grad_norm": 0.59375,
	"learning_rate": 6.160526612047339e-06,
	"loss": 1.9245,
	"step": 219
	},
	{
	"epoch": 0.9166666666666666,
	"grad_norm": 0.5625,
	"learning_rate": 6.126992780079032e-06,
	"loss": 1.814,
	"step": 220
	},
	{
	"epoch": 0.9208333333333333,
	"grad_norm": 0.578125,
	"learning_rate": 6.09340545603188e-06,
	"loss": 1.8559,
	"step": 221
	},
	{
	"epoch": 0.925,
	"grad_norm": 0.5859375,
	"learning_rate": 6.0597662341093385e-06,
	"loss": 1.7238,
	"step": 222
	},
	{
	"epoch": 0.9291666666666667,
	"grad_norm": 0.609375,
	"learning_rate": 6.026076710978172e-06,
	"loss": 1.9524,
	"step": 223
	},
	{
	"epoch": 0.9333333333333333,
	"grad_norm": 0.578125,
	"learning_rate": 5.992338485692657e-06,
	"loss": 1.8717,
	"step": 224
	},
	{
	"epoch": 0.9375,
	"grad_norm": 0.5546875,
	"learning_rate": 5.958553159618693e-06,
	"loss": 1.7134,
	"step": 225
	},
	{
	"epoch": 0.9416666666666667,
	"grad_norm": 0.5625,
	"learning_rate": 5.924722336357793e-06,
	"loss": 1.8745,
	"step": 226
	},
	{
	"epoch": 0.9458333333333333,
	"grad_norm": 0.5859375,
	"learning_rate": 5.890847621670966e-06,
	"loss": 1.8144,
	"step": 227
	},
	{
	"epoch": 0.95,
	"grad_norm": 0.61328125,
	"learning_rate": 5.856930623402506e-06,
	"loss": 1.9048,
	"step": 228
	},
	{
	"epoch": 0.9541666666666667,
	"grad_norm": 0.61328125,
	"learning_rate": 5.82297295140367e-06,
	"loss": 1.8585,
	"step": 229
	},
	{
	"epoch": 0.9583333333333334,
	"grad_norm": 0.5859375,
	"learning_rate": 5.788976217456275e-06,
	"loss": 1.9537,
	"step": 230
	},
	{
	"epoch": 0.9625,
	"grad_norm": 0.5703125,
	"learning_rate": 5.7549420351961845e-06,
	"loss": 1.8574,
	"step": 231
	},
	{
	"epoch": 0.9666666666666667,
	"grad_norm": 0.55078125,
	"learning_rate": 5.720872020036734e-06,
	"loss": 1.871,
	"step": 232
	},
	{
	"epoch": 0.9708333333333333,
	"grad_norm": 0.53125,
	"learning_rate": 5.686767789092041e-06,
	"loss": 1.77,
	"step": 233
	},
	{
	"epoch": 0.975,
	"grad_norm": 0.58984375,
	"learning_rate": 5.65263096110026e-06,
	"loss": 1.8735,
	"step": 234
	},
	{
	"epoch": 0.9791666666666666,
	"grad_norm": 0.609375,
	"learning_rate": 5.61846315634674e-06,
	"loss": 1.7025,
	"step": 235
	},
	{
	"epoch": 0.9833333333333333,
	"grad_norm": 0.57421875,
	"learning_rate": 5.584265996587129e-06,
	"loss": 1.7811,
	"step": 236
	},
	{
	"epoch": 0.9875,
	"grad_norm": 0.58203125,
	"learning_rate": 5.550041104970398e-06,
	"loss": 1.9347,
	"step": 237
	},
	{
	"epoch": 0.9916666666666667,
	"grad_norm": 0.5625,
	"learning_rate": 5.515790105961785e-06,
	"loss": 1.7745,
	"step": 238
	},
	{
	"epoch": 0.9958333333333333,
	"grad_norm": 0.60546875,
	"learning_rate": 5.481514625265709e-06,
	"loss": 1.9443,
	"step": 239
	},
	{
	"epoch": 1.0,
	"grad_norm": 0.58203125,
	"learning_rate": 5.447216289748596e-06,
	"loss": 2.0385,
	"step": 240
	},
	{
	"epoch": 1.0,
	"eval_loss": 2.1657376289367676,
	"eval_runtime": 18.1098,
	"eval_samples_per_second": 136.391,
	"eval_steps_per_second": 34.125,
	"step": 240
	},
	{
	"epoch": 1.0041666666666667,
	"grad_norm": 0.62109375,
	"learning_rate": 5.412896727361663e-06,
	"loss": 1.9712,
	"step": 241
	},
	{
	"epoch": 1.0083333333333333,
	"grad_norm": 0.6171875,
	"learning_rate": 5.378557567063646e-06,
	"loss": 1.7675,
	"step": 242
	},
	{
	"epoch": 1.0125,
	"grad_norm": 0.59375,
	"learning_rate": 5.344200438743489e-06,
	"loss": 1.9863,
	"step": 243
	},
	{
	"epoch": 1.0166666666666666,
	"grad_norm": 0.6015625,
	"learning_rate": 5.309826973142974e-06,
	"loss": 1.8513,
	"step": 244
	},
	{
	"epoch": 1.0208333333333333,
	"grad_norm": 0.5859375,
	"learning_rate": 5.275438801779328e-06,
	"loss": 1.9539,
	"step": 245
	},
	{
	"epoch": 1.025,
	"grad_norm": 0.55859375,
	"learning_rate": 5.241037556867775e-06,
	"loss": 1.8889,
	"step": 246
	},
	{
	"epoch": 1.0291666666666666,
	"grad_norm": 0.625,
	"learning_rate": 5.206624871244066e-06,
	"loss": 1.8184,
	"step": 247
	},
	{
	"epoch": 1.0333333333333334,
	"grad_norm": 0.5625,
	"learning_rate": 5.172202378286986e-06,
	"loss": 1.904,
	"step": 248
	},
	{
	"epoch": 1.0375,
	"grad_norm": 0.53515625,
	"learning_rate": 5.137771711840811e-06,
	"loss": 1.7663,
	"step": 249
	},
	{
	"epoch": 1.0416666666666667,
	"grad_norm": 0.58984375,
	"learning_rate": 5.103334506137773e-06,
	"loss": 1.8074,
	"step": 250
	},
	{
	"epoch": 1.0458333333333334,
	"grad_norm": 0.5546875,
	"learning_rate": 5.068892395720482e-06,
	"loss": 1.794,
	"step": 251
	},
	{
	"epoch": 1.05,
	"grad_norm": 0.578125,
	"learning_rate": 5.0344470153643525e-06,
	"loss": 1.7377,
	"step": 252
	},
	{
	"epoch": 1.0541666666666667,
	"grad_norm": 0.5859375,
	"learning_rate": 5e-06,
	"loss": 1.9,
	"step": 253
	},
	{
	"epoch": 1.0583333333333333,
	"grad_norm": 0.60546875,
	"learning_rate": 4.965552984635649e-06,
	"loss": 1.8172,
	"step": 254
	},
	{
	"epoch": 1.0625,
	"grad_norm": 0.6015625,
	"learning_rate": 4.9311076042795185e-06,
	"loss": 2.0686,
	"step": 255
	},
	{
	"epoch": 1.0666666666666667,
	"grad_norm": 0.546875,
	"learning_rate": 4.89666549386223e-06,
	"loss": 1.6615,
	"step": 256
	},
	{
	"epoch": 1.0708333333333333,
	"grad_norm": 0.56640625,
	"learning_rate": 4.862228288159191e-06,
	"loss": 1.8065,
	"step": 257
	},
	{
	"epoch": 1.075,
	"grad_norm": 0.6015625,
	"learning_rate": 4.827797621713017e-06,
	"loss": 1.9736,
	"step": 258
	},
	{
	"epoch": 1.0791666666666666,
	"grad_norm": 0.6328125,
	"learning_rate": 4.793375128755934e-06,
	"loss": 1.9502,
	"step": 259
	},
	{
	"epoch": 1.0833333333333333,
	"grad_norm": 0.62109375,
	"learning_rate": 4.758962443132227e-06,
	"loss": 1.7474,
	"step": 260
	},
	{
	"epoch": 1.0875,
	"grad_norm": 0.62109375,
	"learning_rate": 4.724561198220672e-06,
	"loss": 1.7294,
	"step": 261
	},
	{
	"epoch": 1.0916666666666666,
	"grad_norm": 0.5625,
	"learning_rate": 4.690173026857028e-06,
	"loss": 1.8679,
	"step": 262
	},
	{
	"epoch": 1.0958333333333334,
	"grad_norm": 0.671875,
	"learning_rate": 4.6557995612565146e-06,
	"loss": 1.785,
	"step": 263
	},
	{
	"epoch": 1.1,
	"grad_norm": 0.58984375,
	"learning_rate": 4.621442432936355e-06,
	"loss": 1.9543,
	"step": 264
	},
	{
	"epoch": 1.1041666666666667,
	"grad_norm": 0.54296875,
	"learning_rate": 4.587103272638339e-06,
	"loss": 1.6861,
	"step": 265
	},
	{
	"epoch": 1.1083333333333334,
	"grad_norm": 0.5625,
	"learning_rate": 4.552783710251404e-06,
	"loss": 1.7687,
	"step": 266
	},
	{
	"epoch": 1.1125,
	"grad_norm": 0.57421875,
	"learning_rate": 4.5184853747342926e-06,
	"loss": 2.0234,
	"step": 267
	},
	{
	"epoch": 1.1166666666666667,
	"grad_norm": 0.578125,
	"learning_rate": 4.4842098940382155e-06,
	"loss": 1.7764,
	"step": 268
	},
	{
	"epoch": 1.1208333333333333,
	"grad_norm": 0.58203125,
	"learning_rate": 4.449958895029604e-06,
	"loss": 1.8805,
	"step": 269
	},
	{
	"epoch": 1.125,
	"grad_norm": 0.5859375,
	"learning_rate": 4.415734003412873e-06,
	"loss": 1.9327,
	"step": 270
	},
	{
	"epoch": 1.125,
	"eval_loss": 2.164560079574585,
	"eval_runtime": 18.6596,
	"eval_samples_per_second": 132.371,
	"eval_steps_per_second": 33.12,
	"step": 270
	},
	{
	"epoch": 1.1291666666666667,
	"grad_norm": 0.5703125,
	"learning_rate": 4.381536843653262e-06,
	"loss": 1.7554,
	"step": 271
	},
	{
	"epoch": 1.1333333333333333,
	"grad_norm": 0.640625,
	"learning_rate": 4.347369038899744e-06,
	"loss": 1.7947,
	"step": 272
	},
	{
	"epoch": 1.1375,
	"grad_norm": 0.58203125,
	"learning_rate": 4.313232210907959e-06,
	"loss": 1.8943,
	"step": 273
	},
	{
	"epoch": 1.1416666666666666,
	"grad_norm": 0.58984375,
	"learning_rate": 4.279127979963266e-06,
	"loss": 1.883,
	"step": 274
	},
	{
	"epoch": 1.1458333333333333,
	"grad_norm": 0.57421875,
	"learning_rate": 4.245057964803815e-06,
	"loss": 1.8058,
	"step": 275
	},
	{
	"epoch": 1.15,
	"grad_norm": 0.5703125,
	"learning_rate": 4.2110237825437275e-06,
	"loss": 1.7255,
	"step": 276
	},
	{
	"epoch": 1.1541666666666668,
	"grad_norm": 0.6953125,
	"learning_rate": 4.17702704859633e-06,
	"loss": 1.9189,
	"step": 277
	},
	{
	"epoch": 1.1583333333333332,
	"grad_norm": 0.5859375,
	"learning_rate": 4.143069376597496e-06,
	"loss": 1.7928,
	"step": 278
	},
	{
	"epoch": 1.1625,
	"grad_norm": 0.6015625,
	"learning_rate": 4.109152378329036e-06,
	"loss": 1.8013,
	"step": 279
	},
	{
	"epoch": 1.1666666666666667,
	"grad_norm": 0.59375,
	"learning_rate": 4.075277663642208e-06,
	"loss": 1.6585,
	"step": 280
	},
	{
	"epoch": 1.1708333333333334,
	"grad_norm": 0.625,
	"learning_rate": 4.041446840381309e-06,
	"loss": 1.7681,
	"step": 281
	},
	{
	"epoch": 1.175,
	"grad_norm": 0.62109375,
	"learning_rate": 4.007661514307344e-06,
	"loss": 1.8034,
	"step": 282
	},
	{
	"epoch": 1.1791666666666667,
	"grad_norm": 0.578125,
	"learning_rate": 3.973923289021829e-06,
	"loss": 1.6936,
	"step": 283
	},
	{
	"epoch": 1.1833333333333333,
	"grad_norm": 0.5859375,
	"learning_rate": 3.9402337658906615e-06,
	"loss": 1.8129,
	"step": 284
	},
	{
	"epoch": 1.1875,
	"grad_norm": 0.58203125,
	"learning_rate": 3.906594543968122e-06,
	"loss": 1.8816,
	"step": 285
	},
	{
	"epoch": 1.1916666666666667,
	"grad_norm": 0.5859375,
	"learning_rate": 3.8730072199209705e-06,
	"loss": 1.8431,
	"step": 286
	},
	{
	"epoch": 1.1958333333333333,
	"grad_norm": 0.5859375,
	"learning_rate": 3.839473387952662e-06,
	"loss": 1.7668,
	"step": 287
	},
	{
	"epoch": 1.2,
	"grad_norm": 0.57421875,
	"learning_rate": 3.8059946397276854e-06,
	"loss": 1.8834,
	"step": 288
	},
	{
	"epoch": 1.2041666666666666,
	"grad_norm": 0.55078125,
	"learning_rate": 3.7725725642960047e-06,
	"loss": 1.7894,
	"step": 289
	},
	{
	"epoch": 1.2083333333333333,
	"grad_norm": 0.5703125,
	"learning_rate": 3.739208748017647e-06,
	"loss": 1.7415,
	"step": 290
	},
	{
	"epoch": 1.2125,
	"grad_norm": 0.578125,
	"learning_rate": 3.705904774487396e-06,
	"loss": 1.8548,
	"step": 291
	},
	{
	"epoch": 1.2166666666666668,
	"grad_norm": 0.58203125,
	"learning_rate": 3.67266222445964e-06,
	"loss": 1.7485,
	"step": 292
	},
	{
	"epoch": 1.2208333333333332,
	"grad_norm": 0.58203125,
	"learning_rate": 3.639482675773324e-06,
	"loss": 1.9114,
	"step": 293
	},
	{
	"epoch": 1.225,
	"grad_norm": 0.58984375,
	"learning_rate": 3.606367703277085e-06,
	"loss": 1.9863,
	"step": 294
	},
	{
	"epoch": 1.2291666666666667,
	"grad_norm": 0.58203125,
	"learning_rate": 3.573318878754475e-06,
	"loss": 1.7639,
	"step": 295
	},
	{
	"epoch": 1.2333333333333334,
	"grad_norm": 0.5625,
	"learning_rate": 3.5403377708493714e-06,
	"loss": 1.8462,
	"step": 296
	},
	{
	"epoch": 1.2375,
	"grad_norm": 0.62109375,
	"learning_rate": 3.507425944991529e-06,
	"loss": 1.8267,
	"step": 297
	},
	{
	"epoch": 1.2416666666666667,
	"grad_norm": 0.58984375,
	"learning_rate": 3.4745849633222566e-06,
	"loss": 1.7817,
	"step": 298
	},
	{
	"epoch": 1.2458333333333333,
	"grad_norm": 0.5703125,
	"learning_rate": 3.4418163846202945e-06,
	"loss": 1.7313,
	"step": 299
	},
	{
	"epoch": 1.25,
	"grad_norm": 0.6015625,
	"learning_rate": 3.409121764227809e-06,
	"loss": 1.8509,
	"step": 300
	},
	{
	"epoch": 1.25,
	"eval_loss": 2.1645467281341553,
	"eval_runtime": 18.1241,
	"eval_samples_per_second": 136.282,
	"eval_steps_per_second": 34.098,
	"step": 300
	},
	{
	"epoch": 1.2541666666666667,
	"grad_norm": 0.5546875,
	"learning_rate": 3.3765026539765832e-06,
	"loss": 1.7989,
	"step": 301
	},
	{
	"epoch": 1.2583333333333333,
	"grad_norm": 0.6484375,
	"learning_rate": 3.343960602114349e-06,
	"loss": 1.8561,
	"step": 302
	},
	{
	"epoch": 1.2625,
	"grad_norm": 0.54296875,
	"learning_rate": 3.3114971532313058e-06,
	"loss": 1.7549,
	"step": 303
	},
	{
	"epoch": 1.2666666666666666,
	"grad_norm": 0.61328125,
	"learning_rate": 3.2791138481868084e-06,
	"loss": 1.6677,
	"step": 304
	},
	{
	"epoch": 1.2708333333333333,
	"grad_norm": 0.5859375,
	"learning_rate": 3.2468122240362287e-06,
	"loss": 1.8485,
	"step": 305
	},
	{
	"epoch": 1.275,
	"grad_norm": 0.65625,
	"learning_rate": 3.2145938139580015e-06,
	"loss": 1.8814,
	"step": 306
	},
	{
	"epoch": 1.2791666666666668,
	"grad_norm": 0.6015625,
	"learning_rate": 3.1824601471808504e-06,
	"loss": 1.8293,
	"step": 307
	},
	{
	"epoch": 1.2833333333333332,
	"grad_norm": 0.59765625,
	"learning_rate": 3.1504127489112105e-06,
	"loss": 1.8222,
	"step": 308
	},
	{
	"epoch": 1.2875,
	"grad_norm": 0.609375,
	"learning_rate": 3.118453140260823e-06,
	"loss": 1.7468,
	"step": 309
	},
	{
	"epoch": 1.2916666666666667,
	"grad_norm": 0.58984375,
	"learning_rate": 3.0865828381745515e-06,
	"loss": 1.9122,
	"step": 310
	},
	{
	"epoch": 1.2958333333333334,
	"grad_norm": 0.546875,
	"learning_rate": 3.0548033553583707e-06,
	"loss": 1.8286,
	"step": 311
	},
	{
	"epoch": 1.3,
	"grad_norm": 0.57421875,
	"learning_rate": 3.0231162002075678e-06,
	"loss": 1.9661,
	"step": 312
	},
	{
	"epoch": 1.3041666666666667,
	"grad_norm": 0.58203125,
	"learning_rate": 2.991522876735154e-06,
	"loss": 1.9081,
	"step": 313
	},
	{
	"epoch": 1.3083333333333333,
	"grad_norm": 0.58203125,
	"learning_rate": 2.960024884500467e-06,
	"loss": 1.8635,
	"step": 314
	},
	{
	"epoch": 1.3125,
	"grad_norm": 0.5859375,
	"learning_rate": 2.928623718538006e-06,
	"loss": 1.8482,
	"step": 315
	},
	{
	"epoch": 1.3166666666666667,
	"grad_norm": 0.58984375,
	"learning_rate": 2.8973208692864623e-06,
	"loss": 1.8193,
	"step": 316
	},
	{
	"epoch": 1.3208333333333333,
	"grad_norm": 0.5703125,
	"learning_rate": 2.866117822517982e-06,
	"loss": 1.9024,
	"step": 317
	},
	{
	"epoch": 1.325,
	"grad_norm": 0.61328125,
	"learning_rate": 2.8350160592676407e-06,
	"loss": 1.7604,
	"step": 318
	},
	{
	"epoch": 1.3291666666666666,
	"grad_norm": 0.55859375,
	"learning_rate": 2.804017055763149e-06,
	"loss": 1.8478,
	"step": 319
	},
	{
	"epoch": 1.3333333333333333,
	"grad_norm": 0.59765625,
	"learning_rate": 2.7731222833547842e-06,
	"loss": 1.7589,
	"step": 320
	},
	{
	"epoch": 1.3375,
	"grad_norm": 0.60546875,
	"learning_rate": 2.7423332084455543e-06,
	"loss": 1.8474,
	"step": 321
	},
	{
	"epoch": 1.3416666666666668,
	"grad_norm": 0.59375,
	"learning_rate": 2.711651292421593e-06,
	"loss": 1.6013,
	"step": 322
	},
	{
	"epoch": 1.3458333333333332,
	"grad_norm": 0.58984375,
	"learning_rate": 2.681077991582797e-06,
	"loss": 1.8103,
	"step": 323
	},
	{
	"epoch": 1.35,
	"grad_norm": 0.60546875,
	"learning_rate": 2.6506147570737094e-06,
	"loss": 1.7213,
	"step": 324
	},
	{
	"epoch": 1.3541666666666667,
	"grad_norm": 0.6328125,
	"learning_rate": 2.6202630348146323e-06,
	"loss": 1.9982,
	"step": 325
	},
	{
	"epoch": 1.3583333333333334,
	"grad_norm": 0.6171875,
	"learning_rate": 2.590024265433002e-06,
	"loss": 1.8726,
	"step": 326
	},
	{
	"epoch": 1.3625,
	"grad_norm": 0.578125,
	"learning_rate": 2.5598998841950105e-06,
	"loss": 1.8326,
	"step": 327
	},
	{
	"epoch": 1.3666666666666667,
	"grad_norm": 0.55078125,
	"learning_rate": 2.529891320937481e-06,
	"loss": 1.8889,
	"step": 328
	},
	{
	"epoch": 1.3708333333333333,
	"grad_norm": 0.59375,
	"learning_rate": 2.5000000000000015e-06,
	"loss": 1.7805,
	"step": 329
	},
	{
	"epoch": 1.375,
	"grad_norm": 0.5546875,
	"learning_rate": 2.470227340157316e-06,
	"loss": 1.8279,
	"step": 330
	},
	{
	"epoch": 1.375,
	"eval_loss": 2.1639864444732666,
	"eval_runtime": 18.0542,
	"eval_samples_per_second": 136.81,
	"eval_steps_per_second": 34.23,
	"step": 330
	},
	{
	"epoch": 1.3791666666666667,
	"grad_norm": 0.62890625,
	"learning_rate": 2.4405747545519966e-06,
	"loss": 1.7644,
	"step": 331
	},
	{
	"epoch": 1.3833333333333333,
	"grad_norm": 0.62109375,
	"learning_rate": 2.411043650627343e-06,
	"loss": 2.0436,
	"step": 332
	},
	{
	"epoch": 1.3875,
	"grad_norm": 0.60546875,
	"learning_rate": 2.381635430060611e-06,
	"loss": 1.788,
	"step": 333
	},
	{
	"epoch": 1.3916666666666666,
	"grad_norm": 0.55859375,
	"learning_rate": 2.352351488696457e-06,
	"loss": 1.7686,
	"step": 334
	},
	{
	"epoch": 1.3958333333333333,
	"grad_norm": 0.5859375,
	"learning_rate": 2.323193216480698e-06,
	"loss": 1.8554,
	"step": 335
	},
	{
	"epoch": 1.4,
	"grad_norm": 0.57421875,
	"learning_rate": 2.2941619973943363e-06,
	"loss": 1.7455,
	"step": 336
	},
	{
	"epoch": 1.4041666666666668,
	"grad_norm": 0.61328125,
	"learning_rate": 2.265259209387867e-06,
	"loss": 1.8707,
	"step": 337
	},
	{
	"epoch": 1.4083333333333332,
	"grad_norm": 0.56640625,
	"learning_rate": 2.236486224315877e-06,
	"loss": 1.7417,
	"step": 338
	},
	{
	"epoch": 1.4125,
	"grad_norm": 0.5546875,
	"learning_rate": 2.207844407871929e-06,
	"loss": 1.8442,
	"step": 339
	},
	{
	"epoch": 1.4166666666666667,
	"grad_norm": 0.5859375,
	"learning_rate": 2.179335119523745e-06,
	"loss": 1.85,
	"step": 340
	},
	{
	"epoch": 1.4208333333333334,
	"grad_norm": 0.578125,
	"learning_rate": 2.1509597124486693e-06,
	"loss": 1.8422,
	"step": 341
	},
	{
	"epoch": 1.425,
	"grad_norm": 0.5546875,
	"learning_rate": 2.12271953346945e-06,
	"loss": 1.9288,
	"step": 342
	},
	{
	"epoch": 1.4291666666666667,
	"grad_norm": 0.58984375,
	"learning_rate": 2.094615922990309e-06,
	"loss": 1.7285,
	"step": 343
	},
	{
	"epoch": 1.4333333333333333,
	"grad_norm": 0.5390625,
	"learning_rate": 2.0666502149333215e-06,
	"loss": 1.9623,
	"step": 344
	},
	{
	"epoch": 1.4375,
	"grad_norm": 0.578125,
	"learning_rate": 2.0388237366751005e-06,
	"loss": 1.7166,
	"step": 345
	},
	{
	"epoch": 1.4416666666666667,
	"grad_norm": 0.59375,
	"learning_rate": 2.0111378089837958e-06,
	"loss": 1.7423,
	"step": 346
	},
	{
	"epoch": 1.4458333333333333,
	"grad_norm": 0.58984375,
	"learning_rate": 1.9835937459564065e-06,
	"loss": 1.8273,
	"step": 347
	},
	{
	"epoch": 1.45,
	"grad_norm": 0.5625,
	"learning_rate": 1.956192854956397e-06,
	"loss": 1.7475,
	"step": 348
	},
	{
	"epoch": 1.4541666666666666,
	"grad_norm": 0.61328125,
	"learning_rate": 1.928936436551661e-06,
	"loss": 1.8202,
	"step": 349
	},
	{
	"epoch": 1.4583333333333333,
	"grad_norm": 0.578125,
	"learning_rate": 1.901825784452777e-06,
	"loss": 1.8016,
	"step": 350
	},
	{
	"epoch": 1.4625,
	"grad_norm": 0.58203125,
	"learning_rate": 1.874862185451608e-06,
	"loss": 1.8716,
	"step": 351
	},
	{
	"epoch": 1.4666666666666668,
	"grad_norm": 0.55859375,
	"learning_rate": 1.848046919360225e-06,
	"loss": 1.993,
	"step": 352
	},
	{
	"epoch": 1.4708333333333332,
	"grad_norm": 0.54296875,
	"learning_rate": 1.8213812589501611e-06,
	"loss": 1.8034,
	"step": 353
	},
	{
	"epoch": 1.475,
	"grad_norm": 0.546875,
	"learning_rate": 1.7948664698919987e-06,
	"loss": 1.8488,
	"step": 354
	},
	{
	"epoch": 1.4791666666666667,
	"grad_norm": 0.57421875,
	"learning_rate": 1.7685038106952952e-06,
	"loss": 1.8102,
	"step": 355
	},
	{
	"epoch": 1.4833333333333334,
	"grad_norm": 0.609375,
	"learning_rate": 1.7422945326488555e-06,
	"loss": 1.8314,
	"step": 356
	},
	{
	"epoch": 1.4875,
	"grad_norm": 0.5859375,
	"learning_rate": 1.7162398797613284e-06,
	"loss": 1.7928,
	"step": 357
	},
	{
	"epoch": 1.4916666666666667,
	"grad_norm": 0.58203125,
	"learning_rate": 1.6903410887021676e-06,
	"loss": 1.6721,
	"step": 358
	},
	{
	"epoch": 1.4958333333333333,
	"grad_norm": 0.5859375,
	"learning_rate": 1.6645993887429345e-06,
	"loss": 1.8866,
	"step": 359
	},
	{
	"epoch": 1.5,
	"grad_norm": 0.58984375,
	"learning_rate": 1.6390160016989487e-06,
	"loss": 1.8271,
	"step": 360
	},
	{
	"epoch": 1.5,
	"eval_loss": 2.1637861728668213,
	"eval_runtime": 18.1479,
	"eval_samples_per_second": 136.104,
	"eval_steps_per_second": 34.054,
	"step": 360
	},
	{
	"epoch": 1.5041666666666667,
	"grad_norm": 0.5859375,
	"learning_rate": 1.6135921418712959e-06,
	"loss": 1.9767,
	"step": 361
	},
	{
	"epoch": 1.5083333333333333,
	"grad_norm": 0.5859375,
	"learning_rate": 1.5883290159891907e-06,
	"loss": 2.0329,
	"step": 362
	},
	{
	"epoch": 1.5125,
	"grad_norm": 0.5625,
	"learning_rate": 1.5632278231527081e-06,
	"loss": 1.8797,
	"step": 363
	},
	{
	"epoch": 1.5166666666666666,
	"grad_norm": 0.59375,
	"learning_rate": 1.5382897547758513e-06,
	"loss": 1.9346,
	"step": 364
	},
	{
	"epoch": 1.5208333333333335,
	"grad_norm": 0.57421875,
	"learning_rate": 1.5135159945300232e-06,
	"loss": 1.8074,
	"step": 365
	},
	{
	"epoch": 1.525,
	"grad_norm": 0.56640625,
	"learning_rate": 1.488907718287827e-06,
	"loss": 1.803,
	"step": 366
	},
	{
	"epoch": 1.5291666666666668,
	"grad_norm": 0.6328125,
	"learning_rate": 1.4644660940672628e-06,
	"loss": 1.9276,
	"step": 367
	},
	{
	"epoch": 1.5333333333333332,
	"grad_norm": 0.6328125,
	"learning_rate": 1.4401922819762864e-06,
	"loss": 2.0393,
	"step": 368
	},
	{
	"epoch": 1.5375,
	"grad_norm": 0.5625,
	"learning_rate": 1.4160874341577447e-06,
	"loss": 1.9262,
	"step": 369
	},
	{
	"epoch": 1.5416666666666665,
	"grad_norm": 0.57421875,
	"learning_rate": 1.3921526947346902e-06,
	"loss": 1.7655,
	"step": 370
	},
	{
	"epoch": 1.5458333333333334,
	"grad_norm": 0.5625,
	"learning_rate": 1.368389199756075e-06,
	"loss": 1.8659,
	"step": 371
	},
	{
	"epoch": 1.55,
	"grad_norm": 0.58984375,
	"learning_rate": 1.344798077142836e-06,
	"loss": 1.5983,
	"step": 372
	},
	{
	"epoch": 1.5541666666666667,
	"grad_norm": 0.57421875,
	"learning_rate": 1.321380446634342e-06,
	"loss": 1.8249,
	"step": 373
	},
	{
	"epoch": 1.5583333333333333,
	"grad_norm": 0.5546875,
	"learning_rate": 1.2981374197352663e-06,
	"loss": 1.8636,
	"step": 374
	},
	{
	"epoch": 1.5625,
	"grad_norm": 0.54296875,
	"learning_rate": 1.275070099662815e-06,
	"loss": 1.715,
	"step": 375
	},
	{
	"epoch": 1.5666666666666667,
	"grad_norm": 0.5546875,
	"learning_rate": 1.2521795812943704e-06,
	"loss": 1.7953,
	"step": 376
	},
	{
	"epoch": 1.5708333333333333,
	"grad_norm": 0.5625,
	"learning_rate": 1.2294669511155193e-06,
	"loss": 1.8684,
	"step": 377
	},
	{
	"epoch": 1.575,
	"grad_norm": 0.58984375,
	"learning_rate": 1.2069332871684875e-06,
	"loss": 1.8129,
	"step": 378
	},
	{
	"epoch": 1.5791666666666666,
	"grad_norm": 0.53515625,
	"learning_rate": 1.1845796590009684e-06,
	"loss": 1.7611,
	"step": 379
	},
	{
	"epoch": 1.5833333333333335,
	"grad_norm": 0.578125,
	"learning_rate": 1.162407127615357e-06,
	"loss": 1.7914,
	"step": 380
	},
	{
	"epoch": 1.5875,
	"grad_norm": 0.578125,
	"learning_rate": 1.1404167454183957e-06,
	"loss": 1.8212,
	"step": 381
	},
	{
	"epoch": 1.5916666666666668,
	"grad_norm": 0.5859375,
	"learning_rate": 1.118609556171213e-06,
	"loss": 1.6886,
	"step": 382
	},
	{
	"epoch": 1.5958333333333332,
	"grad_norm": 0.58984375,
	"learning_rate": 1.0969865949397902e-06,
	"loss": 1.9198,
	"step": 383
	},
	{
	"epoch": 1.6,
	"grad_norm": 0.59765625,
	"learning_rate": 1.075548888045827e-06,
	"loss": 1.7551,
	"step": 384
	},
	{
	"epoch": 1.6041666666666665,
	"grad_norm": 0.58203125,
	"learning_rate": 1.0542974530180327e-06,
	"loss": 1.8298,
	"step": 385
	},
	{
	"epoch": 1.6083333333333334,
	"grad_norm": 0.55859375,
	"learning_rate": 1.0332332985438248e-06,
	"loss": 1.8998,
	"step": 386
	},
	{
	"epoch": 1.6125,
	"grad_norm": 0.63671875,
	"learning_rate": 1.0123574244214552e-06,
	"loss": 1.7982,
	"step": 387
	},
	{
	"epoch": 1.6166666666666667,
	"grad_norm": 0.5703125,
	"learning_rate": 9.916708215125586e-07,
	"loss": 1.76,
	"step": 388
	},
	{
	"epoch": 1.6208333333333333,
	"grad_norm": 0.56640625,
	"learning_rate": 9.711744716951093e-07,
	"loss": 1.9085,
	"step": 389
	},
	{
	"epoch": 1.625,
	"grad_norm": 0.6015625,
	"learning_rate": 9.508693478168346e-07,
	"loss": 1.8589,
	"step": 390
	},
	{
	"epoch": 1.625,
	"eval_loss": 2.163708448410034,
	"eval_runtime": 19.4818,
	"eval_samples_per_second": 126.785,
	"eval_steps_per_second": 31.722,
	"step": 390
	},
	{
	"epoch": 1.6291666666666667,
	"grad_norm": 0.578125,
	"learning_rate": 9.307564136490255e-07,
	"loss": 1.9411,
	"step": 391
	},
	{
	"epoch": 1.6333333333333333,
	"grad_norm": 0.56640625,
	"learning_rate": 9.108366238407968e-07,
	"loss": 1.8833,
	"step": 392
	},
	{
	"epoch": 1.6375,
	"grad_norm": 0.578125,
	"learning_rate": 8.911109238737748e-07,
	"loss": 1.8408,
	"step": 393
	},
	{
	"epoch": 1.6416666666666666,
	"grad_norm": 0.5390625,
	"learning_rate": 8.715802500172215e-07,
	"loss": 1.824,
	"step": 394
	},
	{
	"epoch": 1.6458333333333335,
	"grad_norm": 0.60546875,
	"learning_rate": 8.522455292835935e-07,
	"loss": 1.8194,
	"step": 395
	},
	{
	"epoch": 1.65,
	"grad_norm": 0.6171875,
	"learning_rate": 8.331076793845422e-07,
	"loss": 1.7927,
	"step": 396
	},
	{
	"epoch": 1.6541666666666668,
	"grad_norm": 0.54296875,
	"learning_rate": 8.141676086873574e-07,
	"loss": 1.7387,
	"step": 397
	},
	{
	"epoch": 1.6583333333333332,
	"grad_norm": 0.58984375,
	"learning_rate": 7.954262161718479e-07,
	"loss": 1.7165,
	"step": 398
	},
	{
	"epoch": 1.6625,
	"grad_norm": 0.54296875,
	"learning_rate": 7.768843913876756e-07,
	"loss": 1.7462,
	"step": 399
	},
	{
	"epoch": 1.6666666666666665,
	"grad_norm": 0.55078125,
	"learning_rate": 7.585430144121319e-07,
	"loss": 1.797,
	"step": 400
	},
	{
	"epoch": 1.6708333333333334,
	"grad_norm": 0.58984375,
	"learning_rate": 7.404029558083653e-07,
	"loss": 1.8779,
	"step": 401
	},
	{
	"epoch": 1.675,
	"grad_norm": 0.5546875,
	"learning_rate": 7.224650765840613e-07,
	"loss": 1.6523,
	"step": 402
	},
	{
	"epoch": 1.6791666666666667,
	"grad_norm": 0.5390625,
	"learning_rate": 7.047302281505735e-07,
	"loss": 1.7236,
	"step": 403
	},
	{
	"epoch": 1.6833333333333333,
	"grad_norm": 0.58984375,
	"learning_rate": 6.871992522825183e-07,
	"loss": 1.852,
	"step": 404
	},
	{
	"epoch": 1.6875,
	"grad_norm": 0.578125,
	"learning_rate": 6.698729810778065e-07,
	"loss": 1.9569,
	"step": 405
	},
	{
	"epoch": 1.6916666666666667,
	"grad_norm": 0.56640625,
	"learning_rate": 6.527522369181655e-07,
	"loss": 1.9017,
	"step": 406
	},
	{
	"epoch": 1.6958333333333333,
	"grad_norm": 0.58203125,
	"learning_rate": 6.358378324300929e-07,
	"loss": 1.8755,
	"step": 407
	},
	{
	"epoch": 1.7,
	"grad_norm": 0.5703125,
	"learning_rate": 6.191305704462897e-07,
	"loss": 1.9226,
	"step": 408
	},
	{
	"epoch": 1.7041666666666666,
	"grad_norm": 0.578125,
	"learning_rate": 6.026312439675553e-07,
	"loss": 1.8452,
	"step": 409
	},
	{
	"epoch": 1.7083333333333335,
	"grad_norm": 0.578125,
	"learning_rate": 5.863406361251472e-07,
	"loss": 1.7341,
	"step": 410
	},
	{
	"epoch": 1.7125,
	"grad_norm": 0.57421875,
	"learning_rate": 5.702595201436101e-07,
	"loss": 1.8604,
	"step": 411
	},
	{
	"epoch": 1.7166666666666668,
	"grad_norm": 0.5625,
	"learning_rate": 5.543886593040737e-07,
	"loss": 1.8427,
	"step": 412
	},
	{
	"epoch": 1.7208333333333332,
	"grad_norm": 0.57421875,
	"learning_rate": 5.387288069080298e-07,
	"loss": 1.9351,
	"step": 413
	},
	{
	"epoch": 1.725,
	"grad_norm": 0.59765625,
	"learning_rate": 5.232807062415691e-07,
	"loss": 1.6671,
	"step": 414
	},
	{
	"epoch": 1.7291666666666665,
	"grad_norm": 0.57421875,
	"learning_rate": 5.080450905401057e-07,
	"loss": 1.7277,
	"step": 415
	},
	{
	"epoch": 1.7333333333333334,
	"grad_norm": 0.57421875,
	"learning_rate": 4.930226829535767e-07,
	"loss": 1.8047,
	"step": 416
	},
	{
	"epoch": 1.7375,
	"grad_norm": 0.578125,
	"learning_rate": 4.782141965121129e-07,
	"loss": 1.8396,
	"step": 417
	},
	{
	"epoch": 1.7416666666666667,
	"grad_norm": 0.58203125,
	"learning_rate": 4.6362033409220077e-07,
	"loss": 1.7794,
	"step": 418
	},
	{
	"epoch": 1.7458333333333333,
	"grad_norm": 0.5859375,
	"learning_rate": 4.4924178838331554e-07,
	"loss": 2.088,
	"step": 419
	},
	{
	"epoch": 1.75,
	"grad_norm": 0.6328125,
	"learning_rate": 4.350792418550509e-07,
	"loss": 1.9824,
	"step": 420
	},
	{
	"epoch": 1.75,
	"eval_loss": 2.1637122631073,
	"eval_runtime": 18.0757,
	"eval_samples_per_second": 136.648,
	"eval_steps_per_second": 34.19,
	"step": 420
	},
	{
	"epoch": 1.7541666666666667,
	"grad_norm": 0.55078125,
	"learning_rate": 4.211333667247125e-07,
	"loss": 1.7158,
	"step": 421
	},
	{
	"epoch": 1.7583333333333333,
	"grad_norm": 0.625,
	"learning_rate": 4.0740482492542864e-07,
	"loss": 1.8371,
	"step": 422
	},
	{
	"epoch": 1.7625,
	"grad_norm": 0.61328125,
	"learning_rate": 3.9389426807471764e-07,
	"loss": 1.9022,
	"step": 423
	},
	{
	"epoch": 1.7666666666666666,
	"grad_norm": 0.5625,
	"learning_rate": 3.8060233744356634e-07,
	"loss": 1.7749,
	"step": 424
	},
	{
	"epoch": 1.7708333333333335,
	"grad_norm": 0.55859375,
	"learning_rate": 3.675296639259912e-07,
	"loss": 1.8189,
	"step": 425
	},
	{
	"epoch": 1.775,
	"grad_norm": 0.59765625,
	"learning_rate": 3.546768680090934e-07,
	"loss": 1.9032,
	"step": 426
	},
	{
	"epoch": 1.7791666666666668,
	"grad_norm": 0.5546875,
	"learning_rate": 3.420445597436056e-07,
	"loss": 1.8965,
	"step": 427
	},
	{
	"epoch": 1.7833333333333332,
	"grad_norm": 0.62109375,
	"learning_rate": 3.2963333871493917e-07,
	"loss": 1.7836,
	"step": 428
	},
	{
	"epoch": 1.7875,
	"grad_norm": 0.55859375,
	"learning_rate": 3.174437940147268e-07,
	"loss": 1.7164,
	"step": 429
	},
	{
	"epoch": 1.7916666666666665,
	"grad_norm": 0.53515625,
	"learning_rate": 3.0547650421285216e-07,
	"loss": 1.6448,
	"step": 430
	},
	{
	"epoch": 1.7958333333333334,
	"grad_norm": 0.5859375,
	"learning_rate": 2.9373203733000234e-07,
	"loss": 1.8398,
	"step": 431
	},
	{
	"epoch": 1.8,
	"grad_norm": 0.5703125,
	"learning_rate": 2.8221095081069517e-07,
	"loss": 1.9501,
	"step": 432
	},
	{
	"epoch": 1.8041666666666667,
	"grad_norm": 0.58984375,
	"learning_rate": 2.7091379149682683e-07,
	"loss": 1.8656,
	"step": 433
	},
	{
	"epoch": 1.8083333333333333,
	"grad_norm": 0.625,
	"learning_rate": 2.5984109560171387e-07,
	"loss": 1.8771,
	"step": 434
	},
	{
	"epoch": 1.8125,
	"grad_norm": 0.59375,
	"learning_rate": 2.4899338868464404e-07,
	"loss": 1.8811,
	"step": 435
	},
	{
	"epoch": 1.8166666666666667,
	"grad_norm": 0.578125,
	"learning_rate": 2.3837118562592799e-07,
	"loss": 1.7978,
	"step": 436
	},
	{
	"epoch": 1.8208333333333333,
	"grad_norm": 0.5859375,
	"learning_rate": 2.2797499060246253e-07,
	"loss": 1.8968,
	"step": 437
	},
	{
	"epoch": 1.825,
	"grad_norm": 0.62109375,
	"learning_rate": 2.1780529706380337e-07,
	"loss": 1.9792,
	"step": 438
	},
	{
	"epoch": 1.8291666666666666,
	"grad_norm": 0.609375,
	"learning_rate": 2.0786258770873647e-07,
	"loss": 1.8722,
	"step": 439
	},
	{
	"epoch": 1.8333333333333335,
	"grad_norm": 0.55859375,
	"learning_rate": 1.9814733446237356e-07,
	"loss": 1.913,
	"step": 440
	},
	{
	"epoch": 1.8375,
	"grad_norm": 0.6015625,
	"learning_rate": 1.8865999845374794e-07,
	"loss": 1.7703,
	"step": 441
	},
	{
	"epoch": 1.8416666666666668,
	"grad_norm": 0.546875,
	"learning_rate": 1.7940102999393194e-07,
	"loss": 1.8243,
	"step": 442
	},
	{
	"epoch": 1.8458333333333332,
	"grad_norm": 0.59765625,
	"learning_rate": 1.7037086855465902e-07,
	"loss": 1.9066,
	"step": 443
	},
	{
	"epoch": 1.85,
	"grad_norm": 0.55859375,
	"learning_rate": 1.6156994274746484e-07,
	"loss": 1.8047,
	"step": 444
	},
	{
	"epoch": 1.8541666666666665,
	"grad_norm": 0.60546875,
	"learning_rate": 1.5299867030334815e-07,
	"loss": 1.7898,
	"step": 445
	},
	{
	"epoch": 1.8583333333333334,
	"grad_norm": 0.61328125,
	"learning_rate": 1.4465745805293584e-07,
	"loss": 1.9064,
	"step": 446
	},
	{
	"epoch": 1.8625,
	"grad_norm": 0.5703125,
	"learning_rate": 1.3654670190718035e-07,
	"loss": 1.8308,
	"step": 447
	},
	{
	"epoch": 1.8666666666666667,
	"grad_norm": 0.5703125,
	"learning_rate": 1.286667868385627e-07,
	"loss": 1.8555,
	"step": 448
	},
	{
	"epoch": 1.8708333333333333,
	"grad_norm": 0.625,
	"learning_rate": 1.210180868628219e-07,
	"loss": 2.025,
	"step": 449
	},
	{
	"epoch": 1.875,
	"grad_norm": 0.63671875,
	"learning_rate": 1.1360096502120387e-07,
	"loss": 1.8668,
	"step": 450
	},
	{
	"epoch": 1.875,
	"eval_loss": 2.1636900901794434,
	"eval_runtime": 18.0442,
	"eval_samples_per_second": 136.886,
	"eval_steps_per_second": 34.249,
	"step": 450
	},
	{
	"epoch": 1.8791666666666667,
	"grad_norm": 0.5703125,
	"learning_rate": 1.0641577336322761e-07,
	"loss": 1.7653,
	"step": 451
	},
	{
	"epoch": 1.8833333333333333,
	"grad_norm": 0.5703125,
	"learning_rate": 9.946285292997681e-08,
	"loss": 1.8271,
	"step": 452
	},
	{
	"epoch": 1.8875,
	"grad_norm": 0.55078125,
	"learning_rate": 9.274253373791064e-08,
	"loss": 1.6874,
	"step": 453
	},
	{
	"epoch": 1.8916666666666666,
	"grad_norm": 0.58203125,
	"learning_rate": 8.625513476320291e-08,
	"loss": 1.8769,
	"step": 454
	},
	{
	"epoch": 1.8958333333333335,
	"grad_norm": 0.59765625,
	"learning_rate": 8.000096392660029e-08,
	"loss": 1.9365,
	"step": 455
	},
	{
	"epoch": 1.9,
	"grad_norm": 0.57421875,
	"learning_rate": 7.398031807880456e-08,
	"loss": 1.9398,
	"step": 456
	},
	{
	"epoch": 1.9041666666666668,
	"grad_norm": 0.57421875,
	"learning_rate": 6.819348298638839e-08,
	"loss": 1.8274,
	"step": 457
	},
	{
	"epoch": 1.9083333333333332,
	"grad_norm": 0.57421875,
	"learning_rate": 6.264073331822551e-08,
	"loss": 1.9641,
	"step": 458
	},
	{
	"epoch": 1.9125,
	"grad_norm": 0.58203125,
	"learning_rate": 5.7322332632458454e-08,
	"loss": 1.9163,
	"step": 459
	},
	{
	"epoch": 1.9166666666666665,
	"grad_norm": 0.55859375,
	"learning_rate": 5.223853336398632e-08,
	"loss": 1.8069,
	"step": 460
	},
	{
	"epoch": 1.9208333333333334,
	"grad_norm": 0.58203125,
	"learning_rate": 4.73895768124838e-08,
	"loss": 1.8481,
	"step": 461
	},
	{
	"epoch": 1.925,
	"grad_norm": 0.578125,
	"learning_rate": 4.2775693130948094e-08,
	"loss": 1.7157,
	"step": 462
	},
	{
	"epoch": 1.9291666666666667,
	"grad_norm": 0.60546875,
	"learning_rate": 3.839710131477492e-08,
	"loss": 1.9448,
	"step": 463
	},
	{
	"epoch": 1.9333333333333333,
	"grad_norm": 0.57421875,
	"learning_rate": 3.425400919136346e-08,
	"loss": 1.8642,
	"step": 464
	},
	{
	"epoch": 1.9375,
	"grad_norm": 0.546875,
	"learning_rate": 3.034661341025258e-08,
	"loss": 1.7063,
	"step": 465
	},
	{
	"epoch": 1.9416666666666667,
	"grad_norm": 0.5625,
	"learning_rate": 2.6675099433787212e-08,
	"loss": 1.8679,
	"step": 466
	},
	{
	"epoch": 1.9458333333333333,
	"grad_norm": 0.58984375,
	"learning_rate": 2.323964152831426e-08,
	"loss": 1.8071,
	"step": 467
	},
	{
	"epoch": 1.95,
	"grad_norm": 0.61328125,
	"learning_rate": 2.0040402755912013e-08,
	"loss": 1.8973,
	"step": 468
	},
	{
	"epoch": 1.9541666666666666,
	"grad_norm": 0.61328125,
	"learning_rate": 1.7077534966650767e-08,
	"loss": 1.8514,
	"step": 469
	},
	{
	"epoch": 1.9583333333333335,
	"grad_norm": 0.58203125,
	"learning_rate": 1.4351178791384702e-08,
	"loss": 1.9469,
	"step": 470
	},
	{
	"epoch": 1.9625,
	"grad_norm": 0.5625,
	"learning_rate": 1.1861463635077785e-08,
	"loss": 1.8502,
	"step": 471
	},
	{
	"epoch": 1.9666666666666668,
	"grad_norm": 0.56640625,
	"learning_rate": 9.608507670659239e-09,
	"loss": 1.8646,
	"step": 472
	},
	{
	"epoch": 1.9708333333333332,
	"grad_norm": 0.53515625,
	"learning_rate": 7.59241783341913e-09,
	"loss": 1.7634,
	"step": 473
	},
	{
	"epoch": 1.975,
	"grad_norm": 0.578125,
	"learning_rate": 5.8132898159268815e-09,
	"loss": 1.8671,
	"step": 474
	},
	{
	"epoch": 1.9791666666666665,
	"grad_norm": 0.58984375,
	"learning_rate": 4.2712080634949024e-09,
	"loss": 1.6967,
	"step": 475
	},
	{
	"epoch": 1.9833333333333334,
	"grad_norm": 0.578125,
	"learning_rate": 2.9662457701662428e-09,
	"loss": 1.7744,
	"step": 476
	},
	{
	"epoch": 1.9875,
	"grad_norm": 0.58203125,
	"learning_rate": 1.8984648752429222e-09,
	"loss": 1.9288,
	"step": 477
	},
	{
	"epoch": 1.9916666666666667,
	"grad_norm": 0.5625,
	"learning_rate": 1.0679160603449533e-09,
	"loss": 1.768,
	"step": 478
	},
	{
	"epoch": 1.9958333333333333,
	"grad_norm": 0.59765625,
	"learning_rate": 4.746387470044855e-10,
	"loss": 1.9382,
	"step": 479
	},
	{
	"epoch": 2.0,
	"grad_norm": 0.578125,
	"learning_rate": 1.1866109479674593e-10,
	"loss": 2.0332,
	"step": 480
	},
	{
	"epoch": 2.0,
	"eval_loss": 2.1636929512023926,
	"eval_runtime": 18.1368,
	"eval_samples_per_second": 136.187,
	"eval_steps_per_second": 34.074,
	"step": 480
	}
	],
	"logging_steps": 1,
	"max_steps": 480,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 2,
	"save_steps": 240,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 3.0147732660289536e+18,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}