HoldMy4B / checkpoint-480 /trainer_state.json
hardlyworking's picture
Training in progress, step 480, checkpoint
35295ec verified
{
"best_global_step": null,
"best_metric": null,
"best_model_checkpoint": null,
"epoch": 2.0,
"eval_steps": 30,
"global_step": 480,
"is_hyper_param_search": false,
"is_local_process_zero": true,
"is_world_process_zero": true,
"log_history": [
{
"epoch": 0,
"eval_loss": 2.642014741897583,
"eval_runtime": 20.9906,
"eval_samples_per_second": 117.672,
"eval_steps_per_second": 29.442,
"step": 0
},
{
"epoch": 0.004166666666666667,
"grad_norm": 7.6875,
"learning_rate": 0.0,
"loss": 2.2679,
"step": 1
},
{
"epoch": 0.008333333333333333,
"grad_norm": 7.3125,
"learning_rate": 4.1666666666666667e-07,
"loss": 2.0764,
"step": 2
},
{
"epoch": 0.0125,
"grad_norm": 7.9375,
"learning_rate": 8.333333333333333e-07,
"loss": 2.2987,
"step": 3
},
{
"epoch": 0.016666666666666666,
"grad_norm": 7.5,
"learning_rate": 1.25e-06,
"loss": 2.1665,
"step": 4
},
{
"epoch": 0.020833333333333332,
"grad_norm": 7.90625,
"learning_rate": 1.6666666666666667e-06,
"loss": 2.2858,
"step": 5
},
{
"epoch": 0.025,
"grad_norm": 7.5625,
"learning_rate": 2.0833333333333334e-06,
"loss": 2.1824,
"step": 6
},
{
"epoch": 0.029166666666666667,
"grad_norm": 7.71875,
"learning_rate": 2.5e-06,
"loss": 2.1229,
"step": 7
},
{
"epoch": 0.03333333333333333,
"grad_norm": 7.3125,
"learning_rate": 2.916666666666667e-06,
"loss": 2.1932,
"step": 8
},
{
"epoch": 0.0375,
"grad_norm": 6.59375,
"learning_rate": 3.3333333333333333e-06,
"loss": 2.0353,
"step": 9
},
{
"epoch": 0.041666666666666664,
"grad_norm": 6.65625,
"learning_rate": 3.7500000000000005e-06,
"loss": 2.0662,
"step": 10
},
{
"epoch": 0.04583333333333333,
"grad_norm": 5.84375,
"learning_rate": 4.166666666666667e-06,
"loss": 2.0314,
"step": 11
},
{
"epoch": 0.05,
"grad_norm": 5.71875,
"learning_rate": 4.583333333333333e-06,
"loss": 1.9706,
"step": 12
},
{
"epoch": 0.05416666666666667,
"grad_norm": 5.3125,
"learning_rate": 5e-06,
"loss": 2.1048,
"step": 13
},
{
"epoch": 0.058333333333333334,
"grad_norm": 5.0,
"learning_rate": 5.416666666666667e-06,
"loss": 2.0047,
"step": 14
},
{
"epoch": 0.0625,
"grad_norm": 4.1875,
"learning_rate": 5.833333333333334e-06,
"loss": 2.2391,
"step": 15
},
{
"epoch": 0.06666666666666667,
"grad_norm": 3.59375,
"learning_rate": 6.25e-06,
"loss": 1.8211,
"step": 16
},
{
"epoch": 0.07083333333333333,
"grad_norm": 3.0,
"learning_rate": 6.666666666666667e-06,
"loss": 1.9592,
"step": 17
},
{
"epoch": 0.075,
"grad_norm": 2.421875,
"learning_rate": 7.083333333333335e-06,
"loss": 2.0998,
"step": 18
},
{
"epoch": 0.07916666666666666,
"grad_norm": 2.046875,
"learning_rate": 7.500000000000001e-06,
"loss": 2.0714,
"step": 19
},
{
"epoch": 0.08333333333333333,
"grad_norm": 1.4609375,
"learning_rate": 7.916666666666667e-06,
"loss": 1.8589,
"step": 20
},
{
"epoch": 0.0875,
"grad_norm": 1.5234375,
"learning_rate": 8.333333333333334e-06,
"loss": 1.8568,
"step": 21
},
{
"epoch": 0.09166666666666666,
"grad_norm": 1.46875,
"learning_rate": 8.750000000000001e-06,
"loss": 1.9781,
"step": 22
},
{
"epoch": 0.09583333333333334,
"grad_norm": 1.4375,
"learning_rate": 9.166666666666666e-06,
"loss": 1.9,
"step": 23
},
{
"epoch": 0.1,
"grad_norm": 1.3671875,
"learning_rate": 9.583333333333335e-06,
"loss": 2.0628,
"step": 24
},
{
"epoch": 0.10416666666666667,
"grad_norm": 1.484375,
"learning_rate": 1e-05,
"loss": 1.7862,
"step": 25
},
{
"epoch": 0.10833333333333334,
"grad_norm": 1.3046875,
"learning_rate": 9.999881338905204e-06,
"loss": 1.8664,
"step": 26
},
{
"epoch": 0.1125,
"grad_norm": 1.125,
"learning_rate": 9.999525361252996e-06,
"loss": 2.1209,
"step": 27
},
{
"epoch": 0.11666666666666667,
"grad_norm": 1.1484375,
"learning_rate": 9.998932083939657e-06,
"loss": 1.8622,
"step": 28
},
{
"epoch": 0.12083333333333333,
"grad_norm": 0.9765625,
"learning_rate": 9.998101535124758e-06,
"loss": 1.9644,
"step": 29
},
{
"epoch": 0.125,
"grad_norm": 0.89453125,
"learning_rate": 9.997033754229835e-06,
"loss": 2.0119,
"step": 30
},
{
"epoch": 0.125,
"eval_loss": 2.210519313812256,
"eval_runtime": 18.6736,
"eval_samples_per_second": 132.272,
"eval_steps_per_second": 33.095,
"step": 30
},
{
"epoch": 0.12916666666666668,
"grad_norm": 1.015625,
"learning_rate": 9.995728791936505e-06,
"loss": 1.837,
"step": 31
},
{
"epoch": 0.13333333333333333,
"grad_norm": 0.859375,
"learning_rate": 9.994186710184073e-06,
"loss": 1.8761,
"step": 32
},
{
"epoch": 0.1375,
"grad_norm": 0.9375,
"learning_rate": 9.992407582166582e-06,
"loss": 1.9664,
"step": 33
},
{
"epoch": 0.14166666666666666,
"grad_norm": 0.93359375,
"learning_rate": 9.990391492329341e-06,
"loss": 1.9572,
"step": 34
},
{
"epoch": 0.14583333333333334,
"grad_norm": 0.8828125,
"learning_rate": 9.988138536364922e-06,
"loss": 1.8877,
"step": 35
},
{
"epoch": 0.15,
"grad_norm": 0.7265625,
"learning_rate": 9.985648821208616e-06,
"loss": 1.7866,
"step": 36
},
{
"epoch": 0.15416666666666667,
"grad_norm": 0.86328125,
"learning_rate": 9.98292246503335e-06,
"loss": 1.9915,
"step": 37
},
{
"epoch": 0.15833333333333333,
"grad_norm": 0.69921875,
"learning_rate": 9.979959597244089e-06,
"loss": 1.8569,
"step": 38
},
{
"epoch": 0.1625,
"grad_norm": 0.71484375,
"learning_rate": 9.976760358471687e-06,
"loss": 1.8634,
"step": 39
},
{
"epoch": 0.16666666666666666,
"grad_norm": 0.80859375,
"learning_rate": 9.973324900566214e-06,
"loss": 1.7219,
"step": 40
},
{
"epoch": 0.17083333333333334,
"grad_norm": 0.78515625,
"learning_rate": 9.969653386589749e-06,
"loss": 1.8311,
"step": 41
},
{
"epoch": 0.175,
"grad_norm": 0.71875,
"learning_rate": 9.965745990808638e-06,
"loss": 1.8661,
"step": 42
},
{
"epoch": 0.17916666666666667,
"grad_norm": 0.734375,
"learning_rate": 9.961602898685225e-06,
"loss": 1.7509,
"step": 43
},
{
"epoch": 0.18333333333333332,
"grad_norm": 0.73046875,
"learning_rate": 9.957224306869053e-06,
"loss": 1.8696,
"step": 44
},
{
"epoch": 0.1875,
"grad_norm": 0.671875,
"learning_rate": 9.952610423187516e-06,
"loss": 1.9372,
"step": 45
},
{
"epoch": 0.19166666666666668,
"grad_norm": 0.640625,
"learning_rate": 9.947761466636014e-06,
"loss": 1.8945,
"step": 46
},
{
"epoch": 0.19583333333333333,
"grad_norm": 0.66015625,
"learning_rate": 9.942677667367541e-06,
"loss": 1.8202,
"step": 47
},
{
"epoch": 0.2,
"grad_norm": 0.73046875,
"learning_rate": 9.937359266681774e-06,
"loss": 1.9365,
"step": 48
},
{
"epoch": 0.20416666666666666,
"grad_norm": 0.64453125,
"learning_rate": 9.931806517013612e-06,
"loss": 1.8413,
"step": 49
},
{
"epoch": 0.20833333333333334,
"grad_norm": 0.640625,
"learning_rate": 9.926019681921196e-06,
"loss": 1.7936,
"step": 50
},
{
"epoch": 0.2125,
"grad_norm": 0.65625,
"learning_rate": 9.9199990360734e-06,
"loss": 1.9076,
"step": 51
},
{
"epoch": 0.21666666666666667,
"grad_norm": 0.66796875,
"learning_rate": 9.913744865236798e-06,
"loss": 1.8004,
"step": 52
},
{
"epoch": 0.22083333333333333,
"grad_norm": 0.67578125,
"learning_rate": 9.90725746626209e-06,
"loss": 1.9583,
"step": 53
},
{
"epoch": 0.225,
"grad_norm": 0.66796875,
"learning_rate": 9.900537147070025e-06,
"loss": 2.0294,
"step": 54
},
{
"epoch": 0.22916666666666666,
"grad_norm": 0.66796875,
"learning_rate": 9.893584226636773e-06,
"loss": 1.8147,
"step": 55
},
{
"epoch": 0.23333333333333334,
"grad_norm": 0.6171875,
"learning_rate": 9.886399034978798e-06,
"loss": 1.8956,
"step": 56
},
{
"epoch": 0.2375,
"grad_norm": 0.69140625,
"learning_rate": 9.878981913137178e-06,
"loss": 1.87,
"step": 57
},
{
"epoch": 0.24166666666666667,
"grad_norm": 0.62109375,
"learning_rate": 9.871333213161438e-06,
"loss": 1.8292,
"step": 58
},
{
"epoch": 0.24583333333333332,
"grad_norm": 0.609375,
"learning_rate": 9.86345329809282e-06,
"loss": 1.7773,
"step": 59
},
{
"epoch": 0.25,
"grad_norm": 0.62890625,
"learning_rate": 9.855342541947065e-06,
"loss": 1.8963,
"step": 60
},
{
"epoch": 0.25,
"eval_loss": 2.1865341663360596,
"eval_runtime": 18.0999,
"eval_samples_per_second": 136.465,
"eval_steps_per_second": 34.144,
"step": 60
},
{
"epoch": 0.25416666666666665,
"grad_norm": 0.58984375,
"learning_rate": 9.847001329696653e-06,
"loss": 1.8404,
"step": 61
},
{
"epoch": 0.25833333333333336,
"grad_norm": 0.6953125,
"learning_rate": 9.838430057252537e-06,
"loss": 1.9001,
"step": 62
},
{
"epoch": 0.2625,
"grad_norm": 0.57421875,
"learning_rate": 9.829629131445342e-06,
"loss": 1.799,
"step": 63
},
{
"epoch": 0.26666666666666666,
"grad_norm": 0.6796875,
"learning_rate": 9.820598970006068e-06,
"loss": 1.7145,
"step": 64
},
{
"epoch": 0.2708333333333333,
"grad_norm": 0.62109375,
"learning_rate": 9.811340001546252e-06,
"loss": 1.886,
"step": 65
},
{
"epoch": 0.275,
"grad_norm": 0.6953125,
"learning_rate": 9.801852665537628e-06,
"loss": 1.9257,
"step": 66
},
{
"epoch": 0.2791666666666667,
"grad_norm": 0.62109375,
"learning_rate": 9.792137412291265e-06,
"loss": 1.8697,
"step": 67
},
{
"epoch": 0.2833333333333333,
"grad_norm": 0.64453125,
"learning_rate": 9.782194702936198e-06,
"loss": 1.8609,
"step": 68
},
{
"epoch": 0.2875,
"grad_norm": 0.63671875,
"learning_rate": 9.772025009397538e-06,
"loss": 1.7834,
"step": 69
},
{
"epoch": 0.2916666666666667,
"grad_norm": 0.625,
"learning_rate": 9.761628814374074e-06,
"loss": 1.9522,
"step": 70
},
{
"epoch": 0.29583333333333334,
"grad_norm": 0.61328125,
"learning_rate": 9.751006611315357e-06,
"loss": 1.8662,
"step": 71
},
{
"epoch": 0.3,
"grad_norm": 0.6015625,
"learning_rate": 9.740158904398286e-06,
"loss": 1.9992,
"step": 72
},
{
"epoch": 0.30416666666666664,
"grad_norm": 0.625,
"learning_rate": 9.729086208503174e-06,
"loss": 1.9478,
"step": 73
},
{
"epoch": 0.30833333333333335,
"grad_norm": 0.59765625,
"learning_rate": 9.717789049189306e-06,
"loss": 1.8988,
"step": 74
},
{
"epoch": 0.3125,
"grad_norm": 0.625,
"learning_rate": 9.706267962669999e-06,
"loss": 1.885,
"step": 75
},
{
"epoch": 0.31666666666666665,
"grad_norm": 0.6171875,
"learning_rate": 9.694523495787149e-06,
"loss": 1.8579,
"step": 76
},
{
"epoch": 0.32083333333333336,
"grad_norm": 0.60546875,
"learning_rate": 9.682556205985274e-06,
"loss": 1.9366,
"step": 77
},
{
"epoch": 0.325,
"grad_norm": 0.6484375,
"learning_rate": 9.670366661285061e-06,
"loss": 1.795,
"step": 78
},
{
"epoch": 0.32916666666666666,
"grad_norm": 0.5859375,
"learning_rate": 9.657955440256396e-06,
"loss": 1.8783,
"step": 79
},
{
"epoch": 0.3333333333333333,
"grad_norm": 0.6953125,
"learning_rate": 9.645323131990908e-06,
"loss": 1.7912,
"step": 80
},
{
"epoch": 0.3375,
"grad_norm": 0.66015625,
"learning_rate": 9.632470336074009e-06,
"loss": 1.8866,
"step": 81
},
{
"epoch": 0.3416666666666667,
"grad_norm": 0.6171875,
"learning_rate": 9.619397662556434e-06,
"loss": 1.636,
"step": 82
},
{
"epoch": 0.3458333333333333,
"grad_norm": 0.609375,
"learning_rate": 9.606105731925284e-06,
"loss": 1.8458,
"step": 83
},
{
"epoch": 0.35,
"grad_norm": 0.7109375,
"learning_rate": 9.592595175074573e-06,
"loss": 1.7535,
"step": 84
},
{
"epoch": 0.3541666666666667,
"grad_norm": 0.63671875,
"learning_rate": 9.578866633275289e-06,
"loss": 2.0323,
"step": 85
},
{
"epoch": 0.35833333333333334,
"grad_norm": 0.6484375,
"learning_rate": 9.564920758144951e-06,
"loss": 1.9079,
"step": 86
},
{
"epoch": 0.3625,
"grad_norm": 0.59765625,
"learning_rate": 9.550758211616684e-06,
"loss": 1.8647,
"step": 87
},
{
"epoch": 0.36666666666666664,
"grad_norm": 0.5703125,
"learning_rate": 9.536379665907801e-06,
"loss": 1.9201,
"step": 88
},
{
"epoch": 0.37083333333333335,
"grad_norm": 0.609375,
"learning_rate": 9.521785803487888e-06,
"loss": 1.815,
"step": 89
},
{
"epoch": 0.375,
"grad_norm": 0.5859375,
"learning_rate": 9.506977317046424e-06,
"loss": 1.8623,
"step": 90
},
{
"epoch": 0.375,
"eval_loss": 2.178661823272705,
"eval_runtime": 18.5546,
"eval_samples_per_second": 133.121,
"eval_steps_per_second": 33.307,
"step": 90
},
{
"epoch": 0.37916666666666665,
"grad_norm": 0.65625,
"learning_rate": 9.491954909459895e-06,
"loss": 1.8012,
"step": 91
},
{
"epoch": 0.38333333333333336,
"grad_norm": 0.66796875,
"learning_rate": 9.476719293758431e-06,
"loss": 2.0764,
"step": 92
},
{
"epoch": 0.3875,
"grad_norm": 0.640625,
"learning_rate": 9.461271193091971e-06,
"loss": 1.8221,
"step": 93
},
{
"epoch": 0.39166666666666666,
"grad_norm": 0.578125,
"learning_rate": 9.445611340695926e-06,
"loss": 1.799,
"step": 94
},
{
"epoch": 0.3958333333333333,
"grad_norm": 0.60546875,
"learning_rate": 9.42974047985639e-06,
"loss": 1.8854,
"step": 95
},
{
"epoch": 0.4,
"grad_norm": 0.6171875,
"learning_rate": 9.413659363874855e-06,
"loss": 1.7773,
"step": 96
},
{
"epoch": 0.4041666666666667,
"grad_norm": 0.64453125,
"learning_rate": 9.397368756032445e-06,
"loss": 1.9003,
"step": 97
},
{
"epoch": 0.4083333333333333,
"grad_norm": 0.58984375,
"learning_rate": 9.380869429553712e-06,
"loss": 1.7719,
"step": 98
},
{
"epoch": 0.4125,
"grad_norm": 0.5625,
"learning_rate": 9.364162167569907e-06,
"loss": 1.8732,
"step": 99
},
{
"epoch": 0.4166666666666667,
"grad_norm": 0.640625,
"learning_rate": 9.347247763081834e-06,
"loss": 1.8782,
"step": 100
},
{
"epoch": 0.42083333333333334,
"grad_norm": 0.59375,
"learning_rate": 9.330127018922195e-06,
"loss": 1.8727,
"step": 101
},
{
"epoch": 0.425,
"grad_norm": 0.5859375,
"learning_rate": 9.312800747717484e-06,
"loss": 1.9571,
"step": 102
},
{
"epoch": 0.42916666666666664,
"grad_norm": 0.6015625,
"learning_rate": 9.295269771849426e-06,
"loss": 1.7569,
"step": 103
},
{
"epoch": 0.43333333333333335,
"grad_norm": 0.55859375,
"learning_rate": 9.277534923415941e-06,
"loss": 1.9862,
"step": 104
},
{
"epoch": 0.4375,
"grad_norm": 0.60546875,
"learning_rate": 9.259597044191635e-06,
"loss": 1.7464,
"step": 105
},
{
"epoch": 0.44166666666666665,
"grad_norm": 0.66796875,
"learning_rate": 9.241456985587868e-06,
"loss": 1.771,
"step": 106
},
{
"epoch": 0.44583333333333336,
"grad_norm": 0.60546875,
"learning_rate": 9.223115608612325e-06,
"loss": 1.8531,
"step": 107
},
{
"epoch": 0.45,
"grad_norm": 0.59765625,
"learning_rate": 9.204573783828153e-06,
"loss": 1.7752,
"step": 108
},
{
"epoch": 0.45416666666666666,
"grad_norm": 0.671875,
"learning_rate": 9.185832391312644e-06,
"loss": 1.8505,
"step": 109
},
{
"epoch": 0.4583333333333333,
"grad_norm": 0.6171875,
"learning_rate": 9.166892320615459e-06,
"loss": 1.8294,
"step": 110
},
{
"epoch": 0.4625,
"grad_norm": 0.625,
"learning_rate": 9.147754470716407e-06,
"loss": 1.8943,
"step": 111
},
{
"epoch": 0.4666666666666667,
"grad_norm": 0.57421875,
"learning_rate": 9.12841974998278e-06,
"loss": 2.0161,
"step": 112
},
{
"epoch": 0.4708333333333333,
"grad_norm": 0.55859375,
"learning_rate": 9.108889076126226e-06,
"loss": 1.827,
"step": 113
},
{
"epoch": 0.475,
"grad_norm": 0.5625,
"learning_rate": 9.089163376159205e-06,
"loss": 1.8712,
"step": 114
},
{
"epoch": 0.4791666666666667,
"grad_norm": 0.5859375,
"learning_rate": 9.069243586350976e-06,
"loss": 1.8358,
"step": 115
},
{
"epoch": 0.48333333333333334,
"grad_norm": 0.6171875,
"learning_rate": 9.049130652183167e-06,
"loss": 1.8587,
"step": 116
},
{
"epoch": 0.4875,
"grad_norm": 0.60546875,
"learning_rate": 9.028825528304892e-06,
"loss": 1.8179,
"step": 117
},
{
"epoch": 0.49166666666666664,
"grad_norm": 0.58984375,
"learning_rate": 9.008329178487442e-06,
"loss": 1.6971,
"step": 118
},
{
"epoch": 0.49583333333333335,
"grad_norm": 0.609375,
"learning_rate": 8.987642575578546e-06,
"loss": 1.91,
"step": 119
},
{
"epoch": 0.5,
"grad_norm": 0.609375,
"learning_rate": 8.966766701456177e-06,
"loss": 1.8528,
"step": 120
},
{
"epoch": 0.5,
"eval_loss": 2.1745619773864746,
"eval_runtime": 18.083,
"eval_samples_per_second": 136.593,
"eval_steps_per_second": 34.176,
"step": 120
},
{
"epoch": 0.5041666666666667,
"grad_norm": 0.59765625,
"learning_rate": 8.94570254698197e-06,
"loss": 1.9986,
"step": 121
},
{
"epoch": 0.5083333333333333,
"grad_norm": 0.61328125,
"learning_rate": 8.924451111954173e-06,
"loss": 2.055,
"step": 122
},
{
"epoch": 0.5125,
"grad_norm": 0.57421875,
"learning_rate": 8.903013405060212e-06,
"loss": 1.9035,
"step": 123
},
{
"epoch": 0.5166666666666667,
"grad_norm": 0.61328125,
"learning_rate": 8.881390443828788e-06,
"loss": 1.9556,
"step": 124
},
{
"epoch": 0.5208333333333334,
"grad_norm": 0.58203125,
"learning_rate": 8.859583254581604e-06,
"loss": 1.8308,
"step": 125
},
{
"epoch": 0.525,
"grad_norm": 0.578125,
"learning_rate": 8.837592872384643e-06,
"loss": 1.8267,
"step": 126
},
{
"epoch": 0.5291666666666667,
"grad_norm": 0.640625,
"learning_rate": 8.815420340999034e-06,
"loss": 1.9509,
"step": 127
},
{
"epoch": 0.5333333333333333,
"grad_norm": 0.640625,
"learning_rate": 8.793066712831515e-06,
"loss": 2.0599,
"step": 128
},
{
"epoch": 0.5375,
"grad_norm": 0.5625,
"learning_rate": 8.770533048884483e-06,
"loss": 1.9489,
"step": 129
},
{
"epoch": 0.5416666666666666,
"grad_norm": 0.58984375,
"learning_rate": 8.747820418705632e-06,
"loss": 1.7887,
"step": 130
},
{
"epoch": 0.5458333333333333,
"grad_norm": 0.5625,
"learning_rate": 8.724929900337186e-06,
"loss": 1.886,
"step": 131
},
{
"epoch": 0.55,
"grad_norm": 0.640625,
"learning_rate": 8.701862580264735e-06,
"loss": 1.6192,
"step": 132
},
{
"epoch": 0.5541666666666667,
"grad_norm": 0.5703125,
"learning_rate": 8.67861955336566e-06,
"loss": 1.848,
"step": 133
},
{
"epoch": 0.5583333333333333,
"grad_norm": 0.57421875,
"learning_rate": 8.655201922857166e-06,
"loss": 1.8832,
"step": 134
},
{
"epoch": 0.5625,
"grad_norm": 0.55859375,
"learning_rate": 8.631610800243926e-06,
"loss": 1.7343,
"step": 135
},
{
"epoch": 0.5666666666666667,
"grad_norm": 0.5625,
"learning_rate": 8.607847305265312e-06,
"loss": 1.8137,
"step": 136
},
{
"epoch": 0.5708333333333333,
"grad_norm": 0.5703125,
"learning_rate": 8.583912565842258e-06,
"loss": 1.8875,
"step": 137
},
{
"epoch": 0.575,
"grad_norm": 0.6015625,
"learning_rate": 8.559807718023715e-06,
"loss": 1.8311,
"step": 138
},
{
"epoch": 0.5791666666666667,
"grad_norm": 0.54296875,
"learning_rate": 8.535533905932739e-06,
"loss": 1.7797,
"step": 139
},
{
"epoch": 0.5833333333333334,
"grad_norm": 0.59375,
"learning_rate": 8.511092281712174e-06,
"loss": 1.8119,
"step": 140
},
{
"epoch": 0.5875,
"grad_norm": 0.59375,
"learning_rate": 8.486484005469977e-06,
"loss": 1.8417,
"step": 141
},
{
"epoch": 0.5916666666666667,
"grad_norm": 0.58984375,
"learning_rate": 8.461710245224149e-06,
"loss": 1.7081,
"step": 142
},
{
"epoch": 0.5958333333333333,
"grad_norm": 0.578125,
"learning_rate": 8.436772176847295e-06,
"loss": 1.9393,
"step": 143
},
{
"epoch": 0.6,
"grad_norm": 0.62109375,
"learning_rate": 8.41167098401081e-06,
"loss": 1.775,
"step": 144
},
{
"epoch": 0.6041666666666666,
"grad_norm": 0.58984375,
"learning_rate": 8.386407858128707e-06,
"loss": 1.8468,
"step": 145
},
{
"epoch": 0.6083333333333333,
"grad_norm": 0.56640625,
"learning_rate": 8.360983998301053e-06,
"loss": 1.9168,
"step": 146
},
{
"epoch": 0.6125,
"grad_norm": 0.6640625,
"learning_rate": 8.335400611257067e-06,
"loss": 1.8175,
"step": 147
},
{
"epoch": 0.6166666666666667,
"grad_norm": 0.6171875,
"learning_rate": 8.309658911297833e-06,
"loss": 1.7795,
"step": 148
},
{
"epoch": 0.6208333333333333,
"grad_norm": 0.57421875,
"learning_rate": 8.283760120238672e-06,
"loss": 1.9254,
"step": 149
},
{
"epoch": 0.625,
"grad_norm": 0.62109375,
"learning_rate": 8.257705467351144e-06,
"loss": 1.8784,
"step": 150
},
{
"epoch": 0.625,
"eval_loss": 2.170564889907837,
"eval_runtime": 18.0804,
"eval_samples_per_second": 136.612,
"eval_steps_per_second": 34.181,
"step": 150
},
{
"epoch": 0.6291666666666667,
"grad_norm": 0.5859375,
"learning_rate": 8.231496189304704e-06,
"loss": 1.9573,
"step": 151
},
{
"epoch": 0.6333333333333333,
"grad_norm": 0.57421875,
"learning_rate": 8.205133530108003e-06,
"loss": 1.9005,
"step": 152
},
{
"epoch": 0.6375,
"grad_norm": 0.578125,
"learning_rate": 8.178618741049841e-06,
"loss": 1.858,
"step": 153
},
{
"epoch": 0.6416666666666667,
"grad_norm": 0.54296875,
"learning_rate": 8.151953080639777e-06,
"loss": 1.8415,
"step": 154
},
{
"epoch": 0.6458333333333334,
"grad_norm": 0.62109375,
"learning_rate": 8.125137814548394e-06,
"loss": 1.8377,
"step": 155
},
{
"epoch": 0.65,
"grad_norm": 0.62890625,
"learning_rate": 8.098174215547224e-06,
"loss": 1.8115,
"step": 156
},
{
"epoch": 0.6541666666666667,
"grad_norm": 0.55078125,
"learning_rate": 8.071063563448341e-06,
"loss": 1.7547,
"step": 157
},
{
"epoch": 0.6583333333333333,
"grad_norm": 0.6015625,
"learning_rate": 8.043807145043604e-06,
"loss": 1.7335,
"step": 158
},
{
"epoch": 0.6625,
"grad_norm": 0.5546875,
"learning_rate": 8.016406254043595e-06,
"loss": 1.7631,
"step": 159
},
{
"epoch": 0.6666666666666666,
"grad_norm": 0.56640625,
"learning_rate": 7.988862191016204e-06,
"loss": 1.8128,
"step": 160
},
{
"epoch": 0.6708333333333333,
"grad_norm": 0.58984375,
"learning_rate": 7.961176263324902e-06,
"loss": 1.8938,
"step": 161
},
{
"epoch": 0.675,
"grad_norm": 0.56640625,
"learning_rate": 7.93334978506668e-06,
"loss": 1.6676,
"step": 162
},
{
"epoch": 0.6791666666666667,
"grad_norm": 0.55078125,
"learning_rate": 7.905384077009693e-06,
"loss": 1.7388,
"step": 163
},
{
"epoch": 0.6833333333333333,
"grad_norm": 0.625,
"learning_rate": 7.877280466530552e-06,
"loss": 1.8675,
"step": 164
},
{
"epoch": 0.6875,
"grad_norm": 0.578125,
"learning_rate": 7.849040287551331e-06,
"loss": 1.9701,
"step": 165
},
{
"epoch": 0.6916666666666667,
"grad_norm": 0.62890625,
"learning_rate": 7.820664880476257e-06,
"loss": 1.9176,
"step": 166
},
{
"epoch": 0.6958333333333333,
"grad_norm": 0.59765625,
"learning_rate": 7.792155592128072e-06,
"loss": 1.8905,
"step": 167
},
{
"epoch": 0.7,
"grad_norm": 0.57421875,
"learning_rate": 7.763513775684125e-06,
"loss": 1.9383,
"step": 168
},
{
"epoch": 0.7041666666666667,
"grad_norm": 0.5859375,
"learning_rate": 7.734740790612137e-06,
"loss": 1.8599,
"step": 169
},
{
"epoch": 0.7083333333333334,
"grad_norm": 0.58203125,
"learning_rate": 7.705838002605665e-06,
"loss": 1.7492,
"step": 170
},
{
"epoch": 0.7125,
"grad_norm": 0.58984375,
"learning_rate": 7.676806783519304e-06,
"loss": 1.874,
"step": 171
},
{
"epoch": 0.7166666666666667,
"grad_norm": 0.56640625,
"learning_rate": 7.647648511303545e-06,
"loss": 1.8562,
"step": 172
},
{
"epoch": 0.7208333333333333,
"grad_norm": 0.58203125,
"learning_rate": 7.61836456993939e-06,
"loss": 1.9492,
"step": 173
},
{
"epoch": 0.725,
"grad_norm": 0.6171875,
"learning_rate": 7.588956349372657e-06,
"loss": 1.6813,
"step": 174
},
{
"epoch": 0.7291666666666666,
"grad_norm": 0.57421875,
"learning_rate": 7.559425245448006e-06,
"loss": 1.7416,
"step": 175
},
{
"epoch": 0.7333333333333333,
"grad_norm": 0.58203125,
"learning_rate": 7.529772659842685e-06,
"loss": 1.8194,
"step": 176
},
{
"epoch": 0.7375,
"grad_norm": 0.58984375,
"learning_rate": 7.500000000000001e-06,
"loss": 1.8523,
"step": 177
},
{
"epoch": 0.7416666666666667,
"grad_norm": 0.59375,
"learning_rate": 7.470108679062521e-06,
"loss": 1.7934,
"step": 178
},
{
"epoch": 0.7458333333333333,
"grad_norm": 0.59375,
"learning_rate": 7.440100115804991e-06,
"loss": 2.101,
"step": 179
},
{
"epoch": 0.75,
"grad_norm": 0.6328125,
"learning_rate": 7.409975734566998e-06,
"loss": 1.9961,
"step": 180
},
{
"epoch": 0.75,
"eval_loss": 2.168635845184326,
"eval_runtime": 18.1066,
"eval_samples_per_second": 136.414,
"eval_steps_per_second": 34.131,
"step": 180
},
{
"epoch": 0.7541666666666667,
"grad_norm": 0.55859375,
"learning_rate": 7.379736965185369e-06,
"loss": 1.7288,
"step": 181
},
{
"epoch": 0.7583333333333333,
"grad_norm": 0.6328125,
"learning_rate": 7.349385242926291e-06,
"loss": 1.8504,
"step": 182
},
{
"epoch": 0.7625,
"grad_norm": 0.6328125,
"learning_rate": 7.318922008417203e-06,
"loss": 1.9159,
"step": 183
},
{
"epoch": 0.7666666666666667,
"grad_norm": 0.5625,
"learning_rate": 7.288348707578409e-06,
"loss": 1.787,
"step": 184
},
{
"epoch": 0.7708333333333334,
"grad_norm": 0.5546875,
"learning_rate": 7.257666791554448e-06,
"loss": 1.8314,
"step": 185
},
{
"epoch": 0.775,
"grad_norm": 0.61328125,
"learning_rate": 7.2268777166452175e-06,
"loss": 1.915,
"step": 186
},
{
"epoch": 0.7791666666666667,
"grad_norm": 0.5625,
"learning_rate": 7.195982944236853e-06,
"loss": 1.9086,
"step": 187
},
{
"epoch": 0.7833333333333333,
"grad_norm": 0.64453125,
"learning_rate": 7.1649839407323606e-06,
"loss": 1.7966,
"step": 188
},
{
"epoch": 0.7875,
"grad_norm": 0.58203125,
"learning_rate": 7.133882177482019e-06,
"loss": 1.7277,
"step": 189
},
{
"epoch": 0.7916666666666666,
"grad_norm": 0.5390625,
"learning_rate": 7.102679130713538e-06,
"loss": 1.6565,
"step": 190
},
{
"epoch": 0.7958333333333333,
"grad_norm": 0.59375,
"learning_rate": 7.071376281461994e-06,
"loss": 1.8509,
"step": 191
},
{
"epoch": 0.8,
"grad_norm": 0.57421875,
"learning_rate": 7.039975115499534e-06,
"loss": 1.9617,
"step": 192
},
{
"epoch": 0.8041666666666667,
"grad_norm": 0.59765625,
"learning_rate": 7.008477123264849e-06,
"loss": 1.8768,
"step": 193
},
{
"epoch": 0.8083333333333333,
"grad_norm": 0.62890625,
"learning_rate": 6.976883799792434e-06,
"loss": 1.8889,
"step": 194
},
{
"epoch": 0.8125,
"grad_norm": 0.59765625,
"learning_rate": 6.945196644641631e-06,
"loss": 1.8929,
"step": 195
},
{
"epoch": 0.8166666666666667,
"grad_norm": 0.578125,
"learning_rate": 6.913417161825449e-06,
"loss": 1.8091,
"step": 196
},
{
"epoch": 0.8208333333333333,
"grad_norm": 0.59375,
"learning_rate": 6.8815468597391785e-06,
"loss": 1.9076,
"step": 197
},
{
"epoch": 0.825,
"grad_norm": 0.62890625,
"learning_rate": 6.84958725108879e-06,
"loss": 1.9901,
"step": 198
},
{
"epoch": 0.8291666666666667,
"grad_norm": 0.63671875,
"learning_rate": 6.817539852819149e-06,
"loss": 1.8836,
"step": 199
},
{
"epoch": 0.8333333333333334,
"grad_norm": 0.55859375,
"learning_rate": 6.785406186042e-06,
"loss": 1.9231,
"step": 200
},
{
"epoch": 0.8375,
"grad_norm": 0.609375,
"learning_rate": 6.753187775963773e-06,
"loss": 1.7803,
"step": 201
},
{
"epoch": 0.8416666666666667,
"grad_norm": 0.55078125,
"learning_rate": 6.720886151813194e-06,
"loss": 1.8339,
"step": 202
},
{
"epoch": 0.8458333333333333,
"grad_norm": 0.62890625,
"learning_rate": 6.688502846768697e-06,
"loss": 1.9179,
"step": 203
},
{
"epoch": 0.85,
"grad_norm": 0.5625,
"learning_rate": 6.656039397885653e-06,
"loss": 1.8147,
"step": 204
},
{
"epoch": 0.8541666666666666,
"grad_norm": 0.61328125,
"learning_rate": 6.6234973460234184e-06,
"loss": 1.7996,
"step": 205
},
{
"epoch": 0.8583333333333333,
"grad_norm": 0.71484375,
"learning_rate": 6.5908782357721914e-06,
"loss": 1.9165,
"step": 206
},
{
"epoch": 0.8625,
"grad_norm": 0.5703125,
"learning_rate": 6.558183615379708e-06,
"loss": 1.8397,
"step": 207
},
{
"epoch": 0.8666666666666667,
"grad_norm": 0.56640625,
"learning_rate": 6.525415036677745e-06,
"loss": 1.8636,
"step": 208
},
{
"epoch": 0.8708333333333333,
"grad_norm": 0.63671875,
"learning_rate": 6.492574055008474e-06,
"loss": 2.0345,
"step": 209
},
{
"epoch": 0.875,
"grad_norm": 0.6171875,
"learning_rate": 6.45966222915063e-06,
"loss": 1.8748,
"step": 210
},
{
"epoch": 0.875,
"eval_loss": 2.167238712310791,
"eval_runtime": 18.0652,
"eval_samples_per_second": 136.727,
"eval_steps_per_second": 34.209,
"step": 210
},
{
"epoch": 0.8791666666666667,
"grad_norm": 0.57421875,
"learning_rate": 6.426681121245527e-06,
"loss": 1.774,
"step": 211
},
{
"epoch": 0.8833333333333333,
"grad_norm": 0.578125,
"learning_rate": 6.393632296722916e-06,
"loss": 1.8357,
"step": 212
},
{
"epoch": 0.8875,
"grad_norm": 0.55078125,
"learning_rate": 6.360517324226676e-06,
"loss": 1.6954,
"step": 213
},
{
"epoch": 0.8916666666666667,
"grad_norm": 0.5859375,
"learning_rate": 6.327337775540362e-06,
"loss": 1.8854,
"step": 214
},
{
"epoch": 0.8958333333333334,
"grad_norm": 0.59765625,
"learning_rate": 6.294095225512604e-06,
"loss": 1.9444,
"step": 215
},
{
"epoch": 0.9,
"grad_norm": 0.6328125,
"learning_rate": 6.260791251982354e-06,
"loss": 1.9477,
"step": 216
},
{
"epoch": 0.9041666666666667,
"grad_norm": 0.578125,
"learning_rate": 6.227427435703997e-06,
"loss": 1.8354,
"step": 217
},
{
"epoch": 0.9083333333333333,
"grad_norm": 0.57421875,
"learning_rate": 6.194005360272317e-06,
"loss": 1.9716,
"step": 218
},
{
"epoch": 0.9125,
"grad_norm": 0.59375,
"learning_rate": 6.160526612047339e-06,
"loss": 1.9245,
"step": 219
},
{
"epoch": 0.9166666666666666,
"grad_norm": 0.5625,
"learning_rate": 6.126992780079032e-06,
"loss": 1.814,
"step": 220
},
{
"epoch": 0.9208333333333333,
"grad_norm": 0.578125,
"learning_rate": 6.09340545603188e-06,
"loss": 1.8559,
"step": 221
},
{
"epoch": 0.925,
"grad_norm": 0.5859375,
"learning_rate": 6.0597662341093385e-06,
"loss": 1.7238,
"step": 222
},
{
"epoch": 0.9291666666666667,
"grad_norm": 0.609375,
"learning_rate": 6.026076710978172e-06,
"loss": 1.9524,
"step": 223
},
{
"epoch": 0.9333333333333333,
"grad_norm": 0.578125,
"learning_rate": 5.992338485692657e-06,
"loss": 1.8717,
"step": 224
},
{
"epoch": 0.9375,
"grad_norm": 0.5546875,
"learning_rate": 5.958553159618693e-06,
"loss": 1.7134,
"step": 225
},
{
"epoch": 0.9416666666666667,
"grad_norm": 0.5625,
"learning_rate": 5.924722336357793e-06,
"loss": 1.8745,
"step": 226
},
{
"epoch": 0.9458333333333333,
"grad_norm": 0.5859375,
"learning_rate": 5.890847621670966e-06,
"loss": 1.8144,
"step": 227
},
{
"epoch": 0.95,
"grad_norm": 0.61328125,
"learning_rate": 5.856930623402506e-06,
"loss": 1.9048,
"step": 228
},
{
"epoch": 0.9541666666666667,
"grad_norm": 0.61328125,
"learning_rate": 5.82297295140367e-06,
"loss": 1.8585,
"step": 229
},
{
"epoch": 0.9583333333333334,
"grad_norm": 0.5859375,
"learning_rate": 5.788976217456275e-06,
"loss": 1.9537,
"step": 230
},
{
"epoch": 0.9625,
"grad_norm": 0.5703125,
"learning_rate": 5.7549420351961845e-06,
"loss": 1.8574,
"step": 231
},
{
"epoch": 0.9666666666666667,
"grad_norm": 0.55078125,
"learning_rate": 5.720872020036734e-06,
"loss": 1.871,
"step": 232
},
{
"epoch": 0.9708333333333333,
"grad_norm": 0.53125,
"learning_rate": 5.686767789092041e-06,
"loss": 1.77,
"step": 233
},
{
"epoch": 0.975,
"grad_norm": 0.58984375,
"learning_rate": 5.65263096110026e-06,
"loss": 1.8735,
"step": 234
},
{
"epoch": 0.9791666666666666,
"grad_norm": 0.609375,
"learning_rate": 5.61846315634674e-06,
"loss": 1.7025,
"step": 235
},
{
"epoch": 0.9833333333333333,
"grad_norm": 0.57421875,
"learning_rate": 5.584265996587129e-06,
"loss": 1.7811,
"step": 236
},
{
"epoch": 0.9875,
"grad_norm": 0.58203125,
"learning_rate": 5.550041104970398e-06,
"loss": 1.9347,
"step": 237
},
{
"epoch": 0.9916666666666667,
"grad_norm": 0.5625,
"learning_rate": 5.515790105961785e-06,
"loss": 1.7745,
"step": 238
},
{
"epoch": 0.9958333333333333,
"grad_norm": 0.60546875,
"learning_rate": 5.481514625265709e-06,
"loss": 1.9443,
"step": 239
},
{
"epoch": 1.0,
"grad_norm": 0.58203125,
"learning_rate": 5.447216289748596e-06,
"loss": 2.0385,
"step": 240
},
{
"epoch": 1.0,
"eval_loss": 2.1657376289367676,
"eval_runtime": 18.1098,
"eval_samples_per_second": 136.391,
"eval_steps_per_second": 34.125,
"step": 240
},
{
"epoch": 1.0041666666666667,
"grad_norm": 0.62109375,
"learning_rate": 5.412896727361663e-06,
"loss": 1.9712,
"step": 241
},
{
"epoch": 1.0083333333333333,
"grad_norm": 0.6171875,
"learning_rate": 5.378557567063646e-06,
"loss": 1.7675,
"step": 242
},
{
"epoch": 1.0125,
"grad_norm": 0.59375,
"learning_rate": 5.344200438743489e-06,
"loss": 1.9863,
"step": 243
},
{
"epoch": 1.0166666666666666,
"grad_norm": 0.6015625,
"learning_rate": 5.309826973142974e-06,
"loss": 1.8513,
"step": 244
},
{
"epoch": 1.0208333333333333,
"grad_norm": 0.5859375,
"learning_rate": 5.275438801779328e-06,
"loss": 1.9539,
"step": 245
},
{
"epoch": 1.025,
"grad_norm": 0.55859375,
"learning_rate": 5.241037556867775e-06,
"loss": 1.8889,
"step": 246
},
{
"epoch": 1.0291666666666666,
"grad_norm": 0.625,
"learning_rate": 5.206624871244066e-06,
"loss": 1.8184,
"step": 247
},
{
"epoch": 1.0333333333333334,
"grad_norm": 0.5625,
"learning_rate": 5.172202378286986e-06,
"loss": 1.904,
"step": 248
},
{
"epoch": 1.0375,
"grad_norm": 0.53515625,
"learning_rate": 5.137771711840811e-06,
"loss": 1.7663,
"step": 249
},
{
"epoch": 1.0416666666666667,
"grad_norm": 0.58984375,
"learning_rate": 5.103334506137773e-06,
"loss": 1.8074,
"step": 250
},
{
"epoch": 1.0458333333333334,
"grad_norm": 0.5546875,
"learning_rate": 5.068892395720482e-06,
"loss": 1.794,
"step": 251
},
{
"epoch": 1.05,
"grad_norm": 0.578125,
"learning_rate": 5.0344470153643525e-06,
"loss": 1.7377,
"step": 252
},
{
"epoch": 1.0541666666666667,
"grad_norm": 0.5859375,
"learning_rate": 5e-06,
"loss": 1.9,
"step": 253
},
{
"epoch": 1.0583333333333333,
"grad_norm": 0.60546875,
"learning_rate": 4.965552984635649e-06,
"loss": 1.8172,
"step": 254
},
{
"epoch": 1.0625,
"grad_norm": 0.6015625,
"learning_rate": 4.9311076042795185e-06,
"loss": 2.0686,
"step": 255
},
{
"epoch": 1.0666666666666667,
"grad_norm": 0.546875,
"learning_rate": 4.89666549386223e-06,
"loss": 1.6615,
"step": 256
},
{
"epoch": 1.0708333333333333,
"grad_norm": 0.56640625,
"learning_rate": 4.862228288159191e-06,
"loss": 1.8065,
"step": 257
},
{
"epoch": 1.075,
"grad_norm": 0.6015625,
"learning_rate": 4.827797621713017e-06,
"loss": 1.9736,
"step": 258
},
{
"epoch": 1.0791666666666666,
"grad_norm": 0.6328125,
"learning_rate": 4.793375128755934e-06,
"loss": 1.9502,
"step": 259
},
{
"epoch": 1.0833333333333333,
"grad_norm": 0.62109375,
"learning_rate": 4.758962443132227e-06,
"loss": 1.7474,
"step": 260
},
{
"epoch": 1.0875,
"grad_norm": 0.62109375,
"learning_rate": 4.724561198220672e-06,
"loss": 1.7294,
"step": 261
},
{
"epoch": 1.0916666666666666,
"grad_norm": 0.5625,
"learning_rate": 4.690173026857028e-06,
"loss": 1.8679,
"step": 262
},
{
"epoch": 1.0958333333333334,
"grad_norm": 0.671875,
"learning_rate": 4.6557995612565146e-06,
"loss": 1.785,
"step": 263
},
{
"epoch": 1.1,
"grad_norm": 0.58984375,
"learning_rate": 4.621442432936355e-06,
"loss": 1.9543,
"step": 264
},
{
"epoch": 1.1041666666666667,
"grad_norm": 0.54296875,
"learning_rate": 4.587103272638339e-06,
"loss": 1.6861,
"step": 265
},
{
"epoch": 1.1083333333333334,
"grad_norm": 0.5625,
"learning_rate": 4.552783710251404e-06,
"loss": 1.7687,
"step": 266
},
{
"epoch": 1.1125,
"grad_norm": 0.57421875,
"learning_rate": 4.5184853747342926e-06,
"loss": 2.0234,
"step": 267
},
{
"epoch": 1.1166666666666667,
"grad_norm": 0.578125,
"learning_rate": 4.4842098940382155e-06,
"loss": 1.7764,
"step": 268
},
{
"epoch": 1.1208333333333333,
"grad_norm": 0.58203125,
"learning_rate": 4.449958895029604e-06,
"loss": 1.8805,
"step": 269
},
{
"epoch": 1.125,
"grad_norm": 0.5859375,
"learning_rate": 4.415734003412873e-06,
"loss": 1.9327,
"step": 270
},
{
"epoch": 1.125,
"eval_loss": 2.164560079574585,
"eval_runtime": 18.6596,
"eval_samples_per_second": 132.371,
"eval_steps_per_second": 33.12,
"step": 270
},
{
"epoch": 1.1291666666666667,
"grad_norm": 0.5703125,
"learning_rate": 4.381536843653262e-06,
"loss": 1.7554,
"step": 271
},
{
"epoch": 1.1333333333333333,
"grad_norm": 0.640625,
"learning_rate": 4.347369038899744e-06,
"loss": 1.7947,
"step": 272
},
{
"epoch": 1.1375,
"grad_norm": 0.58203125,
"learning_rate": 4.313232210907959e-06,
"loss": 1.8943,
"step": 273
},
{
"epoch": 1.1416666666666666,
"grad_norm": 0.58984375,
"learning_rate": 4.279127979963266e-06,
"loss": 1.883,
"step": 274
},
{
"epoch": 1.1458333333333333,
"grad_norm": 0.57421875,
"learning_rate": 4.245057964803815e-06,
"loss": 1.8058,
"step": 275
},
{
"epoch": 1.15,
"grad_norm": 0.5703125,
"learning_rate": 4.2110237825437275e-06,
"loss": 1.7255,
"step": 276
},
{
"epoch": 1.1541666666666668,
"grad_norm": 0.6953125,
"learning_rate": 4.17702704859633e-06,
"loss": 1.9189,
"step": 277
},
{
"epoch": 1.1583333333333332,
"grad_norm": 0.5859375,
"learning_rate": 4.143069376597496e-06,
"loss": 1.7928,
"step": 278
},
{
"epoch": 1.1625,
"grad_norm": 0.6015625,
"learning_rate": 4.109152378329036e-06,
"loss": 1.8013,
"step": 279
},
{
"epoch": 1.1666666666666667,
"grad_norm": 0.59375,
"learning_rate": 4.075277663642208e-06,
"loss": 1.6585,
"step": 280
},
{
"epoch": 1.1708333333333334,
"grad_norm": 0.625,
"learning_rate": 4.041446840381309e-06,
"loss": 1.7681,
"step": 281
},
{
"epoch": 1.175,
"grad_norm": 0.62109375,
"learning_rate": 4.007661514307344e-06,
"loss": 1.8034,
"step": 282
},
{
"epoch": 1.1791666666666667,
"grad_norm": 0.578125,
"learning_rate": 3.973923289021829e-06,
"loss": 1.6936,
"step": 283
},
{
"epoch": 1.1833333333333333,
"grad_norm": 0.5859375,
"learning_rate": 3.9402337658906615e-06,
"loss": 1.8129,
"step": 284
},
{
"epoch": 1.1875,
"grad_norm": 0.58203125,
"learning_rate": 3.906594543968122e-06,
"loss": 1.8816,
"step": 285
},
{
"epoch": 1.1916666666666667,
"grad_norm": 0.5859375,
"learning_rate": 3.8730072199209705e-06,
"loss": 1.8431,
"step": 286
},
{
"epoch": 1.1958333333333333,
"grad_norm": 0.5859375,
"learning_rate": 3.839473387952662e-06,
"loss": 1.7668,
"step": 287
},
{
"epoch": 1.2,
"grad_norm": 0.57421875,
"learning_rate": 3.8059946397276854e-06,
"loss": 1.8834,
"step": 288
},
{
"epoch": 1.2041666666666666,
"grad_norm": 0.55078125,
"learning_rate": 3.7725725642960047e-06,
"loss": 1.7894,
"step": 289
},
{
"epoch": 1.2083333333333333,
"grad_norm": 0.5703125,
"learning_rate": 3.739208748017647e-06,
"loss": 1.7415,
"step": 290
},
{
"epoch": 1.2125,
"grad_norm": 0.578125,
"learning_rate": 3.705904774487396e-06,
"loss": 1.8548,
"step": 291
},
{
"epoch": 1.2166666666666668,
"grad_norm": 0.58203125,
"learning_rate": 3.67266222445964e-06,
"loss": 1.7485,
"step": 292
},
{
"epoch": 1.2208333333333332,
"grad_norm": 0.58203125,
"learning_rate": 3.639482675773324e-06,
"loss": 1.9114,
"step": 293
},
{
"epoch": 1.225,
"grad_norm": 0.58984375,
"learning_rate": 3.606367703277085e-06,
"loss": 1.9863,
"step": 294
},
{
"epoch": 1.2291666666666667,
"grad_norm": 0.58203125,
"learning_rate": 3.573318878754475e-06,
"loss": 1.7639,
"step": 295
},
{
"epoch": 1.2333333333333334,
"grad_norm": 0.5625,
"learning_rate": 3.5403377708493714e-06,
"loss": 1.8462,
"step": 296
},
{
"epoch": 1.2375,
"grad_norm": 0.62109375,
"learning_rate": 3.507425944991529e-06,
"loss": 1.8267,
"step": 297
},
{
"epoch": 1.2416666666666667,
"grad_norm": 0.58984375,
"learning_rate": 3.4745849633222566e-06,
"loss": 1.7817,
"step": 298
},
{
"epoch": 1.2458333333333333,
"grad_norm": 0.5703125,
"learning_rate": 3.4418163846202945e-06,
"loss": 1.7313,
"step": 299
},
{
"epoch": 1.25,
"grad_norm": 0.6015625,
"learning_rate": 3.409121764227809e-06,
"loss": 1.8509,
"step": 300
},
{
"epoch": 1.25,
"eval_loss": 2.1645467281341553,
"eval_runtime": 18.1241,
"eval_samples_per_second": 136.282,
"eval_steps_per_second": 34.098,
"step": 300
},
{
"epoch": 1.2541666666666667,
"grad_norm": 0.5546875,
"learning_rate": 3.3765026539765832e-06,
"loss": 1.7989,
"step": 301
},
{
"epoch": 1.2583333333333333,
"grad_norm": 0.6484375,
"learning_rate": 3.343960602114349e-06,
"loss": 1.8561,
"step": 302
},
{
"epoch": 1.2625,
"grad_norm": 0.54296875,
"learning_rate": 3.3114971532313058e-06,
"loss": 1.7549,
"step": 303
},
{
"epoch": 1.2666666666666666,
"grad_norm": 0.61328125,
"learning_rate": 3.2791138481868084e-06,
"loss": 1.6677,
"step": 304
},
{
"epoch": 1.2708333333333333,
"grad_norm": 0.5859375,
"learning_rate": 3.2468122240362287e-06,
"loss": 1.8485,
"step": 305
},
{
"epoch": 1.275,
"grad_norm": 0.65625,
"learning_rate": 3.2145938139580015e-06,
"loss": 1.8814,
"step": 306
},
{
"epoch": 1.2791666666666668,
"grad_norm": 0.6015625,
"learning_rate": 3.1824601471808504e-06,
"loss": 1.8293,
"step": 307
},
{
"epoch": 1.2833333333333332,
"grad_norm": 0.59765625,
"learning_rate": 3.1504127489112105e-06,
"loss": 1.8222,
"step": 308
},
{
"epoch": 1.2875,
"grad_norm": 0.609375,
"learning_rate": 3.118453140260823e-06,
"loss": 1.7468,
"step": 309
},
{
"epoch": 1.2916666666666667,
"grad_norm": 0.58984375,
"learning_rate": 3.0865828381745515e-06,
"loss": 1.9122,
"step": 310
},
{
"epoch": 1.2958333333333334,
"grad_norm": 0.546875,
"learning_rate": 3.0548033553583707e-06,
"loss": 1.8286,
"step": 311
},
{
"epoch": 1.3,
"grad_norm": 0.57421875,
"learning_rate": 3.0231162002075678e-06,
"loss": 1.9661,
"step": 312
},
{
"epoch": 1.3041666666666667,
"grad_norm": 0.58203125,
"learning_rate": 2.991522876735154e-06,
"loss": 1.9081,
"step": 313
},
{
"epoch": 1.3083333333333333,
"grad_norm": 0.58203125,
"learning_rate": 2.960024884500467e-06,
"loss": 1.8635,
"step": 314
},
{
"epoch": 1.3125,
"grad_norm": 0.5859375,
"learning_rate": 2.928623718538006e-06,
"loss": 1.8482,
"step": 315
},
{
"epoch": 1.3166666666666667,
"grad_norm": 0.58984375,
"learning_rate": 2.8973208692864623e-06,
"loss": 1.8193,
"step": 316
},
{
"epoch": 1.3208333333333333,
"grad_norm": 0.5703125,
"learning_rate": 2.866117822517982e-06,
"loss": 1.9024,
"step": 317
},
{
"epoch": 1.325,
"grad_norm": 0.61328125,
"learning_rate": 2.8350160592676407e-06,
"loss": 1.7604,
"step": 318
},
{
"epoch": 1.3291666666666666,
"grad_norm": 0.55859375,
"learning_rate": 2.804017055763149e-06,
"loss": 1.8478,
"step": 319
},
{
"epoch": 1.3333333333333333,
"grad_norm": 0.59765625,
"learning_rate": 2.7731222833547842e-06,
"loss": 1.7589,
"step": 320
},
{
"epoch": 1.3375,
"grad_norm": 0.60546875,
"learning_rate": 2.7423332084455543e-06,
"loss": 1.8474,
"step": 321
},
{
"epoch": 1.3416666666666668,
"grad_norm": 0.59375,
"learning_rate": 2.711651292421593e-06,
"loss": 1.6013,
"step": 322
},
{
"epoch": 1.3458333333333332,
"grad_norm": 0.58984375,
"learning_rate": 2.681077991582797e-06,
"loss": 1.8103,
"step": 323
},
{
"epoch": 1.35,
"grad_norm": 0.60546875,
"learning_rate": 2.6506147570737094e-06,
"loss": 1.7213,
"step": 324
},
{
"epoch": 1.3541666666666667,
"grad_norm": 0.6328125,
"learning_rate": 2.6202630348146323e-06,
"loss": 1.9982,
"step": 325
},
{
"epoch": 1.3583333333333334,
"grad_norm": 0.6171875,
"learning_rate": 2.590024265433002e-06,
"loss": 1.8726,
"step": 326
},
{
"epoch": 1.3625,
"grad_norm": 0.578125,
"learning_rate": 2.5598998841950105e-06,
"loss": 1.8326,
"step": 327
},
{
"epoch": 1.3666666666666667,
"grad_norm": 0.55078125,
"learning_rate": 2.529891320937481e-06,
"loss": 1.8889,
"step": 328
},
{
"epoch": 1.3708333333333333,
"grad_norm": 0.59375,
"learning_rate": 2.5000000000000015e-06,
"loss": 1.7805,
"step": 329
},
{
"epoch": 1.375,
"grad_norm": 0.5546875,
"learning_rate": 2.470227340157316e-06,
"loss": 1.8279,
"step": 330
},
{
"epoch": 1.375,
"eval_loss": 2.1639864444732666,
"eval_runtime": 18.0542,
"eval_samples_per_second": 136.81,
"eval_steps_per_second": 34.23,
"step": 330
},
{
"epoch": 1.3791666666666667,
"grad_norm": 0.62890625,
"learning_rate": 2.4405747545519966e-06,
"loss": 1.7644,
"step": 331
},
{
"epoch": 1.3833333333333333,
"grad_norm": 0.62109375,
"learning_rate": 2.411043650627343e-06,
"loss": 2.0436,
"step": 332
},
{
"epoch": 1.3875,
"grad_norm": 0.60546875,
"learning_rate": 2.381635430060611e-06,
"loss": 1.788,
"step": 333
},
{
"epoch": 1.3916666666666666,
"grad_norm": 0.55859375,
"learning_rate": 2.352351488696457e-06,
"loss": 1.7686,
"step": 334
},
{
"epoch": 1.3958333333333333,
"grad_norm": 0.5859375,
"learning_rate": 2.323193216480698e-06,
"loss": 1.8554,
"step": 335
},
{
"epoch": 1.4,
"grad_norm": 0.57421875,
"learning_rate": 2.2941619973943363e-06,
"loss": 1.7455,
"step": 336
},
{
"epoch": 1.4041666666666668,
"grad_norm": 0.61328125,
"learning_rate": 2.265259209387867e-06,
"loss": 1.8707,
"step": 337
},
{
"epoch": 1.4083333333333332,
"grad_norm": 0.56640625,
"learning_rate": 2.236486224315877e-06,
"loss": 1.7417,
"step": 338
},
{
"epoch": 1.4125,
"grad_norm": 0.5546875,
"learning_rate": 2.207844407871929e-06,
"loss": 1.8442,
"step": 339
},
{
"epoch": 1.4166666666666667,
"grad_norm": 0.5859375,
"learning_rate": 2.179335119523745e-06,
"loss": 1.85,
"step": 340
},
{
"epoch": 1.4208333333333334,
"grad_norm": 0.578125,
"learning_rate": 2.1509597124486693e-06,
"loss": 1.8422,
"step": 341
},
{
"epoch": 1.425,
"grad_norm": 0.5546875,
"learning_rate": 2.12271953346945e-06,
"loss": 1.9288,
"step": 342
},
{
"epoch": 1.4291666666666667,
"grad_norm": 0.58984375,
"learning_rate": 2.094615922990309e-06,
"loss": 1.7285,
"step": 343
},
{
"epoch": 1.4333333333333333,
"grad_norm": 0.5390625,
"learning_rate": 2.0666502149333215e-06,
"loss": 1.9623,
"step": 344
},
{
"epoch": 1.4375,
"grad_norm": 0.578125,
"learning_rate": 2.0388237366751005e-06,
"loss": 1.7166,
"step": 345
},
{
"epoch": 1.4416666666666667,
"grad_norm": 0.59375,
"learning_rate": 2.0111378089837958e-06,
"loss": 1.7423,
"step": 346
},
{
"epoch": 1.4458333333333333,
"grad_norm": 0.58984375,
"learning_rate": 1.9835937459564065e-06,
"loss": 1.8273,
"step": 347
},
{
"epoch": 1.45,
"grad_norm": 0.5625,
"learning_rate": 1.956192854956397e-06,
"loss": 1.7475,
"step": 348
},
{
"epoch": 1.4541666666666666,
"grad_norm": 0.61328125,
"learning_rate": 1.928936436551661e-06,
"loss": 1.8202,
"step": 349
},
{
"epoch": 1.4583333333333333,
"grad_norm": 0.578125,
"learning_rate": 1.901825784452777e-06,
"loss": 1.8016,
"step": 350
},
{
"epoch": 1.4625,
"grad_norm": 0.58203125,
"learning_rate": 1.874862185451608e-06,
"loss": 1.8716,
"step": 351
},
{
"epoch": 1.4666666666666668,
"grad_norm": 0.55859375,
"learning_rate": 1.848046919360225e-06,
"loss": 1.993,
"step": 352
},
{
"epoch": 1.4708333333333332,
"grad_norm": 0.54296875,
"learning_rate": 1.8213812589501611e-06,
"loss": 1.8034,
"step": 353
},
{
"epoch": 1.475,
"grad_norm": 0.546875,
"learning_rate": 1.7948664698919987e-06,
"loss": 1.8488,
"step": 354
},
{
"epoch": 1.4791666666666667,
"grad_norm": 0.57421875,
"learning_rate": 1.7685038106952952e-06,
"loss": 1.8102,
"step": 355
},
{
"epoch": 1.4833333333333334,
"grad_norm": 0.609375,
"learning_rate": 1.7422945326488555e-06,
"loss": 1.8314,
"step": 356
},
{
"epoch": 1.4875,
"grad_norm": 0.5859375,
"learning_rate": 1.7162398797613284e-06,
"loss": 1.7928,
"step": 357
},
{
"epoch": 1.4916666666666667,
"grad_norm": 0.58203125,
"learning_rate": 1.6903410887021676e-06,
"loss": 1.6721,
"step": 358
},
{
"epoch": 1.4958333333333333,
"grad_norm": 0.5859375,
"learning_rate": 1.6645993887429345e-06,
"loss": 1.8866,
"step": 359
},
{
"epoch": 1.5,
"grad_norm": 0.58984375,
"learning_rate": 1.6390160016989487e-06,
"loss": 1.8271,
"step": 360
},
{
"epoch": 1.5,
"eval_loss": 2.1637861728668213,
"eval_runtime": 18.1479,
"eval_samples_per_second": 136.104,
"eval_steps_per_second": 34.054,
"step": 360
},
{
"epoch": 1.5041666666666667,
"grad_norm": 0.5859375,
"learning_rate": 1.6135921418712959e-06,
"loss": 1.9767,
"step": 361
},
{
"epoch": 1.5083333333333333,
"grad_norm": 0.5859375,
"learning_rate": 1.5883290159891907e-06,
"loss": 2.0329,
"step": 362
},
{
"epoch": 1.5125,
"grad_norm": 0.5625,
"learning_rate": 1.5632278231527081e-06,
"loss": 1.8797,
"step": 363
},
{
"epoch": 1.5166666666666666,
"grad_norm": 0.59375,
"learning_rate": 1.5382897547758513e-06,
"loss": 1.9346,
"step": 364
},
{
"epoch": 1.5208333333333335,
"grad_norm": 0.57421875,
"learning_rate": 1.5135159945300232e-06,
"loss": 1.8074,
"step": 365
},
{
"epoch": 1.525,
"grad_norm": 0.56640625,
"learning_rate": 1.488907718287827e-06,
"loss": 1.803,
"step": 366
},
{
"epoch": 1.5291666666666668,
"grad_norm": 0.6328125,
"learning_rate": 1.4644660940672628e-06,
"loss": 1.9276,
"step": 367
},
{
"epoch": 1.5333333333333332,
"grad_norm": 0.6328125,
"learning_rate": 1.4401922819762864e-06,
"loss": 2.0393,
"step": 368
},
{
"epoch": 1.5375,
"grad_norm": 0.5625,
"learning_rate": 1.4160874341577447e-06,
"loss": 1.9262,
"step": 369
},
{
"epoch": 1.5416666666666665,
"grad_norm": 0.57421875,
"learning_rate": 1.3921526947346902e-06,
"loss": 1.7655,
"step": 370
},
{
"epoch": 1.5458333333333334,
"grad_norm": 0.5625,
"learning_rate": 1.368389199756075e-06,
"loss": 1.8659,
"step": 371
},
{
"epoch": 1.55,
"grad_norm": 0.58984375,
"learning_rate": 1.344798077142836e-06,
"loss": 1.5983,
"step": 372
},
{
"epoch": 1.5541666666666667,
"grad_norm": 0.57421875,
"learning_rate": 1.321380446634342e-06,
"loss": 1.8249,
"step": 373
},
{
"epoch": 1.5583333333333333,
"grad_norm": 0.5546875,
"learning_rate": 1.2981374197352663e-06,
"loss": 1.8636,
"step": 374
},
{
"epoch": 1.5625,
"grad_norm": 0.54296875,
"learning_rate": 1.275070099662815e-06,
"loss": 1.715,
"step": 375
},
{
"epoch": 1.5666666666666667,
"grad_norm": 0.5546875,
"learning_rate": 1.2521795812943704e-06,
"loss": 1.7953,
"step": 376
},
{
"epoch": 1.5708333333333333,
"grad_norm": 0.5625,
"learning_rate": 1.2294669511155193e-06,
"loss": 1.8684,
"step": 377
},
{
"epoch": 1.575,
"grad_norm": 0.58984375,
"learning_rate": 1.2069332871684875e-06,
"loss": 1.8129,
"step": 378
},
{
"epoch": 1.5791666666666666,
"grad_norm": 0.53515625,
"learning_rate": 1.1845796590009684e-06,
"loss": 1.7611,
"step": 379
},
{
"epoch": 1.5833333333333335,
"grad_norm": 0.578125,
"learning_rate": 1.162407127615357e-06,
"loss": 1.7914,
"step": 380
},
{
"epoch": 1.5875,
"grad_norm": 0.578125,
"learning_rate": 1.1404167454183957e-06,
"loss": 1.8212,
"step": 381
},
{
"epoch": 1.5916666666666668,
"grad_norm": 0.5859375,
"learning_rate": 1.118609556171213e-06,
"loss": 1.6886,
"step": 382
},
{
"epoch": 1.5958333333333332,
"grad_norm": 0.58984375,
"learning_rate": 1.0969865949397902e-06,
"loss": 1.9198,
"step": 383
},
{
"epoch": 1.6,
"grad_norm": 0.59765625,
"learning_rate": 1.075548888045827e-06,
"loss": 1.7551,
"step": 384
},
{
"epoch": 1.6041666666666665,
"grad_norm": 0.58203125,
"learning_rate": 1.0542974530180327e-06,
"loss": 1.8298,
"step": 385
},
{
"epoch": 1.6083333333333334,
"grad_norm": 0.55859375,
"learning_rate": 1.0332332985438248e-06,
"loss": 1.8998,
"step": 386
},
{
"epoch": 1.6125,
"grad_norm": 0.63671875,
"learning_rate": 1.0123574244214552e-06,
"loss": 1.7982,
"step": 387
},
{
"epoch": 1.6166666666666667,
"grad_norm": 0.5703125,
"learning_rate": 9.916708215125586e-07,
"loss": 1.76,
"step": 388
},
{
"epoch": 1.6208333333333333,
"grad_norm": 0.56640625,
"learning_rate": 9.711744716951093e-07,
"loss": 1.9085,
"step": 389
},
{
"epoch": 1.625,
"grad_norm": 0.6015625,
"learning_rate": 9.508693478168346e-07,
"loss": 1.8589,
"step": 390
},
{
"epoch": 1.625,
"eval_loss": 2.163708448410034,
"eval_runtime": 19.4818,
"eval_samples_per_second": 126.785,
"eval_steps_per_second": 31.722,
"step": 390
},
{
"epoch": 1.6291666666666667,
"grad_norm": 0.578125,
"learning_rate": 9.307564136490255e-07,
"loss": 1.9411,
"step": 391
},
{
"epoch": 1.6333333333333333,
"grad_norm": 0.56640625,
"learning_rate": 9.108366238407968e-07,
"loss": 1.8833,
"step": 392
},
{
"epoch": 1.6375,
"grad_norm": 0.578125,
"learning_rate": 8.911109238737748e-07,
"loss": 1.8408,
"step": 393
},
{
"epoch": 1.6416666666666666,
"grad_norm": 0.5390625,
"learning_rate": 8.715802500172215e-07,
"loss": 1.824,
"step": 394
},
{
"epoch": 1.6458333333333335,
"grad_norm": 0.60546875,
"learning_rate": 8.522455292835935e-07,
"loss": 1.8194,
"step": 395
},
{
"epoch": 1.65,
"grad_norm": 0.6171875,
"learning_rate": 8.331076793845422e-07,
"loss": 1.7927,
"step": 396
},
{
"epoch": 1.6541666666666668,
"grad_norm": 0.54296875,
"learning_rate": 8.141676086873574e-07,
"loss": 1.7387,
"step": 397
},
{
"epoch": 1.6583333333333332,
"grad_norm": 0.58984375,
"learning_rate": 7.954262161718479e-07,
"loss": 1.7165,
"step": 398
},
{
"epoch": 1.6625,
"grad_norm": 0.54296875,
"learning_rate": 7.768843913876756e-07,
"loss": 1.7462,
"step": 399
},
{
"epoch": 1.6666666666666665,
"grad_norm": 0.55078125,
"learning_rate": 7.585430144121319e-07,
"loss": 1.797,
"step": 400
},
{
"epoch": 1.6708333333333334,
"grad_norm": 0.58984375,
"learning_rate": 7.404029558083653e-07,
"loss": 1.8779,
"step": 401
},
{
"epoch": 1.675,
"grad_norm": 0.5546875,
"learning_rate": 7.224650765840613e-07,
"loss": 1.6523,
"step": 402
},
{
"epoch": 1.6791666666666667,
"grad_norm": 0.5390625,
"learning_rate": 7.047302281505735e-07,
"loss": 1.7236,
"step": 403
},
{
"epoch": 1.6833333333333333,
"grad_norm": 0.58984375,
"learning_rate": 6.871992522825183e-07,
"loss": 1.852,
"step": 404
},
{
"epoch": 1.6875,
"grad_norm": 0.578125,
"learning_rate": 6.698729810778065e-07,
"loss": 1.9569,
"step": 405
},
{
"epoch": 1.6916666666666667,
"grad_norm": 0.56640625,
"learning_rate": 6.527522369181655e-07,
"loss": 1.9017,
"step": 406
},
{
"epoch": 1.6958333333333333,
"grad_norm": 0.58203125,
"learning_rate": 6.358378324300929e-07,
"loss": 1.8755,
"step": 407
},
{
"epoch": 1.7,
"grad_norm": 0.5703125,
"learning_rate": 6.191305704462897e-07,
"loss": 1.9226,
"step": 408
},
{
"epoch": 1.7041666666666666,
"grad_norm": 0.578125,
"learning_rate": 6.026312439675553e-07,
"loss": 1.8452,
"step": 409
},
{
"epoch": 1.7083333333333335,
"grad_norm": 0.578125,
"learning_rate": 5.863406361251472e-07,
"loss": 1.7341,
"step": 410
},
{
"epoch": 1.7125,
"grad_norm": 0.57421875,
"learning_rate": 5.702595201436101e-07,
"loss": 1.8604,
"step": 411
},
{
"epoch": 1.7166666666666668,
"grad_norm": 0.5625,
"learning_rate": 5.543886593040737e-07,
"loss": 1.8427,
"step": 412
},
{
"epoch": 1.7208333333333332,
"grad_norm": 0.57421875,
"learning_rate": 5.387288069080298e-07,
"loss": 1.9351,
"step": 413
},
{
"epoch": 1.725,
"grad_norm": 0.59765625,
"learning_rate": 5.232807062415691e-07,
"loss": 1.6671,
"step": 414
},
{
"epoch": 1.7291666666666665,
"grad_norm": 0.57421875,
"learning_rate": 5.080450905401057e-07,
"loss": 1.7277,
"step": 415
},
{
"epoch": 1.7333333333333334,
"grad_norm": 0.57421875,
"learning_rate": 4.930226829535767e-07,
"loss": 1.8047,
"step": 416
},
{
"epoch": 1.7375,
"grad_norm": 0.578125,
"learning_rate": 4.782141965121129e-07,
"loss": 1.8396,
"step": 417
},
{
"epoch": 1.7416666666666667,
"grad_norm": 0.58203125,
"learning_rate": 4.6362033409220077e-07,
"loss": 1.7794,
"step": 418
},
{
"epoch": 1.7458333333333333,
"grad_norm": 0.5859375,
"learning_rate": 4.4924178838331554e-07,
"loss": 2.088,
"step": 419
},
{
"epoch": 1.75,
"grad_norm": 0.6328125,
"learning_rate": 4.350792418550509e-07,
"loss": 1.9824,
"step": 420
},
{
"epoch": 1.75,
"eval_loss": 2.1637122631073,
"eval_runtime": 18.0757,
"eval_samples_per_second": 136.648,
"eval_steps_per_second": 34.19,
"step": 420
},
{
"epoch": 1.7541666666666667,
"grad_norm": 0.55078125,
"learning_rate": 4.211333667247125e-07,
"loss": 1.7158,
"step": 421
},
{
"epoch": 1.7583333333333333,
"grad_norm": 0.625,
"learning_rate": 4.0740482492542864e-07,
"loss": 1.8371,
"step": 422
},
{
"epoch": 1.7625,
"grad_norm": 0.61328125,
"learning_rate": 3.9389426807471764e-07,
"loss": 1.9022,
"step": 423
},
{
"epoch": 1.7666666666666666,
"grad_norm": 0.5625,
"learning_rate": 3.8060233744356634e-07,
"loss": 1.7749,
"step": 424
},
{
"epoch": 1.7708333333333335,
"grad_norm": 0.55859375,
"learning_rate": 3.675296639259912e-07,
"loss": 1.8189,
"step": 425
},
{
"epoch": 1.775,
"grad_norm": 0.59765625,
"learning_rate": 3.546768680090934e-07,
"loss": 1.9032,
"step": 426
},
{
"epoch": 1.7791666666666668,
"grad_norm": 0.5546875,
"learning_rate": 3.420445597436056e-07,
"loss": 1.8965,
"step": 427
},
{
"epoch": 1.7833333333333332,
"grad_norm": 0.62109375,
"learning_rate": 3.2963333871493917e-07,
"loss": 1.7836,
"step": 428
},
{
"epoch": 1.7875,
"grad_norm": 0.55859375,
"learning_rate": 3.174437940147268e-07,
"loss": 1.7164,
"step": 429
},
{
"epoch": 1.7916666666666665,
"grad_norm": 0.53515625,
"learning_rate": 3.0547650421285216e-07,
"loss": 1.6448,
"step": 430
},
{
"epoch": 1.7958333333333334,
"grad_norm": 0.5859375,
"learning_rate": 2.9373203733000234e-07,
"loss": 1.8398,
"step": 431
},
{
"epoch": 1.8,
"grad_norm": 0.5703125,
"learning_rate": 2.8221095081069517e-07,
"loss": 1.9501,
"step": 432
},
{
"epoch": 1.8041666666666667,
"grad_norm": 0.58984375,
"learning_rate": 2.7091379149682683e-07,
"loss": 1.8656,
"step": 433
},
{
"epoch": 1.8083333333333333,
"grad_norm": 0.625,
"learning_rate": 2.5984109560171387e-07,
"loss": 1.8771,
"step": 434
},
{
"epoch": 1.8125,
"grad_norm": 0.59375,
"learning_rate": 2.4899338868464404e-07,
"loss": 1.8811,
"step": 435
},
{
"epoch": 1.8166666666666667,
"grad_norm": 0.578125,
"learning_rate": 2.3837118562592799e-07,
"loss": 1.7978,
"step": 436
},
{
"epoch": 1.8208333333333333,
"grad_norm": 0.5859375,
"learning_rate": 2.2797499060246253e-07,
"loss": 1.8968,
"step": 437
},
{
"epoch": 1.825,
"grad_norm": 0.62109375,
"learning_rate": 2.1780529706380337e-07,
"loss": 1.9792,
"step": 438
},
{
"epoch": 1.8291666666666666,
"grad_norm": 0.609375,
"learning_rate": 2.0786258770873647e-07,
"loss": 1.8722,
"step": 439
},
{
"epoch": 1.8333333333333335,
"grad_norm": 0.55859375,
"learning_rate": 1.9814733446237356e-07,
"loss": 1.913,
"step": 440
},
{
"epoch": 1.8375,
"grad_norm": 0.6015625,
"learning_rate": 1.8865999845374794e-07,
"loss": 1.7703,
"step": 441
},
{
"epoch": 1.8416666666666668,
"grad_norm": 0.546875,
"learning_rate": 1.7940102999393194e-07,
"loss": 1.8243,
"step": 442
},
{
"epoch": 1.8458333333333332,
"grad_norm": 0.59765625,
"learning_rate": 1.7037086855465902e-07,
"loss": 1.9066,
"step": 443
},
{
"epoch": 1.85,
"grad_norm": 0.55859375,
"learning_rate": 1.6156994274746484e-07,
"loss": 1.8047,
"step": 444
},
{
"epoch": 1.8541666666666665,
"grad_norm": 0.60546875,
"learning_rate": 1.5299867030334815e-07,
"loss": 1.7898,
"step": 445
},
{
"epoch": 1.8583333333333334,
"grad_norm": 0.61328125,
"learning_rate": 1.4465745805293584e-07,
"loss": 1.9064,
"step": 446
},
{
"epoch": 1.8625,
"grad_norm": 0.5703125,
"learning_rate": 1.3654670190718035e-07,
"loss": 1.8308,
"step": 447
},
{
"epoch": 1.8666666666666667,
"grad_norm": 0.5703125,
"learning_rate": 1.286667868385627e-07,
"loss": 1.8555,
"step": 448
},
{
"epoch": 1.8708333333333333,
"grad_norm": 0.625,
"learning_rate": 1.210180868628219e-07,
"loss": 2.025,
"step": 449
},
{
"epoch": 1.875,
"grad_norm": 0.63671875,
"learning_rate": 1.1360096502120387e-07,
"loss": 1.8668,
"step": 450
},
{
"epoch": 1.875,
"eval_loss": 2.1636900901794434,
"eval_runtime": 18.0442,
"eval_samples_per_second": 136.886,
"eval_steps_per_second": 34.249,
"step": 450
},
{
"epoch": 1.8791666666666667,
"grad_norm": 0.5703125,
"learning_rate": 1.0641577336322761e-07,
"loss": 1.7653,
"step": 451
},
{
"epoch": 1.8833333333333333,
"grad_norm": 0.5703125,
"learning_rate": 9.946285292997681e-08,
"loss": 1.8271,
"step": 452
},
{
"epoch": 1.8875,
"grad_norm": 0.55078125,
"learning_rate": 9.274253373791064e-08,
"loss": 1.6874,
"step": 453
},
{
"epoch": 1.8916666666666666,
"grad_norm": 0.58203125,
"learning_rate": 8.625513476320291e-08,
"loss": 1.8769,
"step": 454
},
{
"epoch": 1.8958333333333335,
"grad_norm": 0.59765625,
"learning_rate": 8.000096392660029e-08,
"loss": 1.9365,
"step": 455
},
{
"epoch": 1.9,
"grad_norm": 0.57421875,
"learning_rate": 7.398031807880456e-08,
"loss": 1.9398,
"step": 456
},
{
"epoch": 1.9041666666666668,
"grad_norm": 0.57421875,
"learning_rate": 6.819348298638839e-08,
"loss": 1.8274,
"step": 457
},
{
"epoch": 1.9083333333333332,
"grad_norm": 0.57421875,
"learning_rate": 6.264073331822551e-08,
"loss": 1.9641,
"step": 458
},
{
"epoch": 1.9125,
"grad_norm": 0.58203125,
"learning_rate": 5.7322332632458454e-08,
"loss": 1.9163,
"step": 459
},
{
"epoch": 1.9166666666666665,
"grad_norm": 0.55859375,
"learning_rate": 5.223853336398632e-08,
"loss": 1.8069,
"step": 460
},
{
"epoch": 1.9208333333333334,
"grad_norm": 0.58203125,
"learning_rate": 4.73895768124838e-08,
"loss": 1.8481,
"step": 461
},
{
"epoch": 1.925,
"grad_norm": 0.578125,
"learning_rate": 4.2775693130948094e-08,
"loss": 1.7157,
"step": 462
},
{
"epoch": 1.9291666666666667,
"grad_norm": 0.60546875,
"learning_rate": 3.839710131477492e-08,
"loss": 1.9448,
"step": 463
},
{
"epoch": 1.9333333333333333,
"grad_norm": 0.57421875,
"learning_rate": 3.425400919136346e-08,
"loss": 1.8642,
"step": 464
},
{
"epoch": 1.9375,
"grad_norm": 0.546875,
"learning_rate": 3.034661341025258e-08,
"loss": 1.7063,
"step": 465
},
{
"epoch": 1.9416666666666667,
"grad_norm": 0.5625,
"learning_rate": 2.6675099433787212e-08,
"loss": 1.8679,
"step": 466
},
{
"epoch": 1.9458333333333333,
"grad_norm": 0.58984375,
"learning_rate": 2.323964152831426e-08,
"loss": 1.8071,
"step": 467
},
{
"epoch": 1.95,
"grad_norm": 0.61328125,
"learning_rate": 2.0040402755912013e-08,
"loss": 1.8973,
"step": 468
},
{
"epoch": 1.9541666666666666,
"grad_norm": 0.61328125,
"learning_rate": 1.7077534966650767e-08,
"loss": 1.8514,
"step": 469
},
{
"epoch": 1.9583333333333335,
"grad_norm": 0.58203125,
"learning_rate": 1.4351178791384702e-08,
"loss": 1.9469,
"step": 470
},
{
"epoch": 1.9625,
"grad_norm": 0.5625,
"learning_rate": 1.1861463635077785e-08,
"loss": 1.8502,
"step": 471
},
{
"epoch": 1.9666666666666668,
"grad_norm": 0.56640625,
"learning_rate": 9.608507670659239e-09,
"loss": 1.8646,
"step": 472
},
{
"epoch": 1.9708333333333332,
"grad_norm": 0.53515625,
"learning_rate": 7.59241783341913e-09,
"loss": 1.7634,
"step": 473
},
{
"epoch": 1.975,
"grad_norm": 0.578125,
"learning_rate": 5.8132898159268815e-09,
"loss": 1.8671,
"step": 474
},
{
"epoch": 1.9791666666666665,
"grad_norm": 0.58984375,
"learning_rate": 4.2712080634949024e-09,
"loss": 1.6967,
"step": 475
},
{
"epoch": 1.9833333333333334,
"grad_norm": 0.578125,
"learning_rate": 2.9662457701662428e-09,
"loss": 1.7744,
"step": 476
},
{
"epoch": 1.9875,
"grad_norm": 0.58203125,
"learning_rate": 1.8984648752429222e-09,
"loss": 1.9288,
"step": 477
},
{
"epoch": 1.9916666666666667,
"grad_norm": 0.5625,
"learning_rate": 1.0679160603449533e-09,
"loss": 1.768,
"step": 478
},
{
"epoch": 1.9958333333333333,
"grad_norm": 0.59765625,
"learning_rate": 4.746387470044855e-10,
"loss": 1.9382,
"step": 479
},
{
"epoch": 2.0,
"grad_norm": 0.578125,
"learning_rate": 1.1866109479674593e-10,
"loss": 2.0332,
"step": 480
},
{
"epoch": 2.0,
"eval_loss": 2.1636929512023926,
"eval_runtime": 18.1368,
"eval_samples_per_second": 136.187,
"eval_steps_per_second": 34.074,
"step": 480
}
],
"logging_steps": 1,
"max_steps": 480,
"num_input_tokens_seen": 0,
"num_train_epochs": 2,
"save_steps": 240,
"stateful_callbacks": {
"TrainerControl": {
"args": {
"should_epoch_stop": false,
"should_evaluate": false,
"should_log": false,
"should_save": true,
"should_training_stop": true
},
"attributes": {}
}
},
"total_flos": 3.0147732660289536e+18,
"train_batch_size": 2,
"trial_name": null,
"trial_params": null
}