9b-1 / trainer_state.json
furproxy's picture
Upload folder using huggingface_hub
a390ff9 verified
{
"best_global_step": null,
"best_metric": null,
"best_model_checkpoint": null,
"epoch": 2.0,
"eval_steps": 500,
"global_step": 1500,
"is_hyper_param_search": false,
"is_local_process_zero": true,
"is_world_process_zero": true,
"log_history": [
{
"epoch": 0.0026666666666666666,
"grad_norm": 0.98046875,
"learning_rate": 2.2222222222222224e-07,
"loss": 1.2595083713531494,
"step": 2
},
{
"epoch": 0.005333333333333333,
"grad_norm": 3.1875,
"learning_rate": 6.666666666666667e-07,
"loss": 2.2552671432495117,
"step": 4
},
{
"epoch": 0.008,
"grad_norm": 2.875,
"learning_rate": 1.111111111111111e-06,
"loss": 2.0805225372314453,
"step": 6
},
{
"epoch": 0.010666666666666666,
"grad_norm": 6.09375,
"learning_rate": 1.5555555555555558e-06,
"loss": 2.066380739212036,
"step": 8
},
{
"epoch": 0.013333333333333334,
"grad_norm": 2.484375,
"learning_rate": 2.0000000000000003e-06,
"loss": 2.2139711380004883,
"step": 10
},
{
"epoch": 0.016,
"grad_norm": 2.734375,
"learning_rate": 2.4444444444444447e-06,
"loss": 1.7304364442825317,
"step": 12
},
{
"epoch": 0.018666666666666668,
"grad_norm": 3.640625,
"learning_rate": 2.888888888888889e-06,
"loss": 1.5166676044464111,
"step": 14
},
{
"epoch": 0.021333333333333333,
"grad_norm": 2.609375,
"learning_rate": 3.3333333333333333e-06,
"loss": 1.9378066062927246,
"step": 16
},
{
"epoch": 0.024,
"grad_norm": 4.34375,
"learning_rate": 3.777777777777778e-06,
"loss": 1.927426815032959,
"step": 18
},
{
"epoch": 0.02666666666666667,
"grad_norm": 2.84375,
"learning_rate": 4.222222222222223e-06,
"loss": 1.6432883739471436,
"step": 20
},
{
"epoch": 0.029333333333333333,
"grad_norm": 3.984375,
"learning_rate": 4.666666666666667e-06,
"loss": 2.158468723297119,
"step": 22
},
{
"epoch": 0.032,
"grad_norm": 2.765625,
"learning_rate": 5.1111111111111115e-06,
"loss": 2.044734001159668,
"step": 24
},
{
"epoch": 0.034666666666666665,
"grad_norm": 7.40625,
"learning_rate": 5.555555555555557e-06,
"loss": 1.8720643520355225,
"step": 26
},
{
"epoch": 0.037333333333333336,
"grad_norm": 6.0625,
"learning_rate": 6e-06,
"loss": 2.249190092086792,
"step": 28
},
{
"epoch": 0.04,
"grad_norm": 1.390625,
"learning_rate": 6.444444444444445e-06,
"loss": 1.7764644622802734,
"step": 30
},
{
"epoch": 0.042666666666666665,
"grad_norm": 6.1875,
"learning_rate": 6.88888888888889e-06,
"loss": 2.191967487335205,
"step": 32
},
{
"epoch": 0.04533333333333334,
"grad_norm": 0.97265625,
"learning_rate": 7.333333333333333e-06,
"loss": 1.0597491264343262,
"step": 34
},
{
"epoch": 0.048,
"grad_norm": 10.25,
"learning_rate": 7.77777777777778e-06,
"loss": 1.834678053855896,
"step": 36
},
{
"epoch": 0.050666666666666665,
"grad_norm": 7.53125,
"learning_rate": 8.222222222222222e-06,
"loss": 1.7320787906646729,
"step": 38
},
{
"epoch": 0.05333333333333334,
"grad_norm": 1.578125,
"learning_rate": 8.666666666666668e-06,
"loss": 1.576636552810669,
"step": 40
},
{
"epoch": 0.056,
"grad_norm": 2.71875,
"learning_rate": 9.111111111111112e-06,
"loss": 2.0934269428253174,
"step": 42
},
{
"epoch": 0.058666666666666666,
"grad_norm": 3.390625,
"learning_rate": 9.555555555555556e-06,
"loss": 1.7907030582427979,
"step": 44
},
{
"epoch": 0.06133333333333333,
"grad_norm": 1.4765625,
"learning_rate": 1e-05,
"loss": 1.1187187433242798,
"step": 46
},
{
"epoch": 0.064,
"grad_norm": 3.234375,
"learning_rate": 9.99996270393004e-06,
"loss": 1.8578205108642578,
"step": 48
},
{
"epoch": 0.06666666666666667,
"grad_norm": 2.28125,
"learning_rate": 9.999850816415654e-06,
"loss": 1.8232800960540771,
"step": 50
},
{
"epoch": 0.06933333333333333,
"grad_norm": 2.84375,
"learning_rate": 9.99966433954333e-06,
"loss": 1.8032082319259644,
"step": 52
},
{
"epoch": 0.072,
"grad_norm": 2.046875,
"learning_rate": 9.999403276790487e-06,
"loss": 1.8457987308502197,
"step": 54
},
{
"epoch": 0.07466666666666667,
"grad_norm": 3.859375,
"learning_rate": 9.999067633025438e-06,
"loss": 2.1922450065612793,
"step": 56
},
{
"epoch": 0.07733333333333334,
"grad_norm": 2.75,
"learning_rate": 9.99865741450728e-06,
"loss": 1.5150452852249146,
"step": 58
},
{
"epoch": 0.08,
"grad_norm": 1.6484375,
"learning_rate": 9.998172628885782e-06,
"loss": 1.519820213317871,
"step": 60
},
{
"epoch": 0.08266666666666667,
"grad_norm": 1.46875,
"learning_rate": 9.997613285201243e-06,
"loss": 1.612436294555664,
"step": 62
},
{
"epoch": 0.08533333333333333,
"grad_norm": 0.99609375,
"learning_rate": 9.996979393884319e-06,
"loss": 1.2558457851409912,
"step": 64
},
{
"epoch": 0.088,
"grad_norm": 3.140625,
"learning_rate": 9.996270966755842e-06,
"loss": 1.7106069326400757,
"step": 66
},
{
"epoch": 0.09066666666666667,
"grad_norm": 1.8984375,
"learning_rate": 9.995488017026587e-06,
"loss": 1.986160397529602,
"step": 68
},
{
"epoch": 0.09333333333333334,
"grad_norm": 1.3515625,
"learning_rate": 9.994630559297027e-06,
"loss": 1.8290278911590576,
"step": 70
},
{
"epoch": 0.096,
"grad_norm": 1.4375,
"learning_rate": 9.99369860955706e-06,
"loss": 1.513393759727478,
"step": 72
},
{
"epoch": 0.09866666666666667,
"grad_norm": 1.640625,
"learning_rate": 9.992692185185722e-06,
"loss": 1.9037158489227295,
"step": 74
},
{
"epoch": 0.10133333333333333,
"grad_norm": 2.203125,
"learning_rate": 9.991611304950848e-06,
"loss": 1.8406035900115967,
"step": 76
},
{
"epoch": 0.104,
"grad_norm": 1.78125,
"learning_rate": 9.99045598900873e-06,
"loss": 1.789304494857788,
"step": 78
},
{
"epoch": 0.10666666666666667,
"grad_norm": 1.8515625,
"learning_rate": 9.989226258903739e-06,
"loss": 1.3863871097564697,
"step": 80
},
{
"epoch": 0.10933333333333334,
"grad_norm": 2.203125,
"learning_rate": 9.987922137567929e-06,
"loss": 1.755820631980896,
"step": 82
},
{
"epoch": 0.112,
"grad_norm": 2.328125,
"learning_rate": 9.986543649320596e-06,
"loss": 1.5121113061904907,
"step": 84
},
{
"epoch": 0.11466666666666667,
"grad_norm": 1.8828125,
"learning_rate": 9.985090819867841e-06,
"loss": 1.7100260257720947,
"step": 86
},
{
"epoch": 0.11733333333333333,
"grad_norm": 1.171875,
"learning_rate": 9.983563676302075e-06,
"loss": 1.194307804107666,
"step": 88
},
{
"epoch": 0.12,
"grad_norm": 3.34375,
"learning_rate": 9.981962247101526e-06,
"loss": 1.9104779958724976,
"step": 90
},
{
"epoch": 0.12266666666666666,
"grad_norm": 1.78125,
"learning_rate": 9.980286562129702e-06,
"loss": 1.6766607761383057,
"step": 92
},
{
"epoch": 0.12533333333333332,
"grad_norm": 3.890625,
"learning_rate": 9.978536652634835e-06,
"loss": 1.6581366062164307,
"step": 94
},
{
"epoch": 0.128,
"grad_norm": 1.5546875,
"learning_rate": 9.976712551249298e-06,
"loss": 1.6946468353271484,
"step": 96
},
{
"epoch": 0.13066666666666665,
"grad_norm": 3.125,
"learning_rate": 9.974814291988997e-06,
"loss": 1.5705773830413818,
"step": 98
},
{
"epoch": 0.13333333333333333,
"grad_norm": 3.0625,
"learning_rate": 9.972841910252738e-06,
"loss": 1.4162333011627197,
"step": 100
},
{
"epoch": 0.136,
"grad_norm": 4.53125,
"learning_rate": 9.970795442821567e-06,
"loss": 1.9551106691360474,
"step": 102
},
{
"epoch": 0.13866666666666666,
"grad_norm": 2.46875,
"learning_rate": 9.968674927858073e-06,
"loss": 1.6684436798095703,
"step": 104
},
{
"epoch": 0.14133333333333334,
"grad_norm": 3.5,
"learning_rate": 9.966480404905702e-06,
"loss": 1.3331656455993652,
"step": 106
},
{
"epoch": 0.144,
"grad_norm": 1.8125,
"learning_rate": 9.964211914887988e-06,
"loss": 1.6477642059326172,
"step": 108
},
{
"epoch": 0.14666666666666667,
"grad_norm": 2.453125,
"learning_rate": 9.961869500107816e-06,
"loss": 1.8132398128509521,
"step": 110
},
{
"epoch": 0.14933333333333335,
"grad_norm": 2.203125,
"learning_rate": 9.959453204246616e-06,
"loss": 1.7937920093536377,
"step": 112
},
{
"epoch": 0.152,
"grad_norm": 16.375,
"learning_rate": 9.956963072363561e-06,
"loss": 1.753406286239624,
"step": 114
},
{
"epoch": 0.15466666666666667,
"grad_norm": 3.1875,
"learning_rate": 9.954399150894716e-06,
"loss": 1.6943455934524536,
"step": 116
},
{
"epoch": 0.15733333333333333,
"grad_norm": 2.453125,
"learning_rate": 9.951761487652175e-06,
"loss": 1.6563262939453125,
"step": 118
},
{
"epoch": 0.16,
"grad_norm": 2.03125,
"learning_rate": 9.949050131823183e-06,
"loss": 1.7117996215820312,
"step": 120
},
{
"epoch": 0.16266666666666665,
"grad_norm": 3.4375,
"learning_rate": 9.946265133969188e-06,
"loss": 1.7866847515106201,
"step": 122
},
{
"epoch": 0.16533333333333333,
"grad_norm": 1.5703125,
"learning_rate": 9.943406546024934e-06,
"loss": 1.4918973445892334,
"step": 124
},
{
"epoch": 0.168,
"grad_norm": 3.96875,
"learning_rate": 9.940474421297467e-06,
"loss": 1.6683275699615479,
"step": 126
},
{
"epoch": 0.17066666666666666,
"grad_norm": 1.59375,
"learning_rate": 9.93746881446515e-06,
"loss": 1.4013874530792236,
"step": 128
},
{
"epoch": 0.17333333333333334,
"grad_norm": 4.6875,
"learning_rate": 9.93438978157665e-06,
"loss": 1.6734812259674072,
"step": 130
},
{
"epoch": 0.176,
"grad_norm": 2.53125,
"learning_rate": 9.931237380049872e-06,
"loss": 1.4506793022155762,
"step": 132
},
{
"epoch": 0.17866666666666667,
"grad_norm": 2.015625,
"learning_rate": 9.928011668670915e-06,
"loss": 1.7543423175811768,
"step": 134
},
{
"epoch": 0.18133333333333335,
"grad_norm": 1.390625,
"learning_rate": 9.924712707592957e-06,
"loss": 1.2520382404327393,
"step": 136
},
{
"epoch": 0.184,
"grad_norm": 1.7265625,
"learning_rate": 9.921340558335139e-06,
"loss": 1.5790289640426636,
"step": 138
},
{
"epoch": 0.18666666666666668,
"grad_norm": 1.2265625,
"learning_rate": 9.917895283781418e-06,
"loss": 1.5544064044952393,
"step": 140
},
{
"epoch": 0.18933333333333333,
"grad_norm": 3.09375,
"learning_rate": 9.914376948179397e-06,
"loss": 1.3657848834991455,
"step": 142
},
{
"epoch": 0.192,
"grad_norm": 2.59375,
"learning_rate": 9.910785617139116e-06,
"loss": 1.107475996017456,
"step": 144
},
{
"epoch": 0.19466666666666665,
"grad_norm": 1.6640625,
"learning_rate": 9.907121357631847e-06,
"loss": 1.4638755321502686,
"step": 146
},
{
"epoch": 0.19733333333333333,
"grad_norm": 2.140625,
"learning_rate": 9.903384237988828e-06,
"loss": 1.665480375289917,
"step": 148
},
{
"epoch": 0.2,
"grad_norm": 2.546875,
"learning_rate": 9.899574327899996e-06,
"loss": 1.5474549531936646,
"step": 150
},
{
"epoch": 0.20266666666666666,
"grad_norm": 4.375,
"learning_rate": 9.895691698412688e-06,
"loss": 1.7776587009429932,
"step": 152
},
{
"epoch": 0.20533333333333334,
"grad_norm": 4.8125,
"learning_rate": 9.891736421930314e-06,
"loss": 1.64408540725708,
"step": 154
},
{
"epoch": 0.208,
"grad_norm": 0.96875,
"learning_rate": 9.887708572211007e-06,
"loss": 1.3968820571899414,
"step": 156
},
{
"epoch": 0.21066666666666667,
"grad_norm": 2.796875,
"learning_rate": 9.883608224366254e-06,
"loss": 1.3518630266189575,
"step": 158
},
{
"epoch": 0.21333333333333335,
"grad_norm": 5.71875,
"learning_rate": 9.879435454859483e-06,
"loss": 1.3899292945861816,
"step": 160
},
{
"epoch": 0.216,
"grad_norm": 2.671875,
"learning_rate": 9.875190341504642e-06,
"loss": 1.562904953956604,
"step": 162
},
{
"epoch": 0.21866666666666668,
"grad_norm": 1.2265625,
"learning_rate": 9.870872963464759e-06,
"loss": 1.3672468662261963,
"step": 164
},
{
"epoch": 0.22133333333333333,
"grad_norm": 1.0390625,
"learning_rate": 9.866483401250447e-06,
"loss": 1.2454572916030884,
"step": 166
},
{
"epoch": 0.224,
"grad_norm": 0.91015625,
"learning_rate": 9.862021736718416e-06,
"loss": 1.2947109937667847,
"step": 168
},
{
"epoch": 0.22666666666666666,
"grad_norm": 2.375,
"learning_rate": 9.857488053069942e-06,
"loss": 1.55963134765625,
"step": 170
},
{
"epoch": 0.22933333333333333,
"grad_norm": 0.96875,
"learning_rate": 9.85288243484932e-06,
"loss": 1.4033395051956177,
"step": 172
},
{
"epoch": 0.232,
"grad_norm": 3.671875,
"learning_rate": 9.848204967942275e-06,
"loss": 1.79010009765625,
"step": 174
},
{
"epoch": 0.23466666666666666,
"grad_norm": 1.5859375,
"learning_rate": 9.843455739574375e-06,
"loss": 1.4119430780410767,
"step": 176
},
{
"epoch": 0.23733333333333334,
"grad_norm": 3.078125,
"learning_rate": 9.8386348383094e-06,
"loss": 1.3605022430419922,
"step": 178
},
{
"epoch": 0.24,
"grad_norm": 2.0625,
"learning_rate": 9.83374235404768e-06,
"loss": 1.8360528945922852,
"step": 180
},
{
"epoch": 0.24266666666666667,
"grad_norm": 2.84375,
"learning_rate": 9.828778378024434e-06,
"loss": 1.5890597105026245,
"step": 182
},
{
"epoch": 0.24533333333333332,
"grad_norm": 1.765625,
"learning_rate": 9.823743002808065e-06,
"loss": 1.5713626146316528,
"step": 184
},
{
"epoch": 0.248,
"grad_norm": 0.82421875,
"learning_rate": 9.818636322298421e-06,
"loss": 1.3066761493682861,
"step": 186
},
{
"epoch": 0.25066666666666665,
"grad_norm": 1.7578125,
"learning_rate": 9.813458431725062e-06,
"loss": 1.5583796501159668,
"step": 188
},
{
"epoch": 0.25333333333333335,
"grad_norm": 1.5703125,
"learning_rate": 9.808209427645471e-06,
"loss": 1.403846025466919,
"step": 190
},
{
"epoch": 0.256,
"grad_norm": 0.82421875,
"learning_rate": 9.802889407943258e-06,
"loss": 1.192924976348877,
"step": 192
},
{
"epoch": 0.25866666666666666,
"grad_norm": 2.59375,
"learning_rate": 9.79749847182634e-06,
"loss": 1.5467796325683594,
"step": 194
},
{
"epoch": 0.2613333333333333,
"grad_norm": 3.765625,
"learning_rate": 9.792036719825082e-06,
"loss": 1.735586404800415,
"step": 196
},
{
"epoch": 0.264,
"grad_norm": 1.3671875,
"learning_rate": 9.786504253790425e-06,
"loss": 1.544168472290039,
"step": 198
},
{
"epoch": 0.26666666666666666,
"grad_norm": 0.79296875,
"learning_rate": 9.780901176891988e-06,
"loss": 1.5578876733779907,
"step": 200
},
{
"epoch": 0.2693333333333333,
"grad_norm": 1.609375,
"learning_rate": 9.775227593616147e-06,
"loss": 1.5140628814697266,
"step": 202
},
{
"epoch": 0.272,
"grad_norm": 2.671875,
"learning_rate": 9.76948360976408e-06,
"loss": 1.8607451915740967,
"step": 204
},
{
"epoch": 0.27466666666666667,
"grad_norm": 1.1484375,
"learning_rate": 9.7636693324498e-06,
"loss": 1.0696704387664795,
"step": 206
},
{
"epoch": 0.2773333333333333,
"grad_norm": 1.5625,
"learning_rate": 9.757784870098152e-06,
"loss": 1.3851189613342285,
"step": 208
},
{
"epoch": 0.28,
"grad_norm": 0.7734375,
"learning_rate": 9.751830332442799e-06,
"loss": 1.2549703121185303,
"step": 210
},
{
"epoch": 0.2826666666666667,
"grad_norm": 0.5078125,
"learning_rate": 9.745805830524164e-06,
"loss": 1.3412734270095825,
"step": 212
},
{
"epoch": 0.2853333333333333,
"grad_norm": 1.6953125,
"learning_rate": 9.73971147668737e-06,
"loss": 1.361825704574585,
"step": 214
},
{
"epoch": 0.288,
"grad_norm": 6.53125,
"learning_rate": 9.733547384580144e-06,
"loss": 1.995964765548706,
"step": 216
},
{
"epoch": 0.2906666666666667,
"grad_norm": 2.125,
"learning_rate": 9.727313669150688e-06,
"loss": 1.7472162246704102,
"step": 218
},
{
"epoch": 0.29333333333333333,
"grad_norm": 6.84375,
"learning_rate": 9.721010446645546e-06,
"loss": 1.6682175397872925,
"step": 220
},
{
"epoch": 0.296,
"grad_norm": 1.4609375,
"learning_rate": 9.714637834607431e-06,
"loss": 1.5809025764465332,
"step": 222
},
{
"epoch": 0.2986666666666667,
"grad_norm": 3.328125,
"learning_rate": 9.708195951873037e-06,
"loss": 1.591489553451538,
"step": 224
},
{
"epoch": 0.30133333333333334,
"grad_norm": 1.6171875,
"learning_rate": 9.701684918570818e-06,
"loss": 1.5637208223342896,
"step": 226
},
{
"epoch": 0.304,
"grad_norm": 2.234375,
"learning_rate": 9.69510485611875e-06,
"loss": 1.5958696603775024,
"step": 228
},
{
"epoch": 0.30666666666666664,
"grad_norm": 3.328125,
"learning_rate": 9.688455887222068e-06,
"loss": 1.8065468072891235,
"step": 230
},
{
"epoch": 0.30933333333333335,
"grad_norm": 1.4609375,
"learning_rate": 9.681738135870978e-06,
"loss": 1.3718721866607666,
"step": 232
},
{
"epoch": 0.312,
"grad_norm": 1.8046875,
"learning_rate": 9.67495172733834e-06,
"loss": 1.4610414505004883,
"step": 234
},
{
"epoch": 0.31466666666666665,
"grad_norm": 5.75,
"learning_rate": 9.668096788177338e-06,
"loss": 1.5698318481445312,
"step": 236
},
{
"epoch": 0.31733333333333336,
"grad_norm": 1.421875,
"learning_rate": 9.66117344621912e-06,
"loss": 1.8078744411468506,
"step": 238
},
{
"epoch": 0.32,
"grad_norm": 1.625,
"learning_rate": 9.654181830570404e-06,
"loss": 1.4940440654754639,
"step": 240
},
{
"epoch": 0.32266666666666666,
"grad_norm": 4.09375,
"learning_rate": 9.647122071611089e-06,
"loss": 1.7598289251327515,
"step": 242
},
{
"epoch": 0.3253333333333333,
"grad_norm": 2.140625,
"learning_rate": 9.639994300991804e-06,
"loss": 1.4887741804122925,
"step": 244
},
{
"epoch": 0.328,
"grad_norm": 1.8203125,
"learning_rate": 9.632798651631464e-06,
"loss": 1.5527875423431396,
"step": 246
},
{
"epoch": 0.33066666666666666,
"grad_norm": 4.875,
"learning_rate": 9.625535257714789e-06,
"loss": 1.9298032522201538,
"step": 248
},
{
"epoch": 0.3333333333333333,
"grad_norm": 3.75,
"learning_rate": 9.618204254689808e-06,
"loss": 1.4619755744934082,
"step": 250
},
{
"epoch": 0.336,
"grad_norm": 0.7890625,
"learning_rate": 9.610805779265319e-06,
"loss": 1.3586680889129639,
"step": 252
},
{
"epoch": 0.33866666666666667,
"grad_norm": 2.3125,
"learning_rate": 9.603339969408349e-06,
"loss": 1.5258197784423828,
"step": 254
},
{
"epoch": 0.3413333333333333,
"grad_norm": 1.34375,
"learning_rate": 9.595806964341581e-06,
"loss": 1.3830153942108154,
"step": 256
},
{
"epoch": 0.344,
"grad_norm": 1.9375,
"learning_rate": 9.58820690454076e-06,
"loss": 1.615321397781372,
"step": 258
},
{
"epoch": 0.3466666666666667,
"grad_norm": 0.890625,
"learning_rate": 9.580539931732067e-06,
"loss": 1.5420563220977783,
"step": 260
},
{
"epoch": 0.34933333333333333,
"grad_norm": 1.421875,
"learning_rate": 9.572806188889478e-06,
"loss": 1.5078868865966797,
"step": 262
},
{
"epoch": 0.352,
"grad_norm": 3.078125,
"learning_rate": 9.565005820232097e-06,
"loss": 1.6129082441329956,
"step": 264
},
{
"epoch": 0.3546666666666667,
"grad_norm": 4.8125,
"learning_rate": 9.557138971221478e-06,
"loss": 1.465453863143921,
"step": 266
},
{
"epoch": 0.35733333333333334,
"grad_norm": 1.5078125,
"learning_rate": 9.54920578855889e-06,
"loss": 1.273129940032959,
"step": 268
},
{
"epoch": 0.36,
"grad_norm": 2.5,
"learning_rate": 9.541206420182605e-06,
"loss": 1.8482128381729126,
"step": 270
},
{
"epoch": 0.3626666666666667,
"grad_norm": 2.15625,
"learning_rate": 9.533141015265122e-06,
"loss": 1.3174548149108887,
"step": 272
},
{
"epoch": 0.36533333333333334,
"grad_norm": 2.734375,
"learning_rate": 9.525009724210397e-06,
"loss": 1.5214124917984009,
"step": 274
},
{
"epoch": 0.368,
"grad_norm": 2.109375,
"learning_rate": 9.516812698651026e-06,
"loss": 1.721625804901123,
"step": 276
},
{
"epoch": 0.37066666666666664,
"grad_norm": 0.8984375,
"learning_rate": 9.50855009144543e-06,
"loss": 1.3500480651855469,
"step": 278
},
{
"epoch": 0.37333333333333335,
"grad_norm": 3.59375,
"learning_rate": 9.500222056675001e-06,
"loss": 1.7781211137771606,
"step": 280
},
{
"epoch": 0.376,
"grad_norm": 3.09375,
"learning_rate": 9.491828749641217e-06,
"loss": 1.351893663406372,
"step": 282
},
{
"epoch": 0.37866666666666665,
"grad_norm": 2.703125,
"learning_rate": 9.483370326862765e-06,
"loss": 1.7566255331039429,
"step": 284
},
{
"epoch": 0.38133333333333336,
"grad_norm": 1.265625,
"learning_rate": 9.474846946072605e-06,
"loss": 1.428544521331787,
"step": 286
},
{
"epoch": 0.384,
"grad_norm": 1.8125,
"learning_rate": 9.466258766215045e-06,
"loss": 1.6000492572784424,
"step": 288
},
{
"epoch": 0.38666666666666666,
"grad_norm": 1.8828125,
"learning_rate": 9.457605947442758e-06,
"loss": 1.8304314613342285,
"step": 290
},
{
"epoch": 0.3893333333333333,
"grad_norm": 1.484375,
"learning_rate": 9.448888651113817e-06,
"loss": 1.2132039070129395,
"step": 292
},
{
"epoch": 0.392,
"grad_norm": 3.171875,
"learning_rate": 9.440107039788665e-06,
"loss": 1.6729305982589722,
"step": 294
},
{
"epoch": 0.39466666666666667,
"grad_norm": 2.234375,
"learning_rate": 9.431261277227098e-06,
"loss": 1.572163462638855,
"step": 296
},
{
"epoch": 0.3973333333333333,
"grad_norm": 1.390625,
"learning_rate": 9.422351528385204e-06,
"loss": 1.5109126567840576,
"step": 298
},
{
"epoch": 0.4,
"grad_norm": 1.4140625,
"learning_rate": 9.413377959412297e-06,
"loss": 1.142380952835083,
"step": 300
},
{
"epoch": 0.4026666666666667,
"grad_norm": 2.5,
"learning_rate": 9.404340737647799e-06,
"loss": 1.323343276977539,
"step": 302
},
{
"epoch": 0.4053333333333333,
"grad_norm": 4.90625,
"learning_rate": 9.395240031618138e-06,
"loss": 0.9861502647399902,
"step": 304
},
{
"epoch": 0.408,
"grad_norm": 0.95703125,
"learning_rate": 9.386076011033603e-06,
"loss": 1.4224445819854736,
"step": 306
},
{
"epoch": 0.4106666666666667,
"grad_norm": 2.5,
"learning_rate": 9.376848846785164e-06,
"loss": 1.5212492942810059,
"step": 308
},
{
"epoch": 0.41333333333333333,
"grad_norm": 6.59375,
"learning_rate": 9.367558710941309e-06,
"loss": 1.745542287826538,
"step": 310
},
{
"epoch": 0.416,
"grad_norm": 2.953125,
"learning_rate": 9.358205776744812e-06,
"loss": 1.5883705615997314,
"step": 312
},
{
"epoch": 0.4186666666666667,
"grad_norm": 1.15625,
"learning_rate": 9.348790218609517e-06,
"loss": 1.4759235382080078,
"step": 314
},
{
"epoch": 0.42133333333333334,
"grad_norm": 0.90234375,
"learning_rate": 9.339312212117086e-06,
"loss": 1.1085882186889648,
"step": 316
},
{
"epoch": 0.424,
"grad_norm": 2.546875,
"learning_rate": 9.329771934013711e-06,
"loss": 1.5868794918060303,
"step": 318
},
{
"epoch": 0.4266666666666667,
"grad_norm": 3.9375,
"learning_rate": 9.320169562206832e-06,
"loss": 1.2895218133926392,
"step": 320
},
{
"epoch": 0.42933333333333334,
"grad_norm": 1.953125,
"learning_rate": 9.310505275761817e-06,
"loss": 1.4390501976013184,
"step": 322
},
{
"epoch": 0.432,
"grad_norm": 1.7890625,
"learning_rate": 9.300779254898616e-06,
"loss": 1.322721242904663,
"step": 324
},
{
"epoch": 0.43466666666666665,
"grad_norm": 1.8828125,
"learning_rate": 9.290991680988406e-06,
"loss": 1.7256560325622559,
"step": 326
},
{
"epoch": 0.43733333333333335,
"grad_norm": 2.328125,
"learning_rate": 9.281142736550206e-06,
"loss": 1.5850830078125,
"step": 328
},
{
"epoch": 0.44,
"grad_norm": 2.4375,
"learning_rate": 9.271232605247482e-06,
"loss": 1.449178695678711,
"step": 330
},
{
"epoch": 0.44266666666666665,
"grad_norm": 0.83203125,
"learning_rate": 9.261261471884707e-06,
"loss": 1.3146241903305054,
"step": 332
},
{
"epoch": 0.44533333333333336,
"grad_norm": 1.8203125,
"learning_rate": 9.251229522403921e-06,
"loss": 1.7084033489227295,
"step": 334
},
{
"epoch": 0.448,
"grad_norm": 1.6953125,
"learning_rate": 9.24113694388127e-06,
"loss": 1.2717372179031372,
"step": 336
},
{
"epoch": 0.45066666666666666,
"grad_norm": 1.7890625,
"learning_rate": 9.230983924523515e-06,
"loss": 1.6452568769454956,
"step": 338
},
{
"epoch": 0.4533333333333333,
"grad_norm": 2.703125,
"learning_rate": 9.220770653664513e-06,
"loss": 1.426748275756836,
"step": 340
},
{
"epoch": 0.456,
"grad_norm": 2.078125,
"learning_rate": 9.210497321761697e-06,
"loss": 1.5518929958343506,
"step": 342
},
{
"epoch": 0.45866666666666667,
"grad_norm": 1.734375,
"learning_rate": 9.200164120392522e-06,
"loss": 1.4450750350952148,
"step": 344
},
{
"epoch": 0.4613333333333333,
"grad_norm": 4.03125,
"learning_rate": 9.189771242250883e-06,
"loss": 1.6373507976531982,
"step": 346
},
{
"epoch": 0.464,
"grad_norm": 1.109375,
"learning_rate": 9.179318881143541e-06,
"loss": 1.556694746017456,
"step": 348
},
{
"epoch": 0.4666666666666667,
"grad_norm": 1.46875,
"learning_rate": 9.168807231986488e-06,
"loss": 1.0718153715133667,
"step": 350
},
{
"epoch": 0.4693333333333333,
"grad_norm": 1.640625,
"learning_rate": 9.158236490801327e-06,
"loss": 1.4489765167236328,
"step": 352
},
{
"epoch": 0.472,
"grad_norm": 1.921875,
"learning_rate": 9.147606854711608e-06,
"loss": 1.4814002513885498,
"step": 354
},
{
"epoch": 0.4746666666666667,
"grad_norm": 4.4375,
"learning_rate": 9.136918521939157e-06,
"loss": 1.7797274589538574,
"step": 356
},
{
"epoch": 0.47733333333333333,
"grad_norm": 4.90625,
"learning_rate": 9.126171691800378e-06,
"loss": 1.2684712409973145,
"step": 358
},
{
"epoch": 0.48,
"grad_norm": 1.515625,
"learning_rate": 9.115366564702535e-06,
"loss": 1.4901347160339355,
"step": 360
},
{
"epoch": 0.4826666666666667,
"grad_norm": 1.6640625,
"learning_rate": 9.104503342140017e-06,
"loss": 1.429030179977417,
"step": 362
},
{
"epoch": 0.48533333333333334,
"grad_norm": 1.7265625,
"learning_rate": 9.093582226690577e-06,
"loss": 1.6099389791488647,
"step": 364
},
{
"epoch": 0.488,
"grad_norm": 1.5234375,
"learning_rate": 9.082603422011557e-06,
"loss": 1.7256474494934082,
"step": 366
},
{
"epoch": 0.49066666666666664,
"grad_norm": 2.625,
"learning_rate": 9.071567132836094e-06,
"loss": 1.7596641778945923,
"step": 368
},
{
"epoch": 0.49333333333333335,
"grad_norm": 0.71875,
"learning_rate": 9.060473564969292e-06,
"loss": 1.0529954433441162,
"step": 370
},
{
"epoch": 0.496,
"grad_norm": 3.6875,
"learning_rate": 9.049322925284394e-06,
"loss": 1.6757372617721558,
"step": 372
},
{
"epoch": 0.49866666666666665,
"grad_norm": 0.89453125,
"learning_rate": 9.038115421718917e-06,
"loss": 1.0964611768722534,
"step": 374
},
{
"epoch": 0.5013333333333333,
"grad_norm": 2.609375,
"learning_rate": 9.026851263270782e-06,
"loss": 1.6925992965698242,
"step": 376
},
{
"epoch": 0.504,
"grad_norm": 2.625,
"learning_rate": 9.015530659994409e-06,
"loss": 1.5397207736968994,
"step": 378
},
{
"epoch": 0.5066666666666667,
"grad_norm": 0.921875,
"learning_rate": 9.0041538229968e-06,
"loss": 1.4883861541748047,
"step": 380
},
{
"epoch": 0.5093333333333333,
"grad_norm": 1.6015625,
"learning_rate": 8.992720964433617e-06,
"loss": 1.523974061012268,
"step": 382
},
{
"epoch": 0.512,
"grad_norm": 1.5859375,
"learning_rate": 8.9812322975052e-06,
"loss": 1.560215711593628,
"step": 384
},
{
"epoch": 0.5146666666666667,
"grad_norm": 0.455078125,
"learning_rate": 8.969688036452616e-06,
"loss": 1.2330844402313232,
"step": 386
},
{
"epoch": 0.5173333333333333,
"grad_norm": 2.8125,
"learning_rate": 8.958088396553643e-06,
"loss": 1.5661859512329102,
"step": 388
},
{
"epoch": 0.52,
"grad_norm": 3.859375,
"learning_rate": 8.946433594118779e-06,
"loss": 1.851172685623169,
"step": 390
},
{
"epoch": 0.5226666666666666,
"grad_norm": 1.9375,
"learning_rate": 8.934723846487183e-06,
"loss": 1.1451064348220825,
"step": 392
},
{
"epoch": 0.5253333333333333,
"grad_norm": 2.765625,
"learning_rate": 8.922959372022637e-06,
"loss": 1.6592644453048706,
"step": 394
},
{
"epoch": 0.528,
"grad_norm": 1.0390625,
"learning_rate": 8.911140390109478e-06,
"loss": 1.0356855392456055,
"step": 396
},
{
"epoch": 0.5306666666666666,
"grad_norm": 7.59375,
"learning_rate": 8.899267121148491e-06,
"loss": 1.5908303260803223,
"step": 398
},
{
"epoch": 0.5333333333333333,
"grad_norm": 0.84765625,
"learning_rate": 8.887339786552808e-06,
"loss": 1.138909935951233,
"step": 400
},
{
"epoch": 0.536,
"grad_norm": 0.83203125,
"learning_rate": 8.875358608743787e-06,
"loss": 1.3910235166549683,
"step": 402
},
{
"epoch": 0.5386666666666666,
"grad_norm": 0.50390625,
"learning_rate": 8.863323811146848e-06,
"loss": 1.5502691268920898,
"step": 404
},
{
"epoch": 0.5413333333333333,
"grad_norm": 3.5,
"learning_rate": 8.851235618187318e-06,
"loss": 1.7706248760223389,
"step": 406
},
{
"epoch": 0.544,
"grad_norm": 2.015625,
"learning_rate": 8.839094255286242e-06,
"loss": 1.7063908576965332,
"step": 408
},
{
"epoch": 0.5466666666666666,
"grad_norm": 36.5,
"learning_rate": 8.82689994885618e-06,
"loss": 1.1970150470733643,
"step": 410
},
{
"epoch": 0.5493333333333333,
"grad_norm": 2.625,
"learning_rate": 8.814652926296985e-06,
"loss": 1.710649013519287,
"step": 412
},
{
"epoch": 0.552,
"grad_norm": 33.75,
"learning_rate": 8.802353415991564e-06,
"loss": 1.8472647666931152,
"step": 414
},
{
"epoch": 0.5546666666666666,
"grad_norm": 5.90625,
"learning_rate": 8.790001647301613e-06,
"loss": 1.6985820531845093,
"step": 416
},
{
"epoch": 0.5573333333333333,
"grad_norm": 2.34375,
"learning_rate": 8.777597850563346e-06,
"loss": 1.67909836769104,
"step": 418
},
{
"epoch": 0.56,
"grad_norm": 10.125,
"learning_rate": 8.765142257083202e-06,
"loss": 0.9023515582084656,
"step": 420
},
{
"epoch": 0.5626666666666666,
"grad_norm": 66.0,
"learning_rate": 8.752635099133518e-06,
"loss": 0.6811611652374268,
"step": 422
},
{
"epoch": 0.5653333333333334,
"grad_norm": 1.9609375,
"learning_rate": 8.74007660994822e-06,
"loss": 1.4500564336776733,
"step": 424
},
{
"epoch": 0.568,
"grad_norm": 6.34375,
"learning_rate": 8.727467023718448e-06,
"loss": 1.718153953552246,
"step": 426
},
{
"epoch": 0.5706666666666667,
"grad_norm": 3.328125,
"learning_rate": 8.71480657558821e-06,
"loss": 1.2739958763122559,
"step": 428
},
{
"epoch": 0.5733333333333334,
"grad_norm": 1.7578125,
"learning_rate": 8.702095501649987e-06,
"loss": 1.4954882860183716,
"step": 430
},
{
"epoch": 0.576,
"grad_norm": 1.8984375,
"learning_rate": 8.689334038940325e-06,
"loss": 1.5271363258361816,
"step": 432
},
{
"epoch": 0.5786666666666667,
"grad_norm": 2.515625,
"learning_rate": 8.676522425435434e-06,
"loss": 1.4217036962509155,
"step": 434
},
{
"epoch": 0.5813333333333334,
"grad_norm": 1.7890625,
"learning_rate": 8.663660900046726e-06,
"loss": 1.635168433189392,
"step": 436
},
{
"epoch": 0.584,
"grad_norm": 1.046875,
"learning_rate": 8.650749702616375e-06,
"loss": 1.3006935119628906,
"step": 438
},
{
"epoch": 0.5866666666666667,
"grad_norm": 3.40625,
"learning_rate": 8.63778907391285e-06,
"loss": 1.628927230834961,
"step": 440
},
{
"epoch": 0.5893333333333334,
"grad_norm": 6.625,
"learning_rate": 8.624779255626398e-06,
"loss": 1.6061930656433105,
"step": 442
},
{
"epoch": 0.592,
"grad_norm": 0.9453125,
"learning_rate": 8.611720490364572e-06,
"loss": 1.5421932935714722,
"step": 444
},
{
"epoch": 0.5946666666666667,
"grad_norm": 1.9453125,
"learning_rate": 8.598613021647685e-06,
"loss": 1.54714035987854,
"step": 446
},
{
"epoch": 0.5973333333333334,
"grad_norm": 2.40625,
"learning_rate": 8.585457093904268e-06,
"loss": 1.6005792617797852,
"step": 448
},
{
"epoch": 0.6,
"grad_norm": 2.734375,
"learning_rate": 8.572252952466523e-06,
"loss": 1.3272870779037476,
"step": 450
},
{
"epoch": 0.6026666666666667,
"grad_norm": 0.78125,
"learning_rate": 8.55900084356574e-06,
"loss": 1.5509049892425537,
"step": 452
},
{
"epoch": 0.6053333333333333,
"grad_norm": 1.5859375,
"learning_rate": 8.545701014327713e-06,
"loss": 1.3459486961364746,
"step": 454
},
{
"epoch": 0.608,
"grad_norm": 2.0625,
"learning_rate": 8.53235371276812e-06,
"loss": 1.4982644319534302,
"step": 456
},
{
"epoch": 0.6106666666666667,
"grad_norm": 2.09375,
"learning_rate": 8.51895918778791e-06,
"loss": 1.2649288177490234,
"step": 458
},
{
"epoch": 0.6133333333333333,
"grad_norm": 3.296875,
"learning_rate": 8.505517689168649e-06,
"loss": 1.6629306077957153,
"step": 460
},
{
"epoch": 0.616,
"grad_norm": 1.4140625,
"learning_rate": 8.492029467567878e-06,
"loss": 1.6096601486206055,
"step": 462
},
{
"epoch": 0.6186666666666667,
"grad_norm": 2.84375,
"learning_rate": 8.47849477451442e-06,
"loss": 1.7913764715194702,
"step": 464
},
{
"epoch": 0.6213333333333333,
"grad_norm": 4.5,
"learning_rate": 8.46491386240371e-06,
"loss": 1.7223880290985107,
"step": 466
},
{
"epoch": 0.624,
"grad_norm": 5.5625,
"learning_rate": 8.451286984493069e-06,
"loss": 0.9289131760597229,
"step": 468
},
{
"epoch": 0.6266666666666667,
"grad_norm": 2.828125,
"learning_rate": 8.437614394896994e-06,
"loss": 1.6850260496139526,
"step": 470
},
{
"epoch": 0.6293333333333333,
"grad_norm": 1.859375,
"learning_rate": 8.423896348582415e-06,
"loss": 1.5917671918869019,
"step": 472
},
{
"epoch": 0.632,
"grad_norm": 2.0625,
"learning_rate": 8.410133101363936e-06,
"loss": 1.472569465637207,
"step": 474
},
{
"epoch": 0.6346666666666667,
"grad_norm": 0.78125,
"learning_rate": 8.396324909899077e-06,
"loss": 1.132209062576294,
"step": 476
},
{
"epoch": 0.6373333333333333,
"grad_norm": 0.85546875,
"learning_rate": 8.382472031683472e-06,
"loss": 1.4079012870788574,
"step": 478
},
{
"epoch": 0.64,
"grad_norm": 0.7734375,
"learning_rate": 8.368574725046083e-06,
"loss": 1.146620750427246,
"step": 480
},
{
"epoch": 0.6426666666666667,
"grad_norm": 3.28125,
"learning_rate": 8.354633249144363e-06,
"loss": 1.8932878971099854,
"step": 482
},
{
"epoch": 0.6453333333333333,
"grad_norm": 3.34375,
"learning_rate": 8.34064786395945e-06,
"loss": 1.6827220916748047,
"step": 484
},
{
"epoch": 0.648,
"grad_norm": 2.9375,
"learning_rate": 8.32661883029129e-06,
"loss": 1.174098014831543,
"step": 486
},
{
"epoch": 0.6506666666666666,
"grad_norm": 3.15625,
"learning_rate": 8.312546409753799e-06,
"loss": 1.8260903358459473,
"step": 488
},
{
"epoch": 0.6533333333333333,
"grad_norm": 0.9375,
"learning_rate": 8.298430864769963e-06,
"loss": 1.4699290990829468,
"step": 490
},
{
"epoch": 0.656,
"grad_norm": 2.9375,
"learning_rate": 8.284272458566961e-06,
"loss": 1.3038263320922852,
"step": 492
},
{
"epoch": 0.6586666666666666,
"grad_norm": 1.0234375,
"learning_rate": 8.270071455171246e-06,
"loss": 1.4363877773284912,
"step": 494
},
{
"epoch": 0.6613333333333333,
"grad_norm": 1.859375,
"learning_rate": 8.255828119403625e-06,
"loss": 1.5408426523208618,
"step": 496
},
{
"epoch": 0.664,
"grad_norm": 1.171875,
"learning_rate": 8.241542716874326e-06,
"loss": 1.480779767036438,
"step": 498
},
{
"epoch": 0.6666666666666666,
"grad_norm": 2.03125,
"learning_rate": 8.227215513978031e-06,
"loss": 1.6761982440948486,
"step": 500
},
{
"epoch": 0.6693333333333333,
"grad_norm": 0.8046875,
"learning_rate": 8.212846777888924e-06,
"loss": 1.5098438262939453,
"step": 502
},
{
"epoch": 0.672,
"grad_norm": 2.34375,
"learning_rate": 8.198436776555694e-06,
"loss": 1.4694273471832275,
"step": 504
},
{
"epoch": 0.6746666666666666,
"grad_norm": 3.078125,
"learning_rate": 8.183985778696552e-06,
"loss": 1.647132396697998,
"step": 506
},
{
"epoch": 0.6773333333333333,
"grad_norm": 5.125,
"learning_rate": 8.169494053794214e-06,
"loss": 1.831689476966858,
"step": 508
},
{
"epoch": 0.68,
"grad_norm": 2.40625,
"learning_rate": 8.15496187209087e-06,
"loss": 1.590653419494629,
"step": 510
},
{
"epoch": 0.6826666666666666,
"grad_norm": 1.765625,
"learning_rate": 8.140389504583153e-06,
"loss": 1.5305280685424805,
"step": 512
},
{
"epoch": 0.6853333333333333,
"grad_norm": 1.0703125,
"learning_rate": 8.125777223017082e-06,
"loss": 1.2035201787948608,
"step": 514
},
{
"epoch": 0.688,
"grad_norm": 15.8125,
"learning_rate": 8.111125299882995e-06,
"loss": 1.301339864730835,
"step": 516
},
{
"epoch": 0.6906666666666667,
"grad_norm": 2.703125,
"learning_rate": 8.096434008410469e-06,
"loss": 1.7590441703796387,
"step": 518
},
{
"epoch": 0.6933333333333334,
"grad_norm": 4.78125,
"learning_rate": 8.081703622563218e-06,
"loss": 1.6054850816726685,
"step": 520
},
{
"epoch": 0.696,
"grad_norm": 2.3125,
"learning_rate": 8.066934417033995e-06,
"loss": 1.5625101327896118,
"step": 522
},
{
"epoch": 0.6986666666666667,
"grad_norm": 4.5,
"learning_rate": 8.052126667239462e-06,
"loss": 1.0695847272872925,
"step": 524
},
{
"epoch": 0.7013333333333334,
"grad_norm": 1.78125,
"learning_rate": 8.037280649315053e-06,
"loss": 1.4248785972595215,
"step": 526
},
{
"epoch": 0.704,
"grad_norm": 4.03125,
"learning_rate": 8.022396640109829e-06,
"loss": 1.2605631351470947,
"step": 528
},
{
"epoch": 0.7066666666666667,
"grad_norm": 1.609375,
"learning_rate": 8.007474917181317e-06,
"loss": 1.7435317039489746,
"step": 530
},
{
"epoch": 0.7093333333333334,
"grad_norm": 2.015625,
"learning_rate": 7.992515758790327e-06,
"loss": 1.0427531003952026,
"step": 532
},
{
"epoch": 0.712,
"grad_norm": 2.609375,
"learning_rate": 7.977519443895768e-06,
"loss": 1.4642760753631592,
"step": 534
},
{
"epoch": 0.7146666666666667,
"grad_norm": 3.46875,
"learning_rate": 7.962486252149442e-06,
"loss": 1.5872834920883179,
"step": 536
},
{
"epoch": 0.7173333333333334,
"grad_norm": 6.6875,
"learning_rate": 7.94741646389084e-06,
"loss": 1.7316570281982422,
"step": 538
},
{
"epoch": 0.72,
"grad_norm": 1.90625,
"learning_rate": 7.932310360141895e-06,
"loss": 1.4599530696868896,
"step": 540
},
{
"epoch": 0.7226666666666667,
"grad_norm": 4.1875,
"learning_rate": 7.917168222601761e-06,
"loss": 1.7563599348068237,
"step": 542
},
{
"epoch": 0.7253333333333334,
"grad_norm": 1.7109375,
"learning_rate": 7.90199033364155e-06,
"loss": 1.4897665977478027,
"step": 544
},
{
"epoch": 0.728,
"grad_norm": 5.6875,
"learning_rate": 7.886776976299065e-06,
"loss": 0.9471417665481567,
"step": 546
},
{
"epoch": 0.7306666666666667,
"grad_norm": 2.546875,
"learning_rate": 7.871528434273525e-06,
"loss": 1.3160903453826904,
"step": 548
},
{
"epoch": 0.7333333333333333,
"grad_norm": 2.3125,
"learning_rate": 7.856244991920274e-06,
"loss": 1.3068546056747437,
"step": 550
},
{
"epoch": 0.736,
"grad_norm": 2.84375,
"learning_rate": 7.840926934245483e-06,
"loss": 1.6266614198684692,
"step": 552
},
{
"epoch": 0.7386666666666667,
"grad_norm": 1.84375,
"learning_rate": 7.825574546900824e-06,
"loss": 1.3499655723571777,
"step": 554
},
{
"epoch": 0.7413333333333333,
"grad_norm": 0.52734375,
"learning_rate": 7.810188116178157e-06,
"loss": 1.2617985010147095,
"step": 556
},
{
"epoch": 0.744,
"grad_norm": 1.9375,
"learning_rate": 7.794767929004176e-06,
"loss": 1.5113894939422607,
"step": 558
},
{
"epoch": 0.7466666666666667,
"grad_norm": 0.7890625,
"learning_rate": 7.779314272935073e-06,
"loss": 1.329702377319336,
"step": 560
},
{
"epoch": 0.7493333333333333,
"grad_norm": 2.15625,
"learning_rate": 7.763827436151167e-06,
"loss": 1.3006130456924438,
"step": 562
},
{
"epoch": 0.752,
"grad_norm": 1.53125,
"learning_rate": 7.748307707451534e-06,
"loss": 1.3092937469482422,
"step": 564
},
{
"epoch": 0.7546666666666667,
"grad_norm": 2.078125,
"learning_rate": 7.732755376248613e-06,
"loss": 1.5015747547149658,
"step": 566
},
{
"epoch": 0.7573333333333333,
"grad_norm": 2.6875,
"learning_rate": 7.717170732562823e-06,
"loss": 1.3820148706436157,
"step": 568
},
{
"epoch": 0.76,
"grad_norm": 1.46875,
"learning_rate": 7.701554067017147e-06,
"loss": 1.5349700450897217,
"step": 570
},
{
"epoch": 0.7626666666666667,
"grad_norm": 1.1796875,
"learning_rate": 7.685905670831706e-06,
"loss": 1.3191131353378296,
"step": 572
},
{
"epoch": 0.7653333333333333,
"grad_norm": 3.40625,
"learning_rate": 7.670225835818341e-06,
"loss": 2.0326576232910156,
"step": 574
},
{
"epoch": 0.768,
"grad_norm": 3.75,
"learning_rate": 7.654514854375167e-06,
"loss": 1.5498676300048828,
"step": 576
},
{
"epoch": 0.7706666666666667,
"grad_norm": 2.765625,
"learning_rate": 7.63877301948111e-06,
"loss": 1.6516549587249756,
"step": 578
},
{
"epoch": 0.7733333333333333,
"grad_norm": 2.0625,
"learning_rate": 7.623000624690463e-06,
"loss": 1.5124046802520752,
"step": 580
},
{
"epoch": 0.776,
"grad_norm": 2.5625,
"learning_rate": 7.60719796412739e-06,
"loss": 1.679999828338623,
"step": 582
},
{
"epoch": 0.7786666666666666,
"grad_norm": 2.53125,
"learning_rate": 7.591365332480462e-06,
"loss": 1.8081717491149902,
"step": 584
},
{
"epoch": 0.7813333333333333,
"grad_norm": 1.7421875,
"learning_rate": 7.57550302499715e-06,
"loss": 1.2693226337432861,
"step": 586
},
{
"epoch": 0.784,
"grad_norm": 3.0625,
"learning_rate": 7.559611337478313e-06,
"loss": 1.3884985446929932,
"step": 588
},
{
"epoch": 0.7866666666666666,
"grad_norm": 4.15625,
"learning_rate": 7.5436905662727e-06,
"loss": 1.2277591228485107,
"step": 590
},
{
"epoch": 0.7893333333333333,
"grad_norm": 1.8203125,
"learning_rate": 7.527741008271408e-06,
"loss": 1.5427110195159912,
"step": 592
},
{
"epoch": 0.792,
"grad_norm": 3.28125,
"learning_rate": 7.511762960902352e-06,
"loss": 1.880828619003296,
"step": 594
},
{
"epoch": 0.7946666666666666,
"grad_norm": 3.75,
"learning_rate": 7.495756722124718e-06,
"loss": 1.4269912242889404,
"step": 596
},
{
"epoch": 0.7973333333333333,
"grad_norm": 2.609375,
"learning_rate": 7.4797225904234095e-06,
"loss": 1.7284862995147705,
"step": 598
},
{
"epoch": 0.8,
"grad_norm": 0.85546875,
"learning_rate": 7.4636608648034714e-06,
"loss": 1.4328413009643555,
"step": 600
},
{
"epoch": 0.8026666666666666,
"grad_norm": 4.90625,
"learning_rate": 7.4475718447845266e-06,
"loss": 1.284785509109497,
"step": 602
},
{
"epoch": 0.8053333333333333,
"grad_norm": 2.453125,
"learning_rate": 7.431455830395183e-06,
"loss": 1.6100547313690186,
"step": 604
},
{
"epoch": 0.808,
"grad_norm": 6.5625,
"learning_rate": 7.415313122167443e-06,
"loss": 1.548893690109253,
"step": 606
},
{
"epoch": 0.8106666666666666,
"grad_norm": 1.890625,
"learning_rate": 7.399144021131091e-06,
"loss": 1.4609580039978027,
"step": 608
},
{
"epoch": 0.8133333333333334,
"grad_norm": 1.578125,
"learning_rate": 7.382948828808092e-06,
"loss": 1.5304521322250366,
"step": 610
},
{
"epoch": 0.816,
"grad_norm": 2.046875,
"learning_rate": 7.366727847206956e-06,
"loss": 1.6468689441680908,
"step": 612
},
{
"epoch": 0.8186666666666667,
"grad_norm": 3.078125,
"learning_rate": 7.350481378817115e-06,
"loss": 1.503597378730774,
"step": 614
},
{
"epoch": 0.8213333333333334,
"grad_norm": 0.6015625,
"learning_rate": 7.334209726603283e-06,
"loss": 1.2350223064422607,
"step": 616
},
{
"epoch": 0.824,
"grad_norm": 0.90234375,
"learning_rate": 7.317913193999797e-06,
"loss": 1.17708420753479,
"step": 618
},
{
"epoch": 0.8266666666666667,
"grad_norm": 2.65625,
"learning_rate": 7.3015920849049685e-06,
"loss": 1.8863104581832886,
"step": 620
},
{
"epoch": 0.8293333333333334,
"grad_norm": 1.4296875,
"learning_rate": 7.2852467036754095e-06,
"loss": 1.3515092134475708,
"step": 622
},
{
"epoch": 0.832,
"grad_norm": 4.5625,
"learning_rate": 7.268877355120363e-06,
"loss": 1.5441099405288696,
"step": 624
},
{
"epoch": 0.8346666666666667,
"grad_norm": 3.96875,
"learning_rate": 7.25248434449601e-06,
"loss": 1.7078487873077393,
"step": 626
},
{
"epoch": 0.8373333333333334,
"grad_norm": 1.390625,
"learning_rate": 7.23606797749979e-06,
"loss": 1.6613589525222778,
"step": 628
},
{
"epoch": 0.84,
"grad_norm": 3.25,
"learning_rate": 7.2196285602646865e-06,
"loss": 1.7381742000579834,
"step": 630
},
{
"epoch": 0.8426666666666667,
"grad_norm": 2.4375,
"learning_rate": 7.203166399353528e-06,
"loss": 1.4011036157608032,
"step": 632
},
{
"epoch": 0.8453333333333334,
"grad_norm": 1.8359375,
"learning_rate": 7.186681801753268e-06,
"loss": 1.2498083114624023,
"step": 634
},
{
"epoch": 0.848,
"grad_norm": 0.78125,
"learning_rate": 7.170175074869258e-06,
"loss": 1.0311483144760132,
"step": 636
},
{
"epoch": 0.8506666666666667,
"grad_norm": 1.640625,
"learning_rate": 7.153646526519517e-06,
"loss": 1.5316252708435059,
"step": 638
},
{
"epoch": 0.8533333333333334,
"grad_norm": 1.734375,
"learning_rate": 7.137096464928995e-06,
"loss": 1.4987022876739502,
"step": 640
},
{
"epoch": 0.856,
"grad_norm": 2.34375,
"learning_rate": 7.120525198723818e-06,
"loss": 1.1657915115356445,
"step": 642
},
{
"epoch": 0.8586666666666667,
"grad_norm": 1.609375,
"learning_rate": 7.10393303692554e-06,
"loss": 1.3228687047958374,
"step": 644
},
{
"epoch": 0.8613333333333333,
"grad_norm": 2.46875,
"learning_rate": 7.0873202889453716e-06,
"loss": 1.422530174255371,
"step": 646
},
{
"epoch": 0.864,
"grad_norm": 0.7421875,
"learning_rate": 7.0706872645784205e-06,
"loss": 1.1939458847045898,
"step": 648
},
{
"epoch": 0.8666666666666667,
"grad_norm": 0.9765625,
"learning_rate": 7.054034273997907e-06,
"loss": 1.1706509590148926,
"step": 650
},
{
"epoch": 0.8693333333333333,
"grad_norm": 1.8515625,
"learning_rate": 7.037361627749381e-06,
"loss": 1.56918203830719,
"step": 652
},
{
"epoch": 0.872,
"grad_norm": 2.265625,
"learning_rate": 7.020669636744932e-06,
"loss": 1.4497573375701904,
"step": 654
},
{
"epoch": 0.8746666666666667,
"grad_norm": 1.1171875,
"learning_rate": 7.003958612257395e-06,
"loss": 1.5307812690734863,
"step": 656
},
{
"epoch": 0.8773333333333333,
"grad_norm": 3.828125,
"learning_rate": 6.987228865914537e-06,
"loss": 1.6407835483551025,
"step": 658
},
{
"epoch": 0.88,
"grad_norm": 1.6328125,
"learning_rate": 6.970480709693255e-06,
"loss": 1.247854232788086,
"step": 660
},
{
"epoch": 0.8826666666666667,
"grad_norm": 1.9453125,
"learning_rate": 6.953714455913749e-06,
"loss": 1.3659682273864746,
"step": 662
},
{
"epoch": 0.8853333333333333,
"grad_norm": 7.46875,
"learning_rate": 6.936930417233707e-06,
"loss": 1.5211827754974365,
"step": 664
},
{
"epoch": 0.888,
"grad_norm": 1.796875,
"learning_rate": 6.920128906642472e-06,
"loss": 1.5100593566894531,
"step": 666
},
{
"epoch": 0.8906666666666667,
"grad_norm": 5.28125,
"learning_rate": 6.9033102374551974e-06,
"loss": 1.101508378982544,
"step": 668
},
{
"epoch": 0.8933333333333333,
"grad_norm": 2.859375,
"learning_rate": 6.886474723307018e-06,
"loss": 1.5664129257202148,
"step": 670
},
{
"epoch": 0.896,
"grad_norm": 3.140625,
"learning_rate": 6.869622678147188e-06,
"loss": 1.2858555316925049,
"step": 672
},
{
"epoch": 0.8986666666666666,
"grad_norm": 2.8125,
"learning_rate": 6.852754416233236e-06,
"loss": 1.3835557699203491,
"step": 674
},
{
"epoch": 0.9013333333333333,
"grad_norm": 1.390625,
"learning_rate": 6.835870252125102e-06,
"loss": 1.5020421743392944,
"step": 676
},
{
"epoch": 0.904,
"grad_norm": 1.46875,
"learning_rate": 6.818970500679264e-06,
"loss": 1.4220386743545532,
"step": 678
},
{
"epoch": 0.9066666666666666,
"grad_norm": 1.0625,
"learning_rate": 6.802055477042883e-06,
"loss": 1.4172393083572388,
"step": 680
},
{
"epoch": 0.9093333333333333,
"grad_norm": 3.859375,
"learning_rate": 6.7851254966479105e-06,
"loss": 1.3011717796325684,
"step": 682
},
{
"epoch": 0.912,
"grad_norm": 1.296875,
"learning_rate": 6.768180875205212e-06,
"loss": 1.1196095943450928,
"step": 684
},
{
"epoch": 0.9146666666666666,
"grad_norm": 5.0625,
"learning_rate": 6.751221928698682e-06,
"loss": 1.618861198425293,
"step": 686
},
{
"epoch": 0.9173333333333333,
"grad_norm": 1.640625,
"learning_rate": 6.734248973379345e-06,
"loss": 1.6230967044830322,
"step": 688
},
{
"epoch": 0.92,
"grad_norm": 4.0,
"learning_rate": 6.71726232575947e-06,
"loss": 1.6526458263397217,
"step": 690
},
{
"epoch": 0.9226666666666666,
"grad_norm": 3.625,
"learning_rate": 6.700262302606654e-06,
"loss": 1.6751515865325928,
"step": 692
},
{
"epoch": 0.9253333333333333,
"grad_norm": 3.265625,
"learning_rate": 6.683249220937922e-06,
"loss": 1.50675630569458,
"step": 694
},
{
"epoch": 0.928,
"grad_norm": 4.6875,
"learning_rate": 6.666223398013818e-06,
"loss": 1.6779391765594482,
"step": 696
},
{
"epoch": 0.9306666666666666,
"grad_norm": 1.40625,
"learning_rate": 6.649185151332485e-06,
"loss": 1.506239891052246,
"step": 698
},
{
"epoch": 0.9333333333333333,
"grad_norm": 2.109375,
"learning_rate": 6.632134798623737e-06,
"loss": 1.7539687156677246,
"step": 700
},
{
"epoch": 0.936,
"grad_norm": 2.03125,
"learning_rate": 6.615072657843156e-06,
"loss": 1.2564361095428467,
"step": 702
},
{
"epoch": 0.9386666666666666,
"grad_norm": 1.15625,
"learning_rate": 6.5979990471661335e-06,
"loss": 1.3847129344940186,
"step": 704
},
{
"epoch": 0.9413333333333334,
"grad_norm": 2.03125,
"learning_rate": 6.580914284981962e-06,
"loss": 1.7712434530258179,
"step": 706
},
{
"epoch": 0.944,
"grad_norm": 4.15625,
"learning_rate": 6.563818689887885e-06,
"loss": 1.4932998418807983,
"step": 708
},
{
"epoch": 0.9466666666666667,
"grad_norm": 0.62109375,
"learning_rate": 6.546712580683152e-06,
"loss": 1.107796311378479,
"step": 710
},
{
"epoch": 0.9493333333333334,
"grad_norm": 1.28125,
"learning_rate": 6.529596276363094e-06,
"loss": 1.3415144681930542,
"step": 712
},
{
"epoch": 0.952,
"grad_norm": 2.421875,
"learning_rate": 6.512470096113147e-06,
"loss": 1.6433172225952148,
"step": 714
},
{
"epoch": 0.9546666666666667,
"grad_norm": 2.25,
"learning_rate": 6.495334359302922e-06,
"loss": 1.649156093597412,
"step": 716
},
{
"epoch": 0.9573333333333334,
"grad_norm": 1.453125,
"learning_rate": 6.4781893854802355e-06,
"loss": 1.3250529766082764,
"step": 718
},
{
"epoch": 0.96,
"grad_norm": 2.375,
"learning_rate": 6.461035494365164e-06,
"loss": 1.5366730690002441,
"step": 720
},
{
"epoch": 0.9626666666666667,
"grad_norm": 4.375,
"learning_rate": 6.4438730058440654e-06,
"loss": 0.864828884601593,
"step": 722
},
{
"epoch": 0.9653333333333334,
"grad_norm": 1.6796875,
"learning_rate": 6.426702239963626e-06,
"loss": 1.3839855194091797,
"step": 724
},
{
"epoch": 0.968,
"grad_norm": 1.3125,
"learning_rate": 6.409523516924892e-06,
"loss": 1.2062398195266724,
"step": 726
},
{
"epoch": 0.9706666666666667,
"grad_norm": 0.7578125,
"learning_rate": 6.3923371570772864e-06,
"loss": 1.1528677940368652,
"step": 728
},
{
"epoch": 0.9733333333333334,
"grad_norm": 2.296875,
"learning_rate": 6.375143480912653e-06,
"loss": 1.5206118822097778,
"step": 730
},
{
"epoch": 0.976,
"grad_norm": 5.25,
"learning_rate": 6.357942809059265e-06,
"loss": 1.7464332580566406,
"step": 732
},
{
"epoch": 0.9786666666666667,
"grad_norm": 4.96875,
"learning_rate": 6.340735462275851e-06,
"loss": 1.7136986255645752,
"step": 734
},
{
"epoch": 0.9813333333333333,
"grad_norm": 2.46875,
"learning_rate": 6.323521761445618e-06,
"loss": 1.6088483333587646,
"step": 736
},
{
"epoch": 0.984,
"grad_norm": 2.21875,
"learning_rate": 6.306302027570261e-06,
"loss": 1.452860713005066,
"step": 738
},
{
"epoch": 0.9866666666666667,
"grad_norm": 2.84375,
"learning_rate": 6.289076581763977e-06,
"loss": 1.740750789642334,
"step": 740
},
{
"epoch": 0.9893333333333333,
"grad_norm": 0.765625,
"learning_rate": 6.271845745247487e-06,
"loss": 1.3204482793807983,
"step": 742
},
{
"epoch": 0.992,
"grad_norm": 3.859375,
"learning_rate": 6.254609839342029e-06,
"loss": 1.7413170337677002,
"step": 744
},
{
"epoch": 0.9946666666666667,
"grad_norm": 2.03125,
"learning_rate": 6.237369185463381e-06,
"loss": 1.5562351942062378,
"step": 746
},
{
"epoch": 0.9973333333333333,
"grad_norm": 2.453125,
"learning_rate": 6.22012410511586e-06,
"loss": 1.4224789142608643,
"step": 748
},
{
"epoch": 1.0,
"grad_norm": 1.421875,
"learning_rate": 6.202874919886326e-06,
"loss": 1.2299535274505615,
"step": 750
},
{
"epoch": 1.0026666666666666,
"grad_norm": 2.609375,
"learning_rate": 6.18562195143819e-06,
"loss": 1.172806978225708,
"step": 752
},
{
"epoch": 1.0053333333333334,
"grad_norm": 1.71875,
"learning_rate": 6.168365521505408e-06,
"loss": 1.764769196510315,
"step": 754
},
{
"epoch": 1.008,
"grad_norm": 3.328125,
"learning_rate": 6.151105951886493e-06,
"loss": 1.5763128995895386,
"step": 756
},
{
"epoch": 1.0106666666666666,
"grad_norm": 2.734375,
"learning_rate": 6.133843564438502e-06,
"loss": 1.594759464263916,
"step": 758
},
{
"epoch": 1.0133333333333334,
"grad_norm": 2.296875,
"learning_rate": 6.116578681071039e-06,
"loss": 1.7260303497314453,
"step": 760
},
{
"epoch": 1.016,
"grad_norm": 2.15625,
"learning_rate": 6.099311623740254e-06,
"loss": 1.4316805601119995,
"step": 762
},
{
"epoch": 1.0186666666666666,
"grad_norm": 1.6953125,
"learning_rate": 6.082042714442835e-06,
"loss": 1.2587862014770508,
"step": 764
},
{
"epoch": 1.0213333333333334,
"grad_norm": 1.5859375,
"learning_rate": 6.064772275210007e-06,
"loss": 1.513768196105957,
"step": 766
},
{
"epoch": 1.024,
"grad_norm": 3.015625,
"learning_rate": 6.047500628101526e-06,
"loss": 1.3291665315628052,
"step": 768
},
{
"epoch": 1.0266666666666666,
"grad_norm": 11.875,
"learning_rate": 6.030228095199668e-06,
"loss": 1.3844798803329468,
"step": 770
},
{
"epoch": 1.0293333333333334,
"grad_norm": 2.0,
"learning_rate": 6.012954998603235e-06,
"loss": 1.7538549900054932,
"step": 772
},
{
"epoch": 1.032,
"grad_norm": 2.34375,
"learning_rate": 5.995681660421535e-06,
"loss": 1.556398630142212,
"step": 774
},
{
"epoch": 1.0346666666666666,
"grad_norm": 4.625,
"learning_rate": 5.978408402768383e-06,
"loss": 1.5508222579956055,
"step": 776
},
{
"epoch": 1.0373333333333334,
"grad_norm": 4.46875,
"learning_rate": 5.961135547756092e-06,
"loss": 1.7790374755859375,
"step": 778
},
{
"epoch": 1.04,
"grad_norm": 0.81640625,
"learning_rate": 5.943863417489464e-06,
"loss": 1.4949337244033813,
"step": 780
},
{
"epoch": 1.0426666666666666,
"grad_norm": 2.734375,
"learning_rate": 5.926592334059791e-06,
"loss": 1.7578078508377075,
"step": 782
},
{
"epoch": 1.0453333333333332,
"grad_norm": 0.7734375,
"learning_rate": 5.909322619538841e-06,
"loss": 0.9583984613418579,
"step": 784
},
{
"epoch": 1.048,
"grad_norm": 6.34375,
"learning_rate": 5.892054595972853e-06,
"loss": 1.06181001663208,
"step": 786
},
{
"epoch": 1.0506666666666666,
"grad_norm": 2.484375,
"learning_rate": 5.874788585376536e-06,
"loss": 1.4504938125610352,
"step": 788
},
{
"epoch": 1.0533333333333332,
"grad_norm": 6.71875,
"learning_rate": 5.857524909727058e-06,
"loss": 1.3164362907409668,
"step": 790
},
{
"epoch": 1.056,
"grad_norm": 1.390625,
"learning_rate": 5.8402638909580475e-06,
"loss": 1.6445064544677734,
"step": 792
},
{
"epoch": 1.0586666666666666,
"grad_norm": 1.734375,
"learning_rate": 5.823005850953587e-06,
"loss": 1.434309720993042,
"step": 794
},
{
"epoch": 1.0613333333333332,
"grad_norm": 1.59375,
"learning_rate": 5.805751111542208e-06,
"loss": 1.0262486934661865,
"step": 796
},
{
"epoch": 1.064,
"grad_norm": 2.171875,
"learning_rate": 5.788499994490896e-06,
"loss": 1.5330429077148438,
"step": 798
},
{
"epoch": 1.0666666666666667,
"grad_norm": 3.171875,
"learning_rate": 5.7712528214990845e-06,
"loss": 1.489874243736267,
"step": 800
},
{
"epoch": 1.0693333333333332,
"grad_norm": 2.53125,
"learning_rate": 5.754009914192662e-06,
"loss": 1.4821736812591553,
"step": 802
},
{
"epoch": 1.072,
"grad_norm": 1.5625,
"learning_rate": 5.736771594117963e-06,
"loss": 1.4925849437713623,
"step": 804
},
{
"epoch": 1.0746666666666667,
"grad_norm": 4.90625,
"learning_rate": 5.719538182735784e-06,
"loss": 1.8200527429580688,
"step": 806
},
{
"epoch": 1.0773333333333333,
"grad_norm": 1.921875,
"learning_rate": 5.7023100014153856e-06,
"loss": 1.3270630836486816,
"step": 808
},
{
"epoch": 1.08,
"grad_norm": 1.9296875,
"learning_rate": 5.685087371428493e-06,
"loss": 1.3524571657180786,
"step": 810
},
{
"epoch": 1.0826666666666667,
"grad_norm": 1.8828125,
"learning_rate": 5.667870613943314e-06,
"loss": 1.3875995874404907,
"step": 812
},
{
"epoch": 1.0853333333333333,
"grad_norm": 0.8671875,
"learning_rate": 5.650660050018545e-06,
"loss": 1.157785177230835,
"step": 814
},
{
"epoch": 1.088,
"grad_norm": 2.171875,
"learning_rate": 5.633456000597382e-06,
"loss": 1.5274962186813354,
"step": 816
},
{
"epoch": 1.0906666666666667,
"grad_norm": 1.9453125,
"learning_rate": 5.616258786501543e-06,
"loss": 1.6105566024780273,
"step": 818
},
{
"epoch": 1.0933333333333333,
"grad_norm": 1.296875,
"learning_rate": 5.599068728425276e-06,
"loss": 1.546241044998169,
"step": 820
},
{
"epoch": 1.096,
"grad_norm": 1.15625,
"learning_rate": 5.581886146929388e-06,
"loss": 1.305572509765625,
"step": 822
},
{
"epoch": 1.0986666666666667,
"grad_norm": 2.046875,
"learning_rate": 5.564711362435255e-06,
"loss": 0.9126944541931152,
"step": 824
},
{
"epoch": 1.1013333333333333,
"grad_norm": 4.03125,
"learning_rate": 5.547544695218864e-06,
"loss": 1.5866506099700928,
"step": 826
},
{
"epoch": 1.104,
"grad_norm": 1.59375,
"learning_rate": 5.530386465404822e-06,
"loss": 1.5233993530273438,
"step": 828
},
{
"epoch": 1.1066666666666667,
"grad_norm": 1.890625,
"learning_rate": 5.513236992960403e-06,
"loss": 1.2203359603881836,
"step": 830
},
{
"epoch": 1.1093333333333333,
"grad_norm": 2.0625,
"learning_rate": 5.4960965976895645e-06,
"loss": 1.489206314086914,
"step": 832
},
{
"epoch": 1.112,
"grad_norm": 1.859375,
"learning_rate": 5.4789655992269996e-06,
"loss": 1.3313140869140625,
"step": 834
},
{
"epoch": 1.1146666666666667,
"grad_norm": 1.8125,
"learning_rate": 5.461844317032167e-06,
"loss": 1.4914991855621338,
"step": 836
},
{
"epoch": 1.1173333333333333,
"grad_norm": 1.625,
"learning_rate": 5.4447330703833345e-06,
"loss": 1.1239522695541382,
"step": 838
},
{
"epoch": 1.12,
"grad_norm": 2.90625,
"learning_rate": 5.427632178371629e-06,
"loss": 1.7105292081832886,
"step": 840
},
{
"epoch": 1.1226666666666667,
"grad_norm": 2.21875,
"learning_rate": 5.410541959895083e-06,
"loss": 1.4293630123138428,
"step": 842
},
{
"epoch": 1.1253333333333333,
"grad_norm": 3.296875,
"learning_rate": 5.3934627336526875e-06,
"loss": 1.3599791526794434,
"step": 844
},
{
"epoch": 1.1280000000000001,
"grad_norm": 1.609375,
"learning_rate": 5.376394818138454e-06,
"loss": 1.4635355472564697,
"step": 846
},
{
"epoch": 1.1306666666666667,
"grad_norm": 1.9296875,
"learning_rate": 5.359338531635465e-06,
"loss": 1.4371678829193115,
"step": 848
},
{
"epoch": 1.1333333333333333,
"grad_norm": 1.1640625,
"learning_rate": 5.342294192209949e-06,
"loss": 1.2858989238739014,
"step": 850
},
{
"epoch": 1.1360000000000001,
"grad_norm": 2.96875,
"learning_rate": 5.325262117705343e-06,
"loss": 1.7143357992172241,
"step": 852
},
{
"epoch": 1.1386666666666667,
"grad_norm": 3.171875,
"learning_rate": 5.308242625736369e-06,
"loss": 1.489912509918213,
"step": 854
},
{
"epoch": 1.1413333333333333,
"grad_norm": 3.34375,
"learning_rate": 5.291236033683109e-06,
"loss": 1.1953822374343872,
"step": 856
},
{
"epoch": 1.144,
"grad_norm": 1.2421875,
"learning_rate": 5.274242658685086e-06,
"loss": 1.5241276025772095,
"step": 858
},
{
"epoch": 1.1466666666666667,
"grad_norm": 2.171875,
"learning_rate": 5.2572628176353515e-06,
"loss": 1.6142327785491943,
"step": 860
},
{
"epoch": 1.1493333333333333,
"grad_norm": 1.8046875,
"learning_rate": 5.240296827174573e-06,
"loss": 1.5041123628616333,
"step": 862
},
{
"epoch": 1.152,
"grad_norm": 3.140625,
"learning_rate": 5.223345003685137e-06,
"loss": 1.388901948928833,
"step": 864
},
{
"epoch": 1.1546666666666667,
"grad_norm": 2.890625,
"learning_rate": 5.206407663285241e-06,
"loss": 1.522491693496704,
"step": 866
},
{
"epoch": 1.1573333333333333,
"grad_norm": 2.109375,
"learning_rate": 5.189485121823e-06,
"loss": 1.3894884586334229,
"step": 868
},
{
"epoch": 1.16,
"grad_norm": 1.0078125,
"learning_rate": 5.172577694870559e-06,
"loss": 1.57672119140625,
"step": 870
},
{
"epoch": 1.1626666666666667,
"grad_norm": 2.421875,
"learning_rate": 5.155685697718208e-06,
"loss": 1.6170611381530762,
"step": 872
},
{
"epoch": 1.1653333333333333,
"grad_norm": 1.8828125,
"learning_rate": 5.138809445368501e-06,
"loss": 1.3424224853515625,
"step": 874
},
{
"epoch": 1.168,
"grad_norm": 3.875,
"learning_rate": 5.121949252530382e-06,
"loss": 1.4999639987945557,
"step": 876
},
{
"epoch": 1.1706666666666667,
"grad_norm": 2.140625,
"learning_rate": 5.1051054336133155e-06,
"loss": 1.297871708869934,
"step": 878
},
{
"epoch": 1.1733333333333333,
"grad_norm": 4.5,
"learning_rate": 5.088278302721428e-06,
"loss": 1.5392343997955322,
"step": 880
},
{
"epoch": 1.176,
"grad_norm": 0.734375,
"learning_rate": 5.071468173647642e-06,
"loss": 1.3566569089889526,
"step": 882
},
{
"epoch": 1.1786666666666668,
"grad_norm": 1.53125,
"learning_rate": 5.054675359867835e-06,
"loss": 1.593224287033081,
"step": 884
},
{
"epoch": 1.1813333333333333,
"grad_norm": 1.3671875,
"learning_rate": 5.0379001745349865e-06,
"loss": 1.1906827688217163,
"step": 886
},
{
"epoch": 1.184,
"grad_norm": 1.6015625,
"learning_rate": 5.021142930473336e-06,
"loss": 1.4332338571548462,
"step": 888
},
{
"epoch": 1.1866666666666668,
"grad_norm": 0.68359375,
"learning_rate": 5.004403940172561e-06,
"loss": 1.3928399085998535,
"step": 890
},
{
"epoch": 1.1893333333333334,
"grad_norm": 5.5625,
"learning_rate": 4.987683515781936e-06,
"loss": 1.270801067352295,
"step": 892
},
{
"epoch": 1.192,
"grad_norm": 0.66796875,
"learning_rate": 4.970981969104519e-06,
"loss": 1.0467917919158936,
"step": 894
},
{
"epoch": 1.1946666666666665,
"grad_norm": 2.84375,
"learning_rate": 4.954299611591339e-06,
"loss": 1.3591139316558838,
"step": 896
},
{
"epoch": 1.1973333333333334,
"grad_norm": 2.671875,
"learning_rate": 4.937636754335579e-06,
"loss": 1.5114859342575073,
"step": 898
},
{
"epoch": 1.2,
"grad_norm": 1.765625,
"learning_rate": 4.920993708066788e-06,
"loss": 1.3968205451965332,
"step": 900
},
{
"epoch": 1.2026666666666666,
"grad_norm": 9.1875,
"learning_rate": 4.9043707831450735e-06,
"loss": 1.5956389904022217,
"step": 902
},
{
"epoch": 1.2053333333333334,
"grad_norm": 4.65625,
"learning_rate": 4.88776828955532e-06,
"loss": 1.5300307273864746,
"step": 904
},
{
"epoch": 1.208,
"grad_norm": 2.59375,
"learning_rate": 4.87118653690141e-06,
"loss": 1.3023169040679932,
"step": 906
},
{
"epoch": 1.2106666666666666,
"grad_norm": 2.921875,
"learning_rate": 4.854625834400446e-06,
"loss": 1.2509310245513916,
"step": 908
},
{
"epoch": 1.2133333333333334,
"grad_norm": 12.5,
"learning_rate": 4.838086490876988e-06,
"loss": 1.1443192958831787,
"step": 910
},
{
"epoch": 1.216,
"grad_norm": 0.875,
"learning_rate": 4.821568814757292e-06,
"loss": 1.465092420578003,
"step": 912
},
{
"epoch": 1.2186666666666666,
"grad_norm": 1.421875,
"learning_rate": 4.805073114063561e-06,
"loss": 1.2904925346374512,
"step": 914
},
{
"epoch": 1.2213333333333334,
"grad_norm": 3.296875,
"learning_rate": 4.788599696408198e-06,
"loss": 1.1972200870513916,
"step": 916
},
{
"epoch": 1.224,
"grad_norm": 0.6484375,
"learning_rate": 4.772148868988071e-06,
"loss": 1.2111375331878662,
"step": 918
},
{
"epoch": 1.2266666666666666,
"grad_norm": 2.109375,
"learning_rate": 4.755720938578787e-06,
"loss": 1.49501633644104,
"step": 920
},
{
"epoch": 1.2293333333333334,
"grad_norm": 0.83203125,
"learning_rate": 4.739316211528967e-06,
"loss": 1.3149592876434326,
"step": 922
},
{
"epoch": 1.232,
"grad_norm": 2.71875,
"learning_rate": 4.722934993754533e-06,
"loss": 1.642383337020874,
"step": 924
},
{
"epoch": 1.2346666666666666,
"grad_norm": 1.5703125,
"learning_rate": 4.706577590733007e-06,
"loss": 1.3257958889007568,
"step": 926
},
{
"epoch": 1.2373333333333334,
"grad_norm": 2.0625,
"learning_rate": 4.690244307497814e-06,
"loss": 1.276841163635254,
"step": 928
},
{
"epoch": 1.24,
"grad_norm": 1.859375,
"learning_rate": 4.673935448632591e-06,
"loss": 1.721373200416565,
"step": 930
},
{
"epoch": 1.2426666666666666,
"grad_norm": 1.7578125,
"learning_rate": 4.657651318265509e-06,
"loss": 1.4675047397613525,
"step": 932
},
{
"epoch": 1.2453333333333334,
"grad_norm": 0.796875,
"learning_rate": 4.641392220063599e-06,
"loss": 1.465226173400879,
"step": 934
},
{
"epoch": 1.248,
"grad_norm": 0.77734375,
"learning_rate": 4.6251584572270935e-06,
"loss": 1.2223048210144043,
"step": 936
},
{
"epoch": 1.2506666666666666,
"grad_norm": 1.5859375,
"learning_rate": 4.608950332483773e-06,
"loss": 1.4375481605529785,
"step": 938
},
{
"epoch": 1.2533333333333334,
"grad_norm": 1.21875,
"learning_rate": 4.5927681480833095e-06,
"loss": 1.3203275203704834,
"step": 940
},
{
"epoch": 1.256,
"grad_norm": 0.42578125,
"learning_rate": 4.5766122057916485e-06,
"loss": 1.1648380756378174,
"step": 942
},
{
"epoch": 1.2586666666666666,
"grad_norm": 2.65625,
"learning_rate": 4.560482806885362e-06,
"loss": 1.4603443145751953,
"step": 944
},
{
"epoch": 1.2613333333333334,
"grad_norm": 3.046875,
"learning_rate": 4.54438025214605e-06,
"loss": 1.5609309673309326,
"step": 946
},
{
"epoch": 1.264,
"grad_norm": 2.140625,
"learning_rate": 4.528304841854715e-06,
"loss": 1.4321218729019165,
"step": 948
},
{
"epoch": 1.2666666666666666,
"grad_norm": 0.88671875,
"learning_rate": 4.512256875786168e-06,
"loss": 1.4748444557189941,
"step": 950
},
{
"epoch": 1.2693333333333334,
"grad_norm": 4.46875,
"learning_rate": 4.496236653203444e-06,
"loss": 1.429595947265625,
"step": 952
},
{
"epoch": 1.272,
"grad_norm": 2.328125,
"learning_rate": 4.480244472852213e-06,
"loss": 1.7245969772338867,
"step": 954
},
{
"epoch": 1.2746666666666666,
"grad_norm": 2.640625,
"learning_rate": 4.464280632955216e-06,
"loss": 0.8795217275619507,
"step": 956
},
{
"epoch": 1.2773333333333334,
"grad_norm": 1.921875,
"learning_rate": 4.448345431206694e-06,
"loss": 1.307784080505371,
"step": 958
},
{
"epoch": 1.28,
"grad_norm": 0.98828125,
"learning_rate": 4.4324391647668506e-06,
"loss": 1.1998255252838135,
"step": 960
},
{
"epoch": 1.2826666666666666,
"grad_norm": 1.1015625,
"learning_rate": 4.416562130256296e-06,
"loss": 1.2785608768463135,
"step": 962
},
{
"epoch": 1.2853333333333334,
"grad_norm": 1.2578125,
"learning_rate": 4.400714623750524e-06,
"loss": 1.2859876155853271,
"step": 964
},
{
"epoch": 1.288,
"grad_norm": 3.703125,
"learning_rate": 4.3848969407743944e-06,
"loss": 1.8891761302947998,
"step": 966
},
{
"epoch": 1.2906666666666666,
"grad_norm": 2.15625,
"learning_rate": 4.369109376296609e-06,
"loss": 1.6439094543457031,
"step": 968
},
{
"epoch": 1.2933333333333334,
"grad_norm": 5.21875,
"learning_rate": 4.353352224724225e-06,
"loss": 1.514702558517456,
"step": 970
},
{
"epoch": 1.296,
"grad_norm": 1.59375,
"learning_rate": 4.3376257798971555e-06,
"loss": 1.4659841060638428,
"step": 972
},
{
"epoch": 1.2986666666666666,
"grad_norm": 3.4375,
"learning_rate": 4.321930335082692e-06,
"loss": 1.5239222049713135,
"step": 974
},
{
"epoch": 1.3013333333333335,
"grad_norm": 2.109375,
"learning_rate": 4.306266182970042e-06,
"loss": 1.4437575340270996,
"step": 976
},
{
"epoch": 1.304,
"grad_norm": 12.3125,
"learning_rate": 4.290633615664856e-06,
"loss": 1.486495018005371,
"step": 978
},
{
"epoch": 1.3066666666666666,
"grad_norm": 3.328125,
"learning_rate": 4.275032924683801e-06,
"loss": 1.6699053049087524,
"step": 980
},
{
"epoch": 1.3093333333333335,
"grad_norm": 1.4296875,
"learning_rate": 4.259464400949107e-06,
"loss": 1.30124831199646,
"step": 982
},
{
"epoch": 1.312,
"grad_norm": 0.953125,
"learning_rate": 4.243928334783149e-06,
"loss": 1.3807833194732666,
"step": 984
},
{
"epoch": 1.3146666666666667,
"grad_norm": 3.71875,
"learning_rate": 4.228425015903033e-06,
"loss": 1.4485820531845093,
"step": 986
},
{
"epoch": 1.3173333333333335,
"grad_norm": 1.7421875,
"learning_rate": 4.212954733415191e-06,
"loss": 1.6855344772338867,
"step": 988
},
{
"epoch": 1.32,
"grad_norm": 1.7421875,
"learning_rate": 4.197517775809992e-06,
"loss": 1.4031494855880737,
"step": 990
},
{
"epoch": 1.3226666666666667,
"grad_norm": 2.265625,
"learning_rate": 4.182114430956361e-06,
"loss": 1.659409523010254,
"step": 992
},
{
"epoch": 1.3253333333333333,
"grad_norm": 1.8671875,
"learning_rate": 4.166744986096413e-06,
"loss": 1.4284895658493042,
"step": 994
},
{
"epoch": 1.328,
"grad_norm": 2.25,
"learning_rate": 4.151409727840092e-06,
"loss": 1.448912262916565,
"step": 996
},
{
"epoch": 1.3306666666666667,
"grad_norm": 3.15625,
"learning_rate": 4.136108942159832e-06,
"loss": 1.7958948612213135,
"step": 998
},
{
"epoch": 1.3333333333333333,
"grad_norm": 2.75,
"learning_rate": 4.120842914385218e-06,
"loss": 1.4040802717208862,
"step": 1000
},
{
"epoch": 1.336,
"grad_norm": 0.83984375,
"learning_rate": 4.10561192919767e-06,
"loss": 1.301011323928833,
"step": 1002
},
{
"epoch": 1.3386666666666667,
"grad_norm": 1.8984375,
"learning_rate": 4.090416270625135e-06,
"loss": 1.4286404848098755,
"step": 1004
},
{
"epoch": 1.3413333333333333,
"grad_norm": 1.4296875,
"learning_rate": 4.0752562220367794e-06,
"loss": 1.3214401006698608,
"step": 1006
},
{
"epoch": 1.3439999999999999,
"grad_norm": 1.59375,
"learning_rate": 4.060132066137727e-06,
"loss": 1.5171817541122437,
"step": 1008
},
{
"epoch": 1.3466666666666667,
"grad_norm": 1.4296875,
"learning_rate": 4.045044084963763e-06,
"loss": 1.4768675565719604,
"step": 1010
},
{
"epoch": 1.3493333333333333,
"grad_norm": 1.3828125,
"learning_rate": 4.029992559876087e-06,
"loss": 1.415074348449707,
"step": 1012
},
{
"epoch": 1.3519999999999999,
"grad_norm": 1.796875,
"learning_rate": 4.0149777715560674e-06,
"loss": 1.5330753326416016,
"step": 1014
},
{
"epoch": 1.3546666666666667,
"grad_norm": 8.3125,
"learning_rate": 4.0000000000000015e-06,
"loss": 1.3747649192810059,
"step": 1016
},
{
"epoch": 1.3573333333333333,
"grad_norm": 3.390625,
"learning_rate": 3.985059524513896e-06,
"loss": 1.2210909128189087,
"step": 1018
},
{
"epoch": 1.3599999999999999,
"grad_norm": 2.546875,
"learning_rate": 3.970156623708261e-06,
"loss": 1.791236400604248,
"step": 1020
},
{
"epoch": 1.3626666666666667,
"grad_norm": 0.7890625,
"learning_rate": 3.955291575492912e-06,
"loss": 1.266838550567627,
"step": 1022
},
{
"epoch": 1.3653333333333333,
"grad_norm": 2.171875,
"learning_rate": 3.940464657071787e-06,
"loss": 1.4428675174713135,
"step": 1024
},
{
"epoch": 1.3679999999999999,
"grad_norm": 1.765625,
"learning_rate": 3.925676144937782e-06,
"loss": 1.6305105686187744,
"step": 1026
},
{
"epoch": 1.3706666666666667,
"grad_norm": 2.578125,
"learning_rate": 3.910926314867587e-06,
"loss": 1.2980940341949463,
"step": 1028
},
{
"epoch": 1.3733333333333333,
"grad_norm": 13.3125,
"learning_rate": 3.896215441916549e-06,
"loss": 1.6991345882415771,
"step": 1030
},
{
"epoch": 1.376,
"grad_norm": 2.765625,
"learning_rate": 3.881543800413542e-06,
"loss": 1.3022918701171875,
"step": 1032
},
{
"epoch": 1.3786666666666667,
"grad_norm": 4.34375,
"learning_rate": 3.866911663955849e-06,
"loss": 1.6827547550201416,
"step": 1034
},
{
"epoch": 1.3813333333333333,
"grad_norm": 7.0625,
"learning_rate": 3.852319305404066e-06,
"loss": 1.3844313621520996,
"step": 1036
},
{
"epoch": 1.384,
"grad_norm": 2.015625,
"learning_rate": 3.837766996877e-06,
"loss": 1.5110915899276733,
"step": 1038
},
{
"epoch": 1.3866666666666667,
"grad_norm": 2.046875,
"learning_rate": 3.823255009746614e-06,
"loss": 1.7469675540924072,
"step": 1040
},
{
"epoch": 1.3893333333333333,
"grad_norm": 0.92578125,
"learning_rate": 3.8087836146329487e-06,
"loss": 1.1735780239105225,
"step": 1042
},
{
"epoch": 1.392,
"grad_norm": 2.65625,
"learning_rate": 3.7943530813990885e-06,
"loss": 1.5993540287017822,
"step": 1044
},
{
"epoch": 1.3946666666666667,
"grad_norm": 2.78125,
"learning_rate": 3.7799636791461215e-06,
"loss": 1.493753433227539,
"step": 1046
},
{
"epoch": 1.3973333333333333,
"grad_norm": 1.578125,
"learning_rate": 3.765615676208123e-06,
"loss": 1.4443812370300293,
"step": 1048
},
{
"epoch": 1.4,
"grad_norm": 1.859375,
"learning_rate": 3.7513093401471554e-06,
"loss": 0.9010155200958252,
"step": 1050
},
{
"epoch": 1.4026666666666667,
"grad_norm": 1.625,
"learning_rate": 3.737044937748271e-06,
"loss": 1.2743403911590576,
"step": 1052
},
{
"epoch": 1.4053333333333333,
"grad_norm": 4.4375,
"learning_rate": 3.7228227350145496e-06,
"loss": 0.899776816368103,
"step": 1054
},
{
"epoch": 1.408,
"grad_norm": 0.7421875,
"learning_rate": 3.7086429971621212e-06,
"loss": 1.3807284832000732,
"step": 1056
},
{
"epoch": 1.4106666666666667,
"grad_norm": 2.140625,
"learning_rate": 3.6945059886152357e-06,
"loss": 1.4470179080963135,
"step": 1058
},
{
"epoch": 1.4133333333333333,
"grad_norm": 1.859375,
"learning_rate": 3.680411973001321e-06,
"loss": 1.6697869300842285,
"step": 1060
},
{
"epoch": 1.416,
"grad_norm": 1.5703125,
"learning_rate": 3.6663612131460746e-06,
"loss": 1.5406875610351562,
"step": 1062
},
{
"epoch": 1.4186666666666667,
"grad_norm": 1.2578125,
"learning_rate": 3.6523539710685584e-06,
"loss": 1.4189198017120361,
"step": 1064
},
{
"epoch": 1.4213333333333333,
"grad_norm": 1.1484375,
"learning_rate": 3.6383905079763102e-06,
"loss": 1.0879052877426147,
"step": 1066
},
{
"epoch": 1.424,
"grad_norm": 2.125,
"learning_rate": 3.6244710842604808e-06,
"loss": 1.5092581510543823,
"step": 1068
},
{
"epoch": 1.4266666666666667,
"grad_norm": 16.5,
"learning_rate": 3.610595959490968e-06,
"loss": 1.2460155487060547,
"step": 1070
},
{
"epoch": 1.4293333333333333,
"grad_norm": 6.46875,
"learning_rate": 3.5967653924115863e-06,
"loss": 1.3782910108566284,
"step": 1072
},
{
"epoch": 1.432,
"grad_norm": 4.5625,
"learning_rate": 3.5829796409352337e-06,
"loss": 1.2795217037200928,
"step": 1074
},
{
"epoch": 1.4346666666666668,
"grad_norm": 1.765625,
"learning_rate": 3.5692389621390834e-06,
"loss": 1.661920189857483,
"step": 1076
},
{
"epoch": 1.4373333333333334,
"grad_norm": 1.703125,
"learning_rate": 3.5555436122597993e-06,
"loss": 1.5289561748504639,
"step": 1078
},
{
"epoch": 1.44,
"grad_norm": 2.765625,
"learning_rate": 3.541893846688741e-06,
"loss": 1.3745149374008179,
"step": 1080
},
{
"epoch": 1.4426666666666668,
"grad_norm": 0.859375,
"learning_rate": 3.528289919967216e-06,
"loss": 1.2683101892471313,
"step": 1082
},
{
"epoch": 1.4453333333333334,
"grad_norm": 1.65625,
"learning_rate": 3.5147320857817257e-06,
"loss": 1.6564890146255493,
"step": 1084
},
{
"epoch": 1.448,
"grad_norm": 1.296875,
"learning_rate": 3.5012205969592354e-06,
"loss": 1.2393252849578857,
"step": 1086
},
{
"epoch": 1.4506666666666668,
"grad_norm": 1.921875,
"learning_rate": 3.4877557054624622e-06,
"loss": 1.5807795524597168,
"step": 1088
},
{
"epoch": 1.4533333333333334,
"grad_norm": 4.5625,
"learning_rate": 3.474337662385172e-06,
"loss": 1.3979017734527588,
"step": 1090
},
{
"epoch": 1.456,
"grad_norm": 2.5625,
"learning_rate": 3.4609667179475036e-06,
"loss": 1.487921953201294,
"step": 1092
},
{
"epoch": 1.4586666666666668,
"grad_norm": 1.5625,
"learning_rate": 3.4476431214912963e-06,
"loss": 1.3920189142227173,
"step": 1094
},
{
"epoch": 1.4613333333333334,
"grad_norm": 3.203125,
"learning_rate": 3.4343671214754414e-06,
"loss": 1.5807299613952637,
"step": 1096
},
{
"epoch": 1.464,
"grad_norm": 1.9296875,
"learning_rate": 3.4211389654712514e-06,
"loss": 1.5179126262664795,
"step": 1098
},
{
"epoch": 1.4666666666666668,
"grad_norm": 1.8046875,
"learning_rate": 3.4079589001578452e-06,
"loss": 0.9419519901275635,
"step": 1100
},
{
"epoch": 1.4693333333333334,
"grad_norm": 0.875,
"learning_rate": 3.3948271713175396e-06,
"loss": 1.4038584232330322,
"step": 1102
},
{
"epoch": 1.472,
"grad_norm": 2.109375,
"learning_rate": 3.3817440238312725e-06,
"loss": 1.4261444807052612,
"step": 1104
},
{
"epoch": 1.4746666666666668,
"grad_norm": 3.171875,
"learning_rate": 3.3687097016740387e-06,
"loss": 1.7290048599243164,
"step": 1106
},
{
"epoch": 1.4773333333333334,
"grad_norm": 2.15625,
"learning_rate": 3.355724447910331e-06,
"loss": 1.2322664260864258,
"step": 1108
},
{
"epoch": 1.48,
"grad_norm": 1.515625,
"learning_rate": 3.3427885046896176e-06,
"loss": 1.433166265487671,
"step": 1110
},
{
"epoch": 1.4826666666666668,
"grad_norm": 0.9453125,
"learning_rate": 3.3299021132418195e-06,
"loss": 1.3946583271026611,
"step": 1112
},
{
"epoch": 1.4853333333333334,
"grad_norm": 2.015625,
"learning_rate": 3.3170655138728146e-06,
"loss": 1.5457172393798828,
"step": 1114
},
{
"epoch": 1.488,
"grad_norm": 2.8125,
"learning_rate": 3.304278945959957e-06,
"loss": 1.6738321781158447,
"step": 1116
},
{
"epoch": 1.4906666666666666,
"grad_norm": 3.09375,
"learning_rate": 3.291542647947614e-06,
"loss": 1.714116096496582,
"step": 1118
},
{
"epoch": 1.4933333333333334,
"grad_norm": 1.34375,
"learning_rate": 3.2788568573427148e-06,
"loss": 1.0393377542495728,
"step": 1120
},
{
"epoch": 1.496,
"grad_norm": 2.9375,
"learning_rate": 3.266221810710326e-06,
"loss": 1.6164016723632812,
"step": 1122
},
{
"epoch": 1.4986666666666666,
"grad_norm": 0.85546875,
"learning_rate": 3.253637743669242e-06,
"loss": 1.0834544897079468,
"step": 1124
},
{
"epoch": 1.5013333333333332,
"grad_norm": 2.609375,
"learning_rate": 3.241104890887583e-06,
"loss": 1.6497541666030884,
"step": 1126
},
{
"epoch": 1.504,
"grad_norm": 2.625,
"learning_rate": 3.228623486078426e-06,
"loss": 1.5047144889831543,
"step": 1128
},
{
"epoch": 1.5066666666666668,
"grad_norm": 0.65625,
"learning_rate": 3.2161937619954453e-06,
"loss": 1.4504725933074951,
"step": 1130
},
{
"epoch": 1.5093333333333332,
"grad_norm": 1.09375,
"learning_rate": 3.2038159504285705e-06,
"loss": 1.492081880569458,
"step": 1132
},
{
"epoch": 1.512,
"grad_norm": 4.15625,
"learning_rate": 3.1914902821996643e-06,
"loss": 1.5089662075042725,
"step": 1134
},
{
"epoch": 1.5146666666666668,
"grad_norm": 0.470703125,
"learning_rate": 3.179216987158218e-06,
"loss": 1.2040472030639648,
"step": 1136
},
{
"epoch": 1.5173333333333332,
"grad_norm": 2.8125,
"learning_rate": 3.1669962941770682e-06,
"loss": 1.5398011207580566,
"step": 1138
},
{
"epoch": 1.52,
"grad_norm": 4.0,
"learning_rate": 3.1548284311481242e-06,
"loss": 1.800908088684082,
"step": 1140
},
{
"epoch": 1.5226666666666666,
"grad_norm": 0.99609375,
"learning_rate": 3.142713624978122e-06,
"loss": 1.1302399635314941,
"step": 1142
},
{
"epoch": 1.5253333333333332,
"grad_norm": 1.5703125,
"learning_rate": 3.1306521015843898e-06,
"loss": 1.6033101081848145,
"step": 1144
},
{
"epoch": 1.528,
"grad_norm": 0.6953125,
"learning_rate": 3.1186440858906397e-06,
"loss": 1.024148941040039,
"step": 1146
},
{
"epoch": 1.5306666666666666,
"grad_norm": 2.015625,
"learning_rate": 3.1066898018227676e-06,
"loss": 1.5519815683364868,
"step": 1148
},
{
"epoch": 1.5333333333333332,
"grad_norm": 0.796875,
"learning_rate": 3.094789472304681e-06,
"loss": 1.127099871635437,
"step": 1150
},
{
"epoch": 1.536,
"grad_norm": 1.296875,
"learning_rate": 3.0829433192541402e-06,
"loss": 1.356688141822815,
"step": 1152
},
{
"epoch": 1.5386666666666666,
"grad_norm": 0.9453125,
"learning_rate": 3.0711515635786223e-06,
"loss": 1.518554449081421,
"step": 1154
},
{
"epoch": 1.5413333333333332,
"grad_norm": 4.5,
"learning_rate": 3.0594144251711998e-06,
"loss": 1.7277584075927734,
"step": 1156
},
{
"epoch": 1.544,
"grad_norm": 2.015625,
"learning_rate": 3.0477321229064395e-06,
"loss": 1.6667563915252686,
"step": 1158
},
{
"epoch": 1.5466666666666666,
"grad_norm": 6.1875,
"learning_rate": 3.0361048746363218e-06,
"loss": 1.0613267421722412,
"step": 1160
},
{
"epoch": 1.5493333333333332,
"grad_norm": 4.28125,
"learning_rate": 3.024532897186183e-06,
"loss": 1.6659808158874512,
"step": 1162
},
{
"epoch": 1.552,
"grad_norm": 3.46875,
"learning_rate": 3.0130164063506604e-06,
"loss": 1.814218521118164,
"step": 1164
},
{
"epoch": 1.5546666666666666,
"grad_norm": 3.171875,
"learning_rate": 3.0015556168896786e-06,
"loss": 1.6521286964416504,
"step": 1166
},
{
"epoch": 1.5573333333333332,
"grad_norm": 2.109375,
"learning_rate": 2.990150742524439e-06,
"loss": 1.63661789894104,
"step": 1168
},
{
"epoch": 1.56,
"grad_norm": 5.875,
"learning_rate": 2.9788019959334395e-06,
"loss": 0.815743088722229,
"step": 1170
},
{
"epoch": 1.5626666666666666,
"grad_norm": 9.75,
"learning_rate": 2.967509588748504e-06,
"loss": 0.5645891427993774,
"step": 1172
},
{
"epoch": 1.5653333333333332,
"grad_norm": 2.140625,
"learning_rate": 2.9562737315508353e-06,
"loss": 1.4053256511688232,
"step": 1174
},
{
"epoch": 1.568,
"grad_norm": 3.015625,
"learning_rate": 2.9450946338670927e-06,
"loss": 1.677865982055664,
"step": 1176
},
{
"epoch": 1.5706666666666667,
"grad_norm": 1.9296875,
"learning_rate": 2.933972504165479e-06,
"loss": 1.245861530303955,
"step": 1178
},
{
"epoch": 1.5733333333333333,
"grad_norm": 1.8671875,
"learning_rate": 2.92290754985186e-06,
"loss": 1.4501361846923828,
"step": 1180
},
{
"epoch": 1.576,
"grad_norm": 1.5546875,
"learning_rate": 2.9118999772658886e-06,
"loss": 1.4831395149230957,
"step": 1182
},
{
"epoch": 1.5786666666666667,
"grad_norm": 1.9140625,
"learning_rate": 2.9009499916771654e-06,
"loss": 1.384798526763916,
"step": 1184
},
{
"epoch": 1.5813333333333333,
"grad_norm": 1.8203125,
"learning_rate": 2.8900577972814036e-06,
"loss": 1.6007227897644043,
"step": 1186
},
{
"epoch": 1.584,
"grad_norm": 1.3984375,
"learning_rate": 2.8792235971966254e-06,
"loss": 1.2757967710494995,
"step": 1188
},
{
"epoch": 1.5866666666666667,
"grad_norm": 2.921875,
"learning_rate": 2.8684475934593723e-06,
"loss": 1.583537220954895,
"step": 1190
},
{
"epoch": 1.5893333333333333,
"grad_norm": 4.15625,
"learning_rate": 2.857729987020942e-06,
"loss": 1.5765447616577148,
"step": 1192
},
{
"epoch": 1.592,
"grad_norm": 0.890625,
"learning_rate": 2.8470709777436304e-06,
"loss": 1.5107605457305908,
"step": 1194
},
{
"epoch": 1.5946666666666667,
"grad_norm": 1.53125,
"learning_rate": 2.836470764397018e-06,
"loss": 1.505168080329895,
"step": 1196
},
{
"epoch": 1.5973333333333333,
"grad_norm": 2.84375,
"learning_rate": 2.8259295446542533e-06,
"loss": 1.5656110048294067,
"step": 1198
},
{
"epoch": 1.6,
"grad_norm": 1.5546875,
"learning_rate": 2.81544751508837e-06,
"loss": 1.2904706001281738,
"step": 1200
},
{
"epoch": 1.6026666666666667,
"grad_norm": 1.390625,
"learning_rate": 2.8050248711686234e-06,
"loss": 1.525524616241455,
"step": 1202
},
{
"epoch": 1.6053333333333333,
"grad_norm": 1.2890625,
"learning_rate": 2.794661807256841e-06,
"loss": 1.3116002082824707,
"step": 1204
},
{
"epoch": 1.608,
"grad_norm": 1.6328125,
"learning_rate": 2.7843585166038e-06,
"loss": 1.451981782913208,
"step": 1206
},
{
"epoch": 1.6106666666666667,
"grad_norm": 5.78125,
"learning_rate": 2.7741151913456275e-06,
"loss": 1.2367119789123535,
"step": 1208
},
{
"epoch": 1.6133333333333333,
"grad_norm": 3.609375,
"learning_rate": 2.763932022500211e-06,
"loss": 1.6221845149993896,
"step": 1210
},
{
"epoch": 1.616,
"grad_norm": 1.4609375,
"learning_rate": 2.7538091999636374e-06,
"loss": 1.570770263671875,
"step": 1212
},
{
"epoch": 1.6186666666666667,
"grad_norm": 2.546875,
"learning_rate": 2.7437469125066553e-06,
"loss": 1.758622169494629,
"step": 1214
},
{
"epoch": 1.6213333333333333,
"grad_norm": 3.5625,
"learning_rate": 2.7337453477711558e-06,
"loss": 1.680159091949463,
"step": 1216
},
{
"epoch": 1.624,
"grad_norm": 3.796875,
"learning_rate": 2.7238046922666665e-06,
"loss": 0.8679245710372925,
"step": 1218
},
{
"epoch": 1.6266666666666667,
"grad_norm": 3.140625,
"learning_rate": 2.713925131366879e-06,
"loss": 1.647581696510315,
"step": 1220
},
{
"epoch": 1.6293333333333333,
"grad_norm": 1.6171875,
"learning_rate": 2.70410684930619e-06,
"loss": 1.5539906024932861,
"step": 1222
},
{
"epoch": 1.6320000000000001,
"grad_norm": 1.625,
"learning_rate": 2.6943500291762683e-06,
"loss": 1.4344866275787354,
"step": 1224
},
{
"epoch": 1.6346666666666667,
"grad_norm": 1.3046875,
"learning_rate": 2.6846548529226353e-06,
"loss": 1.1207237243652344,
"step": 1226
},
{
"epoch": 1.6373333333333333,
"grad_norm": 0.9375,
"learning_rate": 2.675021501341278e-06,
"loss": 1.3701207637786865,
"step": 1228
},
{
"epoch": 1.6400000000000001,
"grad_norm": 0.9609375,
"learning_rate": 2.6654501540752732e-06,
"loss": 1.1080701351165771,
"step": 1230
},
{
"epoch": 1.6426666666666667,
"grad_norm": 3.03125,
"learning_rate": 2.655940989611439e-06,
"loss": 1.859466552734375,
"step": 1232
},
{
"epoch": 1.6453333333333333,
"grad_norm": 3.09375,
"learning_rate": 2.646494185277008e-06,
"loss": 1.6503245830535889,
"step": 1234
},
{
"epoch": 1.6480000000000001,
"grad_norm": 4.375,
"learning_rate": 2.6371099172363167e-06,
"loss": 1.1200395822525024,
"step": 1236
},
{
"epoch": 1.6506666666666665,
"grad_norm": 3.515625,
"learning_rate": 2.6277883604875253e-06,
"loss": 1.7879531383514404,
"step": 1238
},
{
"epoch": 1.6533333333333333,
"grad_norm": 1.3671875,
"learning_rate": 2.6185296888593498e-06,
"loss": 1.4412014484405518,
"step": 1240
},
{
"epoch": 1.6560000000000001,
"grad_norm": 3.078125,
"learning_rate": 2.6093340750078217e-06,
"loss": 1.2828483581542969,
"step": 1242
},
{
"epoch": 1.6586666666666665,
"grad_norm": 0.83984375,
"learning_rate": 2.6002016904130705e-06,
"loss": 1.4173190593719482,
"step": 1244
},
{
"epoch": 1.6613333333333333,
"grad_norm": 1.984375,
"learning_rate": 2.5911327053761233e-06,
"loss": 1.508829116821289,
"step": 1246
},
{
"epoch": 1.6640000000000001,
"grad_norm": 1.2421875,
"learning_rate": 2.5821272890157303e-06,
"loss": 1.460728645324707,
"step": 1248
},
{
"epoch": 1.6666666666666665,
"grad_norm": 2.21875,
"learning_rate": 2.5731856092652115e-06,
"loss": 1.6388607025146484,
"step": 1250
},
{
"epoch": 1.6693333333333333,
"grad_norm": 0.96875,
"learning_rate": 2.564307832869321e-06,
"loss": 1.4898426532745361,
"step": 1252
},
{
"epoch": 1.6720000000000002,
"grad_norm": 2.171875,
"learning_rate": 2.555494125381147e-06,
"loss": 1.4409737586975098,
"step": 1254
},
{
"epoch": 1.6746666666666665,
"grad_norm": 7.40625,
"learning_rate": 2.546744651159014e-06,
"loss": 1.618120551109314,
"step": 1256
},
{
"epoch": 1.6773333333333333,
"grad_norm": 4.09375,
"learning_rate": 2.538059573363422e-06,
"loss": 1.7980014085769653,
"step": 1258
},
{
"epoch": 1.6800000000000002,
"grad_norm": 6.65625,
"learning_rate": 2.5294390539540064e-06,
"loss": 1.5673316717147827,
"step": 1260
},
{
"epoch": 1.6826666666666665,
"grad_norm": 1.59375,
"learning_rate": 2.520883253686516e-06,
"loss": 1.4909672737121582,
"step": 1262
},
{
"epoch": 1.6853333333333333,
"grad_norm": 2.640625,
"learning_rate": 2.512392332109812e-06,
"loss": 1.1935209035873413,
"step": 1264
},
{
"epoch": 1.688,
"grad_norm": 1.421875,
"learning_rate": 2.503966447562897e-06,
"loss": 1.2633693218231201,
"step": 1266
},
{
"epoch": 1.6906666666666665,
"grad_norm": 2.90625,
"learning_rate": 2.495605757171961e-06,
"loss": 1.7334074974060059,
"step": 1268
},
{
"epoch": 1.6933333333333334,
"grad_norm": 11.5625,
"learning_rate": 2.4873104168474514e-06,
"loss": 1.5755627155303955,
"step": 1270
},
{
"epoch": 1.696,
"grad_norm": 1.7109375,
"learning_rate": 2.4790805812811644e-06,
"loss": 1.522544503211975,
"step": 1272
},
{
"epoch": 1.6986666666666665,
"grad_norm": 3.140625,
"learning_rate": 2.4709164039433607e-06,
"loss": 1.0176241397857666,
"step": 1274
},
{
"epoch": 1.7013333333333334,
"grad_norm": 1.625,
"learning_rate": 2.462818037079906e-06,
"loss": 1.4031583070755005,
"step": 1276
},
{
"epoch": 1.704,
"grad_norm": 3.578125,
"learning_rate": 2.454785631709429e-06,
"loss": 1.2446343898773193,
"step": 1278
},
{
"epoch": 1.7066666666666666,
"grad_norm": 3.25,
"learning_rate": 2.4468193376205048e-06,
"loss": 1.7184709310531616,
"step": 1280
},
{
"epoch": 1.7093333333333334,
"grad_norm": 1.59375,
"learning_rate": 2.4389193033688637e-06,
"loss": 1.0342082977294922,
"step": 1282
},
{
"epoch": 1.712,
"grad_norm": 2.34375,
"learning_rate": 2.4310856762746234e-06,
"loss": 1.4483562707901,
"step": 1284
},
{
"epoch": 1.7146666666666666,
"grad_norm": 4.65625,
"learning_rate": 2.4233186024195342e-06,
"loss": 1.5622930526733398,
"step": 1286
},
{
"epoch": 1.7173333333333334,
"grad_norm": 2.859375,
"learning_rate": 2.4156182266442618e-06,
"loss": 1.7089333534240723,
"step": 1288
},
{
"epoch": 1.72,
"grad_norm": 2.46875,
"learning_rate": 2.4079846925456828e-06,
"loss": 1.4274256229400635,
"step": 1290
},
{
"epoch": 1.7226666666666666,
"grad_norm": 3.171875,
"learning_rate": 2.4004181424742075e-06,
"loss": 1.7315499782562256,
"step": 1292
},
{
"epoch": 1.7253333333333334,
"grad_norm": 1.9765625,
"learning_rate": 2.392918717531127e-06,
"loss": 1.4575717449188232,
"step": 1294
},
{
"epoch": 1.728,
"grad_norm": 6.0,
"learning_rate": 2.3854865575659795e-06,
"loss": 0.8987555503845215,
"step": 1296
},
{
"epoch": 1.7306666666666666,
"grad_norm": 3.953125,
"learning_rate": 2.3781218011739437e-06,
"loss": 1.2937586307525635,
"step": 1298
},
{
"epoch": 1.7333333333333334,
"grad_norm": 0.55078125,
"learning_rate": 2.3708245856932553e-06,
"loss": 1.2878880500793457,
"step": 1300
},
{
"epoch": 1.736,
"grad_norm": 3.609375,
"learning_rate": 2.3635950472026438e-06,
"loss": 1.6018328666687012,
"step": 1302
},
{
"epoch": 1.7386666666666666,
"grad_norm": 2.28125,
"learning_rate": 2.356433320518795e-06,
"loss": 1.3302011489868164,
"step": 1304
},
{
"epoch": 1.7413333333333334,
"grad_norm": 0.96484375,
"learning_rate": 2.34933953919384e-06,
"loss": 1.2421668767929077,
"step": 1306
},
{
"epoch": 1.744,
"grad_norm": 2.1875,
"learning_rate": 2.342313835512859e-06,
"loss": 1.4823825359344482,
"step": 1308
},
{
"epoch": 1.7466666666666666,
"grad_norm": 0.7734375,
"learning_rate": 2.3353563404914224e-06,
"loss": 1.3156999349594116,
"step": 1310
},
{
"epoch": 1.7493333333333334,
"grad_norm": 1.6796875,
"learning_rate": 2.3284671838731392e-06,
"loss": 1.283308982849121,
"step": 1312
},
{
"epoch": 1.752,
"grad_norm": 1.4609375,
"learning_rate": 2.3216464941272436e-06,
"loss": 1.2851642370224,
"step": 1314
},
{
"epoch": 1.7546666666666666,
"grad_norm": 3.53125,
"learning_rate": 2.3148943984461965e-06,
"loss": 1.488879680633545,
"step": 1316
},
{
"epoch": 1.7573333333333334,
"grad_norm": 2.6875,
"learning_rate": 2.308211022743314e-06,
"loss": 1.3692083358764648,
"step": 1318
},
{
"epoch": 1.76,
"grad_norm": 1.7109375,
"learning_rate": 2.3015964916504203e-06,
"loss": 1.5098447799682617,
"step": 1320
},
{
"epoch": 1.7626666666666666,
"grad_norm": 1.0703125,
"learning_rate": 2.2950509285155226e-06,
"loss": 1.3004857301712036,
"step": 1322
},
{
"epoch": 1.7653333333333334,
"grad_norm": 6.78125,
"learning_rate": 2.2885744554005112e-06,
"loss": 1.9929239749908447,
"step": 1324
},
{
"epoch": 1.768,
"grad_norm": 3.1875,
"learning_rate": 2.282167193078883e-06,
"loss": 1.5367597341537476,
"step": 1326
},
{
"epoch": 1.7706666666666666,
"grad_norm": 2.875,
"learning_rate": 2.2758292610334896e-06,
"loss": 1.6207027435302734,
"step": 1328
},
{
"epoch": 1.7733333333333334,
"grad_norm": 2.421875,
"learning_rate": 2.269560777454311e-06,
"loss": 1.4889240264892578,
"step": 1330
},
{
"epoch": 1.776,
"grad_norm": 3.265625,
"learning_rate": 2.263361859236247e-06,
"loss": 1.6567891836166382,
"step": 1332
},
{
"epoch": 1.7786666666666666,
"grad_norm": 2.75,
"learning_rate": 2.2572326219769418e-06,
"loss": 1.7911484241485596,
"step": 1334
},
{
"epoch": 1.7813333333333334,
"grad_norm": 2.484375,
"learning_rate": 2.251173179974626e-06,
"loss": 1.2560003995895386,
"step": 1336
},
{
"epoch": 1.784,
"grad_norm": 2.78125,
"learning_rate": 2.245183646225986e-06,
"loss": 1.373849630355835,
"step": 1338
},
{
"epoch": 1.7866666666666666,
"grad_norm": 1.34375,
"learning_rate": 2.2392641324240567e-06,
"loss": 1.2120951414108276,
"step": 1340
},
{
"epoch": 1.7893333333333334,
"grad_norm": 1.78125,
"learning_rate": 2.233414748956138e-06,
"loss": 1.516349196434021,
"step": 1342
},
{
"epoch": 1.792,
"grad_norm": 3.25,
"learning_rate": 2.227635604901739e-06,
"loss": 1.8674198389053345,
"step": 1344
},
{
"epoch": 1.7946666666666666,
"grad_norm": 2.71875,
"learning_rate": 2.221926808030539e-06,
"loss": 1.4104797840118408,
"step": 1346
},
{
"epoch": 1.7973333333333334,
"grad_norm": 5.125,
"learning_rate": 2.2162884648003817e-06,
"loss": 1.7129011154174805,
"step": 1348
},
{
"epoch": 1.8,
"grad_norm": 1.0546875,
"learning_rate": 2.2107206803552896e-06,
"loss": 1.4221611022949219,
"step": 1350
},
{
"epoch": 1.8026666666666666,
"grad_norm": 2.40625,
"learning_rate": 2.2052235585235017e-06,
"loss": 1.2692551612854004,
"step": 1352
},
{
"epoch": 1.8053333333333335,
"grad_norm": 4.0,
"learning_rate": 2.199797201815537e-06,
"loss": 1.592599630355835,
"step": 1354
},
{
"epoch": 1.808,
"grad_norm": 3.3125,
"learning_rate": 2.194441711422286e-06,
"loss": 1.5269999504089355,
"step": 1356
},
{
"epoch": 1.8106666666666666,
"grad_norm": 1.9375,
"learning_rate": 2.189157187213121e-06,
"loss": 1.4359304904937744,
"step": 1358
},
{
"epoch": 1.8133333333333335,
"grad_norm": 1.6484375,
"learning_rate": 2.183943727734035e-06,
"loss": 1.5060385465621948,
"step": 1360
},
{
"epoch": 1.8159999999999998,
"grad_norm": 1.796875,
"learning_rate": 2.1788014302058016e-06,
"loss": 1.6254030466079712,
"step": 1362
},
{
"epoch": 1.8186666666666667,
"grad_norm": 2.796875,
"learning_rate": 2.1737303905221653e-06,
"loss": 1.483654260635376,
"step": 1364
},
{
"epoch": 1.8213333333333335,
"grad_norm": 1.3828125,
"learning_rate": 2.1687307032480517e-06,
"loss": 1.2225428819656372,
"step": 1366
},
{
"epoch": 1.8239999999999998,
"grad_norm": 0.98046875,
"learning_rate": 2.163802461617804e-06,
"loss": 1.1596672534942627,
"step": 1368
},
{
"epoch": 1.8266666666666667,
"grad_norm": 4.3125,
"learning_rate": 2.1589457575334445e-06,
"loss": 1.873258352279663,
"step": 1370
},
{
"epoch": 1.8293333333333335,
"grad_norm": 1.8671875,
"learning_rate": 2.15416068156296e-06,
"loss": 1.3378783464431763,
"step": 1372
},
{
"epoch": 1.8319999999999999,
"grad_norm": 10.6875,
"learning_rate": 2.1494473229386155e-06,
"loss": 1.5235542058944702,
"step": 1374
},
{
"epoch": 1.8346666666666667,
"grad_norm": 3.203125,
"learning_rate": 2.1448057695552884e-06,
"loss": 1.6886104345321655,
"step": 1376
},
{
"epoch": 1.8373333333333335,
"grad_norm": 1.625,
"learning_rate": 2.1402361079688266e-06,
"loss": 1.6445670127868652,
"step": 1378
},
{
"epoch": 1.8399999999999999,
"grad_norm": 3.46875,
"learning_rate": 2.1357384233944403e-06,
"loss": 1.7186939716339111,
"step": 1380
},
{
"epoch": 1.8426666666666667,
"grad_norm": 1.7265625,
"learning_rate": 2.1313127997051085e-06,
"loss": 1.3848296403884888,
"step": 1382
},
{
"epoch": 1.8453333333333335,
"grad_norm": 0.7265625,
"learning_rate": 2.126959319430017e-06,
"loss": 1.238898754119873,
"step": 1384
},
{
"epoch": 1.8479999999999999,
"grad_norm": 1.0546875,
"learning_rate": 2.1226780637530175e-06,
"loss": 1.025477409362793,
"step": 1386
},
{
"epoch": 1.8506666666666667,
"grad_norm": 1.90625,
"learning_rate": 2.118469112511116e-06,
"loss": 1.5098035335540771,
"step": 1388
},
{
"epoch": 1.8533333333333335,
"grad_norm": 1.7109375,
"learning_rate": 2.1143325441929826e-06,
"loss": 1.4797961711883545,
"step": 1390
},
{
"epoch": 1.8559999999999999,
"grad_norm": 1.84375,
"learning_rate": 2.1102684359374883e-06,
"loss": 1.1345655918121338,
"step": 1392
},
{
"epoch": 1.8586666666666667,
"grad_norm": 8.0,
"learning_rate": 2.1062768635322654e-06,
"loss": 1.3087197542190552,
"step": 1394
},
{
"epoch": 1.8613333333333333,
"grad_norm": 3.15625,
"learning_rate": 2.102357901412296e-06,
"loss": 1.4113759994506836,
"step": 1396
},
{
"epoch": 1.8639999999999999,
"grad_norm": 1.1484375,
"learning_rate": 2.0985116226585227e-06,
"loss": 1.1754930019378662,
"step": 1398
},
{
"epoch": 1.8666666666666667,
"grad_norm": 1.40625,
"learning_rate": 2.094738098996486e-06,
"loss": 1.1655365228652954,
"step": 1400
},
{
"epoch": 1.8693333333333333,
"grad_norm": 1.9765625,
"learning_rate": 2.091037400794988e-06,
"loss": 1.5583083629608154,
"step": 1402
},
{
"epoch": 1.8719999999999999,
"grad_norm": 1.71875,
"learning_rate": 2.0874095970647774e-06,
"loss": 1.4320223331451416,
"step": 1404
},
{
"epoch": 1.8746666666666667,
"grad_norm": 2.703125,
"learning_rate": 2.083854755457265e-06,
"loss": 1.5203807353973389,
"step": 1406
},
{
"epoch": 1.8773333333333333,
"grad_norm": 2.40625,
"learning_rate": 2.080372942263263e-06,
"loss": 1.6280516386032104,
"step": 1408
},
{
"epoch": 1.88,
"grad_norm": 0.65625,
"learning_rate": 2.0769642224117434e-06,
"loss": 1.237607717514038,
"step": 1410
},
{
"epoch": 1.8826666666666667,
"grad_norm": 2.328125,
"learning_rate": 2.0736286594686348e-06,
"loss": 1.3556280136108398,
"step": 1412
},
{
"epoch": 1.8853333333333333,
"grad_norm": 7.84375,
"learning_rate": 2.070366315635631e-06,
"loss": 1.5116500854492188,
"step": 1414
},
{
"epoch": 1.888,
"grad_norm": 2.546875,
"learning_rate": 2.067177251749034e-06,
"loss": 1.4903755187988281,
"step": 1416
},
{
"epoch": 1.8906666666666667,
"grad_norm": 2.828125,
"learning_rate": 2.064061527278618e-06,
"loss": 1.089402675628662,
"step": 1418
},
{
"epoch": 1.8933333333333333,
"grad_norm": 2.53125,
"learning_rate": 2.061019200326523e-06,
"loss": 1.5527162551879883,
"step": 1420
},
{
"epoch": 1.896,
"grad_norm": 0.8671875,
"learning_rate": 2.0580503276261684e-06,
"loss": 1.2740471363067627,
"step": 1422
},
{
"epoch": 1.8986666666666667,
"grad_norm": 0.9921875,
"learning_rate": 2.055154964541196e-06,
"loss": 1.3766753673553467,
"step": 1424
},
{
"epoch": 1.9013333333333333,
"grad_norm": 1.796875,
"learning_rate": 2.052333165064437e-06,
"loss": 1.490415334701538,
"step": 1426
},
{
"epoch": 1.904,
"grad_norm": 3.140625,
"learning_rate": 2.0495849818169085e-06,
"loss": 1.4044418334960938,
"step": 1428
},
{
"epoch": 1.9066666666666667,
"grad_norm": 1.90625,
"learning_rate": 2.046910466046826e-06,
"loss": 1.4101660251617432,
"step": 1430
},
{
"epoch": 1.9093333333333333,
"grad_norm": 0.6875,
"learning_rate": 2.0443096676286544e-06,
"loss": 1.2903923988342285,
"step": 1432
},
{
"epoch": 1.912,
"grad_norm": 0.9765625,
"learning_rate": 2.0417826350621725e-06,
"loss": 1.1135454177856445,
"step": 1434
},
{
"epoch": 1.9146666666666667,
"grad_norm": 2.6875,
"learning_rate": 2.0393294154715735e-06,
"loss": 1.6045788526535034,
"step": 1436
},
{
"epoch": 1.9173333333333333,
"grad_norm": 1.7734375,
"learning_rate": 2.036950054604581e-06,
"loss": 1.6095572710037231,
"step": 1438
},
{
"epoch": 1.92,
"grad_norm": 2.703125,
"learning_rate": 2.0346445968315995e-06,
"loss": 1.6368613243103027,
"step": 1440
},
{
"epoch": 1.9226666666666667,
"grad_norm": 2.890625,
"learning_rate": 2.0324130851448873e-06,
"loss": 1.6613959074020386,
"step": 1442
},
{
"epoch": 1.9253333333333333,
"grad_norm": 3.296875,
"learning_rate": 2.0302555611577513e-06,
"loss": 1.4924044609069824,
"step": 1444
},
{
"epoch": 1.928,
"grad_norm": 3.84375,
"learning_rate": 2.0281720651037744e-06,
"loss": 1.6668325662612915,
"step": 1446
},
{
"epoch": 1.9306666666666668,
"grad_norm": 1.4453125,
"learning_rate": 2.0261626358360646e-06,
"loss": 1.499243974685669,
"step": 1448
},
{
"epoch": 1.9333333333333333,
"grad_norm": 3.765625,
"learning_rate": 2.0242273108265286e-06,
"loss": 1.7402076721191406,
"step": 1450
},
{
"epoch": 1.936,
"grad_norm": 1.6171875,
"learning_rate": 2.0223661261651757e-06,
"loss": 1.247557282447815,
"step": 1452
},
{
"epoch": 1.9386666666666668,
"grad_norm": 4.65625,
"learning_rate": 2.0205791165594414e-06,
"loss": 1.3740856647491455,
"step": 1454
},
{
"epoch": 1.9413333333333334,
"grad_norm": 1.6796875,
"learning_rate": 2.0188663153335444e-06,
"loss": 1.7518730163574219,
"step": 1456
},
{
"epoch": 1.944,
"grad_norm": 3.546875,
"learning_rate": 2.0172277544278605e-06,
"loss": 1.4883068799972534,
"step": 1458
},
{
"epoch": 1.9466666666666668,
"grad_norm": 0.796875,
"learning_rate": 2.015663464398332e-06,
"loss": 1.103118658065796,
"step": 1460
},
{
"epoch": 1.9493333333333334,
"grad_norm": 0.94921875,
"learning_rate": 2.0141734744158943e-06,
"loss": 1.3295493125915527,
"step": 1462
},
{
"epoch": 1.952,
"grad_norm": 1.7734375,
"learning_rate": 2.012757812265932e-06,
"loss": 1.6309541463851929,
"step": 1464
},
{
"epoch": 1.9546666666666668,
"grad_norm": 1.8125,
"learning_rate": 2.0114165043477617e-06,
"loss": 1.6357351541519165,
"step": 1466
},
{
"epoch": 1.9573333333333334,
"grad_norm": 1.7890625,
"learning_rate": 2.0101495756741416e-06,
"loss": 1.314288854598999,
"step": 1468
},
{
"epoch": 1.96,
"grad_norm": 3.34375,
"learning_rate": 2.008957049870802e-06,
"loss": 1.5219292640686035,
"step": 1470
},
{
"epoch": 1.9626666666666668,
"grad_norm": 3.703125,
"learning_rate": 2.007838949176005e-06,
"loss": 0.8457517027854919,
"step": 1472
},
{
"epoch": 1.9653333333333334,
"grad_norm": 2.015625,
"learning_rate": 2.0067952944401315e-06,
"loss": 1.3741309642791748,
"step": 1474
},
{
"epoch": 1.968,
"grad_norm": 1.1484375,
"learning_rate": 2.0058261051252923e-06,
"loss": 1.200619101524353,
"step": 1476
},
{
"epoch": 1.9706666666666668,
"grad_norm": 2.609375,
"learning_rate": 2.004931399304963e-06,
"loss": 1.1482222080230713,
"step": 1478
},
{
"epoch": 1.9733333333333334,
"grad_norm": 2.078125,
"learning_rate": 2.004111193663649e-06,
"loss": 1.5073654651641846,
"step": 1480
},
{
"epoch": 1.976,
"grad_norm": 6.375,
"learning_rate": 2.0033655034965744e-06,
"loss": 1.7367411851882935,
"step": 1482
},
{
"epoch": 1.9786666666666668,
"grad_norm": 5.28125,
"learning_rate": 2.0026943427093947e-06,
"loss": 1.697805643081665,
"step": 1484
},
{
"epoch": 1.9813333333333332,
"grad_norm": 2.015625,
"learning_rate": 2.0020977238179405e-06,
"loss": 1.5964152812957764,
"step": 1486
},
{
"epoch": 1.984,
"grad_norm": 3.375,
"learning_rate": 2.0015756579479816e-06,
"loss": 1.444211721420288,
"step": 1488
},
{
"epoch": 1.9866666666666668,
"grad_norm": 3.53125,
"learning_rate": 2.0011281548350195e-06,
"loss": 1.729475498199463,
"step": 1490
},
{
"epoch": 1.9893333333333332,
"grad_norm": 1.6796875,
"learning_rate": 2.0007552228241097e-06,
"loss": 1.3104641437530518,
"step": 1492
},
{
"epoch": 1.992,
"grad_norm": 11.25,
"learning_rate": 2.0004568688697e-06,
"loss": 1.729232668876648,
"step": 1494
},
{
"epoch": 1.9946666666666668,
"grad_norm": 1.7421875,
"learning_rate": 2.000233098535506e-06,
"loss": 1.5417425632476807,
"step": 1496
},
{
"epoch": 1.9973333333333332,
"grad_norm": 3.265625,
"learning_rate": 2.0000839159944047e-06,
"loss": 1.4094383716583252,
"step": 1498
},
{
"epoch": 2.0,
"grad_norm": 1.125,
"learning_rate": 2.0000093240283577e-06,
"loss": 1.219792366027832,
"step": 1500
},
{
"epoch": 2.0,
"step": 1500,
"total_flos": 2.46457623578778e+18,
"train_loss": 1.4824828810691832,
"train_runtime": 24817.6369,
"train_samples_per_second": 0.967,
"train_steps_per_second": 0.06
}
],
"logging_steps": 2,
"max_steps": 1500,
"num_input_tokens_seen": 0,
"num_train_epochs": 2,
"save_steps": 9999999,
"stateful_callbacks": {
"TrainerControl": {
"args": {
"should_epoch_stop": false,
"should_evaluate": false,
"should_log": false,
"should_save": true,
"should_training_stop": true
},
"attributes": {}
}
},
"total_flos": 2.46457623578778e+18,
"train_batch_size": 1,
"trial_name": null,
"trial_params": null
}