9b-4 / trainer_state.json
furproxy's picture
Upload folder using huggingface_hub
e393acc verified
{
"best_global_step": null,
"best_metric": null,
"best_model_checkpoint": null,
"epoch": 2.0,
"eval_steps": 500,
"global_step": 1500,
"is_hyper_param_search": false,
"is_local_process_zero": true,
"is_world_process_zero": true,
"log_history": [
{
"epoch": 0.0026666666666666666,
"grad_norm": 0.490234375,
"learning_rate": 2.2222222222222224e-10,
"loss": 1.2595083713531494,
"step": 2
},
{
"epoch": 0.005333333333333333,
"grad_norm": 2.171875,
"learning_rate": 6.666666666666666e-10,
"loss": 2.254322052001953,
"step": 4
},
{
"epoch": 0.008,
"grad_norm": 1.15625,
"learning_rate": 1.111111111111111e-09,
"loss": 2.0818605422973633,
"step": 6
},
{
"epoch": 0.010666666666666666,
"grad_norm": 2.96875,
"learning_rate": 1.5555555555555557e-09,
"loss": 2.0666677951812744,
"step": 8
},
{
"epoch": 0.013333333333333334,
"grad_norm": 1.8828125,
"learning_rate": 2e-09,
"loss": 2.215301752090454,
"step": 10
},
{
"epoch": 0.016,
"grad_norm": 1.3203125,
"learning_rate": 2.4444444444444446e-09,
"loss": 1.7321486473083496,
"step": 12
},
{
"epoch": 0.018666666666666668,
"grad_norm": 1.2890625,
"learning_rate": 2.8888888888888886e-09,
"loss": 1.5189157724380493,
"step": 14
},
{
"epoch": 0.021333333333333333,
"grad_norm": 1.6875,
"learning_rate": 3.3333333333333334e-09,
"loss": 1.943246841430664,
"step": 16
},
{
"epoch": 0.024,
"grad_norm": 1.59375,
"learning_rate": 3.7777777777777774e-09,
"loss": 1.938248634338379,
"step": 18
},
{
"epoch": 0.02666666666666667,
"grad_norm": 1.3046875,
"learning_rate": 4.222222222222222e-09,
"loss": 1.649553894996643,
"step": 20
},
{
"epoch": 0.029333333333333333,
"grad_norm": 2.265625,
"learning_rate": 4.666666666666667e-09,
"loss": 2.1752431392669678,
"step": 22
},
{
"epoch": 0.032,
"grad_norm": 1.65625,
"learning_rate": 5.111111111111111e-09,
"loss": 2.063638687133789,
"step": 24
},
{
"epoch": 0.034666666666666665,
"grad_norm": 3.4375,
"learning_rate": 5.555555555555556e-09,
"loss": 1.8939242362976074,
"step": 26
},
{
"epoch": 0.037333333333333336,
"grad_norm": 6.53125,
"learning_rate": 6e-09,
"loss": 2.2926182746887207,
"step": 28
},
{
"epoch": 0.04,
"grad_norm": 4.125,
"learning_rate": 6.444444444444445e-09,
"loss": 1.8031842708587646,
"step": 30
},
{
"epoch": 0.042666666666666665,
"grad_norm": 3.15625,
"learning_rate": 6.888888888888889e-09,
"loss": 2.2539103031158447,
"step": 32
},
{
"epoch": 0.04533333333333334,
"grad_norm": 0.70703125,
"learning_rate": 7.333333333333333e-09,
"loss": 1.0695515871047974,
"step": 34
},
{
"epoch": 0.048,
"grad_norm": 18.75,
"learning_rate": 7.777777777777778e-09,
"loss": 1.8812987804412842,
"step": 36
},
{
"epoch": 0.050666666666666665,
"grad_norm": 3.53125,
"learning_rate": 8.222222222222223e-09,
"loss": 1.8043668270111084,
"step": 38
},
{
"epoch": 0.05333333333333334,
"grad_norm": 0.66796875,
"learning_rate": 8.666666666666667e-09,
"loss": 1.612642765045166,
"step": 40
},
{
"epoch": 0.056,
"grad_norm": 1.0234375,
"learning_rate": 9.11111111111111e-09,
"loss": 2.1815497875213623,
"step": 42
},
{
"epoch": 0.058666666666666666,
"grad_norm": 1.5703125,
"learning_rate": 9.555555555555556e-09,
"loss": 1.857093095779419,
"step": 44
},
{
"epoch": 0.06133333333333333,
"grad_norm": 0.498046875,
"learning_rate": 1e-08,
"loss": 1.1420334577560425,
"step": 46
},
{
"epoch": 0.064,
"grad_norm": 3.65625,
"learning_rate": 9.99996270393004e-09,
"loss": 1.965954303741455,
"step": 48
},
{
"epoch": 0.06666666666666667,
"grad_norm": 1.265625,
"learning_rate": 9.999850816415655e-09,
"loss": 1.9006365537643433,
"step": 50
},
{
"epoch": 0.06933333333333333,
"grad_norm": 1.78125,
"learning_rate": 9.999664339543329e-09,
"loss": 1.8942360877990723,
"step": 52
},
{
"epoch": 0.072,
"grad_norm": 1.9296875,
"learning_rate": 9.999403276790487e-09,
"loss": 1.9433822631835938,
"step": 54
},
{
"epoch": 0.07466666666666667,
"grad_norm": 3.53125,
"learning_rate": 9.999067633025438e-09,
"loss": 2.3937931060791016,
"step": 56
},
{
"epoch": 0.07733333333333334,
"grad_norm": 3.15625,
"learning_rate": 9.998657414507281e-09,
"loss": 1.592966914176941,
"step": 58
},
{
"epoch": 0.08,
"grad_norm": 1.0625,
"learning_rate": 9.998172628885782e-09,
"loss": 1.5880094766616821,
"step": 60
},
{
"epoch": 0.08266666666666667,
"grad_norm": 0.78515625,
"learning_rate": 9.997613285201241e-09,
"loss": 1.7058852910995483,
"step": 62
},
{
"epoch": 0.08533333333333333,
"grad_norm": 0.62109375,
"learning_rate": 9.99697939388432e-09,
"loss": 1.3053644895553589,
"step": 64
},
{
"epoch": 0.088,
"grad_norm": 2.421875,
"learning_rate": 9.996270966755842e-09,
"loss": 1.8258638381958008,
"step": 66
},
{
"epoch": 0.09066666666666667,
"grad_norm": 3.9375,
"learning_rate": 9.995488017026588e-09,
"loss": 2.1787168979644775,
"step": 68
},
{
"epoch": 0.09333333333333334,
"grad_norm": 0.78125,
"learning_rate": 9.994630559297027e-09,
"loss": 2.0142626762390137,
"step": 70
},
{
"epoch": 0.096,
"grad_norm": 2.015625,
"learning_rate": 9.993698609557061e-09,
"loss": 1.6130048036575317,
"step": 72
},
{
"epoch": 0.09866666666666667,
"grad_norm": 11.125,
"learning_rate": 9.992692185185721e-09,
"loss": 2.1224076747894287,
"step": 74
},
{
"epoch": 0.10133333333333333,
"grad_norm": 2.578125,
"learning_rate": 9.991611304950848e-09,
"loss": 2.001530885696411,
"step": 76
},
{
"epoch": 0.104,
"grad_norm": 2.5625,
"learning_rate": 9.990455989008729e-09,
"loss": 1.9305431842803955,
"step": 78
},
{
"epoch": 0.10666666666666667,
"grad_norm": 2.40625,
"learning_rate": 9.989226258903739e-09,
"loss": 1.482154130935669,
"step": 80
},
{
"epoch": 0.10933333333333334,
"grad_norm": 1.359375,
"learning_rate": 9.98792213756793e-09,
"loss": 1.9148833751678467,
"step": 82
},
{
"epoch": 0.112,
"grad_norm": 1.2734375,
"learning_rate": 9.986543649320597e-09,
"loss": 1.644956111907959,
"step": 84
},
{
"epoch": 0.11466666666666667,
"grad_norm": 1.234375,
"learning_rate": 9.985090819867842e-09,
"loss": 1.8461428880691528,
"step": 86
},
{
"epoch": 0.11733333333333333,
"grad_norm": 0.9140625,
"learning_rate": 9.983563676302075e-09,
"loss": 1.2635107040405273,
"step": 88
},
{
"epoch": 0.12,
"grad_norm": 1.8671875,
"learning_rate": 9.981962247101526e-09,
"loss": 2.090571403503418,
"step": 90
},
{
"epoch": 0.12266666666666666,
"grad_norm": 1.1484375,
"learning_rate": 9.9802865621297e-09,
"loss": 1.867357850074768,
"step": 92
},
{
"epoch": 0.12533333333333332,
"grad_norm": 2.796875,
"learning_rate": 9.978536652634835e-09,
"loss": 1.8565815687179565,
"step": 94
},
{
"epoch": 0.128,
"grad_norm": 1.09375,
"learning_rate": 9.976712551249298e-09,
"loss": 1.8973251581192017,
"step": 96
},
{
"epoch": 0.13066666666666665,
"grad_norm": 3.375,
"learning_rate": 9.974814291988998e-09,
"loss": 1.7234950065612793,
"step": 98
},
{
"epoch": 0.13333333333333333,
"grad_norm": 0.47265625,
"learning_rate": 9.972841910252739e-09,
"loss": 1.5334116220474243,
"step": 100
},
{
"epoch": 0.136,
"grad_norm": 3.0625,
"learning_rate": 9.970795442821565e-09,
"loss": 2.200824022293091,
"step": 102
},
{
"epoch": 0.13866666666666666,
"grad_norm": 1.4296875,
"learning_rate": 9.968674927858075e-09,
"loss": 1.8540502786636353,
"step": 104
},
{
"epoch": 0.14133333333333334,
"grad_norm": 1.53125,
"learning_rate": 9.966480404905703e-09,
"loss": 1.495987892150879,
"step": 106
},
{
"epoch": 0.144,
"grad_norm": 0.7890625,
"learning_rate": 9.96421191488799e-09,
"loss": 1.7976027727127075,
"step": 108
},
{
"epoch": 0.14666666666666667,
"grad_norm": 1.3515625,
"learning_rate": 9.961869500107816e-09,
"loss": 2.0642828941345215,
"step": 110
},
{
"epoch": 0.14933333333333335,
"grad_norm": 1.4453125,
"learning_rate": 9.959453204246615e-09,
"loss": 2.1139161586761475,
"step": 112
},
{
"epoch": 0.152,
"grad_norm": 3.125,
"learning_rate": 9.95696307236356e-09,
"loss": 2.036608934402466,
"step": 114
},
{
"epoch": 0.15466666666666667,
"grad_norm": 3.734375,
"learning_rate": 9.954399150894715e-09,
"loss": 1.9267082214355469,
"step": 116
},
{
"epoch": 0.15733333333333333,
"grad_norm": 1.296875,
"learning_rate": 9.951761487652176e-09,
"loss": 1.9401640892028809,
"step": 118
},
{
"epoch": 0.16,
"grad_norm": 0.796875,
"learning_rate": 9.949050131823183e-09,
"loss": 1.9283727407455444,
"step": 120
},
{
"epoch": 0.16266666666666665,
"grad_norm": 3.046875,
"learning_rate": 9.946265133969188e-09,
"loss": 2.027492046356201,
"step": 122
},
{
"epoch": 0.16533333333333333,
"grad_norm": 1.328125,
"learning_rate": 9.943406546024934e-09,
"loss": 1.684476375579834,
"step": 124
},
{
"epoch": 0.168,
"grad_norm": 1.4296875,
"learning_rate": 9.940474421297468e-09,
"loss": 1.9159518480300903,
"step": 126
},
{
"epoch": 0.17066666666666666,
"grad_norm": 1.6484375,
"learning_rate": 9.937468814465151e-09,
"loss": 1.5436517000198364,
"step": 128
},
{
"epoch": 0.17333333333333334,
"grad_norm": 3.015625,
"learning_rate": 9.93438978157665e-09,
"loss": 1.9120794534683228,
"step": 130
},
{
"epoch": 0.176,
"grad_norm": 0.734375,
"learning_rate": 9.931237380049872e-09,
"loss": 1.6056358814239502,
"step": 132
},
{
"epoch": 0.17866666666666667,
"grad_norm": 1.296875,
"learning_rate": 9.928011668670915e-09,
"loss": 2.033667802810669,
"step": 134
},
{
"epoch": 0.18133333333333335,
"grad_norm": 0.828125,
"learning_rate": 9.924712707592958e-09,
"loss": 1.3502496480941772,
"step": 136
},
{
"epoch": 0.184,
"grad_norm": 1.0546875,
"learning_rate": 9.921340558335139e-09,
"loss": 1.8049728870391846,
"step": 138
},
{
"epoch": 0.18666666666666668,
"grad_norm": 0.78515625,
"learning_rate": 9.917895283781418e-09,
"loss": 1.8152284622192383,
"step": 140
},
{
"epoch": 0.18933333333333333,
"grad_norm": 2.0,
"learning_rate": 9.914376948179396e-09,
"loss": 1.5504010915756226,
"step": 142
},
{
"epoch": 0.192,
"grad_norm": 0.87109375,
"learning_rate": 9.910785617139116e-09,
"loss": 1.1976662874221802,
"step": 144
},
{
"epoch": 0.19466666666666665,
"grad_norm": 1.515625,
"learning_rate": 9.907121357631847e-09,
"loss": 1.6446733474731445,
"step": 146
},
{
"epoch": 0.19733333333333333,
"grad_norm": 2.5,
"learning_rate": 9.903384237988828e-09,
"loss": 1.9527918100357056,
"step": 148
},
{
"epoch": 0.2,
"grad_norm": 3.28125,
"learning_rate": 9.899574327899996e-09,
"loss": 1.8011940717697144,
"step": 150
},
{
"epoch": 0.20266666666666666,
"grad_norm": 1.6484375,
"learning_rate": 9.895691698412687e-09,
"loss": 2.1337244510650635,
"step": 152
},
{
"epoch": 0.20533333333333334,
"grad_norm": 3.5625,
"learning_rate": 9.891736421930312e-09,
"loss": 1.8929048776626587,
"step": 154
},
{
"epoch": 0.208,
"grad_norm": 4.71875,
"learning_rate": 9.887708572211007e-09,
"loss": 1.5765407085418701,
"step": 156
},
{
"epoch": 0.21066666666666667,
"grad_norm": 1.7265625,
"learning_rate": 9.883608224366255e-09,
"loss": 1.562822937965393,
"step": 158
},
{
"epoch": 0.21333333333333335,
"grad_norm": 3.140625,
"learning_rate": 9.879435454859482e-09,
"loss": 1.705054759979248,
"step": 160
},
{
"epoch": 0.216,
"grad_norm": 1.09375,
"learning_rate": 9.875190341504643e-09,
"loss": 1.7824983596801758,
"step": 162
},
{
"epoch": 0.21866666666666668,
"grad_norm": 0.8359375,
"learning_rate": 9.87087296346476e-09,
"loss": 1.5236130952835083,
"step": 164
},
{
"epoch": 0.22133333333333333,
"grad_norm": 117.5,
"learning_rate": 9.866483401250446e-09,
"loss": 1.3529446125030518,
"step": 166
},
{
"epoch": 0.224,
"grad_norm": 1.3359375,
"learning_rate": 9.862021736718416e-09,
"loss": 1.4553319215774536,
"step": 168
},
{
"epoch": 0.22666666666666666,
"grad_norm": 2.578125,
"learning_rate": 9.857488053069943e-09,
"loss": 1.7366198301315308,
"step": 170
},
{
"epoch": 0.22933333333333333,
"grad_norm": 0.7734375,
"learning_rate": 9.852882434849319e-09,
"loss": 1.6083072423934937,
"step": 172
},
{
"epoch": 0.232,
"grad_norm": 2.453125,
"learning_rate": 9.848204967942274e-09,
"loss": 2.1024110317230225,
"step": 174
},
{
"epoch": 0.23466666666666666,
"grad_norm": 8.875,
"learning_rate": 9.843455739574376e-09,
"loss": 1.597267985343933,
"step": 176
},
{
"epoch": 0.23733333333333334,
"grad_norm": 1.578125,
"learning_rate": 9.8386348383094e-09,
"loss": 1.5651479959487915,
"step": 178
},
{
"epoch": 0.24,
"grad_norm": 1.1796875,
"learning_rate": 9.83374235404768e-09,
"loss": 2.1147844791412354,
"step": 180
},
{
"epoch": 0.24266666666666667,
"grad_norm": 2.765625,
"learning_rate": 9.828778378024434e-09,
"loss": 1.8838609457015991,
"step": 182
},
{
"epoch": 0.24533333333333332,
"grad_norm": 1.1796875,
"learning_rate": 9.823743002808065e-09,
"loss": 1.8358352184295654,
"step": 184
},
{
"epoch": 0.248,
"grad_norm": 0.796875,
"learning_rate": 9.818636322298422e-09,
"loss": 1.5012720823287964,
"step": 186
},
{
"epoch": 0.25066666666666665,
"grad_norm": 1.3828125,
"learning_rate": 9.813458431725062e-09,
"loss": 1.8420766592025757,
"step": 188
},
{
"epoch": 0.25333333333333335,
"grad_norm": 0.70703125,
"learning_rate": 9.808209427645471e-09,
"loss": 1.6086699962615967,
"step": 190
},
{
"epoch": 0.256,
"grad_norm": 0.30078125,
"learning_rate": 9.802889407943258e-09,
"loss": 1.2589647769927979,
"step": 192
},
{
"epoch": 0.25866666666666666,
"grad_norm": 2.734375,
"learning_rate": 9.797498471826341e-09,
"loss": 1.8030763864517212,
"step": 194
},
{
"epoch": 0.2613333333333333,
"grad_norm": 4.125,
"learning_rate": 9.792036719825082e-09,
"loss": 2.2080459594726562,
"step": 196
},
{
"epoch": 0.264,
"grad_norm": 1.3671875,
"learning_rate": 9.786504253790425e-09,
"loss": 1.8391257524490356,
"step": 198
},
{
"epoch": 0.26666666666666666,
"grad_norm": 0.7421875,
"learning_rate": 9.780901176891988e-09,
"loss": 1.7964688539505005,
"step": 200
},
{
"epoch": 0.2693333333333333,
"grad_norm": 0.640625,
"learning_rate": 9.775227593616147e-09,
"loss": 1.7362236976623535,
"step": 202
},
{
"epoch": 0.272,
"grad_norm": 1.9140625,
"learning_rate": 9.769483609764078e-09,
"loss": 2.23327898979187,
"step": 204
},
{
"epoch": 0.27466666666666667,
"grad_norm": 2.859375,
"learning_rate": 9.7636693324498e-09,
"loss": 1.3478480577468872,
"step": 206
},
{
"epoch": 0.2773333333333333,
"grad_norm": 1.9296875,
"learning_rate": 9.757784870098152e-09,
"loss": 1.5920817852020264,
"step": 208
},
{
"epoch": 0.28,
"grad_norm": 0.88671875,
"learning_rate": 9.751830332442799e-09,
"loss": 1.379252552986145,
"step": 210
},
{
"epoch": 0.2826666666666667,
"grad_norm": 0.34375,
"learning_rate": 9.745805830524163e-09,
"loss": 1.5116907358169556,
"step": 212
},
{
"epoch": 0.2853333333333333,
"grad_norm": 0.97265625,
"learning_rate": 9.739711476687372e-09,
"loss": 1.5704491138458252,
"step": 214
},
{
"epoch": 0.288,
"grad_norm": 2.828125,
"learning_rate": 9.733547384580143e-09,
"loss": 2.390659809112549,
"step": 216
},
{
"epoch": 0.2906666666666667,
"grad_norm": 2.4375,
"learning_rate": 9.727313669150689e-09,
"loss": 2.0983409881591797,
"step": 218
},
{
"epoch": 0.29333333333333333,
"grad_norm": 5.59375,
"learning_rate": 9.721010446645547e-09,
"loss": 2.1177964210510254,
"step": 220
},
{
"epoch": 0.296,
"grad_norm": 1.234375,
"learning_rate": 9.714637834607432e-09,
"loss": 1.8987712860107422,
"step": 222
},
{
"epoch": 0.2986666666666667,
"grad_norm": 2.953125,
"learning_rate": 9.708195951873038e-09,
"loss": 1.8362311124801636,
"step": 224
},
{
"epoch": 0.30133333333333334,
"grad_norm": 1.1171875,
"learning_rate": 9.701684918570817e-09,
"loss": 1.8839874267578125,
"step": 226
},
{
"epoch": 0.304,
"grad_norm": 1.53125,
"learning_rate": 9.69510485611875e-09,
"loss": 1.9399235248565674,
"step": 228
},
{
"epoch": 0.30666666666666664,
"grad_norm": 3.28125,
"learning_rate": 9.688455887222068e-09,
"loss": 2.257453441619873,
"step": 230
},
{
"epoch": 0.30933333333333335,
"grad_norm": 1.265625,
"learning_rate": 9.681738135870976e-09,
"loss": 1.65444016456604,
"step": 232
},
{
"epoch": 0.312,
"grad_norm": 1.1953125,
"learning_rate": 9.67495172733834e-09,
"loss": 1.760861873626709,
"step": 234
},
{
"epoch": 0.31466666666666665,
"grad_norm": 2.859375,
"learning_rate": 9.668096788177338e-09,
"loss": 1.9220219850540161,
"step": 236
},
{
"epoch": 0.31733333333333336,
"grad_norm": 1.828125,
"learning_rate": 9.661173446219117e-09,
"loss": 2.1943254470825195,
"step": 238
},
{
"epoch": 0.32,
"grad_norm": 1.8828125,
"learning_rate": 9.654181830570403e-09,
"loss": 1.7908879518508911,
"step": 240
},
{
"epoch": 0.32266666666666666,
"grad_norm": 2.546875,
"learning_rate": 9.64712207161109e-09,
"loss": 2.1228885650634766,
"step": 242
},
{
"epoch": 0.3253333333333333,
"grad_norm": 1.59375,
"learning_rate": 9.639994300991803e-09,
"loss": 1.710900902748108,
"step": 244
},
{
"epoch": 0.328,
"grad_norm": 1.484375,
"learning_rate": 9.632798651631462e-09,
"loss": 1.9161486625671387,
"step": 246
},
{
"epoch": 0.33066666666666666,
"grad_norm": 4.4375,
"learning_rate": 9.62553525771479e-09,
"loss": 2.479976177215576,
"step": 248
},
{
"epoch": 0.3333333333333333,
"grad_norm": 3.421875,
"learning_rate": 9.618204254689808e-09,
"loss": 1.7277326583862305,
"step": 250
},
{
"epoch": 0.336,
"grad_norm": 0.97265625,
"learning_rate": 9.610805779265318e-09,
"loss": 1.5690929889678955,
"step": 252
},
{
"epoch": 0.33866666666666667,
"grad_norm": 1.0703125,
"learning_rate": 9.603339969408349e-09,
"loss": 1.866922378540039,
"step": 254
},
{
"epoch": 0.3413333333333333,
"grad_norm": 1.03125,
"learning_rate": 9.595806964341582e-09,
"loss": 1.631873607635498,
"step": 256
},
{
"epoch": 0.344,
"grad_norm": 1.3203125,
"learning_rate": 9.588206904540761e-09,
"loss": 1.9523061513900757,
"step": 258
},
{
"epoch": 0.3466666666666667,
"grad_norm": 0.9609375,
"learning_rate": 9.580539931732067e-09,
"loss": 1.8373591899871826,
"step": 260
},
{
"epoch": 0.34933333333333333,
"grad_norm": 1.125,
"learning_rate": 9.572806188889477e-09,
"loss": 1.8406822681427002,
"step": 262
},
{
"epoch": 0.352,
"grad_norm": 2.328125,
"learning_rate": 9.565005820232098e-09,
"loss": 1.9318327903747559,
"step": 264
},
{
"epoch": 0.3546666666666667,
"grad_norm": 3.90625,
"learning_rate": 9.557138971221477e-09,
"loss": 1.8626163005828857,
"step": 266
},
{
"epoch": 0.35733333333333334,
"grad_norm": 1.109375,
"learning_rate": 9.54920578855889e-09,
"loss": 1.4687360525131226,
"step": 268
},
{
"epoch": 0.36,
"grad_norm": 2.484375,
"learning_rate": 9.541206420182604e-09,
"loss": 2.2242650985717773,
"step": 270
},
{
"epoch": 0.3626666666666667,
"grad_norm": 2.0,
"learning_rate": 9.53314101526512e-09,
"loss": 1.53940749168396,
"step": 272
},
{
"epoch": 0.36533333333333334,
"grad_norm": 1.46875,
"learning_rate": 9.525009724210396e-09,
"loss": 1.8694663047790527,
"step": 274
},
{
"epoch": 0.368,
"grad_norm": 1.625,
"learning_rate": 9.516812698651026e-09,
"loss": 2.1856276988983154,
"step": 276
},
{
"epoch": 0.37066666666666664,
"grad_norm": 0.703125,
"learning_rate": 9.508550091445432e-09,
"loss": 1.5906873941421509,
"step": 278
},
{
"epoch": 0.37333333333333335,
"grad_norm": 8.5,
"learning_rate": 9.500222056675001e-09,
"loss": 2.2088544368743896,
"step": 280
},
{
"epoch": 0.376,
"grad_norm": 1.6875,
"learning_rate": 9.491828749641216e-09,
"loss": 1.5992395877838135,
"step": 282
},
{
"epoch": 0.37866666666666665,
"grad_norm": 2.21875,
"learning_rate": 9.483370326862763e-09,
"loss": 2.1439037322998047,
"step": 284
},
{
"epoch": 0.38133333333333336,
"grad_norm": 0.63671875,
"learning_rate": 9.474846946072606e-09,
"loss": 1.7207406759262085,
"step": 286
},
{
"epoch": 0.384,
"grad_norm": 2.265625,
"learning_rate": 9.466258766215044e-09,
"loss": 1.9956793785095215,
"step": 288
},
{
"epoch": 0.38666666666666666,
"grad_norm": 1.421875,
"learning_rate": 9.457605947442758e-09,
"loss": 2.2684690952301025,
"step": 290
},
{
"epoch": 0.3893333333333333,
"grad_norm": 2.65625,
"learning_rate": 9.448888651113816e-09,
"loss": 1.3895556926727295,
"step": 292
},
{
"epoch": 0.392,
"grad_norm": 2.640625,
"learning_rate": 9.440107039788666e-09,
"loss": 2.0698764324188232,
"step": 294
},
{
"epoch": 0.39466666666666667,
"grad_norm": 1.328125,
"learning_rate": 9.431261277227098e-09,
"loss": 1.955104947090149,
"step": 296
},
{
"epoch": 0.3973333333333333,
"grad_norm": 1.640625,
"learning_rate": 9.422351528385205e-09,
"loss": 1.835784673690796,
"step": 298
},
{
"epoch": 0.4,
"grad_norm": 1.953125,
"learning_rate": 9.413377959412296e-09,
"loss": 2.0264222621917725,
"step": 300
},
{
"epoch": 0.4026666666666667,
"grad_norm": 0.6484375,
"learning_rate": 9.4043407376478e-09,
"loss": 1.5555002689361572,
"step": 302
},
{
"epoch": 0.4053333333333333,
"grad_norm": 3.71875,
"learning_rate": 9.395240031618138e-09,
"loss": 1.3853716850280762,
"step": 304
},
{
"epoch": 0.408,
"grad_norm": 0.76953125,
"learning_rate": 9.386076011033602e-09,
"loss": 1.6690952777862549,
"step": 306
},
{
"epoch": 0.4106666666666667,
"grad_norm": 1.921875,
"learning_rate": 9.376848846785165e-09,
"loss": 1.9208674430847168,
"step": 308
},
{
"epoch": 0.41333333333333333,
"grad_norm": 1.6953125,
"learning_rate": 9.367558710941308e-09,
"loss": 2.2145168781280518,
"step": 310
},
{
"epoch": 0.416,
"grad_norm": 1.1875,
"learning_rate": 9.358205776744811e-09,
"loss": 1.8965669870376587,
"step": 312
},
{
"epoch": 0.4186666666666667,
"grad_norm": 0.8203125,
"learning_rate": 9.348790218609518e-09,
"loss": 1.8256372213363647,
"step": 314
},
{
"epoch": 0.42133333333333334,
"grad_norm": 1.0,
"learning_rate": 9.339312212117086e-09,
"loss": 1.2350609302520752,
"step": 316
},
{
"epoch": 0.424,
"grad_norm": 1.0390625,
"learning_rate": 9.329771934013711e-09,
"loss": 2.0859057903289795,
"step": 318
},
{
"epoch": 0.4266666666666667,
"grad_norm": 1.5078125,
"learning_rate": 9.320169562206832e-09,
"loss": 1.5518385171890259,
"step": 320
},
{
"epoch": 0.42933333333333334,
"grad_norm": 1.609375,
"learning_rate": 9.310505275761816e-09,
"loss": 1.75638747215271,
"step": 322
},
{
"epoch": 0.432,
"grad_norm": 3.25,
"learning_rate": 9.300779254898615e-09,
"loss": 1.5558668375015259,
"step": 324
},
{
"epoch": 0.43466666666666665,
"grad_norm": 1.53125,
"learning_rate": 9.290991680988406e-09,
"loss": 2.1750802993774414,
"step": 326
},
{
"epoch": 0.43733333333333335,
"grad_norm": 3.015625,
"learning_rate": 9.281142736550208e-09,
"loss": 1.9557688236236572,
"step": 328
},
{
"epoch": 0.44,
"grad_norm": 2.21875,
"learning_rate": 9.271232605247482e-09,
"loss": 1.9172539710998535,
"step": 330
},
{
"epoch": 0.44266666666666665,
"grad_norm": 0.56640625,
"learning_rate": 9.261261471884705e-09,
"loss": 1.5871493816375732,
"step": 332
},
{
"epoch": 0.44533333333333336,
"grad_norm": 1.34375,
"learning_rate": 9.25122952240392e-09,
"loss": 2.0637218952178955,
"step": 334
},
{
"epoch": 0.448,
"grad_norm": 1.03125,
"learning_rate": 9.24113694388127e-09,
"loss": 1.4587217569351196,
"step": 336
},
{
"epoch": 0.45066666666666666,
"grad_norm": 2.4375,
"learning_rate": 9.230983924523515e-09,
"loss": 2.0624840259552,
"step": 338
},
{
"epoch": 0.4533333333333333,
"grad_norm": 3.75,
"learning_rate": 9.220770653664514e-09,
"loss": 1.6480258703231812,
"step": 340
},
{
"epoch": 0.456,
"grad_norm": 1.7890625,
"learning_rate": 9.210497321761697e-09,
"loss": 1.9427772760391235,
"step": 342
},
{
"epoch": 0.45866666666666667,
"grad_norm": 1.5546875,
"learning_rate": 9.200164120392522e-09,
"loss": 1.742879033088684,
"step": 344
},
{
"epoch": 0.4613333333333333,
"grad_norm": 3.3125,
"learning_rate": 9.189771242250883e-09,
"loss": 2.0775532722473145,
"step": 346
},
{
"epoch": 0.464,
"grad_norm": 0.93359375,
"learning_rate": 9.179318881143541e-09,
"loss": 1.8282727003097534,
"step": 348
},
{
"epoch": 0.4666666666666667,
"grad_norm": 1.3671875,
"learning_rate": 9.16880723198649e-09,
"loss": 2.1511027812957764,
"step": 350
},
{
"epoch": 0.4693333333333333,
"grad_norm": 0.79296875,
"learning_rate": 9.158236490801326e-09,
"loss": 1.7829698324203491,
"step": 352
},
{
"epoch": 0.472,
"grad_norm": 1.3671875,
"learning_rate": 9.147606854711607e-09,
"loss": 1.8236515522003174,
"step": 354
},
{
"epoch": 0.4746666666666667,
"grad_norm": 3.03125,
"learning_rate": 9.136918521939157e-09,
"loss": 2.168234348297119,
"step": 356
},
{
"epoch": 0.47733333333333333,
"grad_norm": 2.15625,
"learning_rate": 9.126171691800377e-09,
"loss": 1.5303879976272583,
"step": 358
},
{
"epoch": 0.48,
"grad_norm": 1.078125,
"learning_rate": 9.115366564702536e-09,
"loss": 1.8662500381469727,
"step": 360
},
{
"epoch": 0.4826666666666667,
"grad_norm": 0.8203125,
"learning_rate": 9.104503342140016e-09,
"loss": 1.6868031024932861,
"step": 362
},
{
"epoch": 0.48533333333333334,
"grad_norm": 1.15625,
"learning_rate": 9.093582226690575e-09,
"loss": 2.1364731788635254,
"step": 364
},
{
"epoch": 0.488,
"grad_norm": 1.0625,
"learning_rate": 9.082603422011558e-09,
"loss": 2.116598606109619,
"step": 366
},
{
"epoch": 0.49066666666666664,
"grad_norm": 2.859375,
"learning_rate": 9.071567132836094e-09,
"loss": 2.1631178855895996,
"step": 368
},
{
"epoch": 0.49333333333333335,
"grad_norm": 0.53515625,
"learning_rate": 9.060473564969292e-09,
"loss": 1.1389707326889038,
"step": 370
},
{
"epoch": 0.496,
"grad_norm": 4.71875,
"learning_rate": 9.049322925284393e-09,
"loss": 2.216712236404419,
"step": 372
},
{
"epoch": 0.49866666666666665,
"grad_norm": 0.48828125,
"learning_rate": 9.038115421718917e-09,
"loss": 1.183546543121338,
"step": 374
},
{
"epoch": 0.5013333333333333,
"grad_norm": 3.828125,
"learning_rate": 9.026851263270781e-09,
"loss": 2.1025009155273438,
"step": 376
},
{
"epoch": 0.504,
"grad_norm": 3.640625,
"learning_rate": 9.01553065999441e-09,
"loss": 1.8292186260223389,
"step": 378
},
{
"epoch": 0.5066666666666667,
"grad_norm": 0.9375,
"learning_rate": 9.0041538229968e-09,
"loss": 1.8186060190200806,
"step": 380
},
{
"epoch": 0.5093333333333333,
"grad_norm": 0.671875,
"learning_rate": 8.992720964433616e-09,
"loss": 1.8420987129211426,
"step": 382
},
{
"epoch": 0.512,
"grad_norm": 1.3359375,
"learning_rate": 8.9812322975052e-09,
"loss": 1.9770514965057373,
"step": 384
},
{
"epoch": 0.5146666666666667,
"grad_norm": 0.51953125,
"learning_rate": 8.969688036452614e-09,
"loss": 1.456003189086914,
"step": 386
},
{
"epoch": 0.5173333333333333,
"grad_norm": 3.203125,
"learning_rate": 8.958088396553643e-09,
"loss": 1.8052408695220947,
"step": 388
},
{
"epoch": 0.52,
"grad_norm": 4.15625,
"learning_rate": 8.94643359411878e-09,
"loss": 2.3906490802764893,
"step": 390
},
{
"epoch": 0.5226666666666666,
"grad_norm": 3.21875,
"learning_rate": 8.934723846487183e-09,
"loss": 1.2797434329986572,
"step": 392
},
{
"epoch": 0.5253333333333333,
"grad_norm": 1.15625,
"learning_rate": 8.92295937202264e-09,
"loss": 2.1595494747161865,
"step": 394
},
{
"epoch": 0.528,
"grad_norm": 1.2421875,
"learning_rate": 8.911140390109477e-09,
"loss": 1.1325749158859253,
"step": 396
},
{
"epoch": 0.5306666666666666,
"grad_norm": 1.640625,
"learning_rate": 8.89926712114849e-09,
"loss": 1.961485505104065,
"step": 398
},
{
"epoch": 0.5333333333333333,
"grad_norm": 0.4140625,
"learning_rate": 8.887339786552809e-09,
"loss": 1.2354146242141724,
"step": 400
},
{
"epoch": 0.536,
"grad_norm": 0.73046875,
"learning_rate": 8.875358608743787e-09,
"loss": 1.7809007167816162,
"step": 402
},
{
"epoch": 0.5386666666666666,
"grad_norm": 0.318359375,
"learning_rate": 8.863323811146848e-09,
"loss": 1.8801896572113037,
"step": 404
},
{
"epoch": 0.5413333333333333,
"grad_norm": 3.84375,
"learning_rate": 8.85123561818732e-09,
"loss": 2.1713829040527344,
"step": 406
},
{
"epoch": 0.544,
"grad_norm": 1.1015625,
"learning_rate": 8.839094255286242e-09,
"loss": 2.0953874588012695,
"step": 408
},
{
"epoch": 0.5466666666666666,
"grad_norm": 9.6875,
"learning_rate": 8.82689994885618e-09,
"loss": 2.531420946121216,
"step": 410
},
{
"epoch": 0.5493333333333333,
"grad_norm": 2.796875,
"learning_rate": 8.814652926296985e-09,
"loss": 2.118060350418091,
"step": 412
},
{
"epoch": 0.552,
"grad_norm": 4.25,
"learning_rate": 8.802353415991564e-09,
"loss": 2.222390651702881,
"step": 414
},
{
"epoch": 0.5546666666666666,
"grad_norm": 3.546875,
"learning_rate": 8.790001647301614e-09,
"loss": 2.2158262729644775,
"step": 416
},
{
"epoch": 0.5573333333333333,
"grad_norm": 1.4609375,
"learning_rate": 8.777597850563346e-09,
"loss": 2.1216447353363037,
"step": 418
},
{
"epoch": 0.56,
"grad_norm": 7.8125,
"learning_rate": 8.765142257083201e-09,
"loss": 2.056581497192383,
"step": 420
},
{
"epoch": 0.5626666666666666,
"grad_norm": 7.25,
"learning_rate": 8.752635099133517e-09,
"loss": 2.4557063579559326,
"step": 422
},
{
"epoch": 0.5653333333333334,
"grad_norm": 1.3125,
"learning_rate": 8.74007660994822e-09,
"loss": 1.796868920326233,
"step": 424
},
{
"epoch": 0.568,
"grad_norm": 5.125,
"learning_rate": 8.727467023718447e-09,
"loss": 2.186305284500122,
"step": 426
},
{
"epoch": 0.5706666666666667,
"grad_norm": 1.5390625,
"learning_rate": 8.71480657558821e-09,
"loss": 1.520075798034668,
"step": 428
},
{
"epoch": 0.5733333333333334,
"grad_norm": 1.140625,
"learning_rate": 8.702095501649987e-09,
"loss": 1.8692680597305298,
"step": 430
},
{
"epoch": 0.576,
"grad_norm": 1.3515625,
"learning_rate": 8.689334038940326e-09,
"loss": 1.8842674493789673,
"step": 432
},
{
"epoch": 0.5786666666666667,
"grad_norm": 1.203125,
"learning_rate": 8.676522425435434e-09,
"loss": 1.733497142791748,
"step": 434
},
{
"epoch": 0.5813333333333334,
"grad_norm": 1.0546875,
"learning_rate": 8.663660900046726e-09,
"loss": 2.0521445274353027,
"step": 436
},
{
"epoch": 0.584,
"grad_norm": 0.51171875,
"learning_rate": 8.650749702616376e-09,
"loss": 1.588924765586853,
"step": 438
},
{
"epoch": 0.5866666666666667,
"grad_norm": 4.40625,
"learning_rate": 8.63778907391285e-09,
"loss": 2.115933418273926,
"step": 440
},
{
"epoch": 0.5893333333333334,
"grad_norm": 2.625,
"learning_rate": 8.624779255626398e-09,
"loss": 1.9880613088607788,
"step": 442
},
{
"epoch": 0.592,
"grad_norm": 0.51953125,
"learning_rate": 8.611720490364572e-09,
"loss": 1.9729561805725098,
"step": 444
},
{
"epoch": 0.5946666666666667,
"grad_norm": 1.8046875,
"learning_rate": 8.598613021647686e-09,
"loss": 1.9545570611953735,
"step": 446
},
{
"epoch": 0.5973333333333334,
"grad_norm": 2.671875,
"learning_rate": 8.585457093904267e-09,
"loss": 1.9611587524414062,
"step": 448
},
{
"epoch": 0.6,
"grad_norm": 1.7578125,
"learning_rate": 8.572252952466525e-09,
"loss": 1.6292351484298706,
"step": 450
},
{
"epoch": 0.6026666666666667,
"grad_norm": 1.4296875,
"learning_rate": 8.559000843565741e-09,
"loss": 1.851718783378601,
"step": 452
},
{
"epoch": 0.6053333333333333,
"grad_norm": 1.0859375,
"learning_rate": 8.545701014327714e-09,
"loss": 1.6086595058441162,
"step": 454
},
{
"epoch": 0.608,
"grad_norm": 1.1875,
"learning_rate": 8.53235371276812e-09,
"loss": 1.924254059791565,
"step": 456
},
{
"epoch": 0.6106666666666667,
"grad_norm": 1.4765625,
"learning_rate": 8.51895918778791e-09,
"loss": 1.550837755203247,
"step": 458
},
{
"epoch": 0.6133333333333333,
"grad_norm": 3.921875,
"learning_rate": 8.50551768916865e-09,
"loss": 2.1360349655151367,
"step": 460
},
{
"epoch": 0.616,
"grad_norm": 1.390625,
"learning_rate": 8.492029467567876e-09,
"loss": 2.076364755630493,
"step": 462
},
{
"epoch": 0.6186666666666667,
"grad_norm": 2.34375,
"learning_rate": 8.47849477451442e-09,
"loss": 2.168081760406494,
"step": 464
},
{
"epoch": 0.6213333333333333,
"grad_norm": 4.625,
"learning_rate": 8.464913862403709e-09,
"loss": 2.3155016899108887,
"step": 466
},
{
"epoch": 0.624,
"grad_norm": 3.453125,
"learning_rate": 8.45128698449307e-09,
"loss": 1.689584732055664,
"step": 468
},
{
"epoch": 0.6266666666666667,
"grad_norm": 2.828125,
"learning_rate": 8.437614394896992e-09,
"loss": 2.1485788822174072,
"step": 470
},
{
"epoch": 0.6293333333333333,
"grad_norm": 1.1484375,
"learning_rate": 8.423896348582413e-09,
"loss": 1.965561032295227,
"step": 472
},
{
"epoch": 0.632,
"grad_norm": 1.21875,
"learning_rate": 8.410133101363936e-09,
"loss": 1.8822404146194458,
"step": 474
},
{
"epoch": 0.6346666666666667,
"grad_norm": 1.3359375,
"learning_rate": 8.396324909899078e-09,
"loss": 1.2456005811691284,
"step": 476
},
{
"epoch": 0.6373333333333333,
"grad_norm": 0.515625,
"learning_rate": 8.382472031683473e-09,
"loss": 1.8118257522583008,
"step": 478
},
{
"epoch": 0.64,
"grad_norm": 0.796875,
"learning_rate": 8.368574725046083e-09,
"loss": 1.519937515258789,
"step": 480
},
{
"epoch": 0.6426666666666667,
"grad_norm": 3.046875,
"learning_rate": 8.354633249144363e-09,
"loss": 2.313350200653076,
"step": 482
},
{
"epoch": 0.6453333333333333,
"grad_norm": 2.84375,
"learning_rate": 8.34064786395945e-09,
"loss": 2.1796224117279053,
"step": 484
},
{
"epoch": 0.648,
"grad_norm": 3.421875,
"learning_rate": 8.326618830291291e-09,
"loss": 1.742749571800232,
"step": 486
},
{
"epoch": 0.6506666666666666,
"grad_norm": 3.90625,
"learning_rate": 8.312546409753799e-09,
"loss": 2.4159903526306152,
"step": 488
},
{
"epoch": 0.6533333333333333,
"grad_norm": 0.66796875,
"learning_rate": 8.298430864769963e-09,
"loss": 1.8529486656188965,
"step": 490
},
{
"epoch": 0.656,
"grad_norm": 0.69140625,
"learning_rate": 8.284272458566962e-09,
"loss": 1.536817193031311,
"step": 492
},
{
"epoch": 0.6586666666666666,
"grad_norm": 2.703125,
"learning_rate": 8.270071455171246e-09,
"loss": 1.7020436525344849,
"step": 494
},
{
"epoch": 0.6613333333333333,
"grad_norm": 1.3203125,
"learning_rate": 8.255828119403625e-09,
"loss": 1.9206829071044922,
"step": 496
},
{
"epoch": 0.664,
"grad_norm": 0.66796875,
"learning_rate": 8.241542716874326e-09,
"loss": 1.806079626083374,
"step": 498
},
{
"epoch": 0.6666666666666666,
"grad_norm": 2.28125,
"learning_rate": 8.227215513978033e-09,
"loss": 2.1431052684783936,
"step": 500
},
{
"epoch": 0.6693333333333333,
"grad_norm": 0.87890625,
"learning_rate": 8.212846777888923e-09,
"loss": 1.7982629537582397,
"step": 502
},
{
"epoch": 0.672,
"grad_norm": 1.3203125,
"learning_rate": 8.198436776555693e-09,
"loss": 1.84161376953125,
"step": 504
},
{
"epoch": 0.6746666666666666,
"grad_norm": 1.828125,
"learning_rate": 8.183985778696552e-09,
"loss": 2.070572853088379,
"step": 506
},
{
"epoch": 0.6773333333333333,
"grad_norm": 3.8125,
"learning_rate": 8.169494053794216e-09,
"loss": 2.464686632156372,
"step": 508
},
{
"epoch": 0.68,
"grad_norm": 0.90625,
"learning_rate": 8.154961872090869e-09,
"loss": 2.0011956691741943,
"step": 510
},
{
"epoch": 0.6826666666666666,
"grad_norm": 1.140625,
"learning_rate": 8.140389504583155e-09,
"loss": 2.0743443965911865,
"step": 512
},
{
"epoch": 0.6853333333333333,
"grad_norm": 0.83203125,
"learning_rate": 8.125777223017081e-09,
"loss": 1.3423761129379272,
"step": 514
},
{
"epoch": 0.688,
"grad_norm": 1.2890625,
"learning_rate": 8.111125299882996e-09,
"loss": 1.8745712041854858,
"step": 516
},
{
"epoch": 0.6906666666666667,
"grad_norm": 2.21875,
"learning_rate": 8.09643400841047e-09,
"loss": 2.217435598373413,
"step": 518
},
{
"epoch": 0.6933333333333334,
"grad_norm": 2.984375,
"learning_rate": 8.08170362256322e-09,
"loss": 2.10202693939209,
"step": 520
},
{
"epoch": 0.696,
"grad_norm": 1.6953125,
"learning_rate": 8.066934417033996e-09,
"loss": 2.06799054145813,
"step": 522
},
{
"epoch": 0.6986666666666667,
"grad_norm": 2.078125,
"learning_rate": 8.052126667239461e-09,
"loss": 2.34751033782959,
"step": 524
},
{
"epoch": 0.7013333333333334,
"grad_norm": 1.3203125,
"learning_rate": 8.037280649315053e-09,
"loss": 1.6904773712158203,
"step": 526
},
{
"epoch": 0.704,
"grad_norm": 1.234375,
"learning_rate": 8.02239664010983e-09,
"loss": 1.4798574447631836,
"step": 528
},
{
"epoch": 0.7066666666666667,
"grad_norm": 1.2109375,
"learning_rate": 8.007474917181317e-09,
"loss": 2.177708625793457,
"step": 530
},
{
"epoch": 0.7093333333333334,
"grad_norm": 0.828125,
"learning_rate": 7.992515758790327e-09,
"loss": 1.1634416580200195,
"step": 532
},
{
"epoch": 0.712,
"grad_norm": 4.4375,
"learning_rate": 7.97751944389577e-09,
"loss": 1.7857718467712402,
"step": 534
},
{
"epoch": 0.7146666666666667,
"grad_norm": 3.546875,
"learning_rate": 7.962486252149443e-09,
"loss": 2.064812660217285,
"step": 536
},
{
"epoch": 0.7173333333333334,
"grad_norm": 3.46875,
"learning_rate": 7.94741646389084e-09,
"loss": 2.2140581607818604,
"step": 538
},
{
"epoch": 0.72,
"grad_norm": 1.3984375,
"learning_rate": 7.932310360141894e-09,
"loss": 1.8639158010482788,
"step": 540
},
{
"epoch": 0.7226666666666667,
"grad_norm": 3.421875,
"learning_rate": 7.917168222601762e-09,
"loss": 2.16269588470459,
"step": 542
},
{
"epoch": 0.7253333333333334,
"grad_norm": 1.234375,
"learning_rate": 7.901990333641552e-09,
"loss": 1.9181190729141235,
"step": 544
},
{
"epoch": 0.728,
"grad_norm": 8.3125,
"learning_rate": 7.886776976299067e-09,
"loss": 2.4765758514404297,
"step": 546
},
{
"epoch": 0.7306666666666667,
"grad_norm": 1.375,
"learning_rate": 7.871528434273525e-09,
"loss": 1.6353861093521118,
"step": 548
},
{
"epoch": 0.7333333333333333,
"grad_norm": 0.625,
"learning_rate": 7.856244991920273e-09,
"loss": 1.4980851411819458,
"step": 550
},
{
"epoch": 0.736,
"grad_norm": 3.09375,
"learning_rate": 7.840926934245483e-09,
"loss": 2.10715913772583,
"step": 552
},
{
"epoch": 0.7386666666666667,
"grad_norm": 10.5625,
"learning_rate": 7.825574546900825e-09,
"loss": 1.6303857564926147,
"step": 554
},
{
"epoch": 0.7413333333333333,
"grad_norm": 0.84375,
"learning_rate": 7.810188116178156e-09,
"loss": 1.569793462753296,
"step": 556
},
{
"epoch": 0.744,
"grad_norm": 1.9609375,
"learning_rate": 7.794767929004177e-09,
"loss": 1.9174935817718506,
"step": 558
},
{
"epoch": 0.7466666666666667,
"grad_norm": 0.6015625,
"learning_rate": 7.779314272935075e-09,
"loss": 1.666991114616394,
"step": 560
},
{
"epoch": 0.7493333333333333,
"grad_norm": 1.15625,
"learning_rate": 7.763827436151168e-09,
"loss": 1.5379843711853027,
"step": 562
},
{
"epoch": 0.752,
"grad_norm": 1.3359375,
"learning_rate": 7.748307707451534e-09,
"loss": 1.5926412343978882,
"step": 564
},
{
"epoch": 0.7546666666666667,
"grad_norm": 3.0,
"learning_rate": 7.732755376248612e-09,
"loss": 1.795777678489685,
"step": 566
},
{
"epoch": 0.7573333333333333,
"grad_norm": 2.21875,
"learning_rate": 7.717170732562824e-09,
"loss": 1.6544891595840454,
"step": 568
},
{
"epoch": 0.76,
"grad_norm": 1.765625,
"learning_rate": 7.701554067017148e-09,
"loss": 1.9484953880310059,
"step": 570
},
{
"epoch": 0.7626666666666667,
"grad_norm": 1.953125,
"learning_rate": 7.685905670831706e-09,
"loss": 1.5885378122329712,
"step": 572
},
{
"epoch": 0.7653333333333333,
"grad_norm": 3.109375,
"learning_rate": 7.670225835818341e-09,
"loss": 2.5776526927948,
"step": 574
},
{
"epoch": 0.768,
"grad_norm": 2.90625,
"learning_rate": 7.654514854375168e-09,
"loss": 1.871799111366272,
"step": 576
},
{
"epoch": 0.7706666666666667,
"grad_norm": 3.5,
"learning_rate": 7.638773019481111e-09,
"loss": 2.245335340499878,
"step": 578
},
{
"epoch": 0.7733333333333333,
"grad_norm": 1.2109375,
"learning_rate": 7.623000624690465e-09,
"loss": 1.886152744293213,
"step": 580
},
{
"epoch": 0.776,
"grad_norm": 3.125,
"learning_rate": 7.60719796412739e-09,
"loss": 2.1426033973693848,
"step": 582
},
{
"epoch": 0.7786666666666666,
"grad_norm": 3.5,
"learning_rate": 7.591365332480462e-09,
"loss": 2.3694965839385986,
"step": 584
},
{
"epoch": 0.7813333333333333,
"grad_norm": 1.2109375,
"learning_rate": 7.57550302499715e-09,
"loss": 1.4806681871414185,
"step": 586
},
{
"epoch": 0.784,
"grad_norm": 1.6640625,
"learning_rate": 7.559611337478314e-09,
"loss": 1.6711722612380981,
"step": 588
},
{
"epoch": 0.7866666666666666,
"grad_norm": 0.8515625,
"learning_rate": 7.5436905662727e-09,
"loss": 1.5092402696609497,
"step": 590
},
{
"epoch": 0.7893333333333333,
"grad_norm": 1.1171875,
"learning_rate": 7.527741008271407e-09,
"loss": 1.9149348735809326,
"step": 592
},
{
"epoch": 0.792,
"grad_norm": 3.0,
"learning_rate": 7.511762960902352e-09,
"loss": 2.392629861831665,
"step": 594
},
{
"epoch": 0.7946666666666666,
"grad_norm": 2.1875,
"learning_rate": 7.495756722124717e-09,
"loss": 1.7167079448699951,
"step": 596
},
{
"epoch": 0.7973333333333333,
"grad_norm": 2.203125,
"learning_rate": 7.47972259042341e-09,
"loss": 2.0972259044647217,
"step": 598
},
{
"epoch": 0.8,
"grad_norm": 0.52734375,
"learning_rate": 7.463660864803473e-09,
"loss": 1.6890588998794556,
"step": 600
},
{
"epoch": 0.8026666666666666,
"grad_norm": 3.9375,
"learning_rate": 7.447571844784526e-09,
"loss": 1.7197068929672241,
"step": 602
},
{
"epoch": 0.8053333333333333,
"grad_norm": 2.6875,
"learning_rate": 7.4314558303951844e-09,
"loss": 2.090541124343872,
"step": 604
},
{
"epoch": 0.808,
"grad_norm": 3.421875,
"learning_rate": 7.415313122167444e-09,
"loss": 2.0254881381988525,
"step": 606
},
{
"epoch": 0.8106666666666666,
"grad_norm": 2.0625,
"learning_rate": 7.3991440211310924e-09,
"loss": 1.8637149333953857,
"step": 608
},
{
"epoch": 0.8133333333333334,
"grad_norm": 1.0703125,
"learning_rate": 7.382948828808092e-09,
"loss": 1.9170711040496826,
"step": 610
},
{
"epoch": 0.816,
"grad_norm": 1.2109375,
"learning_rate": 7.366727847206955e-09,
"loss": 2.073218584060669,
"step": 612
},
{
"epoch": 0.8186666666666667,
"grad_norm": 1.1796875,
"learning_rate": 7.3504813788171156e-09,
"loss": 1.873306393623352,
"step": 614
},
{
"epoch": 0.8213333333333334,
"grad_norm": 1.0703125,
"learning_rate": 7.334209726603283e-09,
"loss": 1.4583569765090942,
"step": 616
},
{
"epoch": 0.824,
"grad_norm": 0.78125,
"learning_rate": 7.317913193999797e-09,
"loss": 1.3342905044555664,
"step": 618
},
{
"epoch": 0.8266666666666667,
"grad_norm": 3.46875,
"learning_rate": 7.301592084904969e-09,
"loss": 2.3791027069091797,
"step": 620
},
{
"epoch": 0.8293333333333334,
"grad_norm": 1.4921875,
"learning_rate": 7.2852467036754096e-09,
"loss": 1.5852872133255005,
"step": 622
},
{
"epoch": 0.832,
"grad_norm": 1.7421875,
"learning_rate": 7.268877355120362e-09,
"loss": 1.9645684957504272,
"step": 624
},
{
"epoch": 0.8346666666666667,
"grad_norm": 3.1875,
"learning_rate": 7.252484344496011e-09,
"loss": 2.1768226623535156,
"step": 626
},
{
"epoch": 0.8373333333333334,
"grad_norm": 1.25,
"learning_rate": 7.2360679774997894e-09,
"loss": 2.0677809715270996,
"step": 628
},
{
"epoch": 0.84,
"grad_norm": 2.53125,
"learning_rate": 7.219628560264686e-09,
"loss": 2.1904172897338867,
"step": 630
},
{
"epoch": 0.8426666666666667,
"grad_norm": 1.2265625,
"learning_rate": 7.203166399353529e-09,
"loss": 1.7315815687179565,
"step": 632
},
{
"epoch": 0.8453333333333334,
"grad_norm": 1.6171875,
"learning_rate": 7.186681801753268e-09,
"loss": 1.4813761711120605,
"step": 634
},
{
"epoch": 0.848,
"grad_norm": 0.5859375,
"learning_rate": 7.170175074869258e-09,
"loss": 1.1416938304901123,
"step": 636
},
{
"epoch": 0.8506666666666667,
"grad_norm": 1.3203125,
"learning_rate": 7.153646526519517e-09,
"loss": 1.9375399351119995,
"step": 638
},
{
"epoch": 0.8533333333333334,
"grad_norm": 2.53125,
"learning_rate": 7.137096464928996e-09,
"loss": 1.9194899797439575,
"step": 640
},
{
"epoch": 0.856,
"grad_norm": 2.40625,
"learning_rate": 7.120525198723817e-09,
"loss": 1.8916599750518799,
"step": 642
},
{
"epoch": 0.8586666666666667,
"grad_norm": 2.0625,
"learning_rate": 7.103933036925541e-09,
"loss": 1.5970803499221802,
"step": 644
},
{
"epoch": 0.8613333333333333,
"grad_norm": 3.3125,
"learning_rate": 7.087320288945372e-09,
"loss": 1.7807791233062744,
"step": 646
},
{
"epoch": 0.864,
"grad_norm": 0.64453125,
"learning_rate": 7.070687264578422e-09,
"loss": 1.6021547317504883,
"step": 648
},
{
"epoch": 0.8666666666666667,
"grad_norm": 0.55078125,
"learning_rate": 7.054034273997907e-09,
"loss": 1.2717254161834717,
"step": 650
},
{
"epoch": 0.8693333333333333,
"grad_norm": 2.609375,
"learning_rate": 7.0373616277493816e-09,
"loss": 1.8490750789642334,
"step": 652
},
{
"epoch": 0.872,
"grad_norm": 1.4921875,
"learning_rate": 7.020669636744932e-09,
"loss": 1.9058908224105835,
"step": 654
},
{
"epoch": 0.8746666666666667,
"grad_norm": 1.03125,
"learning_rate": 7.003958612257395e-09,
"loss": 1.7792197465896606,
"step": 656
},
{
"epoch": 0.8773333333333333,
"grad_norm": 3.1875,
"learning_rate": 6.9872288659145366e-09,
"loss": 2.097074270248413,
"step": 658
},
{
"epoch": 0.88,
"grad_norm": 0.87890625,
"learning_rate": 6.970480709693255e-09,
"loss": 1.7028578519821167,
"step": 660
},
{
"epoch": 0.8826666666666667,
"grad_norm": 1.453125,
"learning_rate": 6.953714455913749e-09,
"loss": 1.6274348497390747,
"step": 662
},
{
"epoch": 0.8853333333333333,
"grad_norm": 3.03125,
"learning_rate": 6.936930417233706e-09,
"loss": 1.8403894901275635,
"step": 664
},
{
"epoch": 0.888,
"grad_norm": 1.453125,
"learning_rate": 6.920128906642471e-09,
"loss": 1.9490541219711304,
"step": 666
},
{
"epoch": 0.8906666666666667,
"grad_norm": 3.96875,
"learning_rate": 6.903310237455198e-09,
"loss": 1.5206190347671509,
"step": 668
},
{
"epoch": 0.8933333333333333,
"grad_norm": 1.9609375,
"learning_rate": 6.886474723307018e-09,
"loss": 1.9652315378189087,
"step": 670
},
{
"epoch": 0.896,
"grad_norm": 0.98828125,
"learning_rate": 6.869622678147187e-09,
"loss": 1.5592111349105835,
"step": 672
},
{
"epoch": 0.8986666666666666,
"grad_norm": 0.98046875,
"learning_rate": 6.8527544162332356e-09,
"loss": 1.6212581396102905,
"step": 674
},
{
"epoch": 0.9013333333333333,
"grad_norm": 0.83984375,
"learning_rate": 6.835870252125101e-09,
"loss": 1.8532904386520386,
"step": 676
},
{
"epoch": 0.904,
"grad_norm": 1.0546875,
"learning_rate": 6.8189705006792644e-09,
"loss": 1.8559094667434692,
"step": 678
},
{
"epoch": 0.9066666666666666,
"grad_norm": 0.78125,
"learning_rate": 6.802055477042883e-09,
"loss": 1.7229020595550537,
"step": 680
},
{
"epoch": 0.9093333333333333,
"grad_norm": 0.578125,
"learning_rate": 6.7851254966479105e-09,
"loss": 1.5707266330718994,
"step": 682
},
{
"epoch": 0.912,
"grad_norm": 0.89453125,
"learning_rate": 6.768180875205212e-09,
"loss": 1.2699148654937744,
"step": 684
},
{
"epoch": 0.9146666666666666,
"grad_norm": 3.90625,
"learning_rate": 6.751221928698681e-09,
"loss": 2.1601505279541016,
"step": 686
},
{
"epoch": 0.9173333333333333,
"grad_norm": 1.4375,
"learning_rate": 6.734248973379344e-09,
"loss": 2.0476503372192383,
"step": 688
},
{
"epoch": 0.92,
"grad_norm": 4.125,
"learning_rate": 6.7172623257594704e-09,
"loss": 2.1878411769866943,
"step": 690
},
{
"epoch": 0.9226666666666666,
"grad_norm": 3.21875,
"learning_rate": 6.700262302606653e-09,
"loss": 2.174124002456665,
"step": 692
},
{
"epoch": 0.9253333333333333,
"grad_norm": 2.875,
"learning_rate": 6.683249220937922e-09,
"loss": 1.9074881076812744,
"step": 694
},
{
"epoch": 0.928,
"grad_norm": 4.125,
"learning_rate": 6.666223398013818e-09,
"loss": 2.2817506790161133,
"step": 696
},
{
"epoch": 0.9306666666666666,
"grad_norm": 0.7265625,
"learning_rate": 6.6491851513324845e-09,
"loss": 1.7976012229919434,
"step": 698
},
{
"epoch": 0.9333333333333333,
"grad_norm": 1.8203125,
"learning_rate": 6.632134798623737e-09,
"loss": 2.2520010471343994,
"step": 700
},
{
"epoch": 0.936,
"grad_norm": 2.125,
"learning_rate": 6.615072657843155e-09,
"loss": 1.5152980089187622,
"step": 702
},
{
"epoch": 0.9386666666666666,
"grad_norm": 0.6953125,
"learning_rate": 6.597999047166133e-09,
"loss": 1.6834348440170288,
"step": 704
},
{
"epoch": 0.9413333333333334,
"grad_norm": 0.83203125,
"learning_rate": 6.580914284981962e-09,
"loss": 2.277674436569214,
"step": 706
},
{
"epoch": 0.944,
"grad_norm": 3.34375,
"learning_rate": 6.5638186898878835e-09,
"loss": 1.7734097242355347,
"step": 708
},
{
"epoch": 0.9466666666666667,
"grad_norm": 0.45703125,
"learning_rate": 6.5467125806831515e-09,
"loss": 1.2191669940948486,
"step": 710
},
{
"epoch": 0.9493333333333334,
"grad_norm": 0.9609375,
"learning_rate": 6.529596276363093e-09,
"loss": 1.642634391784668,
"step": 712
},
{
"epoch": 0.952,
"grad_norm": 0.97265625,
"learning_rate": 6.512470096113147e-09,
"loss": 2.0380730628967285,
"step": 714
},
{
"epoch": 0.9546666666666667,
"grad_norm": 4.125,
"learning_rate": 6.495334359302923e-09,
"loss": 2.0816550254821777,
"step": 716
},
{
"epoch": 0.9573333333333334,
"grad_norm": 0.8125,
"learning_rate": 6.478189385480235e-09,
"loss": 1.6059696674346924,
"step": 718
},
{
"epoch": 0.96,
"grad_norm": 1.9140625,
"learning_rate": 6.461035494365164e-09,
"loss": 2.008833169937134,
"step": 720
},
{
"epoch": 0.9626666666666667,
"grad_norm": 4.28125,
"learning_rate": 6.4438730058440655e-09,
"loss": 1.7914685010910034,
"step": 722
},
{
"epoch": 0.9653333333333334,
"grad_norm": 1.2734375,
"learning_rate": 6.426702239963626e-09,
"loss": 1.6844180822372437,
"step": 724
},
{
"epoch": 0.968,
"grad_norm": 0.7890625,
"learning_rate": 6.409523516924891e-09,
"loss": 1.34504234790802,
"step": 726
},
{
"epoch": 0.9706666666666667,
"grad_norm": 2.171875,
"learning_rate": 6.3923371570772856e-09,
"loss": 1.2960880994796753,
"step": 728
},
{
"epoch": 0.9733333333333334,
"grad_norm": 1.40625,
"learning_rate": 6.375143480912653e-09,
"loss": 1.924207091331482,
"step": 730
},
{
"epoch": 0.976,
"grad_norm": 3.234375,
"learning_rate": 6.357942809059264e-09,
"loss": 2.2275171279907227,
"step": 732
},
{
"epoch": 0.9786666666666667,
"grad_norm": 3.015625,
"learning_rate": 6.34073546227585e-09,
"loss": 2.1791670322418213,
"step": 734
},
{
"epoch": 0.9813333333333333,
"grad_norm": 1.796875,
"learning_rate": 6.323521761445618e-09,
"loss": 2.0370171070098877,
"step": 736
},
{
"epoch": 0.984,
"grad_norm": 36.25,
"learning_rate": 6.30630202757026e-09,
"loss": 1.7614537477493286,
"step": 738
},
{
"epoch": 0.9866666666666667,
"grad_norm": 3.578125,
"learning_rate": 6.2890765817639776e-09,
"loss": 2.175895929336548,
"step": 740
},
{
"epoch": 0.9893333333333333,
"grad_norm": 0.8203125,
"learning_rate": 6.271845745247486e-09,
"loss": 1.630334734916687,
"step": 742
},
{
"epoch": 0.992,
"grad_norm": 2.90625,
"learning_rate": 6.254609839342029e-09,
"loss": 2.394951343536377,
"step": 744
},
{
"epoch": 0.9946666666666667,
"grad_norm": 1.34375,
"learning_rate": 6.237369185463382e-09,
"loss": 1.9988031387329102,
"step": 746
},
{
"epoch": 0.9973333333333333,
"grad_norm": 3.984375,
"learning_rate": 6.22012410511586e-09,
"loss": 1.836710810661316,
"step": 748
},
{
"epoch": 1.0,
"grad_norm": 0.40234375,
"learning_rate": 6.202874919886325e-09,
"loss": 1.4645345211029053,
"step": 750
},
{
"epoch": 1.0026666666666666,
"grad_norm": 0.5234375,
"learning_rate": 6.185621951438189e-09,
"loss": 1.259044885635376,
"step": 752
},
{
"epoch": 1.0053333333333334,
"grad_norm": 2.171875,
"learning_rate": 6.168365521505408e-09,
"loss": 2.2467596530914307,
"step": 754
},
{
"epoch": 1.008,
"grad_norm": 1.5390625,
"learning_rate": 6.151105951886493e-09,
"loss": 2.064286231994629,
"step": 756
},
{
"epoch": 1.0106666666666666,
"grad_norm": 2.578125,
"learning_rate": 6.1338435644385016e-09,
"loss": 2.050123453140259,
"step": 758
},
{
"epoch": 1.0133333333333334,
"grad_norm": 1.8359375,
"learning_rate": 6.116578681071039e-09,
"loss": 2.2007393836975098,
"step": 760
},
{
"epoch": 1.016,
"grad_norm": 7.25,
"learning_rate": 6.099311623740254e-09,
"loss": 1.7279249429702759,
"step": 762
},
{
"epoch": 1.0186666666666666,
"grad_norm": 1.1875,
"learning_rate": 6.082042714442835e-09,
"loss": 1.5156075954437256,
"step": 764
},
{
"epoch": 1.0213333333333334,
"grad_norm": 1.125,
"learning_rate": 6.064772275210007e-09,
"loss": 1.937456488609314,
"step": 766
},
{
"epoch": 1.024,
"grad_norm": 1.3046875,
"learning_rate": 6.047500628101525e-09,
"loss": 1.9286739826202393,
"step": 768
},
{
"epoch": 1.0266666666666666,
"grad_norm": 1.9921875,
"learning_rate": 6.030228095199668e-09,
"loss": 1.6469793319702148,
"step": 770
},
{
"epoch": 1.0293333333333334,
"grad_norm": 2.3125,
"learning_rate": 6.012954998603235e-09,
"loss": 2.1531600952148438,
"step": 772
},
{
"epoch": 1.032,
"grad_norm": 1.5078125,
"learning_rate": 5.995681660421535e-09,
"loss": 2.0553598403930664,
"step": 774
},
{
"epoch": 1.0346666666666666,
"grad_norm": 2.375,
"learning_rate": 5.9784084027683826e-09,
"loss": 1.883590817451477,
"step": 776
},
{
"epoch": 1.0373333333333334,
"grad_norm": 3.21875,
"learning_rate": 5.961135547756091e-09,
"loss": 2.2724263668060303,
"step": 778
},
{
"epoch": 1.04,
"grad_norm": 0.416015625,
"learning_rate": 5.943863417489463e-09,
"loss": 1.7957870960235596,
"step": 780
},
{
"epoch": 1.0426666666666666,
"grad_norm": 2.53125,
"learning_rate": 5.92659233405979e-09,
"loss": 2.234978675842285,
"step": 782
},
{
"epoch": 1.0453333333333332,
"grad_norm": 0.828125,
"learning_rate": 5.90932261953884e-09,
"loss": 1.0685269832611084,
"step": 784
},
{
"epoch": 1.048,
"grad_norm": 6.1875,
"learning_rate": 5.892054595972853e-09,
"loss": 1.870047688484192,
"step": 786
},
{
"epoch": 1.0506666666666666,
"grad_norm": 3.34375,
"learning_rate": 5.874788585376536e-09,
"loss": 1.7908886671066284,
"step": 788
},
{
"epoch": 1.0533333333333332,
"grad_norm": 0.87890625,
"learning_rate": 5.857524909727058e-09,
"loss": 1.6072524785995483,
"step": 790
},
{
"epoch": 1.056,
"grad_norm": 1.1875,
"learning_rate": 5.8402638909580485e-09,
"loss": 2.162522792816162,
"step": 792
},
{
"epoch": 1.0586666666666666,
"grad_norm": 1.09375,
"learning_rate": 5.823005850953587e-09,
"loss": 1.8510265350341797,
"step": 794
},
{
"epoch": 1.0613333333333332,
"grad_norm": 0.6328125,
"learning_rate": 5.805751111542208e-09,
"loss": 1.1394752264022827,
"step": 796
},
{
"epoch": 1.064,
"grad_norm": 3.015625,
"learning_rate": 5.788499994490895e-09,
"loss": 1.9549927711486816,
"step": 798
},
{
"epoch": 1.0666666666666667,
"grad_norm": 1.25,
"learning_rate": 5.7712528214990846e-09,
"loss": 1.8942488431930542,
"step": 800
},
{
"epoch": 1.0693333333333332,
"grad_norm": 1.84375,
"learning_rate": 5.754009914192662e-09,
"loss": 1.8868470191955566,
"step": 802
},
{
"epoch": 1.072,
"grad_norm": 3.359375,
"learning_rate": 5.736771594117962e-09,
"loss": 1.9352576732635498,
"step": 804
},
{
"epoch": 1.0746666666666667,
"grad_norm": 5.125,
"learning_rate": 5.719538182735784e-09,
"loss": 2.3706133365631104,
"step": 806
},
{
"epoch": 1.0773333333333333,
"grad_norm": 1.390625,
"learning_rate": 5.702310001415385e-09,
"loss": 1.5871129035949707,
"step": 808
},
{
"epoch": 1.08,
"grad_norm": 1.0546875,
"learning_rate": 5.6850873714284925e-09,
"loss": 1.5843605995178223,
"step": 810
},
{
"epoch": 1.0826666666666667,
"grad_norm": 2.34375,
"learning_rate": 5.667870613943314e-09,
"loss": 1.7010804414749146,
"step": 812
},
{
"epoch": 1.0853333333333333,
"grad_norm": 1.640625,
"learning_rate": 5.650660050018544e-09,
"loss": 1.3027026653289795,
"step": 814
},
{
"epoch": 1.088,
"grad_norm": 2.25,
"learning_rate": 5.633456000597381e-09,
"loss": 1.8133392333984375,
"step": 816
},
{
"epoch": 1.0906666666666667,
"grad_norm": 1.1953125,
"learning_rate": 5.6162587865015426e-09,
"loss": 2.1602330207824707,
"step": 818
},
{
"epoch": 1.0933333333333333,
"grad_norm": 0.78125,
"learning_rate": 5.5990687284252765e-09,
"loss": 1.998731017112732,
"step": 820
},
{
"epoch": 1.096,
"grad_norm": 0.53515625,
"learning_rate": 5.5818861469293865e-09,
"loss": 1.606613039970398,
"step": 822
},
{
"epoch": 1.0986666666666667,
"grad_norm": 1.2265625,
"learning_rate": 5.5647113624352555e-09,
"loss": 2.124746561050415,
"step": 824
},
{
"epoch": 1.1013333333333333,
"grad_norm": 3.71875,
"learning_rate": 5.547544695218864e-09,
"loss": 1.9910880327224731,
"step": 826
},
{
"epoch": 1.104,
"grad_norm": 1.0234375,
"learning_rate": 5.530386465404822e-09,
"loss": 1.9260934591293335,
"step": 828
},
{
"epoch": 1.1066666666666667,
"grad_norm": 1.3671875,
"learning_rate": 5.513236992960402e-09,
"loss": 1.4777076244354248,
"step": 830
},
{
"epoch": 1.1093333333333333,
"grad_norm": 1.3515625,
"learning_rate": 5.496096597689564e-09,
"loss": 1.910886287689209,
"step": 832
},
{
"epoch": 1.112,
"grad_norm": 1.5546875,
"learning_rate": 5.478965599226999e-09,
"loss": 1.6413007974624634,
"step": 834
},
{
"epoch": 1.1146666666666667,
"grad_norm": 1.7734375,
"learning_rate": 5.461844317032166e-09,
"loss": 1.842114806175232,
"step": 836
},
{
"epoch": 1.1173333333333333,
"grad_norm": 0.91796875,
"learning_rate": 5.4447330703833344e-09,
"loss": 1.261273980140686,
"step": 838
},
{
"epoch": 1.12,
"grad_norm": 2.234375,
"learning_rate": 5.427632178371628e-09,
"loss": 2.075026512145996,
"step": 840
},
{
"epoch": 1.1226666666666667,
"grad_norm": 1.25,
"learning_rate": 5.410541959895082e-09,
"loss": 1.8633524179458618,
"step": 842
},
{
"epoch": 1.1253333333333333,
"grad_norm": 2.5625,
"learning_rate": 5.393462733652688e-09,
"loss": 1.8478502035140991,
"step": 844
},
{
"epoch": 1.1280000000000001,
"grad_norm": 1.046875,
"learning_rate": 5.376394818138455e-09,
"loss": 1.8932420015335083,
"step": 846
},
{
"epoch": 1.1306666666666667,
"grad_norm": 3.40625,
"learning_rate": 5.359338531635465e-09,
"loss": 1.7140039205551147,
"step": 848
},
{
"epoch": 1.1333333333333333,
"grad_norm": 0.412109375,
"learning_rate": 5.342294192209949e-09,
"loss": 1.5283839702606201,
"step": 850
},
{
"epoch": 1.1360000000000001,
"grad_norm": 2.96875,
"learning_rate": 5.3252621177053425e-09,
"loss": 2.1872851848602295,
"step": 852
},
{
"epoch": 1.1386666666666667,
"grad_norm": 1.2890625,
"learning_rate": 5.3082426257363705e-09,
"loss": 1.8428471088409424,
"step": 854
},
{
"epoch": 1.1413333333333333,
"grad_norm": 1.6015625,
"learning_rate": 5.291236033683109e-09,
"loss": 1.4907652139663696,
"step": 856
},
{
"epoch": 1.144,
"grad_norm": 0.9375,
"learning_rate": 5.2742426586850864e-09,
"loss": 1.7861065864562988,
"step": 858
},
{
"epoch": 1.1466666666666667,
"grad_norm": 1.2890625,
"learning_rate": 5.257262817635351e-09,
"loss": 2.0522258281707764,
"step": 860
},
{
"epoch": 1.1493333333333333,
"grad_norm": 1.484375,
"learning_rate": 5.2402968271745735e-09,
"loss": 2.1046245098114014,
"step": 862
},
{
"epoch": 1.152,
"grad_norm": 3.234375,
"learning_rate": 5.223345003685138e-09,
"loss": 2.0264651775360107,
"step": 864
},
{
"epoch": 1.1546666666666667,
"grad_norm": 1.953125,
"learning_rate": 5.206407663285241e-09,
"loss": 1.915894627571106,
"step": 866
},
{
"epoch": 1.1573333333333333,
"grad_norm": 1.8203125,
"learning_rate": 5.189485121823001e-09,
"loss": 1.9370074272155762,
"step": 868
},
{
"epoch": 1.16,
"grad_norm": 1.125,
"learning_rate": 5.172577694870559e-09,
"loss": 1.9133473634719849,
"step": 870
},
{
"epoch": 1.1626666666666667,
"grad_norm": 3.328125,
"learning_rate": 5.155685697718209e-09,
"loss": 2.016202449798584,
"step": 872
},
{
"epoch": 1.1653333333333333,
"grad_norm": 0.98828125,
"learning_rate": 5.138809445368501e-09,
"loss": 1.680112600326538,
"step": 874
},
{
"epoch": 1.168,
"grad_norm": 1.3046875,
"learning_rate": 5.1219492525303826e-09,
"loss": 1.9129942655563354,
"step": 876
},
{
"epoch": 1.1706666666666667,
"grad_norm": 0.9140625,
"learning_rate": 5.105105433613315e-09,
"loss": 1.5393624305725098,
"step": 878
},
{
"epoch": 1.1733333333333333,
"grad_norm": 6.71875,
"learning_rate": 5.0882783027214275e-09,
"loss": 1.899593710899353,
"step": 880
},
{
"epoch": 1.176,
"grad_norm": 0.62109375,
"learning_rate": 5.071468173647642e-09,
"loss": 1.596930742263794,
"step": 882
},
{
"epoch": 1.1786666666666668,
"grad_norm": 1.4765625,
"learning_rate": 5.054675359867835e-09,
"loss": 2.020768880844116,
"step": 884
},
{
"epoch": 1.1813333333333333,
"grad_norm": 1.203125,
"learning_rate": 5.0379001745349866e-09,
"loss": 1.3474191427230835,
"step": 886
},
{
"epoch": 1.184,
"grad_norm": 1.0390625,
"learning_rate": 5.021142930473337e-09,
"loss": 1.803186297416687,
"step": 888
},
{
"epoch": 1.1866666666666668,
"grad_norm": 1.234375,
"learning_rate": 5.00440394017256e-09,
"loss": 1.8065211772918701,
"step": 890
},
{
"epoch": 1.1893333333333334,
"grad_norm": 1.6328125,
"learning_rate": 4.987683515781936e-09,
"loss": 1.5458588600158691,
"step": 892
},
{
"epoch": 1.192,
"grad_norm": 0.8203125,
"learning_rate": 4.970981969104519e-09,
"loss": 1.1960078477859497,
"step": 894
},
{
"epoch": 1.1946666666666665,
"grad_norm": 1.375,
"learning_rate": 4.954299611591339e-09,
"loss": 1.6406760215759277,
"step": 896
},
{
"epoch": 1.1973333333333334,
"grad_norm": 2.453125,
"learning_rate": 4.93763675433558e-09,
"loss": 1.948028802871704,
"step": 898
},
{
"epoch": 1.2,
"grad_norm": 1.484375,
"learning_rate": 4.920993708066788e-09,
"loss": 1.7970317602157593,
"step": 900
},
{
"epoch": 1.2026666666666666,
"grad_norm": 2.890625,
"learning_rate": 4.904370783145074e-09,
"loss": 2.1257944107055664,
"step": 902
},
{
"epoch": 1.2053333333333334,
"grad_norm": 4.53125,
"learning_rate": 4.8877682895553205e-09,
"loss": 1.880362629890442,
"step": 904
},
{
"epoch": 1.208,
"grad_norm": 0.61328125,
"learning_rate": 4.87118653690141e-09,
"loss": 1.5706111192703247,
"step": 906
},
{
"epoch": 1.2106666666666666,
"grad_norm": 1.390625,
"learning_rate": 4.854625834400446e-09,
"loss": 1.5587897300720215,
"step": 908
},
{
"epoch": 1.2133333333333334,
"grad_norm": 2.890625,
"learning_rate": 4.838086490876987e-09,
"loss": 1.6950901746749878,
"step": 910
},
{
"epoch": 1.216,
"grad_norm": 6.5625,
"learning_rate": 4.821568814757292e-09,
"loss": 1.772045612335205,
"step": 912
},
{
"epoch": 1.2186666666666666,
"grad_norm": 0.7421875,
"learning_rate": 4.805073114063561e-09,
"loss": 1.523197889328003,
"step": 914
},
{
"epoch": 1.2213333333333334,
"grad_norm": 0.7890625,
"learning_rate": 4.788599696408198e-09,
"loss": 1.3500950336456299,
"step": 916
},
{
"epoch": 1.224,
"grad_norm": 0.90625,
"learning_rate": 4.7721488689880715e-09,
"loss": 1.4523169994354248,
"step": 918
},
{
"epoch": 1.2266666666666666,
"grad_norm": 2.515625,
"learning_rate": 4.755720938578787e-09,
"loss": 1.7262288331985474,
"step": 920
},
{
"epoch": 1.2293333333333334,
"grad_norm": 0.8671875,
"learning_rate": 4.7393162115289664e-09,
"loss": 1.6037812232971191,
"step": 922
},
{
"epoch": 1.232,
"grad_norm": 2.640625,
"learning_rate": 4.722934993754533e-09,
"loss": 2.0987040996551514,
"step": 924
},
{
"epoch": 1.2346666666666666,
"grad_norm": 1.1328125,
"learning_rate": 4.706577590733007e-09,
"loss": 1.5940345525741577,
"step": 926
},
{
"epoch": 1.2373333333333334,
"grad_norm": 1.390625,
"learning_rate": 4.690244307497814e-09,
"loss": 1.5601483583450317,
"step": 928
},
{
"epoch": 1.24,
"grad_norm": 1.078125,
"learning_rate": 4.673935448632591e-09,
"loss": 2.1076908111572266,
"step": 930
},
{
"epoch": 1.2426666666666666,
"grad_norm": 1.0703125,
"learning_rate": 4.6576513182655086e-09,
"loss": 1.881157398223877,
"step": 932
},
{
"epoch": 1.2453333333333334,
"grad_norm": 1.21875,
"learning_rate": 4.641392220063598e-09,
"loss": 1.8262559175491333,
"step": 934
},
{
"epoch": 1.248,
"grad_norm": 0.8203125,
"learning_rate": 4.625158457227094e-09,
"loss": 1.496355652809143,
"step": 936
},
{
"epoch": 1.2506666666666666,
"grad_norm": 1.5078125,
"learning_rate": 4.608950332483772e-09,
"loss": 1.8386247158050537,
"step": 938
},
{
"epoch": 1.2533333333333334,
"grad_norm": 0.62890625,
"learning_rate": 4.59276814808331e-09,
"loss": 1.6028660535812378,
"step": 940
},
{
"epoch": 1.256,
"grad_norm": 0.52734375,
"learning_rate": 4.576612205791648e-09,
"loss": 1.2583792209625244,
"step": 942
},
{
"epoch": 1.2586666666666666,
"grad_norm": 2.9375,
"learning_rate": 4.560482806885363e-09,
"loss": 1.7977988719940186,
"step": 944
},
{
"epoch": 1.2613333333333334,
"grad_norm": 4.59375,
"learning_rate": 4.54438025214605e-09,
"loss": 2.193932056427002,
"step": 946
},
{
"epoch": 1.264,
"grad_norm": 1.3125,
"learning_rate": 4.528304841854715e-09,
"loss": 1.8389561176300049,
"step": 948
},
{
"epoch": 1.2666666666666666,
"grad_norm": 0.58203125,
"learning_rate": 4.512256875786168e-09,
"loss": 1.7931069135665894,
"step": 950
},
{
"epoch": 1.2693333333333334,
"grad_norm": 0.77734375,
"learning_rate": 4.496236653203444e-09,
"loss": 1.7321507930755615,
"step": 952
},
{
"epoch": 1.272,
"grad_norm": 1.8125,
"learning_rate": 4.480244472852213e-09,
"loss": 2.222858428955078,
"step": 954
},
{
"epoch": 1.2746666666666666,
"grad_norm": 0.9609375,
"learning_rate": 4.464280632955215e-09,
"loss": 1.3424203395843506,
"step": 956
},
{
"epoch": 1.2773333333333334,
"grad_norm": 1.3828125,
"learning_rate": 4.448345431206694e-09,
"loss": 1.5889484882354736,
"step": 958
},
{
"epoch": 1.28,
"grad_norm": 1.421875,
"learning_rate": 4.43243916476685e-09,
"loss": 1.3793516159057617,
"step": 960
},
{
"epoch": 1.2826666666666666,
"grad_norm": 0.41015625,
"learning_rate": 4.416562130256296e-09,
"loss": 1.5104498863220215,
"step": 962
},
{
"epoch": 1.2853333333333334,
"grad_norm": 0.86328125,
"learning_rate": 4.400714623750524e-09,
"loss": 1.5663784742355347,
"step": 964
},
{
"epoch": 1.288,
"grad_norm": 2.6875,
"learning_rate": 4.3848969407743945e-09,
"loss": 2.37646484375,
"step": 966
},
{
"epoch": 1.2906666666666666,
"grad_norm": 3.078125,
"learning_rate": 4.36910937629661e-09,
"loss": 2.089693307876587,
"step": 968
},
{
"epoch": 1.2933333333333334,
"grad_norm": 12.25,
"learning_rate": 4.353352224724225e-09,
"loss": 2.1083428859710693,
"step": 970
},
{
"epoch": 1.296,
"grad_norm": 1.15625,
"learning_rate": 4.337625779897155e-09,
"loss": 1.8934953212738037,
"step": 972
},
{
"epoch": 1.2986666666666666,
"grad_norm": 2.75,
"learning_rate": 4.3219303350826926e-09,
"loss": 1.8317111730575562,
"step": 974
},
{
"epoch": 1.3013333333333335,
"grad_norm": 1.234375,
"learning_rate": 4.3062661829700414e-09,
"loss": 1.8767393827438354,
"step": 976
},
{
"epoch": 1.304,
"grad_norm": 1.5703125,
"learning_rate": 4.290633615664857e-09,
"loss": 1.9324172735214233,
"step": 978
},
{
"epoch": 1.3066666666666666,
"grad_norm": 4.25,
"learning_rate": 4.2750329246838015e-09,
"loss": 2.246973752975464,
"step": 980
},
{
"epoch": 1.3093333333333335,
"grad_norm": 0.59765625,
"learning_rate": 4.259464400949107e-09,
"loss": 1.64799165725708,
"step": 982
},
{
"epoch": 1.312,
"grad_norm": 2.0625,
"learning_rate": 4.243928334783148e-09,
"loss": 1.7538410425186157,
"step": 984
},
{
"epoch": 1.3146666666666667,
"grad_norm": 2.90625,
"learning_rate": 4.2284250159030325e-09,
"loss": 1.9145493507385254,
"step": 986
},
{
"epoch": 1.3173333333333335,
"grad_norm": 1.140625,
"learning_rate": 4.212954733415191e-09,
"loss": 2.1837127208709717,
"step": 988
},
{
"epoch": 1.32,
"grad_norm": 2.21875,
"learning_rate": 4.197517775809992e-09,
"loss": 1.7847557067871094,
"step": 990
},
{
"epoch": 1.3226666666666667,
"grad_norm": 2.671875,
"learning_rate": 4.182114430956362e-09,
"loss": 2.1116790771484375,
"step": 992
},
{
"epoch": 1.3253333333333333,
"grad_norm": 1.359375,
"learning_rate": 4.166744986096413e-09,
"loss": 1.7069684267044067,
"step": 994
},
{
"epoch": 1.328,
"grad_norm": 1.4609375,
"learning_rate": 4.151409727840092e-09,
"loss": 1.912143588066101,
"step": 996
},
{
"epoch": 1.3306666666666667,
"grad_norm": 4.125,
"learning_rate": 4.136108942159832e-09,
"loss": 2.4729881286621094,
"step": 998
},
{
"epoch": 1.3333333333333333,
"grad_norm": 3.734375,
"learning_rate": 4.120842914385218e-09,
"loss": 1.7187219858169556,
"step": 1000
},
{
"epoch": 1.336,
"grad_norm": 0.515625,
"learning_rate": 4.105611929197671e-09,
"loss": 1.569278359413147,
"step": 1002
},
{
"epoch": 1.3386666666666667,
"grad_norm": 1.3203125,
"learning_rate": 4.090416270625135e-09,
"loss": 1.8596712350845337,
"step": 1004
},
{
"epoch": 1.3413333333333333,
"grad_norm": 0.61328125,
"learning_rate": 4.0752562220367804e-09,
"loss": 1.6299768686294556,
"step": 1006
},
{
"epoch": 1.3439999999999999,
"grad_norm": 1.1953125,
"learning_rate": 4.0601320661377275e-09,
"loss": 1.9480643272399902,
"step": 1008
},
{
"epoch": 1.3466666666666667,
"grad_norm": 1.015625,
"learning_rate": 4.045044084963762e-09,
"loss": 1.8339238166809082,
"step": 1010
},
{
"epoch": 1.3493333333333333,
"grad_norm": 0.89453125,
"learning_rate": 4.029992559876088e-09,
"loss": 1.838714361190796,
"step": 1012
},
{
"epoch": 1.3519999999999999,
"grad_norm": 2.078125,
"learning_rate": 4.014977771556067e-09,
"loss": 1.9255378246307373,
"step": 1014
},
{
"epoch": 1.3546666666666667,
"grad_norm": 3.59375,
"learning_rate": 4.000000000000001e-09,
"loss": 1.8615750074386597,
"step": 1016
},
{
"epoch": 1.3573333333333333,
"grad_norm": 1.2109375,
"learning_rate": 3.985059524513895e-09,
"loss": 1.465595006942749,
"step": 1018
},
{
"epoch": 1.3599999999999999,
"grad_norm": 3.125,
"learning_rate": 3.970156623708261e-09,
"loss": 2.2073721885681152,
"step": 1020
},
{
"epoch": 1.3626666666666667,
"grad_norm": 0.59765625,
"learning_rate": 3.955291575492912e-09,
"loss": 1.5387027263641357,
"step": 1022
},
{
"epoch": 1.3653333333333333,
"grad_norm": 1.5234375,
"learning_rate": 3.940464657071786e-09,
"loss": 1.861857295036316,
"step": 1024
},
{
"epoch": 1.3679999999999999,
"grad_norm": 2.203125,
"learning_rate": 3.925676144937782e-09,
"loss": 2.1772828102111816,
"step": 1026
},
{
"epoch": 1.3706666666666667,
"grad_norm": 0.921875,
"learning_rate": 3.910926314867587e-09,
"loss": 1.5904673337936401,
"step": 1028
},
{
"epoch": 1.3733333333333333,
"grad_norm": 3.890625,
"learning_rate": 3.8962154419165485e-09,
"loss": 2.2001538276672363,
"step": 1030
},
{
"epoch": 1.376,
"grad_norm": 1.390625,
"learning_rate": 3.881543800413542e-09,
"loss": 1.5958366394042969,
"step": 1032
},
{
"epoch": 1.3786666666666667,
"grad_norm": 2.28125,
"learning_rate": 3.86691166395585e-09,
"loss": 2.1380932331085205,
"step": 1034
},
{
"epoch": 1.3813333333333333,
"grad_norm": 0.451171875,
"learning_rate": 3.852319305404065e-09,
"loss": 1.7112258672714233,
"step": 1036
},
{
"epoch": 1.384,
"grad_norm": 1.21875,
"learning_rate": 3.837766996877e-09,
"loss": 1.9973968267440796,
"step": 1038
},
{
"epoch": 1.3866666666666667,
"grad_norm": 1.578125,
"learning_rate": 3.823255009746614e-09,
"loss": 2.2577526569366455,
"step": 1040
},
{
"epoch": 1.3893333333333333,
"grad_norm": 0.890625,
"learning_rate": 3.808783614632949e-09,
"loss": 1.3888800144195557,
"step": 1042
},
{
"epoch": 1.392,
"grad_norm": 2.234375,
"learning_rate": 3.794353081399089e-09,
"loss": 2.0604593753814697,
"step": 1044
},
{
"epoch": 1.3946666666666667,
"grad_norm": 1.234375,
"learning_rate": 3.779963679146121e-09,
"loss": 1.9488394260406494,
"step": 1046
},
{
"epoch": 1.3973333333333333,
"grad_norm": 1.2578125,
"learning_rate": 3.765615676208124e-09,
"loss": 1.8341143131256104,
"step": 1048
},
{
"epoch": 1.4,
"grad_norm": 1.0859375,
"learning_rate": 3.751309340147156e-09,
"loss": 2.020453929901123,
"step": 1050
},
{
"epoch": 1.4026666666666667,
"grad_norm": 0.796875,
"learning_rate": 3.7370449377482715e-09,
"loss": 1.5498268604278564,
"step": 1052
},
{
"epoch": 1.4053333333333333,
"grad_norm": 6.84375,
"learning_rate": 3.7228227350145493e-09,
"loss": 1.3826239109039307,
"step": 1054
},
{
"epoch": 1.408,
"grad_norm": 0.7734375,
"learning_rate": 3.7086429971621214e-09,
"loss": 1.6661386489868164,
"step": 1056
},
{
"epoch": 1.4106666666666667,
"grad_norm": 1.125,
"learning_rate": 3.6945059886152356e-09,
"loss": 1.9143027067184448,
"step": 1058
},
{
"epoch": 1.4133333333333333,
"grad_norm": 1.21875,
"learning_rate": 3.6804119730013215e-09,
"loss": 2.2068653106689453,
"step": 1060
},
{
"epoch": 1.416,
"grad_norm": 9.25,
"learning_rate": 3.666361213146075e-09,
"loss": 1.890751838684082,
"step": 1062
},
{
"epoch": 1.4186666666666667,
"grad_norm": 0.6640625,
"learning_rate": 3.6523539710685583e-09,
"loss": 1.8205938339233398,
"step": 1064
},
{
"epoch": 1.4213333333333333,
"grad_norm": 0.8046875,
"learning_rate": 3.6383905079763108e-09,
"loss": 1.2335028648376465,
"step": 1066
},
{
"epoch": 1.424,
"grad_norm": 0.99609375,
"learning_rate": 3.6244710842604813e-09,
"loss": 2.0793159008026123,
"step": 1068
},
{
"epoch": 1.4266666666666667,
"grad_norm": 1.734375,
"learning_rate": 3.6105959594909676e-09,
"loss": 1.5506471395492554,
"step": 1070
},
{
"epoch": 1.4293333333333333,
"grad_norm": 1.0078125,
"learning_rate": 3.596765392411586e-09,
"loss": 1.755253553390503,
"step": 1072
},
{
"epoch": 1.432,
"grad_norm": 1.2890625,
"learning_rate": 3.582979640935233e-09,
"loss": 1.554221510887146,
"step": 1074
},
{
"epoch": 1.4346666666666668,
"grad_norm": 1.3359375,
"learning_rate": 3.5692389621390836e-09,
"loss": 2.169426679611206,
"step": 1076
},
{
"epoch": 1.4373333333333334,
"grad_norm": 2.796875,
"learning_rate": 3.5555436122597996e-09,
"loss": 1.9468799829483032,
"step": 1078
},
{
"epoch": 1.44,
"grad_norm": 10.125,
"learning_rate": 3.5418938466887415e-09,
"loss": 1.915063738822937,
"step": 1080
},
{
"epoch": 1.4426666666666668,
"grad_norm": 0.51171875,
"learning_rate": 3.5282899199672164e-09,
"loss": 1.5836447477340698,
"step": 1082
},
{
"epoch": 1.4453333333333334,
"grad_norm": 1.1875,
"learning_rate": 3.5147320857817262e-09,
"loss": 2.057462453842163,
"step": 1084
},
{
"epoch": 1.448,
"grad_norm": 1.078125,
"learning_rate": 3.501220596959236e-09,
"loss": 1.4570143222808838,
"step": 1086
},
{
"epoch": 1.4506666666666668,
"grad_norm": 2.4375,
"learning_rate": 3.487755705462462e-09,
"loss": 2.0535616874694824,
"step": 1088
},
{
"epoch": 1.4533333333333334,
"grad_norm": 2.359375,
"learning_rate": 3.4743376623851725e-09,
"loss": 1.644309163093567,
"step": 1090
},
{
"epoch": 1.456,
"grad_norm": 12.4375,
"learning_rate": 3.4609667179475037e-09,
"loss": 1.939032793045044,
"step": 1092
},
{
"epoch": 1.4586666666666668,
"grad_norm": 5.21875,
"learning_rate": 3.4476431214912964e-09,
"loss": 1.7405142784118652,
"step": 1094
},
{
"epoch": 1.4613333333333334,
"grad_norm": 2.734375,
"learning_rate": 3.4343671214754412e-09,
"loss": 2.0724618434906006,
"step": 1096
},
{
"epoch": 1.464,
"grad_norm": 2.0625,
"learning_rate": 3.4211389654712517e-09,
"loss": 1.8232965469360352,
"step": 1098
},
{
"epoch": 1.4666666666666668,
"grad_norm": 1.0546875,
"learning_rate": 3.4079589001578446e-09,
"loss": 2.136154890060425,
"step": 1100
},
{
"epoch": 1.4693333333333334,
"grad_norm": 0.69921875,
"learning_rate": 3.3948271713175394e-09,
"loss": 1.7769290208816528,
"step": 1102
},
{
"epoch": 1.472,
"grad_norm": 1.3984375,
"learning_rate": 3.381744023831273e-09,
"loss": 1.8233089447021484,
"step": 1104
},
{
"epoch": 1.4746666666666668,
"grad_norm": 2.375,
"learning_rate": 3.3687097016740386e-09,
"loss": 2.1642887592315674,
"step": 1106
},
{
"epoch": 1.4773333333333334,
"grad_norm": 1.2890625,
"learning_rate": 3.355724447910331e-09,
"loss": 1.5282243490219116,
"step": 1108
},
{
"epoch": 1.48,
"grad_norm": 1.140625,
"learning_rate": 3.342788504689618e-09,
"loss": 1.8636339902877808,
"step": 1110
},
{
"epoch": 1.4826666666666668,
"grad_norm": 0.75,
"learning_rate": 3.3299021132418196e-09,
"loss": 1.6796783208847046,
"step": 1112
},
{
"epoch": 1.4853333333333334,
"grad_norm": 1.1953125,
"learning_rate": 3.3170655138728146e-09,
"loss": 2.1287944316864014,
"step": 1114
},
{
"epoch": 1.488,
"grad_norm": 1.3671875,
"learning_rate": 3.3042789459599566e-09,
"loss": 2.1079940795898438,
"step": 1116
},
{
"epoch": 1.4906666666666666,
"grad_norm": 3.265625,
"learning_rate": 3.291542647947614e-09,
"loss": 2.15340256690979,
"step": 1118
},
{
"epoch": 1.4933333333333334,
"grad_norm": 0.66015625,
"learning_rate": 3.2788568573427146e-09,
"loss": 1.1380071640014648,
"step": 1120
},
{
"epoch": 1.496,
"grad_norm": 4.03125,
"learning_rate": 3.2662218107103264e-09,
"loss": 2.2066473960876465,
"step": 1122
},
{
"epoch": 1.4986666666666666,
"grad_norm": 0.46484375,
"learning_rate": 3.2536377436692423e-09,
"loss": 1.1828243732452393,
"step": 1124
},
{
"epoch": 1.5013333333333332,
"grad_norm": 3.546875,
"learning_rate": 3.241104890887583e-09,
"loss": 2.094403028488159,
"step": 1126
},
{
"epoch": 1.504,
"grad_norm": 3.015625,
"learning_rate": 3.2286234860784265e-09,
"loss": 1.8210811614990234,
"step": 1128
},
{
"epoch": 1.5066666666666668,
"grad_norm": 0.546875,
"learning_rate": 3.2161937619954455e-09,
"loss": 1.8125649690628052,
"step": 1130
},
{
"epoch": 1.5093333333333332,
"grad_norm": 0.921875,
"learning_rate": 3.2038159504285707e-09,
"loss": 1.8376426696777344,
"step": 1132
},
{
"epoch": 1.512,
"grad_norm": 1.2734375,
"learning_rate": 3.191490282199664e-09,
"loss": 1.9754841327667236,
"step": 1134
},
{
"epoch": 1.5146666666666668,
"grad_norm": 0.5703125,
"learning_rate": 3.179216987158218e-09,
"loss": 1.4537146091461182,
"step": 1136
},
{
"epoch": 1.5173333333333332,
"grad_norm": 3.046875,
"learning_rate": 3.166996294177068e-09,
"loss": 1.799623727798462,
"step": 1138
},
{
"epoch": 1.52,
"grad_norm": 3.828125,
"learning_rate": 3.1548284311481244e-09,
"loss": 2.3792202472686768,
"step": 1140
},
{
"epoch": 1.5226666666666666,
"grad_norm": 0.62890625,
"learning_rate": 3.1427136249781224e-09,
"loss": 1.2780814170837402,
"step": 1142
},
{
"epoch": 1.5253333333333332,
"grad_norm": 1.0546875,
"learning_rate": 3.1306521015843904e-09,
"loss": 2.1566176414489746,
"step": 1144
},
{
"epoch": 1.528,
"grad_norm": 0.80859375,
"learning_rate": 3.11864408589064e-09,
"loss": 1.1312358379364014,
"step": 1146
},
{
"epoch": 1.5306666666666666,
"grad_norm": 1.1640625,
"learning_rate": 3.106689801822768e-09,
"loss": 1.954304814338684,
"step": 1148
},
{
"epoch": 1.5333333333333332,
"grad_norm": 0.87109375,
"learning_rate": 3.094789472304681e-09,
"loss": 1.234276533126831,
"step": 1150
},
{
"epoch": 1.536,
"grad_norm": 0.625,
"learning_rate": 3.08294331925414e-09,
"loss": 1.7781298160552979,
"step": 1152
},
{
"epoch": 1.5386666666666666,
"grad_norm": 0.67578125,
"learning_rate": 3.0711515635786224e-09,
"loss": 1.8762702941894531,
"step": 1154
},
{
"epoch": 1.5413333333333332,
"grad_norm": 2.453125,
"learning_rate": 3.0594144251711996e-09,
"loss": 2.161132574081421,
"step": 1156
},
{
"epoch": 1.544,
"grad_norm": 1.15625,
"learning_rate": 3.047732122906439e-09,
"loss": 2.0912721157073975,
"step": 1158
},
{
"epoch": 1.5466666666666666,
"grad_norm": 6.6875,
"learning_rate": 3.0361048746363224e-09,
"loss": 2.5332658290863037,
"step": 1160
},
{
"epoch": 1.5493333333333332,
"grad_norm": 3.890625,
"learning_rate": 3.024532897186183e-09,
"loss": 2.111358404159546,
"step": 1162
},
{
"epoch": 1.552,
"grad_norm": 3.15625,
"learning_rate": 3.0130164063506606e-09,
"loss": 2.2159292697906494,
"step": 1164
},
{
"epoch": 1.5546666666666666,
"grad_norm": 3.46875,
"learning_rate": 3.0015556168896785e-09,
"loss": 2.2090470790863037,
"step": 1166
},
{
"epoch": 1.5573333333333332,
"grad_norm": 1.140625,
"learning_rate": 2.990150742524439e-09,
"loss": 2.118368148803711,
"step": 1168
},
{
"epoch": 1.56,
"grad_norm": 8.5,
"learning_rate": 2.9788019959334402e-09,
"loss": 2.0572381019592285,
"step": 1170
},
{
"epoch": 1.5626666666666666,
"grad_norm": 4.59375,
"learning_rate": 2.967509588748504e-09,
"loss": 2.4544730186462402,
"step": 1172
},
{
"epoch": 1.5653333333333332,
"grad_norm": 1.2578125,
"learning_rate": 2.956273731550836e-09,
"loss": 1.7947977781295776,
"step": 1174
},
{
"epoch": 1.568,
"grad_norm": 3.328125,
"learning_rate": 2.9450946338670925e-09,
"loss": 2.1816515922546387,
"step": 1176
},
{
"epoch": 1.5706666666666667,
"grad_norm": 1.421875,
"learning_rate": 2.9339725041654792e-09,
"loss": 1.5207916498184204,
"step": 1178
},
{
"epoch": 1.5733333333333333,
"grad_norm": 1.453125,
"learning_rate": 2.9229075498518596e-09,
"loss": 1.8684794902801514,
"step": 1180
},
{
"epoch": 1.576,
"grad_norm": 1.2578125,
"learning_rate": 2.9118999772658887e-09,
"loss": 1.882980227470398,
"step": 1182
},
{
"epoch": 1.5786666666666667,
"grad_norm": 1.0234375,
"learning_rate": 2.9009499916771655e-09,
"loss": 1.7312045097351074,
"step": 1184
},
{
"epoch": 1.5813333333333333,
"grad_norm": 1.2890625,
"learning_rate": 2.890057797281404e-09,
"loss": 2.04587984085083,
"step": 1186
},
{
"epoch": 1.584,
"grad_norm": 0.49609375,
"learning_rate": 2.8792235971966256e-09,
"loss": 1.5842205286026,
"step": 1188
},
{
"epoch": 1.5866666666666667,
"grad_norm": 4.96875,
"learning_rate": 2.868447593459373e-09,
"loss": 2.111997365951538,
"step": 1190
},
{
"epoch": 1.5893333333333333,
"grad_norm": 2.46875,
"learning_rate": 2.8577299870209417e-09,
"loss": 1.9834377765655518,
"step": 1192
},
{
"epoch": 1.592,
"grad_norm": 0.97265625,
"learning_rate": 2.847070977743631e-09,
"loss": 1.9653667211532593,
"step": 1194
},
{
"epoch": 1.5946666666666667,
"grad_norm": 1.234375,
"learning_rate": 2.8364707643970182e-09,
"loss": 1.9497570991516113,
"step": 1196
},
{
"epoch": 1.5973333333333333,
"grad_norm": 2.15625,
"learning_rate": 2.8259295446542533e-09,
"loss": 1.9541677236557007,
"step": 1198
},
{
"epoch": 1.6,
"grad_norm": 2.859375,
"learning_rate": 2.8154475150883702e-09,
"loss": 1.6280796527862549,
"step": 1200
},
{
"epoch": 1.6026666666666667,
"grad_norm": 0.82421875,
"learning_rate": 2.8050248711686233e-09,
"loss": 1.8475522994995117,
"step": 1202
},
{
"epoch": 1.6053333333333333,
"grad_norm": 0.9296875,
"learning_rate": 2.7946618072568407e-09,
"loss": 1.6077812910079956,
"step": 1204
},
{
"epoch": 1.608,
"grad_norm": 1.4453125,
"learning_rate": 2.7843585166038e-09,
"loss": 1.924946904182434,
"step": 1206
},
{
"epoch": 1.6106666666666667,
"grad_norm": 1.515625,
"learning_rate": 2.7741151913456283e-09,
"loss": 1.5497167110443115,
"step": 1208
},
{
"epoch": 1.6133333333333333,
"grad_norm": 9.3125,
"learning_rate": 2.7639320225002108e-09,
"loss": 2.1292612552642822,
"step": 1210
},
{
"epoch": 1.616,
"grad_norm": 1.2890625,
"learning_rate": 2.7538091999636373e-09,
"loss": 2.072988510131836,
"step": 1212
},
{
"epoch": 1.6186666666666667,
"grad_norm": 2.15625,
"learning_rate": 2.7437469125066557e-09,
"loss": 2.1661105155944824,
"step": 1214
},
{
"epoch": 1.6213333333333333,
"grad_norm": 4.65625,
"learning_rate": 2.7337453477711562e-09,
"loss": 2.3083508014678955,
"step": 1216
},
{
"epoch": 1.624,
"grad_norm": 4.09375,
"learning_rate": 2.7238046922666672e-09,
"loss": 1.6864315271377563,
"step": 1218
},
{
"epoch": 1.6266666666666667,
"grad_norm": 3.0,
"learning_rate": 2.7139251313668787e-09,
"loss": 2.1456027030944824,
"step": 1220
},
{
"epoch": 1.6293333333333333,
"grad_norm": 1.9765625,
"learning_rate": 2.7041068493061906e-09,
"loss": 1.9634565114974976,
"step": 1222
},
{
"epoch": 1.6320000000000001,
"grad_norm": 1.328125,
"learning_rate": 2.6943500291762686e-09,
"loss": 1.8810245990753174,
"step": 1224
},
{
"epoch": 1.6346666666666667,
"grad_norm": 0.60546875,
"learning_rate": 2.6846548529226356e-09,
"loss": 1.2452850341796875,
"step": 1226
},
{
"epoch": 1.6373333333333333,
"grad_norm": 0.58203125,
"learning_rate": 2.675021501341278e-09,
"loss": 1.812221646308899,
"step": 1228
},
{
"epoch": 1.6400000000000001,
"grad_norm": 0.87109375,
"learning_rate": 2.665450154075273e-09,
"loss": 1.5201737880706787,
"step": 1230
},
{
"epoch": 1.6426666666666667,
"grad_norm": 4.5,
"learning_rate": 2.6559409896114397e-09,
"loss": 2.3033218383789062,
"step": 1232
},
{
"epoch": 1.6453333333333333,
"grad_norm": 2.8125,
"learning_rate": 2.6464941852770087e-09,
"loss": 2.171069860458374,
"step": 1234
},
{
"epoch": 1.6480000000000001,
"grad_norm": 52.0,
"learning_rate": 2.637109917236317e-09,
"loss": 1.7426239252090454,
"step": 1236
},
{
"epoch": 1.6506666666666665,
"grad_norm": 3.015625,
"learning_rate": 2.6277883604875256e-09,
"loss": 2.4066109657287598,
"step": 1238
},
{
"epoch": 1.6533333333333333,
"grad_norm": 1.0390625,
"learning_rate": 2.6185296888593503e-09,
"loss": 1.845947027206421,
"step": 1240
},
{
"epoch": 1.6560000000000001,
"grad_norm": 0.60546875,
"learning_rate": 2.609334075007822e-09,
"loss": 1.5353820323944092,
"step": 1242
},
{
"epoch": 1.6586666666666665,
"grad_norm": 0.65234375,
"learning_rate": 2.600201690413071e-09,
"loss": 1.6985620260238647,
"step": 1244
},
{
"epoch": 1.6613333333333333,
"grad_norm": 1.6796875,
"learning_rate": 2.5911327053761234e-09,
"loss": 1.9166572093963623,
"step": 1246
},
{
"epoch": 1.6640000000000001,
"grad_norm": 0.703125,
"learning_rate": 2.5821272890157305e-09,
"loss": 1.800106167793274,
"step": 1248
},
{
"epoch": 1.6666666666666665,
"grad_norm": 1.2890625,
"learning_rate": 2.5731856092652117e-09,
"loss": 2.13812255859375,
"step": 1250
},
{
"epoch": 1.6693333333333333,
"grad_norm": 0.765625,
"learning_rate": 2.5643078328693215e-09,
"loss": 1.7946287393569946,
"step": 1252
},
{
"epoch": 1.6720000000000002,
"grad_norm": 1.4453125,
"learning_rate": 2.5554941253811474e-09,
"loss": 1.8380168676376343,
"step": 1254
},
{
"epoch": 1.6746666666666665,
"grad_norm": 1.265625,
"learning_rate": 2.546744651159014e-09,
"loss": 2.0702295303344727,
"step": 1256
},
{
"epoch": 1.6773333333333333,
"grad_norm": 3.6875,
"learning_rate": 2.538059573363423e-09,
"loss": 2.456021547317505,
"step": 1258
},
{
"epoch": 1.6800000000000002,
"grad_norm": 0.91796875,
"learning_rate": 2.529439053954007e-09,
"loss": 1.9975608587265015,
"step": 1260
},
{
"epoch": 1.6826666666666665,
"grad_norm": 1.3359375,
"learning_rate": 2.520883253686516e-09,
"loss": 2.070209264755249,
"step": 1262
},
{
"epoch": 1.6853333333333333,
"grad_norm": 0.65625,
"learning_rate": 2.512392332109812e-09,
"loss": 1.3402646780014038,
"step": 1264
},
{
"epoch": 1.688,
"grad_norm": 2.09375,
"learning_rate": 2.5039664475628977e-09,
"loss": 1.8698097467422485,
"step": 1266
},
{
"epoch": 1.6906666666666665,
"grad_norm": 2.40625,
"learning_rate": 2.4956057571719613e-09,
"loss": 2.21203351020813,
"step": 1268
},
{
"epoch": 1.6933333333333334,
"grad_norm": 3.921875,
"learning_rate": 2.4873104168474517e-09,
"loss": 2.100764751434326,
"step": 1270
},
{
"epoch": 1.696,
"grad_norm": 1.4375,
"learning_rate": 2.4790805812811644e-09,
"loss": 2.067443370819092,
"step": 1272
},
{
"epoch": 1.6986666666666665,
"grad_norm": 1.6640625,
"learning_rate": 2.470916403943361e-09,
"loss": 2.3430261611938477,
"step": 1274
},
{
"epoch": 1.7013333333333334,
"grad_norm": 5.3125,
"learning_rate": 2.4628180370799064e-09,
"loss": 1.6885303258895874,
"step": 1276
},
{
"epoch": 1.704,
"grad_norm": 1.0234375,
"learning_rate": 2.4547856317094284e-09,
"loss": 1.4781967401504517,
"step": 1278
},
{
"epoch": 1.7066666666666666,
"grad_norm": 1.0078125,
"learning_rate": 2.446819337620505e-09,
"loss": 2.173083543777466,
"step": 1280
},
{
"epoch": 1.7093333333333334,
"grad_norm": 0.875,
"learning_rate": 2.4389193033688637e-09,
"loss": 1.1628178358078003,
"step": 1282
},
{
"epoch": 1.712,
"grad_norm": 2.90625,
"learning_rate": 2.4310856762746237e-09,
"loss": 1.7809157371520996,
"step": 1284
},
{
"epoch": 1.7146666666666666,
"grad_norm": 8.5625,
"learning_rate": 2.4233186024195345e-09,
"loss": 2.0602993965148926,
"step": 1286
},
{
"epoch": 1.7173333333333334,
"grad_norm": 4.40625,
"learning_rate": 2.415618226644262e-09,
"loss": 2.208303689956665,
"step": 1288
},
{
"epoch": 1.72,
"grad_norm": 1.765625,
"learning_rate": 2.407984692545683e-09,
"loss": 1.8603630065917969,
"step": 1290
},
{
"epoch": 1.7226666666666666,
"grad_norm": 2.828125,
"learning_rate": 2.4004181424742075e-09,
"loss": 2.1588354110717773,
"step": 1292
},
{
"epoch": 1.7253333333333334,
"grad_norm": 1.203125,
"learning_rate": 2.392918717531127e-09,
"loss": 1.9170048236846924,
"step": 1294
},
{
"epoch": 1.728,
"grad_norm": 11.3125,
"learning_rate": 2.3854865575659795e-09,
"loss": 2.4841866493225098,
"step": 1296
},
{
"epoch": 1.7306666666666666,
"grad_norm": 1.375,
"learning_rate": 2.3781218011739436e-09,
"loss": 1.6329795122146606,
"step": 1298
},
{
"epoch": 1.7333333333333334,
"grad_norm": 0.33984375,
"learning_rate": 2.3708245856932555e-09,
"loss": 1.4959043264389038,
"step": 1300
},
{
"epoch": 1.736,
"grad_norm": 2.921875,
"learning_rate": 2.363595047202644e-09,
"loss": 2.1001901626586914,
"step": 1302
},
{
"epoch": 1.7386666666666666,
"grad_norm": 1.1171875,
"learning_rate": 2.356433320518795e-09,
"loss": 1.6259511709213257,
"step": 1304
},
{
"epoch": 1.7413333333333334,
"grad_norm": 0.8359375,
"learning_rate": 2.34933953919384e-09,
"loss": 1.5684748888015747,
"step": 1306
},
{
"epoch": 1.744,
"grad_norm": 2.171875,
"learning_rate": 2.3423138355128588e-09,
"loss": 1.9166902303695679,
"step": 1308
},
{
"epoch": 1.7466666666666666,
"grad_norm": 0.65625,
"learning_rate": 2.3353563404914225e-09,
"loss": 1.6639024019241333,
"step": 1310
},
{
"epoch": 1.7493333333333334,
"grad_norm": 0.98046875,
"learning_rate": 2.3284671838731394e-09,
"loss": 1.5359309911727905,
"step": 1312
},
{
"epoch": 1.752,
"grad_norm": 1.0234375,
"learning_rate": 2.3216464941272437e-09,
"loss": 1.5925889015197754,
"step": 1314
},
{
"epoch": 1.7546666666666666,
"grad_norm": 2.78125,
"learning_rate": 2.3148943984461964e-09,
"loss": 1.7936471700668335,
"step": 1316
},
{
"epoch": 1.7573333333333334,
"grad_norm": 8.625,
"learning_rate": 2.308211022743314e-09,
"loss": 1.6536723375320435,
"step": 1318
},
{
"epoch": 1.76,
"grad_norm": 1.421875,
"learning_rate": 2.301596491650421e-09,
"loss": 1.9484955072402954,
"step": 1320
},
{
"epoch": 1.7626666666666666,
"grad_norm": 0.66015625,
"learning_rate": 2.2950509285155227e-09,
"loss": 1.586497187614441,
"step": 1322
},
{
"epoch": 1.7653333333333334,
"grad_norm": 3.15625,
"learning_rate": 2.2885744554005115e-09,
"loss": 2.573892593383789,
"step": 1324
},
{
"epoch": 1.768,
"grad_norm": 3.90625,
"learning_rate": 2.282167193078883e-09,
"loss": 1.8689093589782715,
"step": 1326
},
{
"epoch": 1.7706666666666666,
"grad_norm": 3.65625,
"learning_rate": 2.27582926103349e-09,
"loss": 2.242807388305664,
"step": 1328
},
{
"epoch": 1.7733333333333334,
"grad_norm": 1.359375,
"learning_rate": 2.269560777454311e-09,
"loss": 1.885353922843933,
"step": 1330
},
{
"epoch": 1.776,
"grad_norm": 4.09375,
"learning_rate": 2.263361859236247e-09,
"loss": 2.140164375305176,
"step": 1332
},
{
"epoch": 1.7786666666666666,
"grad_norm": 3.515625,
"learning_rate": 2.257232621976942e-09,
"loss": 2.360833168029785,
"step": 1334
},
{
"epoch": 1.7813333333333334,
"grad_norm": 0.94140625,
"learning_rate": 2.251173179974626e-09,
"loss": 1.4787445068359375,
"step": 1336
},
{
"epoch": 1.784,
"grad_norm": 1.28125,
"learning_rate": 2.245183646225986e-09,
"loss": 1.6667358875274658,
"step": 1338
},
{
"epoch": 1.7866666666666666,
"grad_norm": 0.78125,
"learning_rate": 2.239264132424057e-09,
"loss": 1.5062923431396484,
"step": 1340
},
{
"epoch": 1.7893333333333334,
"grad_norm": 1.3828125,
"learning_rate": 2.2334147489561385e-09,
"loss": 1.9134619235992432,
"step": 1342
},
{
"epoch": 1.792,
"grad_norm": 3.265625,
"learning_rate": 2.227635604901739e-09,
"loss": 2.386061429977417,
"step": 1344
},
{
"epoch": 1.7946666666666666,
"grad_norm": 3.8125,
"learning_rate": 2.221926808030539e-09,
"loss": 1.713474988937378,
"step": 1346
},
{
"epoch": 1.7973333333333334,
"grad_norm": 6.90625,
"learning_rate": 2.216288464800382e-09,
"loss": 2.0952322483062744,
"step": 1348
},
{
"epoch": 1.8,
"grad_norm": 0.8046875,
"learning_rate": 2.21072068035529e-09,
"loss": 1.6858350038528442,
"step": 1350
},
{
"epoch": 1.8026666666666666,
"grad_norm": 3.28125,
"learning_rate": 2.2052235585235013e-09,
"loss": 1.7180297374725342,
"step": 1352
},
{
"epoch": 1.8053333333333335,
"grad_norm": 1.40625,
"learning_rate": 2.1997972018155367e-09,
"loss": 2.088247537612915,
"step": 1354
},
{
"epoch": 1.808,
"grad_norm": 4.03125,
"learning_rate": 2.194441711422286e-09,
"loss": 2.0213112831115723,
"step": 1356
},
{
"epoch": 1.8106666666666666,
"grad_norm": 1.6328125,
"learning_rate": 2.1891571872131214e-09,
"loss": 1.8595952987670898,
"step": 1358
},
{
"epoch": 1.8133333333333335,
"grad_norm": 1.0703125,
"learning_rate": 2.183943727734035e-09,
"loss": 1.9161452054977417,
"step": 1360
},
{
"epoch": 1.8159999999999998,
"grad_norm": 1.328125,
"learning_rate": 2.1788014302058016e-09,
"loss": 2.0716159343719482,
"step": 1362
},
{
"epoch": 1.8186666666666667,
"grad_norm": 1.421875,
"learning_rate": 2.173730390522165e-09,
"loss": 1.8699593544006348,
"step": 1364
},
{
"epoch": 1.8213333333333335,
"grad_norm": 0.640625,
"learning_rate": 2.1687307032480517e-09,
"loss": 1.4571788311004639,
"step": 1366
},
{
"epoch": 1.8239999999999998,
"grad_norm": 0.7265625,
"learning_rate": 2.163802461617804e-09,
"loss": 1.3341227769851685,
"step": 1368
},
{
"epoch": 1.8266666666666667,
"grad_norm": 3.453125,
"learning_rate": 2.1589457575334446e-09,
"loss": 2.376683235168457,
"step": 1370
},
{
"epoch": 1.8293333333333335,
"grad_norm": 1.3046875,
"learning_rate": 2.1541606815629607e-09,
"loss": 1.5830719470977783,
"step": 1372
},
{
"epoch": 1.8319999999999999,
"grad_norm": 1.4765625,
"learning_rate": 2.1494473229386157e-09,
"loss": 1.9643088579177856,
"step": 1374
},
{
"epoch": 1.8346666666666667,
"grad_norm": 2.984375,
"learning_rate": 2.1448057695552884e-09,
"loss": 2.1722934246063232,
"step": 1376
},
{
"epoch": 1.8373333333333335,
"grad_norm": 1.28125,
"learning_rate": 2.140236107968827e-09,
"loss": 2.062533140182495,
"step": 1378
},
{
"epoch": 1.8399999999999999,
"grad_norm": 3.046875,
"learning_rate": 2.1357384233944406e-09,
"loss": 2.185145378112793,
"step": 1380
},
{
"epoch": 1.8426666666666667,
"grad_norm": 1.8671875,
"learning_rate": 2.1313127997051087e-09,
"loss": 1.728112816810608,
"step": 1382
},
{
"epoch": 1.8453333333333335,
"grad_norm": 0.75,
"learning_rate": 2.1269593194300173e-09,
"loss": 1.4799309968948364,
"step": 1384
},
{
"epoch": 1.8479999999999999,
"grad_norm": 0.86328125,
"learning_rate": 2.1226780637530177e-09,
"loss": 1.1412889957427979,
"step": 1386
},
{
"epoch": 1.8506666666666667,
"grad_norm": 1.09375,
"learning_rate": 2.1184691125111164e-09,
"loss": 1.9346895217895508,
"step": 1388
},
{
"epoch": 1.8533333333333335,
"grad_norm": 1.5390625,
"learning_rate": 2.114332544192983e-09,
"loss": 1.9198468923568726,
"step": 1390
},
{
"epoch": 1.8559999999999999,
"grad_norm": 2.5625,
"learning_rate": 2.1102684359374886e-09,
"loss": 1.8833012580871582,
"step": 1392
},
{
"epoch": 1.8586666666666667,
"grad_norm": 1.375,
"learning_rate": 2.106276863532266e-09,
"loss": 1.5958240032196045,
"step": 1394
},
{
"epoch": 1.8613333333333333,
"grad_norm": 4.0,
"learning_rate": 2.1023579014122962e-09,
"loss": 1.778863787651062,
"step": 1396
},
{
"epoch": 1.8639999999999999,
"grad_norm": 0.703125,
"learning_rate": 2.098511622658523e-09,
"loss": 1.5995181798934937,
"step": 1398
},
{
"epoch": 1.8666666666666667,
"grad_norm": 0.84765625,
"learning_rate": 2.0947380989964864e-09,
"loss": 1.2716095447540283,
"step": 1400
},
{
"epoch": 1.8693333333333333,
"grad_norm": 2.9375,
"learning_rate": 2.0910374007949882e-09,
"loss": 1.8460922241210938,
"step": 1402
},
{
"epoch": 1.8719999999999999,
"grad_norm": 1.2890625,
"learning_rate": 2.0874095970647775e-09,
"loss": 1.9044862985610962,
"step": 1404
},
{
"epoch": 1.8746666666666667,
"grad_norm": 0.75390625,
"learning_rate": 2.0838547554572652e-09,
"loss": 1.7778054475784302,
"step": 1406
},
{
"epoch": 1.8773333333333333,
"grad_norm": 3.796875,
"learning_rate": 2.0803729422632627e-09,
"loss": 2.0947136878967285,
"step": 1408
},
{
"epoch": 1.88,
"grad_norm": 0.78515625,
"learning_rate": 2.0769642224117435e-09,
"loss": 1.7014892101287842,
"step": 1410
},
{
"epoch": 1.8826666666666667,
"grad_norm": 1.5859375,
"learning_rate": 2.0736286594686347e-09,
"loss": 1.6266264915466309,
"step": 1412
},
{
"epoch": 1.8853333333333333,
"grad_norm": 2.90625,
"learning_rate": 2.070366315635631e-09,
"loss": 1.8329254388809204,
"step": 1414
},
{
"epoch": 1.888,
"grad_norm": 1.2421875,
"learning_rate": 2.067177251749034e-09,
"loss": 1.946657419204712,
"step": 1416
},
{
"epoch": 1.8906666666666667,
"grad_norm": 3.28125,
"learning_rate": 2.0640615272786184e-09,
"loss": 1.5195972919464111,
"step": 1418
},
{
"epoch": 1.8933333333333333,
"grad_norm": 2.265625,
"learning_rate": 2.0610192003265235e-09,
"loss": 1.9642360210418701,
"step": 1420
},
{
"epoch": 1.896,
"grad_norm": 2.15625,
"learning_rate": 2.0580503276261686e-09,
"loss": 1.5578608512878418,
"step": 1422
},
{
"epoch": 1.8986666666666667,
"grad_norm": 0.7109375,
"learning_rate": 2.055154964541196e-09,
"loss": 1.6206289529800415,
"step": 1424
},
{
"epoch": 1.9013333333333333,
"grad_norm": 1.0,
"learning_rate": 2.0523331650644374e-09,
"loss": 1.849732518196106,
"step": 1426
},
{
"epoch": 1.904,
"grad_norm": 1.9296875,
"learning_rate": 2.049584981816909e-09,
"loss": 1.8542307615280151,
"step": 1428
},
{
"epoch": 1.9066666666666667,
"grad_norm": 0.5546875,
"learning_rate": 2.0469104660468262e-09,
"loss": 1.7200909852981567,
"step": 1430
},
{
"epoch": 1.9093333333333333,
"grad_norm": 0.6171875,
"learning_rate": 2.0443096676286543e-09,
"loss": 1.5688989162445068,
"step": 1432
},
{
"epoch": 1.912,
"grad_norm": 0.78125,
"learning_rate": 2.0417826350621728e-09,
"loss": 1.2694445848464966,
"step": 1434
},
{
"epoch": 1.9146666666666667,
"grad_norm": 3.375,
"learning_rate": 2.0393294154715734e-09,
"loss": 2.1561031341552734,
"step": 1436
},
{
"epoch": 1.9173333333333333,
"grad_norm": 1.328125,
"learning_rate": 2.0369500546045812e-09,
"loss": 2.044318199157715,
"step": 1438
},
{
"epoch": 1.92,
"grad_norm": 4.0625,
"learning_rate": 2.0346445968315998e-09,
"loss": 2.1859350204467773,
"step": 1440
},
{
"epoch": 1.9226666666666667,
"grad_norm": 3.09375,
"learning_rate": 2.0324130851448873e-09,
"loss": 2.1700329780578613,
"step": 1442
},
{
"epoch": 1.9253333333333333,
"grad_norm": 4.53125,
"learning_rate": 2.0302555611577514e-09,
"loss": 1.9053682088851929,
"step": 1444
},
{
"epoch": 1.928,
"grad_norm": 3.171875,
"learning_rate": 2.028172065103775e-09,
"loss": 2.2752044200897217,
"step": 1446
},
{
"epoch": 1.9306666666666668,
"grad_norm": 0.76171875,
"learning_rate": 2.0261626358360648e-09,
"loss": 1.795888900756836,
"step": 1448
},
{
"epoch": 1.9333333333333333,
"grad_norm": 2.0625,
"learning_rate": 2.0242273108265288e-09,
"loss": 2.250343084335327,
"step": 1450
},
{
"epoch": 1.936,
"grad_norm": 1.578125,
"learning_rate": 2.0223661261651756e-09,
"loss": 1.5136520862579346,
"step": 1452
},
{
"epoch": 1.9386666666666668,
"grad_norm": 0.734375,
"learning_rate": 2.0205791165594414e-09,
"loss": 1.6827259063720703,
"step": 1454
},
{
"epoch": 1.9413333333333334,
"grad_norm": 1.0234375,
"learning_rate": 2.0188663153335444e-09,
"loss": 2.275217294692993,
"step": 1456
},
{
"epoch": 1.944,
"grad_norm": 3.28125,
"learning_rate": 2.0172277544278608e-09,
"loss": 1.769717812538147,
"step": 1458
},
{
"epoch": 1.9466666666666668,
"grad_norm": 0.55078125,
"learning_rate": 2.0156634643983325e-09,
"loss": 1.218135118484497,
"step": 1460
},
{
"epoch": 1.9493333333333334,
"grad_norm": 0.890625,
"learning_rate": 2.0141734744158944e-09,
"loss": 1.6439656019210815,
"step": 1462
},
{
"epoch": 1.952,
"grad_norm": 1.1796875,
"learning_rate": 2.0127578122659318e-09,
"loss": 2.0347836017608643,
"step": 1464
},
{
"epoch": 1.9546666666666668,
"grad_norm": 3.234375,
"learning_rate": 2.0114165043477616e-09,
"loss": 2.0779073238372803,
"step": 1466
},
{
"epoch": 1.9573333333333334,
"grad_norm": 0.74609375,
"learning_rate": 2.010149575674142e-09,
"loss": 1.604543685913086,
"step": 1468
},
{
"epoch": 1.96,
"grad_norm": 1.7265625,
"learning_rate": 2.008957049870802e-09,
"loss": 2.00571608543396,
"step": 1470
},
{
"epoch": 1.9626666666666668,
"grad_norm": 6.1875,
"learning_rate": 2.0078389491760053e-09,
"loss": 1.7918572425842285,
"step": 1472
},
{
"epoch": 1.9653333333333334,
"grad_norm": 1.5546875,
"learning_rate": 2.006795294440132e-09,
"loss": 1.6840412616729736,
"step": 1474
},
{
"epoch": 1.968,
"grad_norm": 0.6640625,
"learning_rate": 2.0058261051252924e-09,
"loss": 1.3448158502578735,
"step": 1476
},
{
"epoch": 1.9706666666666668,
"grad_norm": 2.375,
"learning_rate": 2.004931399304963e-09,
"loss": 1.295865774154663,
"step": 1478
},
{
"epoch": 1.9733333333333334,
"grad_norm": 1.3515625,
"learning_rate": 2.0041111936636493e-09,
"loss": 1.9201714992523193,
"step": 1480
},
{
"epoch": 1.976,
"grad_norm": 3.453125,
"learning_rate": 2.0033655034965744e-09,
"loss": 2.2232666015625,
"step": 1482
},
{
"epoch": 1.9786666666666668,
"grad_norm": 3.015625,
"learning_rate": 2.0026943427093947e-09,
"loss": 2.1795105934143066,
"step": 1484
},
{
"epoch": 1.9813333333333332,
"grad_norm": 1.890625,
"learning_rate": 2.0020977238179403e-09,
"loss": 2.0359418392181396,
"step": 1486
},
{
"epoch": 1.984,
"grad_norm": 3.0625,
"learning_rate": 2.0015756579479818e-09,
"loss": 1.7598989009857178,
"step": 1488
},
{
"epoch": 1.9866666666666668,
"grad_norm": 4.4375,
"learning_rate": 2.0011281548350195e-09,
"loss": 2.175452470779419,
"step": 1490
},
{
"epoch": 1.9893333333333332,
"grad_norm": 0.5390625,
"learning_rate": 2.00075522282411e-09,
"loss": 1.6275960206985474,
"step": 1492
},
{
"epoch": 1.992,
"grad_norm": 3.15625,
"learning_rate": 2.0004568688697e-09,
"loss": 2.3912622928619385,
"step": 1494
},
{
"epoch": 1.9946666666666668,
"grad_norm": 3.203125,
"learning_rate": 2.0002330985355065e-09,
"loss": 1.9995014667510986,
"step": 1496
},
{
"epoch": 1.9973333333333332,
"grad_norm": 2.84375,
"learning_rate": 2.0000839159944053e-09,
"loss": 1.8321871757507324,
"step": 1498
},
{
"epoch": 2.0,
"grad_norm": 0.4453125,
"learning_rate": 2.0000093240283575e-09,
"loss": 1.464523196220398,
"step": 1500
},
{
"epoch": 2.0,
"step": 1500,
"total_flos": 2.4645762376668283e+18,
"train_loss": 1.8469134418169657,
"train_runtime": 67297.7524,
"train_samples_per_second": 0.357,
"train_steps_per_second": 0.022
}
],
"logging_steps": 2,
"max_steps": 1500,
"num_input_tokens_seen": 0,
"num_train_epochs": 2,
"save_steps": 9999999,
"stateful_callbacks": {
"TrainerControl": {
"args": {
"should_epoch_stop": false,
"should_evaluate": false,
"should_log": false,
"should_save": true,
"should_training_stop": true
},
"attributes": {}
}
},
"total_flos": 2.4645762376668283e+18,
"train_batch_size": 1,
"trial_name": null,
"trial_params": null
}