ljcamargo's picture
Training in progress, step 3750, checkpoint
bab085d verified
{
"best_global_step": null,
"best_metric": null,
"best_model_checkpoint": null,
"epoch": 1.0,
"eval_steps": 500,
"global_step": 3750,
"is_hyper_param_search": false,
"is_local_process_zero": true,
"is_world_process_zero": true,
"log_history": [
{
"epoch": 0.0026666666666666666,
"grad_norm": 43.21000289916992,
"learning_rate": 8.75e-06,
"loss": 3.2727,
"step": 10
},
{
"epoch": 0.005333333333333333,
"grad_norm": 47.455650329589844,
"learning_rate": 2.125e-05,
"loss": 2.1485,
"step": 20
},
{
"epoch": 0.008,
"grad_norm": 31.872121810913086,
"learning_rate": 3.375000000000001e-05,
"loss": 1.5833,
"step": 30
},
{
"epoch": 0.010666666666666666,
"grad_norm": 36.87827682495117,
"learning_rate": 4.6250000000000006e-05,
"loss": 1.9734,
"step": 40
},
{
"epoch": 0.013333333333333334,
"grad_norm": 70.77291107177734,
"learning_rate": 4.9905660377358493e-05,
"loss": 1.822,
"step": 50
},
{
"epoch": 0.016,
"grad_norm": 29.27912712097168,
"learning_rate": 4.977088948787062e-05,
"loss": 1.9707,
"step": 60
},
{
"epoch": 0.018666666666666668,
"grad_norm": 36.23347854614258,
"learning_rate": 4.963611859838275e-05,
"loss": 1.8666,
"step": 70
},
{
"epoch": 0.021333333333333333,
"grad_norm": 31.739728927612305,
"learning_rate": 4.950134770889488e-05,
"loss": 1.7691,
"step": 80
},
{
"epoch": 0.024,
"grad_norm": 42.13410568237305,
"learning_rate": 4.936657681940701e-05,
"loss": 1.9758,
"step": 90
},
{
"epoch": 0.02666666666666667,
"grad_norm": 24.906110763549805,
"learning_rate": 4.923180592991914e-05,
"loss": 1.5765,
"step": 100
},
{
"epoch": 0.029333333333333333,
"grad_norm": 28.87664794921875,
"learning_rate": 4.909703504043127e-05,
"loss": 1.7567,
"step": 110
},
{
"epoch": 0.032,
"grad_norm": 37.15755844116211,
"learning_rate": 4.89622641509434e-05,
"loss": 1.7731,
"step": 120
},
{
"epoch": 0.034666666666666665,
"grad_norm": 29.51161003112793,
"learning_rate": 4.8827493261455524e-05,
"loss": 1.5907,
"step": 130
},
{
"epoch": 0.037333333333333336,
"grad_norm": 29.301471710205078,
"learning_rate": 4.869272237196766e-05,
"loss": 1.6875,
"step": 140
},
{
"epoch": 0.04,
"grad_norm": 46.797672271728516,
"learning_rate": 4.855795148247978e-05,
"loss": 1.7979,
"step": 150
},
{
"epoch": 0.042666666666666665,
"grad_norm": 25.33574104309082,
"learning_rate": 4.8423180592991916e-05,
"loss": 1.2263,
"step": 160
},
{
"epoch": 0.04533333333333334,
"grad_norm": 25.485023498535156,
"learning_rate": 4.828840970350404e-05,
"loss": 1.488,
"step": 170
},
{
"epoch": 0.048,
"grad_norm": 74.90763092041016,
"learning_rate": 4.8153638814016175e-05,
"loss": 1.3792,
"step": 180
},
{
"epoch": 0.050666666666666665,
"grad_norm": 33.34780502319336,
"learning_rate": 4.80188679245283e-05,
"loss": 1.6467,
"step": 190
},
{
"epoch": 0.05333333333333334,
"grad_norm": 24.647794723510742,
"learning_rate": 4.7884097035040435e-05,
"loss": 1.7445,
"step": 200
},
{
"epoch": 0.056,
"grad_norm": 36.283172607421875,
"learning_rate": 4.774932614555256e-05,
"loss": 1.4224,
"step": 210
},
{
"epoch": 0.058666666666666666,
"grad_norm": 37.99179458618164,
"learning_rate": 4.762803234501348e-05,
"loss": 1.3721,
"step": 220
},
{
"epoch": 0.06133333333333333,
"grad_norm": 42.827003479003906,
"learning_rate": 4.7493261455525606e-05,
"loss": 1.3213,
"step": 230
},
{
"epoch": 0.064,
"grad_norm": 22.346420288085938,
"learning_rate": 4.735849056603774e-05,
"loss": 1.3944,
"step": 240
},
{
"epoch": 0.06666666666666667,
"grad_norm": 39.7874755859375,
"learning_rate": 4.7223719676549865e-05,
"loss": 1.4543,
"step": 250
},
{
"epoch": 0.06933333333333333,
"grad_norm": 38.3151969909668,
"learning_rate": 4.7088948787062e-05,
"loss": 1.2215,
"step": 260
},
{
"epoch": 0.072,
"grad_norm": 30.64872932434082,
"learning_rate": 4.6954177897574125e-05,
"loss": 1.2395,
"step": 270
},
{
"epoch": 0.07466666666666667,
"grad_norm": 48.72249984741211,
"learning_rate": 4.681940700808626e-05,
"loss": 1.2292,
"step": 280
},
{
"epoch": 0.07733333333333334,
"grad_norm": 49.0009651184082,
"learning_rate": 4.6684636118598384e-05,
"loss": 1.3233,
"step": 290
},
{
"epoch": 0.08,
"grad_norm": 25.584505081176758,
"learning_rate": 4.654986522911051e-05,
"loss": 1.3794,
"step": 300
},
{
"epoch": 0.08266666666666667,
"grad_norm": 28.286766052246094,
"learning_rate": 4.641509433962264e-05,
"loss": 1.5431,
"step": 310
},
{
"epoch": 0.08533333333333333,
"grad_norm": 26.837583541870117,
"learning_rate": 4.628032345013477e-05,
"loss": 1.0882,
"step": 320
},
{
"epoch": 0.088,
"grad_norm": 24.280277252197266,
"learning_rate": 4.61455525606469e-05,
"loss": 1.4259,
"step": 330
},
{
"epoch": 0.09066666666666667,
"grad_norm": 19.906932830810547,
"learning_rate": 4.601078167115903e-05,
"loss": 1.0805,
"step": 340
},
{
"epoch": 0.09333333333333334,
"grad_norm": 31.082399368286133,
"learning_rate": 4.587601078167116e-05,
"loss": 1.8389,
"step": 350
},
{
"epoch": 0.096,
"grad_norm": 52.819393157958984,
"learning_rate": 4.574123989218329e-05,
"loss": 1.4061,
"step": 360
},
{
"epoch": 0.09866666666666667,
"grad_norm": 20.074241638183594,
"learning_rate": 4.560646900269542e-05,
"loss": 1.2801,
"step": 370
},
{
"epoch": 0.10133333333333333,
"grad_norm": 20.526960372924805,
"learning_rate": 4.547169811320755e-05,
"loss": 1.4846,
"step": 380
},
{
"epoch": 0.104,
"grad_norm": 18.68368148803711,
"learning_rate": 4.533692722371968e-05,
"loss": 1.0469,
"step": 390
},
{
"epoch": 0.10666666666666667,
"grad_norm": 26.07550811767578,
"learning_rate": 4.520215633423181e-05,
"loss": 1.0938,
"step": 400
},
{
"epoch": 0.10933333333333334,
"grad_norm": 13.613316535949707,
"learning_rate": 4.506738544474394e-05,
"loss": 1.3384,
"step": 410
},
{
"epoch": 0.112,
"grad_norm": 24.458545684814453,
"learning_rate": 4.493261455525607e-05,
"loss": 1.0776,
"step": 420
},
{
"epoch": 0.11466666666666667,
"grad_norm": 22.590333938598633,
"learning_rate": 4.47978436657682e-05,
"loss": 1.0344,
"step": 430
},
{
"epoch": 0.11733333333333333,
"grad_norm": 25.568437576293945,
"learning_rate": 4.4663072776280325e-05,
"loss": 1.1796,
"step": 440
},
{
"epoch": 0.12,
"grad_norm": 24.736976623535156,
"learning_rate": 4.452830188679246e-05,
"loss": 1.2969,
"step": 450
},
{
"epoch": 0.12266666666666666,
"grad_norm": 27.838829040527344,
"learning_rate": 4.4393530997304585e-05,
"loss": 1.0064,
"step": 460
},
{
"epoch": 0.12533333333333332,
"grad_norm": 22.678813934326172,
"learning_rate": 4.425876010781672e-05,
"loss": 1.1484,
"step": 470
},
{
"epoch": 0.128,
"grad_norm": 21.477985382080078,
"learning_rate": 4.4123989218328844e-05,
"loss": 1.0713,
"step": 480
},
{
"epoch": 0.13066666666666665,
"grad_norm": 44.675785064697266,
"learning_rate": 4.398921832884097e-05,
"loss": 1.1913,
"step": 490
},
{
"epoch": 0.13333333333333333,
"grad_norm": 36.141239166259766,
"learning_rate": 4.38544474393531e-05,
"loss": 1.0395,
"step": 500
},
{
"epoch": 0.136,
"grad_norm": 28.088905334472656,
"learning_rate": 4.371967654986523e-05,
"loss": 1.3696,
"step": 510
},
{
"epoch": 0.13866666666666666,
"grad_norm": 33.25151062011719,
"learning_rate": 4.358490566037736e-05,
"loss": 1.0583,
"step": 520
},
{
"epoch": 0.14133333333333334,
"grad_norm": 27.604703903198242,
"learning_rate": 4.345013477088949e-05,
"loss": 1.2549,
"step": 530
},
{
"epoch": 0.144,
"grad_norm": 18.853084564208984,
"learning_rate": 4.331536388140162e-05,
"loss": 1.1462,
"step": 540
},
{
"epoch": 0.14666666666666667,
"grad_norm": 21.798755645751953,
"learning_rate": 4.318059299191375e-05,
"loss": 0.9352,
"step": 550
},
{
"epoch": 0.14933333333333335,
"grad_norm": 20.20722770690918,
"learning_rate": 4.3045822102425874e-05,
"loss": 0.9641,
"step": 560
},
{
"epoch": 0.152,
"grad_norm": 20.60011100769043,
"learning_rate": 4.291105121293801e-05,
"loss": 1.2349,
"step": 570
},
{
"epoch": 0.15466666666666667,
"grad_norm": 26.98384666442871,
"learning_rate": 4.2776280323450133e-05,
"loss": 1.0098,
"step": 580
},
{
"epoch": 0.15733333333333333,
"grad_norm": 16.067293167114258,
"learning_rate": 4.2641509433962266e-05,
"loss": 1.0833,
"step": 590
},
{
"epoch": 0.16,
"grad_norm": 22.49300193786621,
"learning_rate": 4.250673854447439e-05,
"loss": 1.093,
"step": 600
},
{
"epoch": 0.16266666666666665,
"grad_norm": 18.183324813842773,
"learning_rate": 4.2371967654986526e-05,
"loss": 0.9785,
"step": 610
},
{
"epoch": 0.16533333333333333,
"grad_norm": 25.482059478759766,
"learning_rate": 4.223719676549865e-05,
"loss": 1.0856,
"step": 620
},
{
"epoch": 0.168,
"grad_norm": 23.133333206176758,
"learning_rate": 4.210242587601078e-05,
"loss": 0.9639,
"step": 630
},
{
"epoch": 0.17066666666666666,
"grad_norm": 18.067371368408203,
"learning_rate": 4.196765498652291e-05,
"loss": 0.9634,
"step": 640
},
{
"epoch": 0.17333333333333334,
"grad_norm": 12.229750633239746,
"learning_rate": 4.1832884097035044e-05,
"loss": 1.0344,
"step": 650
},
{
"epoch": 0.176,
"grad_norm": 22.890745162963867,
"learning_rate": 4.169811320754717e-05,
"loss": 0.9957,
"step": 660
},
{
"epoch": 0.17866666666666667,
"grad_norm": 14.036510467529297,
"learning_rate": 4.1563342318059304e-05,
"loss": 1.0437,
"step": 670
},
{
"epoch": 0.18133333333333335,
"grad_norm": 20.7513427734375,
"learning_rate": 4.1428571428571437e-05,
"loss": 0.9701,
"step": 680
},
{
"epoch": 0.184,
"grad_norm": 17.166906356811523,
"learning_rate": 4.129380053908356e-05,
"loss": 1.0441,
"step": 690
},
{
"epoch": 0.18666666666666668,
"grad_norm": 20.572906494140625,
"learning_rate": 4.115902964959569e-05,
"loss": 0.9385,
"step": 700
},
{
"epoch": 0.18933333333333333,
"grad_norm": 31.991064071655273,
"learning_rate": 4.102425876010782e-05,
"loss": 0.8948,
"step": 710
},
{
"epoch": 0.192,
"grad_norm": 17.177244186401367,
"learning_rate": 4.088948787061995e-05,
"loss": 0.9879,
"step": 720
},
{
"epoch": 0.19466666666666665,
"grad_norm": 40.46111297607422,
"learning_rate": 4.075471698113208e-05,
"loss": 0.9407,
"step": 730
},
{
"epoch": 0.19733333333333333,
"grad_norm": 18.954919815063477,
"learning_rate": 4.061994609164421e-05,
"loss": 0.8769,
"step": 740
},
{
"epoch": 0.2,
"grad_norm": 27.662670135498047,
"learning_rate": 4.0485175202156334e-05,
"loss": 0.9017,
"step": 750
},
{
"epoch": 0.20266666666666666,
"grad_norm": 23.883554458618164,
"learning_rate": 4.035040431266847e-05,
"loss": 0.8869,
"step": 760
},
{
"epoch": 0.20533333333333334,
"grad_norm": 12.331147193908691,
"learning_rate": 4.021563342318059e-05,
"loss": 1.0079,
"step": 770
},
{
"epoch": 0.208,
"grad_norm": 28.752796173095703,
"learning_rate": 4.0080862533692726e-05,
"loss": 1.086,
"step": 780
},
{
"epoch": 0.21066666666666667,
"grad_norm": 13.401335716247559,
"learning_rate": 3.994609164420485e-05,
"loss": 0.9125,
"step": 790
},
{
"epoch": 0.21333333333333335,
"grad_norm": 15.617888450622559,
"learning_rate": 3.9811320754716985e-05,
"loss": 1.0721,
"step": 800
},
{
"epoch": 0.216,
"grad_norm": 15.418866157531738,
"learning_rate": 3.967654986522911e-05,
"loss": 0.9077,
"step": 810
},
{
"epoch": 0.21866666666666668,
"grad_norm": 15.754548072814941,
"learning_rate": 3.954177897574124e-05,
"loss": 0.8357,
"step": 820
},
{
"epoch": 0.22133333333333333,
"grad_norm": 41.20192337036133,
"learning_rate": 3.940700808625337e-05,
"loss": 0.9083,
"step": 830
},
{
"epoch": 0.224,
"grad_norm": 16.211647033691406,
"learning_rate": 3.92722371967655e-05,
"loss": 0.9127,
"step": 840
},
{
"epoch": 0.22666666666666666,
"grad_norm": 13.946799278259277,
"learning_rate": 3.913746630727763e-05,
"loss": 0.7372,
"step": 850
},
{
"epoch": 0.22933333333333333,
"grad_norm": 21.009559631347656,
"learning_rate": 3.9002695417789756e-05,
"loss": 1.3809,
"step": 860
},
{
"epoch": 0.232,
"grad_norm": 21.615312576293945,
"learning_rate": 3.886792452830189e-05,
"loss": 0.6986,
"step": 870
},
{
"epoch": 0.23466666666666666,
"grad_norm": 19.901323318481445,
"learning_rate": 3.8733153638814016e-05,
"loss": 0.7376,
"step": 880
},
{
"epoch": 0.23733333333333334,
"grad_norm": 16.549930572509766,
"learning_rate": 3.859838274932614e-05,
"loss": 0.909,
"step": 890
},
{
"epoch": 0.24,
"grad_norm": 15.812335968017578,
"learning_rate": 3.8463611859838275e-05,
"loss": 0.992,
"step": 900
},
{
"epoch": 0.24266666666666667,
"grad_norm": 24.12803840637207,
"learning_rate": 3.832884097035041e-05,
"loss": 0.6972,
"step": 910
},
{
"epoch": 0.24533333333333332,
"grad_norm": 21.171733856201172,
"learning_rate": 3.8194070080862534e-05,
"loss": 0.7434,
"step": 920
},
{
"epoch": 0.248,
"grad_norm": 26.37090301513672,
"learning_rate": 3.805929919137467e-05,
"loss": 0.8473,
"step": 930
},
{
"epoch": 0.25066666666666665,
"grad_norm": 20.04369354248047,
"learning_rate": 3.7924528301886794e-05,
"loss": 0.894,
"step": 940
},
{
"epoch": 0.25333333333333335,
"grad_norm": 13.9522705078125,
"learning_rate": 3.778975741239893e-05,
"loss": 0.9453,
"step": 950
},
{
"epoch": 0.256,
"grad_norm": 24.92080307006836,
"learning_rate": 3.765498652291105e-05,
"loss": 0.8933,
"step": 960
},
{
"epoch": 0.25866666666666666,
"grad_norm": 16.42112922668457,
"learning_rate": 3.7520215633423186e-05,
"loss": 0.8796,
"step": 970
},
{
"epoch": 0.2613333333333333,
"grad_norm": 20.49955177307129,
"learning_rate": 3.738544474393531e-05,
"loss": 0.9124,
"step": 980
},
{
"epoch": 0.264,
"grad_norm": 15.735032081604004,
"learning_rate": 3.7250673854447445e-05,
"loss": 0.7667,
"step": 990
},
{
"epoch": 0.26666666666666666,
"grad_norm": 19.217073440551758,
"learning_rate": 3.711590296495957e-05,
"loss": 0.8998,
"step": 1000
},
{
"epoch": 0.2693333333333333,
"grad_norm": 8.541267395019531,
"learning_rate": 3.69811320754717e-05,
"loss": 0.7713,
"step": 1010
},
{
"epoch": 0.272,
"grad_norm": 14.928740501403809,
"learning_rate": 3.684636118598383e-05,
"loss": 0.7236,
"step": 1020
},
{
"epoch": 0.27466666666666667,
"grad_norm": 16.99907875061035,
"learning_rate": 3.671159029649596e-05,
"loss": 1.1256,
"step": 1030
},
{
"epoch": 0.2773333333333333,
"grad_norm": 19.001367568969727,
"learning_rate": 3.657681940700809e-05,
"loss": 0.7618,
"step": 1040
},
{
"epoch": 0.28,
"grad_norm": 10.604147911071777,
"learning_rate": 3.6442048517520216e-05,
"loss": 0.552,
"step": 1050
},
{
"epoch": 0.2826666666666667,
"grad_norm": 21.42070960998535,
"learning_rate": 3.630727762803235e-05,
"loss": 0.7332,
"step": 1060
},
{
"epoch": 0.2853333333333333,
"grad_norm": 18.641592025756836,
"learning_rate": 3.6172506738544476e-05,
"loss": 0.8692,
"step": 1070
},
{
"epoch": 0.288,
"grad_norm": 16.066688537597656,
"learning_rate": 3.60377358490566e-05,
"loss": 0.8477,
"step": 1080
},
{
"epoch": 0.2906666666666667,
"grad_norm": 12.110546112060547,
"learning_rate": 3.591644204851752e-05,
"loss": 0.7791,
"step": 1090
},
{
"epoch": 0.29333333333333333,
"grad_norm": 16.413415908813477,
"learning_rate": 3.5781671159029654e-05,
"loss": 0.8859,
"step": 1100
},
{
"epoch": 0.296,
"grad_norm": 22.351011276245117,
"learning_rate": 3.564690026954178e-05,
"loss": 0.7636,
"step": 1110
},
{
"epoch": 0.2986666666666667,
"grad_norm": 24.596023559570312,
"learning_rate": 3.551212938005391e-05,
"loss": 0.7844,
"step": 1120
},
{
"epoch": 0.30133333333333334,
"grad_norm": 22.409677505493164,
"learning_rate": 3.537735849056604e-05,
"loss": 0.6592,
"step": 1130
},
{
"epoch": 0.304,
"grad_norm": 24.0985164642334,
"learning_rate": 3.524258760107817e-05,
"loss": 0.6166,
"step": 1140
},
{
"epoch": 0.30666666666666664,
"grad_norm": 27.24460220336914,
"learning_rate": 3.51078167115903e-05,
"loss": 0.6103,
"step": 1150
},
{
"epoch": 0.30933333333333335,
"grad_norm": 19.044878005981445,
"learning_rate": 3.497304582210243e-05,
"loss": 0.8619,
"step": 1160
},
{
"epoch": 0.312,
"grad_norm": 15.642664909362793,
"learning_rate": 3.483827493261456e-05,
"loss": 0.5552,
"step": 1170
},
{
"epoch": 0.31466666666666665,
"grad_norm": 15.886361122131348,
"learning_rate": 3.470350404312669e-05,
"loss": 0.6504,
"step": 1180
},
{
"epoch": 0.31733333333333336,
"grad_norm": 13.45265007019043,
"learning_rate": 3.456873315363882e-05,
"loss": 0.6795,
"step": 1190
},
{
"epoch": 0.32,
"grad_norm": 16.279279708862305,
"learning_rate": 3.4433962264150943e-05,
"loss": 0.7133,
"step": 1200
},
{
"epoch": 0.32266666666666666,
"grad_norm": 13.857735633850098,
"learning_rate": 3.4299191374663076e-05,
"loss": 0.7624,
"step": 1210
},
{
"epoch": 0.3253333333333333,
"grad_norm": 30.951120376586914,
"learning_rate": 3.41644204851752e-05,
"loss": 0.8361,
"step": 1220
},
{
"epoch": 0.328,
"grad_norm": 18.188127517700195,
"learning_rate": 3.4029649595687336e-05,
"loss": 0.8501,
"step": 1230
},
{
"epoch": 0.33066666666666666,
"grad_norm": 10.986045837402344,
"learning_rate": 3.389487870619946e-05,
"loss": 0.5995,
"step": 1240
},
{
"epoch": 0.3333333333333333,
"grad_norm": 20.819345474243164,
"learning_rate": 3.376010781671159e-05,
"loss": 0.7281,
"step": 1250
},
{
"epoch": 0.336,
"grad_norm": 11.451189041137695,
"learning_rate": 3.362533692722372e-05,
"loss": 0.7865,
"step": 1260
},
{
"epoch": 0.33866666666666667,
"grad_norm": 14.050557136535645,
"learning_rate": 3.349056603773585e-05,
"loss": 0.7317,
"step": 1270
},
{
"epoch": 0.3413333333333333,
"grad_norm": 15.141704559326172,
"learning_rate": 3.335579514824798e-05,
"loss": 0.8523,
"step": 1280
},
{
"epoch": 0.344,
"grad_norm": 10.00051212310791,
"learning_rate": 3.322102425876011e-05,
"loss": 0.6845,
"step": 1290
},
{
"epoch": 0.3466666666666667,
"grad_norm": 13.601828575134277,
"learning_rate": 3.308625336927224e-05,
"loss": 0.6095,
"step": 1300
},
{
"epoch": 0.34933333333333333,
"grad_norm": 10.909045219421387,
"learning_rate": 3.2951482479784366e-05,
"loss": 0.6171,
"step": 1310
},
{
"epoch": 0.352,
"grad_norm": 11.6277494430542,
"learning_rate": 3.281671159029649e-05,
"loss": 0.6462,
"step": 1320
},
{
"epoch": 0.3546666666666667,
"grad_norm": 20.13886260986328,
"learning_rate": 3.2681940700808625e-05,
"loss": 0.7949,
"step": 1330
},
{
"epoch": 0.35733333333333334,
"grad_norm": 17.524749755859375,
"learning_rate": 3.254716981132075e-05,
"loss": 0.652,
"step": 1340
},
{
"epoch": 0.36,
"grad_norm": 54.58905029296875,
"learning_rate": 3.2412398921832885e-05,
"loss": 0.8208,
"step": 1350
},
{
"epoch": 0.3626666666666667,
"grad_norm": 18.752511978149414,
"learning_rate": 3.227762803234501e-05,
"loss": 0.5932,
"step": 1360
},
{
"epoch": 0.36533333333333334,
"grad_norm": 14.622041702270508,
"learning_rate": 3.2142857142857144e-05,
"loss": 0.7167,
"step": 1370
},
{
"epoch": 0.368,
"grad_norm": 8.478232383728027,
"learning_rate": 3.200808625336928e-05,
"loss": 0.7539,
"step": 1380
},
{
"epoch": 0.37066666666666664,
"grad_norm": 12.95142650604248,
"learning_rate": 3.18733153638814e-05,
"loss": 0.5204,
"step": 1390
},
{
"epoch": 0.37333333333333335,
"grad_norm": 17.096162796020508,
"learning_rate": 3.1738544474393536e-05,
"loss": 0.6483,
"step": 1400
},
{
"epoch": 0.376,
"grad_norm": 10.984807014465332,
"learning_rate": 3.160377358490566e-05,
"loss": 0.6095,
"step": 1410
},
{
"epoch": 0.37866666666666665,
"grad_norm": 13.153656005859375,
"learning_rate": 3.1469002695417795e-05,
"loss": 0.9426,
"step": 1420
},
{
"epoch": 0.38133333333333336,
"grad_norm": 17.266773223876953,
"learning_rate": 3.133423180592992e-05,
"loss": 0.6305,
"step": 1430
},
{
"epoch": 0.384,
"grad_norm": 19.149139404296875,
"learning_rate": 3.1199460916442055e-05,
"loss": 0.5216,
"step": 1440
},
{
"epoch": 0.38666666666666666,
"grad_norm": 16.195602416992188,
"learning_rate": 3.106469002695418e-05,
"loss": 0.6495,
"step": 1450
},
{
"epoch": 0.3893333333333333,
"grad_norm": 22.2844295501709,
"learning_rate": 3.092991913746631e-05,
"loss": 0.6727,
"step": 1460
},
{
"epoch": 0.392,
"grad_norm": 35.478431701660156,
"learning_rate": 3.079514824797844e-05,
"loss": 0.523,
"step": 1470
},
{
"epoch": 0.39466666666666667,
"grad_norm": 16.394384384155273,
"learning_rate": 3.0660377358490567e-05,
"loss": 0.6651,
"step": 1480
},
{
"epoch": 0.3973333333333333,
"grad_norm": 27.04049301147461,
"learning_rate": 3.05256064690027e-05,
"loss": 0.6955,
"step": 1490
},
{
"epoch": 0.4,
"grad_norm": 16.169918060302734,
"learning_rate": 3.0390835579514826e-05,
"loss": 0.9615,
"step": 1500
},
{
"epoch": 0.4026666666666667,
"grad_norm": 13.561074256896973,
"learning_rate": 3.0256064690026952e-05,
"loss": 0.5601,
"step": 1510
},
{
"epoch": 0.4053333333333333,
"grad_norm": 11.765976905822754,
"learning_rate": 3.0121293800539085e-05,
"loss": 0.8551,
"step": 1520
},
{
"epoch": 0.408,
"grad_norm": 19.16045570373535,
"learning_rate": 2.998652291105121e-05,
"loss": 0.7272,
"step": 1530
},
{
"epoch": 0.4106666666666667,
"grad_norm": 16.194807052612305,
"learning_rate": 2.9851752021563344e-05,
"loss": 0.5103,
"step": 1540
},
{
"epoch": 0.41333333333333333,
"grad_norm": 17.953489303588867,
"learning_rate": 2.971698113207547e-05,
"loss": 0.5305,
"step": 1550
},
{
"epoch": 0.416,
"grad_norm": 9.067590713500977,
"learning_rate": 2.9582210242587604e-05,
"loss": 0.5572,
"step": 1560
},
{
"epoch": 0.4186666666666667,
"grad_norm": 13.370523452758789,
"learning_rate": 2.9447439353099733e-05,
"loss": 0.7039,
"step": 1570
},
{
"epoch": 0.42133333333333334,
"grad_norm": 16.49010467529297,
"learning_rate": 2.931266846361186e-05,
"loss": 0.6186,
"step": 1580
},
{
"epoch": 0.424,
"grad_norm": 6.0413432121276855,
"learning_rate": 2.9177897574123993e-05,
"loss": 0.5004,
"step": 1590
},
{
"epoch": 0.4266666666666667,
"grad_norm": 14.460140228271484,
"learning_rate": 2.904312668463612e-05,
"loss": 0.5807,
"step": 1600
},
{
"epoch": 0.42933333333333334,
"grad_norm": 15.20493221282959,
"learning_rate": 2.8908355795148252e-05,
"loss": 0.7204,
"step": 1610
},
{
"epoch": 0.432,
"grad_norm": 12.341790199279785,
"learning_rate": 2.8773584905660378e-05,
"loss": 0.5921,
"step": 1620
},
{
"epoch": 0.43466666666666665,
"grad_norm": 10.590622901916504,
"learning_rate": 2.863881401617251e-05,
"loss": 0.6006,
"step": 1630
},
{
"epoch": 0.43733333333333335,
"grad_norm": 8.964296340942383,
"learning_rate": 2.8504043126684637e-05,
"loss": 0.6091,
"step": 1640
},
{
"epoch": 0.44,
"grad_norm": 8.68560791015625,
"learning_rate": 2.8369272237196764e-05,
"loss": 0.4824,
"step": 1650
},
{
"epoch": 0.44266666666666665,
"grad_norm": 13.087327003479004,
"learning_rate": 2.8234501347708897e-05,
"loss": 0.555,
"step": 1660
},
{
"epoch": 0.44533333333333336,
"grad_norm": 12.374855995178223,
"learning_rate": 2.8099730458221023e-05,
"loss": 0.495,
"step": 1670
},
{
"epoch": 0.448,
"grad_norm": 15.60127067565918,
"learning_rate": 2.7964959568733156e-05,
"loss": 0.4963,
"step": 1680
},
{
"epoch": 0.45066666666666666,
"grad_norm": 18.035654067993164,
"learning_rate": 2.7830188679245282e-05,
"loss": 0.4912,
"step": 1690
},
{
"epoch": 0.4533333333333333,
"grad_norm": 13.443245887756348,
"learning_rate": 2.7695417789757415e-05,
"loss": 0.5632,
"step": 1700
},
{
"epoch": 0.456,
"grad_norm": 12.241705894470215,
"learning_rate": 2.7560646900269545e-05,
"loss": 0.6605,
"step": 1710
},
{
"epoch": 0.45866666666666667,
"grad_norm": 11.940319061279297,
"learning_rate": 2.742587601078167e-05,
"loss": 0.539,
"step": 1720
},
{
"epoch": 0.4613333333333333,
"grad_norm": 18.570348739624023,
"learning_rate": 2.7291105121293804e-05,
"loss": 0.614,
"step": 1730
},
{
"epoch": 0.464,
"grad_norm": 9.429092407226562,
"learning_rate": 2.715633423180593e-05,
"loss": 0.4103,
"step": 1740
},
{
"epoch": 0.4666666666666667,
"grad_norm": 14.560633659362793,
"learning_rate": 2.7021563342318063e-05,
"loss": 0.4716,
"step": 1750
},
{
"epoch": 0.4693333333333333,
"grad_norm": 10.830166816711426,
"learning_rate": 2.688679245283019e-05,
"loss": 0.4992,
"step": 1760
},
{
"epoch": 0.472,
"grad_norm": 23.776018142700195,
"learning_rate": 2.6752021563342316e-05,
"loss": 0.5022,
"step": 1770
},
{
"epoch": 0.4746666666666667,
"grad_norm": 9.272604942321777,
"learning_rate": 2.661725067385445e-05,
"loss": 0.5528,
"step": 1780
},
{
"epoch": 0.47733333333333333,
"grad_norm": 10.480013847351074,
"learning_rate": 2.6482479784366575e-05,
"loss": 0.4867,
"step": 1790
},
{
"epoch": 0.48,
"grad_norm": 12.409500122070312,
"learning_rate": 2.6347708894878708e-05,
"loss": 0.5734,
"step": 1800
},
{
"epoch": 0.4826666666666667,
"grad_norm": 10.523347854614258,
"learning_rate": 2.6212938005390834e-05,
"loss": 0.408,
"step": 1810
},
{
"epoch": 0.48533333333333334,
"grad_norm": 25.753644943237305,
"learning_rate": 2.6078167115902967e-05,
"loss": 0.7066,
"step": 1820
},
{
"epoch": 0.488,
"grad_norm": 7.335714340209961,
"learning_rate": 2.5943396226415094e-05,
"loss": 0.6111,
"step": 1830
},
{
"epoch": 0.49066666666666664,
"grad_norm": 15.647913932800293,
"learning_rate": 2.5808625336927223e-05,
"loss": 0.4276,
"step": 1840
},
{
"epoch": 0.49333333333333335,
"grad_norm": 17.750133514404297,
"learning_rate": 2.5673854447439356e-05,
"loss": 0.5272,
"step": 1850
},
{
"epoch": 0.496,
"grad_norm": 8.927289009094238,
"learning_rate": 2.5539083557951483e-05,
"loss": 0.3994,
"step": 1860
},
{
"epoch": 0.49866666666666665,
"grad_norm": 17.202116012573242,
"learning_rate": 2.5404312668463616e-05,
"loss": 0.4298,
"step": 1870
},
{
"epoch": 0.5013333333333333,
"grad_norm": 15.45162582397461,
"learning_rate": 2.5269541778975742e-05,
"loss": 0.5383,
"step": 1880
},
{
"epoch": 0.504,
"grad_norm": 14.994674682617188,
"learning_rate": 2.5134770889487875e-05,
"loss": 0.5111,
"step": 1890
},
{
"epoch": 0.5066666666666667,
"grad_norm": 10.413031578063965,
"learning_rate": 2.5e-05,
"loss": 0.6101,
"step": 1900
},
{
"epoch": 0.5093333333333333,
"grad_norm": 4.97536039352417,
"learning_rate": 2.486522911051213e-05,
"loss": 0.4024,
"step": 1910
},
{
"epoch": 0.512,
"grad_norm": 12.021340370178223,
"learning_rate": 2.473045822102426e-05,
"loss": 0.4435,
"step": 1920
},
{
"epoch": 0.5146666666666667,
"grad_norm": 10.06999397277832,
"learning_rate": 2.459568733153639e-05,
"loss": 0.4014,
"step": 1930
},
{
"epoch": 0.5173333333333333,
"grad_norm": 17.036684036254883,
"learning_rate": 2.4460916442048516e-05,
"loss": 0.5831,
"step": 1940
},
{
"epoch": 0.52,
"grad_norm": 17.28995704650879,
"learning_rate": 2.4326145552560646e-05,
"loss": 0.4183,
"step": 1950
},
{
"epoch": 0.5226666666666666,
"grad_norm": 15.344680786132812,
"learning_rate": 2.4191374663072776e-05,
"loss": 0.5594,
"step": 1960
},
{
"epoch": 0.5253333333333333,
"grad_norm": 16.586666107177734,
"learning_rate": 2.405660377358491e-05,
"loss": 0.7698,
"step": 1970
},
{
"epoch": 0.528,
"grad_norm": 9.886058807373047,
"learning_rate": 2.3921832884097038e-05,
"loss": 0.3961,
"step": 1980
},
{
"epoch": 0.5306666666666666,
"grad_norm": 38.06374740600586,
"learning_rate": 2.3787061994609168e-05,
"loss": 0.5962,
"step": 1990
},
{
"epoch": 0.5333333333333333,
"grad_norm": 14.431428909301758,
"learning_rate": 2.3652291105121294e-05,
"loss": 0.5876,
"step": 2000
},
{
"epoch": 0.536,
"grad_norm": 10.744256973266602,
"learning_rate": 2.3517520215633424e-05,
"loss": 0.4312,
"step": 2010
},
{
"epoch": 0.5386666666666666,
"grad_norm": 12.408907890319824,
"learning_rate": 2.3382749326145553e-05,
"loss": 0.4252,
"step": 2020
},
{
"epoch": 0.5413333333333333,
"grad_norm": 12.613394737243652,
"learning_rate": 2.3247978436657683e-05,
"loss": 0.56,
"step": 2030
},
{
"epoch": 0.544,
"grad_norm": 13.715694427490234,
"learning_rate": 2.3113207547169813e-05,
"loss": 0.5211,
"step": 2040
},
{
"epoch": 0.5466666666666666,
"grad_norm": 12.417014122009277,
"learning_rate": 2.2978436657681942e-05,
"loss": 0.5882,
"step": 2050
},
{
"epoch": 0.5493333333333333,
"grad_norm": 9.672564506530762,
"learning_rate": 2.2843665768194072e-05,
"loss": 0.3459,
"step": 2060
},
{
"epoch": 0.552,
"grad_norm": 13.13898754119873,
"learning_rate": 2.2708894878706198e-05,
"loss": 0.4834,
"step": 2070
},
{
"epoch": 0.5546666666666666,
"grad_norm": 14.900617599487305,
"learning_rate": 2.2574123989218328e-05,
"loss": 0.5048,
"step": 2080
},
{
"epoch": 0.5573333333333333,
"grad_norm": 11.404877662658691,
"learning_rate": 2.2439353099730458e-05,
"loss": 0.4535,
"step": 2090
},
{
"epoch": 0.56,
"grad_norm": 7.463709354400635,
"learning_rate": 2.2304582210242587e-05,
"loss": 0.4313,
"step": 2100
},
{
"epoch": 0.5626666666666666,
"grad_norm": 11.312776565551758,
"learning_rate": 2.216981132075472e-05,
"loss": 0.5036,
"step": 2110
},
{
"epoch": 0.5653333333333334,
"grad_norm": 8.457867622375488,
"learning_rate": 2.203504043126685e-05,
"loss": 0.3745,
"step": 2120
},
{
"epoch": 0.568,
"grad_norm": 12.78984260559082,
"learning_rate": 2.1900269541778976e-05,
"loss": 0.4506,
"step": 2130
},
{
"epoch": 0.5706666666666667,
"grad_norm": 8.840005874633789,
"learning_rate": 2.1765498652291106e-05,
"loss": 0.4627,
"step": 2140
},
{
"epoch": 0.5733333333333334,
"grad_norm": 7.707107067108154,
"learning_rate": 2.1630727762803235e-05,
"loss": 0.4992,
"step": 2150
},
{
"epoch": 0.576,
"grad_norm": 14.227144241333008,
"learning_rate": 2.1495956873315365e-05,
"loss": 0.4225,
"step": 2160
},
{
"epoch": 0.5786666666666667,
"grad_norm": 5.796125888824463,
"learning_rate": 2.1361185983827495e-05,
"loss": 0.4205,
"step": 2170
},
{
"epoch": 0.5813333333333334,
"grad_norm": 9.55081558227539,
"learning_rate": 2.1226415094339624e-05,
"loss": 0.5001,
"step": 2180
},
{
"epoch": 0.584,
"grad_norm": 8.978111267089844,
"learning_rate": 2.1091644204851754e-05,
"loss": 0.4012,
"step": 2190
},
{
"epoch": 0.5866666666666667,
"grad_norm": 7.070921421051025,
"learning_rate": 2.095687331536388e-05,
"loss": 0.3401,
"step": 2200
},
{
"epoch": 0.5893333333333334,
"grad_norm": 11.980148315429688,
"learning_rate": 2.082210242587601e-05,
"loss": 0.3706,
"step": 2210
},
{
"epoch": 0.592,
"grad_norm": 16.289701461791992,
"learning_rate": 2.068733153638814e-05,
"loss": 0.5465,
"step": 2220
},
{
"epoch": 0.5946666666666667,
"grad_norm": 11.466804504394531,
"learning_rate": 2.055256064690027e-05,
"loss": 0.4451,
"step": 2230
},
{
"epoch": 0.5973333333333334,
"grad_norm": 9.505926132202148,
"learning_rate": 2.0417789757412402e-05,
"loss": 0.4636,
"step": 2240
},
{
"epoch": 0.6,
"grad_norm": 12.751081466674805,
"learning_rate": 2.0283018867924532e-05,
"loss": 0.4407,
"step": 2250
},
{
"epoch": 0.6026666666666667,
"grad_norm": 19.082717895507812,
"learning_rate": 2.0148247978436658e-05,
"loss": 0.6069,
"step": 2260
},
{
"epoch": 0.6053333333333333,
"grad_norm": 9.956210136413574,
"learning_rate": 2.0013477088948788e-05,
"loss": 0.3804,
"step": 2270
},
{
"epoch": 0.608,
"grad_norm": 22.91667938232422,
"learning_rate": 1.9878706199460917e-05,
"loss": 0.4452,
"step": 2280
},
{
"epoch": 0.6106666666666667,
"grad_norm": 11.472311973571777,
"learning_rate": 1.9743935309973047e-05,
"loss": 0.5524,
"step": 2290
},
{
"epoch": 0.6133333333333333,
"grad_norm": 7.967957019805908,
"learning_rate": 1.9609164420485177e-05,
"loss": 0.3626,
"step": 2300
},
{
"epoch": 0.616,
"grad_norm": 8.504613876342773,
"learning_rate": 1.9474393530997306e-05,
"loss": 0.2569,
"step": 2310
},
{
"epoch": 0.6186666666666667,
"grad_norm": 11.852409362792969,
"learning_rate": 1.9339622641509436e-05,
"loss": 0.4051,
"step": 2320
},
{
"epoch": 0.6213333333333333,
"grad_norm": 12.512871742248535,
"learning_rate": 1.9204851752021562e-05,
"loss": 0.3631,
"step": 2330
},
{
"epoch": 0.624,
"grad_norm": 16.21477508544922,
"learning_rate": 1.9070080862533692e-05,
"loss": 0.7231,
"step": 2340
},
{
"epoch": 0.6266666666666667,
"grad_norm": 12.807674407958984,
"learning_rate": 1.893530997304582e-05,
"loss": 0.4406,
"step": 2350
},
{
"epoch": 0.6293333333333333,
"grad_norm": 8.169772148132324,
"learning_rate": 1.880053908355795e-05,
"loss": 0.5181,
"step": 2360
},
{
"epoch": 0.632,
"grad_norm": 11.73438549041748,
"learning_rate": 1.8665768194070084e-05,
"loss": 0.392,
"step": 2370
},
{
"epoch": 0.6346666666666667,
"grad_norm": 19.76089096069336,
"learning_rate": 1.8530997304582214e-05,
"loss": 0.4631,
"step": 2380
},
{
"epoch": 0.6373333333333333,
"grad_norm": 9.086039543151855,
"learning_rate": 1.839622641509434e-05,
"loss": 0.3171,
"step": 2390
},
{
"epoch": 0.64,
"grad_norm": 16.056007385253906,
"learning_rate": 1.826145552560647e-05,
"loss": 0.4297,
"step": 2400
},
{
"epoch": 0.6426666666666667,
"grad_norm": 4.929039001464844,
"learning_rate": 1.81266846361186e-05,
"loss": 0.3565,
"step": 2410
},
{
"epoch": 0.6453333333333333,
"grad_norm": 14.620661735534668,
"learning_rate": 1.799191374663073e-05,
"loss": 0.4003,
"step": 2420
},
{
"epoch": 0.648,
"grad_norm": 11.428451538085938,
"learning_rate": 1.785714285714286e-05,
"loss": 0.3116,
"step": 2430
},
{
"epoch": 0.6506666666666666,
"grad_norm": 7.882524490356445,
"learning_rate": 1.7722371967654988e-05,
"loss": 0.3754,
"step": 2440
},
{
"epoch": 0.6533333333333333,
"grad_norm": 8.926907539367676,
"learning_rate": 1.7587601078167118e-05,
"loss": 0.3893,
"step": 2450
},
{
"epoch": 0.656,
"grad_norm": 8.45529842376709,
"learning_rate": 1.7452830188679244e-05,
"loss": 0.4121,
"step": 2460
},
{
"epoch": 0.6586666666666666,
"grad_norm": 8.348902702331543,
"learning_rate": 1.7318059299191374e-05,
"loss": 0.243,
"step": 2470
},
{
"epoch": 0.6613333333333333,
"grad_norm": 7.9367852210998535,
"learning_rate": 1.7183288409703503e-05,
"loss": 0.2918,
"step": 2480
},
{
"epoch": 0.664,
"grad_norm": 7.673737525939941,
"learning_rate": 1.7048517520215633e-05,
"loss": 0.4514,
"step": 2490
},
{
"epoch": 0.6666666666666666,
"grad_norm": 17.945858001708984,
"learning_rate": 1.6913746630727763e-05,
"loss": 0.2516,
"step": 2500
},
{
"epoch": 0.6693333333333333,
"grad_norm": 6.667047500610352,
"learning_rate": 1.6778975741239896e-05,
"loss": 0.318,
"step": 2510
},
{
"epoch": 0.672,
"grad_norm": 11.213757514953613,
"learning_rate": 1.6644204851752022e-05,
"loss": 0.3921,
"step": 2520
},
{
"epoch": 0.6746666666666666,
"grad_norm": 6.478138446807861,
"learning_rate": 1.650943396226415e-05,
"loss": 0.2691,
"step": 2530
},
{
"epoch": 0.6773333333333333,
"grad_norm": 10.628767967224121,
"learning_rate": 1.637466307277628e-05,
"loss": 0.3391,
"step": 2540
},
{
"epoch": 0.68,
"grad_norm": 12.021836280822754,
"learning_rate": 1.623989218328841e-05,
"loss": 0.2776,
"step": 2550
},
{
"epoch": 0.6826666666666666,
"grad_norm": 11.101051330566406,
"learning_rate": 1.610512129380054e-05,
"loss": 0.3061,
"step": 2560
},
{
"epoch": 0.6853333333333333,
"grad_norm": 12.261982917785645,
"learning_rate": 1.597035040431267e-05,
"loss": 0.2941,
"step": 2570
},
{
"epoch": 0.688,
"grad_norm": 11.71900749206543,
"learning_rate": 1.58355795148248e-05,
"loss": 0.298,
"step": 2580
},
{
"epoch": 0.6906666666666667,
"grad_norm": 19.52393341064453,
"learning_rate": 1.5700808625336926e-05,
"loss": 0.3845,
"step": 2590
},
{
"epoch": 0.6933333333333334,
"grad_norm": 6.994551658630371,
"learning_rate": 1.5566037735849056e-05,
"loss": 0.3451,
"step": 2600
},
{
"epoch": 0.696,
"grad_norm": 9.673632621765137,
"learning_rate": 1.5431266846361185e-05,
"loss": 0.4304,
"step": 2610
},
{
"epoch": 0.6986666666666667,
"grad_norm": 19.336353302001953,
"learning_rate": 1.5296495956873315e-05,
"loss": 0.3696,
"step": 2620
},
{
"epoch": 0.7013333333333334,
"grad_norm": 7.714166641235352,
"learning_rate": 1.5161725067385446e-05,
"loss": 0.3726,
"step": 2630
},
{
"epoch": 0.704,
"grad_norm": 11.61363697052002,
"learning_rate": 1.5026954177897576e-05,
"loss": 0.3762,
"step": 2640
},
{
"epoch": 0.7066666666666667,
"grad_norm": 9.290796279907227,
"learning_rate": 1.4892183288409702e-05,
"loss": 0.3336,
"step": 2650
},
{
"epoch": 0.7093333333333334,
"grad_norm": 16.186071395874023,
"learning_rate": 1.4757412398921833e-05,
"loss": 0.4329,
"step": 2660
},
{
"epoch": 0.712,
"grad_norm": 12.934135437011719,
"learning_rate": 1.4622641509433963e-05,
"loss": 0.3037,
"step": 2670
},
{
"epoch": 0.7146666666666667,
"grad_norm": 12.35031509399414,
"learning_rate": 1.4487870619946093e-05,
"loss": 0.2696,
"step": 2680
},
{
"epoch": 0.7173333333333334,
"grad_norm": 6.391822814941406,
"learning_rate": 1.4353099730458222e-05,
"loss": 0.3316,
"step": 2690
},
{
"epoch": 0.72,
"grad_norm": 6.126807689666748,
"learning_rate": 1.4218328840970352e-05,
"loss": 0.5354,
"step": 2700
},
{
"epoch": 0.7226666666666667,
"grad_norm": 6.678376197814941,
"learning_rate": 1.4083557951482482e-05,
"loss": 0.2671,
"step": 2710
},
{
"epoch": 0.7253333333333334,
"grad_norm": 10.559714317321777,
"learning_rate": 1.394878706199461e-05,
"loss": 0.2821,
"step": 2720
},
{
"epoch": 0.728,
"grad_norm": 7.568365573883057,
"learning_rate": 1.381401617250674e-05,
"loss": 0.2898,
"step": 2730
},
{
"epoch": 0.7306666666666667,
"grad_norm": 6.339846611022949,
"learning_rate": 1.3679245283018869e-05,
"loss": 0.2709,
"step": 2740
},
{
"epoch": 0.7333333333333333,
"grad_norm": 11.902572631835938,
"learning_rate": 1.3544474393530998e-05,
"loss": 0.272,
"step": 2750
},
{
"epoch": 0.736,
"grad_norm": 7.209833145141602,
"learning_rate": 1.3409703504043128e-05,
"loss": 0.3483,
"step": 2760
},
{
"epoch": 0.7386666666666667,
"grad_norm": 6.14058780670166,
"learning_rate": 1.3274932614555258e-05,
"loss": 0.4361,
"step": 2770
},
{
"epoch": 0.7413333333333333,
"grad_norm": 7.956258296966553,
"learning_rate": 1.3140161725067384e-05,
"loss": 0.2328,
"step": 2780
},
{
"epoch": 0.744,
"grad_norm": 14.678977966308594,
"learning_rate": 1.3005390835579515e-05,
"loss": 0.2982,
"step": 2790
},
{
"epoch": 0.7466666666666667,
"grad_norm": 10.953269958496094,
"learning_rate": 1.2870619946091645e-05,
"loss": 0.3598,
"step": 2800
},
{
"epoch": 0.7493333333333333,
"grad_norm": 18.05754280090332,
"learning_rate": 1.2735849056603775e-05,
"loss": 0.5306,
"step": 2810
},
{
"epoch": 0.752,
"grad_norm": 6.063964366912842,
"learning_rate": 1.2601078167115904e-05,
"loss": 0.3629,
"step": 2820
},
{
"epoch": 0.7546666666666667,
"grad_norm": 7.156852722167969,
"learning_rate": 1.2466307277628032e-05,
"loss": 0.2525,
"step": 2830
},
{
"epoch": 0.7573333333333333,
"grad_norm": 8.384916305541992,
"learning_rate": 1.2331536388140162e-05,
"loss": 0.4145,
"step": 2840
},
{
"epoch": 0.76,
"grad_norm": 7.009305000305176,
"learning_rate": 1.2196765498652291e-05,
"loss": 0.2607,
"step": 2850
},
{
"epoch": 0.7626666666666667,
"grad_norm": 6.685764312744141,
"learning_rate": 1.2061994609164421e-05,
"loss": 0.2744,
"step": 2860
},
{
"epoch": 0.7653333333333333,
"grad_norm": 7.995823383331299,
"learning_rate": 1.192722371967655e-05,
"loss": 0.2453,
"step": 2870
},
{
"epoch": 0.768,
"grad_norm": 5.732645034790039,
"learning_rate": 1.179245283018868e-05,
"loss": 0.3084,
"step": 2880
},
{
"epoch": 0.7706666666666667,
"grad_norm": 7.629417896270752,
"learning_rate": 1.165768194070081e-05,
"loss": 0.2558,
"step": 2890
},
{
"epoch": 0.7733333333333333,
"grad_norm": 19.03529167175293,
"learning_rate": 1.1522911051212938e-05,
"loss": 0.2691,
"step": 2900
},
{
"epoch": 0.776,
"grad_norm": 8.533991813659668,
"learning_rate": 1.1388140161725068e-05,
"loss": 0.3345,
"step": 2910
},
{
"epoch": 0.7786666666666666,
"grad_norm": 9.780989646911621,
"learning_rate": 1.1253369272237197e-05,
"loss": 0.2568,
"step": 2920
},
{
"epoch": 0.7813333333333333,
"grad_norm": 6.1835408210754395,
"learning_rate": 1.1118598382749327e-05,
"loss": 0.3091,
"step": 2930
},
{
"epoch": 0.784,
"grad_norm": 7.115200996398926,
"learning_rate": 1.0983827493261456e-05,
"loss": 0.3147,
"step": 2940
},
{
"epoch": 0.7866666666666666,
"grad_norm": 23.340068817138672,
"learning_rate": 1.0849056603773586e-05,
"loss": 0.3335,
"step": 2950
},
{
"epoch": 0.7893333333333333,
"grad_norm": 5.916553020477295,
"learning_rate": 1.0714285714285714e-05,
"loss": 0.2359,
"step": 2960
},
{
"epoch": 0.792,
"grad_norm": 6.533686637878418,
"learning_rate": 1.0579514824797844e-05,
"loss": 0.3634,
"step": 2970
},
{
"epoch": 0.7946666666666666,
"grad_norm": 6.188602447509766,
"learning_rate": 1.0444743935309973e-05,
"loss": 0.3016,
"step": 2980
},
{
"epoch": 0.7973333333333333,
"grad_norm": 5.642481327056885,
"learning_rate": 1.0309973045822103e-05,
"loss": 0.2852,
"step": 2990
},
{
"epoch": 0.8,
"grad_norm": 13.653228759765625,
"learning_rate": 1.0175202156334233e-05,
"loss": 0.2609,
"step": 3000
},
{
"epoch": 0.8026666666666666,
"grad_norm": 8.680575370788574,
"learning_rate": 1.0040431266846362e-05,
"loss": 0.5043,
"step": 3010
},
{
"epoch": 0.8053333333333333,
"grad_norm": 6.801578044891357,
"learning_rate": 9.905660377358492e-06,
"loss": 0.2743,
"step": 3020
},
{
"epoch": 0.808,
"grad_norm": 8.94039535522461,
"learning_rate": 9.77088948787062e-06,
"loss": 0.5254,
"step": 3030
},
{
"epoch": 0.8106666666666666,
"grad_norm": 5.270666599273682,
"learning_rate": 9.63611859838275e-06,
"loss": 0.2423,
"step": 3040
},
{
"epoch": 0.8133333333333334,
"grad_norm": 18.539167404174805,
"learning_rate": 9.501347708894879e-06,
"loss": 0.2445,
"step": 3050
},
{
"epoch": 0.816,
"grad_norm": 17.910654067993164,
"learning_rate": 9.366576819407009e-06,
"loss": 0.2115,
"step": 3060
},
{
"epoch": 0.8186666666666667,
"grad_norm": 18.064149856567383,
"learning_rate": 9.231805929919138e-06,
"loss": 0.2265,
"step": 3070
},
{
"epoch": 0.8213333333333334,
"grad_norm": 6.2826972007751465,
"learning_rate": 9.097035040431268e-06,
"loss": 0.3454,
"step": 3080
},
{
"epoch": 0.824,
"grad_norm": 11.170026779174805,
"learning_rate": 8.962264150943396e-06,
"loss": 0.2811,
"step": 3090
},
{
"epoch": 0.8266666666666667,
"grad_norm": 16.875585556030273,
"learning_rate": 8.827493261455526e-06,
"loss": 0.2665,
"step": 3100
},
{
"epoch": 0.8293333333333334,
"grad_norm": 6.005315780639648,
"learning_rate": 8.692722371967655e-06,
"loss": 0.3352,
"step": 3110
},
{
"epoch": 0.832,
"grad_norm": 10.657337188720703,
"learning_rate": 8.557951482479785e-06,
"loss": 0.3018,
"step": 3120
},
{
"epoch": 0.8346666666666667,
"grad_norm": 8.12637996673584,
"learning_rate": 8.423180592991915e-06,
"loss": 0.261,
"step": 3130
},
{
"epoch": 0.8373333333333334,
"grad_norm": 9.491544723510742,
"learning_rate": 8.288409703504044e-06,
"loss": 0.2966,
"step": 3140
},
{
"epoch": 0.84,
"grad_norm": 8.712248802185059,
"learning_rate": 8.153638814016174e-06,
"loss": 0.3018,
"step": 3150
},
{
"epoch": 0.8426666666666667,
"grad_norm": 5.385801792144775,
"learning_rate": 8.018867924528302e-06,
"loss": 0.2286,
"step": 3160
},
{
"epoch": 0.8453333333333334,
"grad_norm": 7.639825820922852,
"learning_rate": 7.884097035040431e-06,
"loss": 0.2401,
"step": 3170
},
{
"epoch": 0.848,
"grad_norm": 9.133435249328613,
"learning_rate": 7.749326145552561e-06,
"loss": 0.3611,
"step": 3180
},
{
"epoch": 0.8506666666666667,
"grad_norm": 5.726224899291992,
"learning_rate": 7.61455525606469e-06,
"loss": 0.2351,
"step": 3190
},
{
"epoch": 0.8533333333333334,
"grad_norm": 6.735703468322754,
"learning_rate": 7.4797843665768195e-06,
"loss": 0.2259,
"step": 3200
},
{
"epoch": 0.856,
"grad_norm": 5.516600608825684,
"learning_rate": 7.345013477088949e-06,
"loss": 0.2526,
"step": 3210
},
{
"epoch": 0.8586666666666667,
"grad_norm": 8.448160171508789,
"learning_rate": 7.210242587601078e-06,
"loss": 0.3138,
"step": 3220
},
{
"epoch": 0.8613333333333333,
"grad_norm": 9.42566967010498,
"learning_rate": 7.0754716981132075e-06,
"loss": 0.1969,
"step": 3230
},
{
"epoch": 0.864,
"grad_norm": 6.008419036865234,
"learning_rate": 6.940700808625337e-06,
"loss": 0.3795,
"step": 3240
},
{
"epoch": 0.8666666666666667,
"grad_norm": 5.922680377960205,
"learning_rate": 6.805929919137468e-06,
"loss": 0.2464,
"step": 3250
},
{
"epoch": 0.8693333333333333,
"grad_norm": 5.073930740356445,
"learning_rate": 6.671159029649596e-06,
"loss": 0.2491,
"step": 3260
},
{
"epoch": 0.872,
"grad_norm": 6.984921932220459,
"learning_rate": 6.536388140161725e-06,
"loss": 0.2212,
"step": 3270
},
{
"epoch": 0.8746666666666667,
"grad_norm": 5.525951862335205,
"learning_rate": 6.401617250673856e-06,
"loss": 0.2446,
"step": 3280
},
{
"epoch": 0.8773333333333333,
"grad_norm": 5.485599040985107,
"learning_rate": 6.266846361185984e-06,
"loss": 0.2735,
"step": 3290
},
{
"epoch": 0.88,
"grad_norm": 6.451603889465332,
"learning_rate": 6.132075471698113e-06,
"loss": 0.2499,
"step": 3300
},
{
"epoch": 0.8826666666666667,
"grad_norm": 8.449997901916504,
"learning_rate": 5.997304582210243e-06,
"loss": 0.262,
"step": 3310
},
{
"epoch": 0.8853333333333333,
"grad_norm": 2.8802688121795654,
"learning_rate": 5.862533692722373e-06,
"loss": 0.248,
"step": 3320
},
{
"epoch": 0.888,
"grad_norm": 6.58447790145874,
"learning_rate": 5.727762803234501e-06,
"loss": 0.1707,
"step": 3330
},
{
"epoch": 0.8906666666666667,
"grad_norm": 10.708820343017578,
"learning_rate": 5.592991913746631e-06,
"loss": 0.2294,
"step": 3340
},
{
"epoch": 0.8933333333333333,
"grad_norm": 8.319356918334961,
"learning_rate": 5.458221024258761e-06,
"loss": 0.2165,
"step": 3350
},
{
"epoch": 0.896,
"grad_norm": 6.977818012237549,
"learning_rate": 5.3234501347708894e-06,
"loss": 0.2321,
"step": 3360
},
{
"epoch": 0.8986666666666666,
"grad_norm": 6.978248119354248,
"learning_rate": 5.188679245283019e-06,
"loss": 0.2039,
"step": 3370
},
{
"epoch": 0.9013333333333333,
"grad_norm": 7.0379438400268555,
"learning_rate": 5.053908355795149e-06,
"loss": 0.2364,
"step": 3380
},
{
"epoch": 0.904,
"grad_norm": 5.10407018661499,
"learning_rate": 4.9191374663072775e-06,
"loss": 0.3408,
"step": 3390
},
{
"epoch": 0.9066666666666666,
"grad_norm": 4.217552185058594,
"learning_rate": 4.784366576819407e-06,
"loss": 0.1653,
"step": 3400
},
{
"epoch": 0.9093333333333333,
"grad_norm": 8.982743263244629,
"learning_rate": 4.649595687331537e-06,
"loss": 0.208,
"step": 3410
},
{
"epoch": 0.912,
"grad_norm": 7.103553295135498,
"learning_rate": 4.5148247978436664e-06,
"loss": 0.1838,
"step": 3420
},
{
"epoch": 0.9146666666666666,
"grad_norm": 6.565107822418213,
"learning_rate": 4.380053908355795e-06,
"loss": 0.2254,
"step": 3430
},
{
"epoch": 0.9173333333333333,
"grad_norm": 8.163582801818848,
"learning_rate": 4.245283018867925e-06,
"loss": 0.1598,
"step": 3440
},
{
"epoch": 0.92,
"grad_norm": 4.565555095672607,
"learning_rate": 4.1105121293800545e-06,
"loss": 0.1888,
"step": 3450
},
{
"epoch": 0.9226666666666666,
"grad_norm": 7.8352508544921875,
"learning_rate": 3.975741239892183e-06,
"loss": 0.2683,
"step": 3460
},
{
"epoch": 0.9253333333333333,
"grad_norm": 8.402386665344238,
"learning_rate": 3.840970350404313e-06,
"loss": 0.1869,
"step": 3470
},
{
"epoch": 0.928,
"grad_norm": 8.078757286071777,
"learning_rate": 3.706199460916442e-06,
"loss": 0.2293,
"step": 3480
},
{
"epoch": 0.9306666666666666,
"grad_norm": 7.771483898162842,
"learning_rate": 3.5714285714285714e-06,
"loss": 0.3479,
"step": 3490
},
{
"epoch": 0.9333333333333333,
"grad_norm": 3.739326000213623,
"learning_rate": 3.436657681940701e-06,
"loss": 0.1441,
"step": 3500
},
{
"epoch": 0.936,
"grad_norm": 9.182714462280273,
"learning_rate": 3.30188679245283e-06,
"loss": 0.2332,
"step": 3510
},
{
"epoch": 0.9386666666666666,
"grad_norm": 6.365874290466309,
"learning_rate": 3.1671159029649594e-06,
"loss": 0.1443,
"step": 3520
},
{
"epoch": 0.9413333333333334,
"grad_norm": 6.266571521759033,
"learning_rate": 3.032345013477089e-06,
"loss": 0.1959,
"step": 3530
},
{
"epoch": 0.944,
"grad_norm": 7.494802474975586,
"learning_rate": 2.8975741239892183e-06,
"loss": 0.149,
"step": 3540
},
{
"epoch": 0.9466666666666667,
"grad_norm": 5.22160005569458,
"learning_rate": 2.762803234501348e-06,
"loss": 0.3431,
"step": 3550
},
{
"epoch": 0.9493333333333334,
"grad_norm": 11.847735404968262,
"learning_rate": 2.628032345013477e-06,
"loss": 0.2068,
"step": 3560
},
{
"epoch": 0.952,
"grad_norm": 41.45210647583008,
"learning_rate": 2.4932614555256068e-06,
"loss": 0.2057,
"step": 3570
},
{
"epoch": 0.9546666666666667,
"grad_norm": 8.89501953125,
"learning_rate": 2.358490566037736e-06,
"loss": 0.5128,
"step": 3580
},
{
"epoch": 0.9573333333333334,
"grad_norm": 6.3149261474609375,
"learning_rate": 2.223719676549865e-06,
"loss": 0.1869,
"step": 3590
},
{
"epoch": 0.96,
"grad_norm": 5.511444091796875,
"learning_rate": 2.088948787061995e-06,
"loss": 0.2311,
"step": 3600
},
{
"epoch": 0.9626666666666667,
"grad_norm": 6.782158851623535,
"learning_rate": 1.954177897574124e-06,
"loss": 0.1655,
"step": 3610
},
{
"epoch": 0.9653333333333334,
"grad_norm": 6.828353404998779,
"learning_rate": 1.8194070080862537e-06,
"loss": 0.1694,
"step": 3620
},
{
"epoch": 0.968,
"grad_norm": 2.4872541427612305,
"learning_rate": 1.6846361185983827e-06,
"loss": 0.1647,
"step": 3630
},
{
"epoch": 0.9706666666666667,
"grad_norm": 8.890005111694336,
"learning_rate": 1.5498652291105121e-06,
"loss": 0.1979,
"step": 3640
},
{
"epoch": 0.9733333333333334,
"grad_norm": 7.4598259925842285,
"learning_rate": 1.4150943396226415e-06,
"loss": 0.3526,
"step": 3650
},
{
"epoch": 0.976,
"grad_norm": 4.237139701843262,
"learning_rate": 1.280323450134771e-06,
"loss": 0.2159,
"step": 3660
},
{
"epoch": 0.9786666666666667,
"grad_norm": 5.643311500549316,
"learning_rate": 1.1455525606469004e-06,
"loss": 0.1425,
"step": 3670
},
{
"epoch": 0.9813333333333333,
"grad_norm": 7.4330267906188965,
"learning_rate": 1.0107816711590296e-06,
"loss": 0.1761,
"step": 3680
},
{
"epoch": 0.984,
"grad_norm": 12.03699779510498,
"learning_rate": 8.76010781671159e-07,
"loss": 0.2607,
"step": 3690
},
{
"epoch": 0.9866666666666667,
"grad_norm": 6.911093235015869,
"learning_rate": 7.412398921832885e-07,
"loss": 0.1755,
"step": 3700
},
{
"epoch": 0.9893333333333333,
"grad_norm": 6.668974876403809,
"learning_rate": 6.064690026954178e-07,
"loss": 0.2031,
"step": 3710
},
{
"epoch": 0.992,
"grad_norm": 11.474651336669922,
"learning_rate": 4.7169811320754717e-07,
"loss": 0.2236,
"step": 3720
},
{
"epoch": 0.9946666666666667,
"grad_norm": 9.00444507598877,
"learning_rate": 3.369272237196766e-07,
"loss": 0.1306,
"step": 3730
},
{
"epoch": 0.9973333333333333,
"grad_norm": 52.68935012817383,
"learning_rate": 2.0215633423180594e-07,
"loss": 0.231,
"step": 3740
},
{
"epoch": 1.0,
"grad_norm": 5.777242183685303,
"learning_rate": 6.738544474393531e-08,
"loss": 0.1794,
"step": 3750
}
],
"logging_steps": 10,
"max_steps": 3750,
"num_input_tokens_seen": 0,
"num_train_epochs": 1,
"save_steps": 250,
"stateful_callbacks": {
"TrainerControl": {
"args": {
"should_epoch_stop": false,
"should_evaluate": false,
"should_log": false,
"should_save": true,
"should_training_stop": true
},
"attributes": {}
}
},
"total_flos": 6.77976396217344e+16,
"train_batch_size": 2,
"trial_name": null,
"trial_params": null
}