Training in progress, step 3750, checkpoint

bab085d verified 3 months ago

64.3 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.0,
	"eval_steps": 500,
	"global_step": 3750,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0026666666666666666,
	"grad_norm": 43.21000289916992,
	"learning_rate": 8.75e-06,
	"loss": 3.2727,
	"step": 10
	},
	{
	"epoch": 0.005333333333333333,
	"grad_norm": 47.455650329589844,
	"learning_rate": 2.125e-05,
	"loss": 2.1485,
	"step": 20
	},
	{
	"epoch": 0.008,
	"grad_norm": 31.872121810913086,
	"learning_rate": 3.375000000000001e-05,
	"loss": 1.5833,
	"step": 30
	},
	{
	"epoch": 0.010666666666666666,
	"grad_norm": 36.87827682495117,
	"learning_rate": 4.6250000000000006e-05,
	"loss": 1.9734,
	"step": 40
	},
	{
	"epoch": 0.013333333333333334,
	"grad_norm": 70.77291107177734,
	"learning_rate": 4.9905660377358493e-05,
	"loss": 1.822,
	"step": 50
	},
	{
	"epoch": 0.016,
	"grad_norm": 29.27912712097168,
	"learning_rate": 4.977088948787062e-05,
	"loss": 1.9707,
	"step": 60
	},
	{
	"epoch": 0.018666666666666668,
	"grad_norm": 36.23347854614258,
	"learning_rate": 4.963611859838275e-05,
	"loss": 1.8666,
	"step": 70
	},
	{
	"epoch": 0.021333333333333333,
	"grad_norm": 31.739728927612305,
	"learning_rate": 4.950134770889488e-05,
	"loss": 1.7691,
	"step": 80
	},
	{
	"epoch": 0.024,
	"grad_norm": 42.13410568237305,
	"learning_rate": 4.936657681940701e-05,
	"loss": 1.9758,
	"step": 90
	},
	{
	"epoch": 0.02666666666666667,
	"grad_norm": 24.906110763549805,
	"learning_rate": 4.923180592991914e-05,
	"loss": 1.5765,
	"step": 100
	},
	{
	"epoch": 0.029333333333333333,
	"grad_norm": 28.87664794921875,
	"learning_rate": 4.909703504043127e-05,
	"loss": 1.7567,
	"step": 110
	},
	{
	"epoch": 0.032,
	"grad_norm": 37.15755844116211,
	"learning_rate": 4.89622641509434e-05,
	"loss": 1.7731,
	"step": 120
	},
	{
	"epoch": 0.034666666666666665,
	"grad_norm": 29.51161003112793,
	"learning_rate": 4.8827493261455524e-05,
	"loss": 1.5907,
	"step": 130
	},
	{
	"epoch": 0.037333333333333336,
	"grad_norm": 29.301471710205078,
	"learning_rate": 4.869272237196766e-05,
	"loss": 1.6875,
	"step": 140
	},
	{
	"epoch": 0.04,
	"grad_norm": 46.797672271728516,
	"learning_rate": 4.855795148247978e-05,
	"loss": 1.7979,
	"step": 150
	},
	{
	"epoch": 0.042666666666666665,
	"grad_norm": 25.33574104309082,
	"learning_rate": 4.8423180592991916e-05,
	"loss": 1.2263,
	"step": 160
	},
	{
	"epoch": 0.04533333333333334,
	"grad_norm": 25.485023498535156,
	"learning_rate": 4.828840970350404e-05,
	"loss": 1.488,
	"step": 170
	},
	{
	"epoch": 0.048,
	"grad_norm": 74.90763092041016,
	"learning_rate": 4.8153638814016175e-05,
	"loss": 1.3792,
	"step": 180
	},
	{
	"epoch": 0.050666666666666665,
	"grad_norm": 33.34780502319336,
	"learning_rate": 4.80188679245283e-05,
	"loss": 1.6467,
	"step": 190
	},
	{
	"epoch": 0.05333333333333334,
	"grad_norm": 24.647794723510742,
	"learning_rate": 4.7884097035040435e-05,
	"loss": 1.7445,
	"step": 200
	},
	{
	"epoch": 0.056,
	"grad_norm": 36.283172607421875,
	"learning_rate": 4.774932614555256e-05,
	"loss": 1.4224,
	"step": 210
	},
	{
	"epoch": 0.058666666666666666,
	"grad_norm": 37.99179458618164,
	"learning_rate": 4.762803234501348e-05,
	"loss": 1.3721,
	"step": 220
	},
	{
	"epoch": 0.06133333333333333,
	"grad_norm": 42.827003479003906,
	"learning_rate": 4.7493261455525606e-05,
	"loss": 1.3213,
	"step": 230
	},
	{
	"epoch": 0.064,
	"grad_norm": 22.346420288085938,
	"learning_rate": 4.735849056603774e-05,
	"loss": 1.3944,
	"step": 240
	},
	{
	"epoch": 0.06666666666666667,
	"grad_norm": 39.7874755859375,
	"learning_rate": 4.7223719676549865e-05,
	"loss": 1.4543,
	"step": 250
	},
	{
	"epoch": 0.06933333333333333,
	"grad_norm": 38.3151969909668,
	"learning_rate": 4.7088948787062e-05,
	"loss": 1.2215,
	"step": 260
	},
	{
	"epoch": 0.072,
	"grad_norm": 30.64872932434082,
	"learning_rate": 4.6954177897574125e-05,
	"loss": 1.2395,
	"step": 270
	},
	{
	"epoch": 0.07466666666666667,
	"grad_norm": 48.72249984741211,
	"learning_rate": 4.681940700808626e-05,
	"loss": 1.2292,
	"step": 280
	},
	{
	"epoch": 0.07733333333333334,
	"grad_norm": 49.0009651184082,
	"learning_rate": 4.6684636118598384e-05,
	"loss": 1.3233,
	"step": 290
	},
	{
	"epoch": 0.08,
	"grad_norm": 25.584505081176758,
	"learning_rate": 4.654986522911051e-05,
	"loss": 1.3794,
	"step": 300
	},
	{
	"epoch": 0.08266666666666667,
	"grad_norm": 28.286766052246094,
	"learning_rate": 4.641509433962264e-05,
	"loss": 1.5431,
	"step": 310
	},
	{
	"epoch": 0.08533333333333333,
	"grad_norm": 26.837583541870117,
	"learning_rate": 4.628032345013477e-05,
	"loss": 1.0882,
	"step": 320
	},
	{
	"epoch": 0.088,
	"grad_norm": 24.280277252197266,
	"learning_rate": 4.61455525606469e-05,
	"loss": 1.4259,
	"step": 330
	},
	{
	"epoch": 0.09066666666666667,
	"grad_norm": 19.906932830810547,
	"learning_rate": 4.601078167115903e-05,
	"loss": 1.0805,
	"step": 340
	},
	{
	"epoch": 0.09333333333333334,
	"grad_norm": 31.082399368286133,
	"learning_rate": 4.587601078167116e-05,
	"loss": 1.8389,
	"step": 350
	},
	{
	"epoch": 0.096,
	"grad_norm": 52.819393157958984,
	"learning_rate": 4.574123989218329e-05,
	"loss": 1.4061,
	"step": 360
	},
	{
	"epoch": 0.09866666666666667,
	"grad_norm": 20.074241638183594,
	"learning_rate": 4.560646900269542e-05,
	"loss": 1.2801,
	"step": 370
	},
	{
	"epoch": 0.10133333333333333,
	"grad_norm": 20.526960372924805,
	"learning_rate": 4.547169811320755e-05,
	"loss": 1.4846,
	"step": 380
	},
	{
	"epoch": 0.104,
	"grad_norm": 18.68368148803711,
	"learning_rate": 4.533692722371968e-05,
	"loss": 1.0469,
	"step": 390
	},
	{
	"epoch": 0.10666666666666667,
	"grad_norm": 26.07550811767578,
	"learning_rate": 4.520215633423181e-05,
	"loss": 1.0938,
	"step": 400
	},
	{
	"epoch": 0.10933333333333334,
	"grad_norm": 13.613316535949707,
	"learning_rate": 4.506738544474394e-05,
	"loss": 1.3384,
	"step": 410
	},
	{
	"epoch": 0.112,
	"grad_norm": 24.458545684814453,
	"learning_rate": 4.493261455525607e-05,
	"loss": 1.0776,
	"step": 420
	},
	{
	"epoch": 0.11466666666666667,
	"grad_norm": 22.590333938598633,
	"learning_rate": 4.47978436657682e-05,
	"loss": 1.0344,
	"step": 430
	},
	{
	"epoch": 0.11733333333333333,
	"grad_norm": 25.568437576293945,
	"learning_rate": 4.4663072776280325e-05,
	"loss": 1.1796,
	"step": 440
	},
	{
	"epoch": 0.12,
	"grad_norm": 24.736976623535156,
	"learning_rate": 4.452830188679246e-05,
	"loss": 1.2969,
	"step": 450
	},
	{
	"epoch": 0.12266666666666666,
	"grad_norm": 27.838829040527344,
	"learning_rate": 4.4393530997304585e-05,
	"loss": 1.0064,
	"step": 460
	},
	{
	"epoch": 0.12533333333333332,
	"grad_norm": 22.678813934326172,
	"learning_rate": 4.425876010781672e-05,
	"loss": 1.1484,
	"step": 470
	},
	{
	"epoch": 0.128,
	"grad_norm": 21.477985382080078,
	"learning_rate": 4.4123989218328844e-05,
	"loss": 1.0713,
	"step": 480
	},
	{
	"epoch": 0.13066666666666665,
	"grad_norm": 44.675785064697266,
	"learning_rate": 4.398921832884097e-05,
	"loss": 1.1913,
	"step": 490
	},
	{
	"epoch": 0.13333333333333333,
	"grad_norm": 36.141239166259766,
	"learning_rate": 4.38544474393531e-05,
	"loss": 1.0395,
	"step": 500
	},
	{
	"epoch": 0.136,
	"grad_norm": 28.088905334472656,
	"learning_rate": 4.371967654986523e-05,
	"loss": 1.3696,
	"step": 510
	},
	{
	"epoch": 0.13866666666666666,
	"grad_norm": 33.25151062011719,
	"learning_rate": 4.358490566037736e-05,
	"loss": 1.0583,
	"step": 520
	},
	{
	"epoch": 0.14133333333333334,
	"grad_norm": 27.604703903198242,
	"learning_rate": 4.345013477088949e-05,
	"loss": 1.2549,
	"step": 530
	},
	{
	"epoch": 0.144,
	"grad_norm": 18.853084564208984,
	"learning_rate": 4.331536388140162e-05,
	"loss": 1.1462,
	"step": 540
	},
	{
	"epoch": 0.14666666666666667,
	"grad_norm": 21.798755645751953,
	"learning_rate": 4.318059299191375e-05,
	"loss": 0.9352,
	"step": 550
	},
	{
	"epoch": 0.14933333333333335,
	"grad_norm": 20.20722770690918,
	"learning_rate": 4.3045822102425874e-05,
	"loss": 0.9641,
	"step": 560
	},
	{
	"epoch": 0.152,
	"grad_norm": 20.60011100769043,
	"learning_rate": 4.291105121293801e-05,
	"loss": 1.2349,
	"step": 570
	},
	{
	"epoch": 0.15466666666666667,
	"grad_norm": 26.98384666442871,
	"learning_rate": 4.2776280323450133e-05,
	"loss": 1.0098,
	"step": 580
	},
	{
	"epoch": 0.15733333333333333,
	"grad_norm": 16.067293167114258,
	"learning_rate": 4.2641509433962266e-05,
	"loss": 1.0833,
	"step": 590
	},
	{
	"epoch": 0.16,
	"grad_norm": 22.49300193786621,
	"learning_rate": 4.250673854447439e-05,
	"loss": 1.093,
	"step": 600
	},
	{
	"epoch": 0.16266666666666665,
	"grad_norm": 18.183324813842773,
	"learning_rate": 4.2371967654986526e-05,
	"loss": 0.9785,
	"step": 610
	},
	{
	"epoch": 0.16533333333333333,
	"grad_norm": 25.482059478759766,
	"learning_rate": 4.223719676549865e-05,
	"loss": 1.0856,
	"step": 620
	},
	{
	"epoch": 0.168,
	"grad_norm": 23.133333206176758,
	"learning_rate": 4.210242587601078e-05,
	"loss": 0.9639,
	"step": 630
	},
	{
	"epoch": 0.17066666666666666,
	"grad_norm": 18.067371368408203,
	"learning_rate": 4.196765498652291e-05,
	"loss": 0.9634,
	"step": 640
	},
	{
	"epoch": 0.17333333333333334,
	"grad_norm": 12.229750633239746,
	"learning_rate": 4.1832884097035044e-05,
	"loss": 1.0344,
	"step": 650
	},
	{
	"epoch": 0.176,
	"grad_norm": 22.890745162963867,
	"learning_rate": 4.169811320754717e-05,
	"loss": 0.9957,
	"step": 660
	},
	{
	"epoch": 0.17866666666666667,
	"grad_norm": 14.036510467529297,
	"learning_rate": 4.1563342318059304e-05,
	"loss": 1.0437,
	"step": 670
	},
	{
	"epoch": 0.18133333333333335,
	"grad_norm": 20.7513427734375,
	"learning_rate": 4.1428571428571437e-05,
	"loss": 0.9701,
	"step": 680
	},
	{
	"epoch": 0.184,
	"grad_norm": 17.166906356811523,
	"learning_rate": 4.129380053908356e-05,
	"loss": 1.0441,
	"step": 690
	},
	{
	"epoch": 0.18666666666666668,
	"grad_norm": 20.572906494140625,
	"learning_rate": 4.115902964959569e-05,
	"loss": 0.9385,
	"step": 700
	},
	{
	"epoch": 0.18933333333333333,
	"grad_norm": 31.991064071655273,
	"learning_rate": 4.102425876010782e-05,
	"loss": 0.8948,
	"step": 710
	},
	{
	"epoch": 0.192,
	"grad_norm": 17.177244186401367,
	"learning_rate": 4.088948787061995e-05,
	"loss": 0.9879,
	"step": 720
	},
	{
	"epoch": 0.19466666666666665,
	"grad_norm": 40.46111297607422,
	"learning_rate": 4.075471698113208e-05,
	"loss": 0.9407,
	"step": 730
	},
	{
	"epoch": 0.19733333333333333,
	"grad_norm": 18.954919815063477,
	"learning_rate": 4.061994609164421e-05,
	"loss": 0.8769,
	"step": 740
	},
	{
	"epoch": 0.2,
	"grad_norm": 27.662670135498047,
	"learning_rate": 4.0485175202156334e-05,
	"loss": 0.9017,
	"step": 750
	},
	{
	"epoch": 0.20266666666666666,
	"grad_norm": 23.883554458618164,
	"learning_rate": 4.035040431266847e-05,
	"loss": 0.8869,
	"step": 760
	},
	{
	"epoch": 0.20533333333333334,
	"grad_norm": 12.331147193908691,
	"learning_rate": 4.021563342318059e-05,
	"loss": 1.0079,
	"step": 770
	},
	{
	"epoch": 0.208,
	"grad_norm": 28.752796173095703,
	"learning_rate": 4.0080862533692726e-05,
	"loss": 1.086,
	"step": 780
	},
	{
	"epoch": 0.21066666666666667,
	"grad_norm": 13.401335716247559,
	"learning_rate": 3.994609164420485e-05,
	"loss": 0.9125,
	"step": 790
	},
	{
	"epoch": 0.21333333333333335,
	"grad_norm": 15.617888450622559,
	"learning_rate": 3.9811320754716985e-05,
	"loss": 1.0721,
	"step": 800
	},
	{
	"epoch": 0.216,
	"grad_norm": 15.418866157531738,
	"learning_rate": 3.967654986522911e-05,
	"loss": 0.9077,
	"step": 810
	},
	{
	"epoch": 0.21866666666666668,
	"grad_norm": 15.754548072814941,
	"learning_rate": 3.954177897574124e-05,
	"loss": 0.8357,
	"step": 820
	},
	{
	"epoch": 0.22133333333333333,
	"grad_norm": 41.20192337036133,
	"learning_rate": 3.940700808625337e-05,
	"loss": 0.9083,
	"step": 830
	},
	{
	"epoch": 0.224,
	"grad_norm": 16.211647033691406,
	"learning_rate": 3.92722371967655e-05,
	"loss": 0.9127,
	"step": 840
	},
	{
	"epoch": 0.22666666666666666,
	"grad_norm": 13.946799278259277,
	"learning_rate": 3.913746630727763e-05,
	"loss": 0.7372,
	"step": 850
	},
	{
	"epoch": 0.22933333333333333,
	"grad_norm": 21.009559631347656,
	"learning_rate": 3.9002695417789756e-05,
	"loss": 1.3809,
	"step": 860
	},
	{
	"epoch": 0.232,
	"grad_norm": 21.615312576293945,
	"learning_rate": 3.886792452830189e-05,
	"loss": 0.6986,
	"step": 870
	},
	{
	"epoch": 0.23466666666666666,
	"grad_norm": 19.901323318481445,
	"learning_rate": 3.8733153638814016e-05,
	"loss": 0.7376,
	"step": 880
	},
	{
	"epoch": 0.23733333333333334,
	"grad_norm": 16.549930572509766,
	"learning_rate": 3.859838274932614e-05,
	"loss": 0.909,
	"step": 890
	},
	{
	"epoch": 0.24,
	"grad_norm": 15.812335968017578,
	"learning_rate": 3.8463611859838275e-05,
	"loss": 0.992,
	"step": 900
	},
	{
	"epoch": 0.24266666666666667,
	"grad_norm": 24.12803840637207,
	"learning_rate": 3.832884097035041e-05,
	"loss": 0.6972,
	"step": 910
	},
	{
	"epoch": 0.24533333333333332,
	"grad_norm": 21.171733856201172,
	"learning_rate": 3.8194070080862534e-05,
	"loss": 0.7434,
	"step": 920
	},
	{
	"epoch": 0.248,
	"grad_norm": 26.37090301513672,
	"learning_rate": 3.805929919137467e-05,
	"loss": 0.8473,
	"step": 930
	},
	{
	"epoch": 0.25066666666666665,
	"grad_norm": 20.04369354248047,
	"learning_rate": 3.7924528301886794e-05,
	"loss": 0.894,
	"step": 940
	},
	{
	"epoch": 0.25333333333333335,
	"grad_norm": 13.9522705078125,
	"learning_rate": 3.778975741239893e-05,
	"loss": 0.9453,
	"step": 950
	},
	{
	"epoch": 0.256,
	"grad_norm": 24.92080307006836,
	"learning_rate": 3.765498652291105e-05,
	"loss": 0.8933,
	"step": 960
	},
	{
	"epoch": 0.25866666666666666,
	"grad_norm": 16.42112922668457,
	"learning_rate": 3.7520215633423186e-05,
	"loss": 0.8796,
	"step": 970
	},
	{
	"epoch": 0.2613333333333333,
	"grad_norm": 20.49955177307129,
	"learning_rate": 3.738544474393531e-05,
	"loss": 0.9124,
	"step": 980
	},
	{
	"epoch": 0.264,
	"grad_norm": 15.735032081604004,
	"learning_rate": 3.7250673854447445e-05,
	"loss": 0.7667,
	"step": 990
	},
	{
	"epoch": 0.26666666666666666,
	"grad_norm": 19.217073440551758,
	"learning_rate": 3.711590296495957e-05,
	"loss": 0.8998,
	"step": 1000
	},
	{
	"epoch": 0.2693333333333333,
	"grad_norm": 8.541267395019531,
	"learning_rate": 3.69811320754717e-05,
	"loss": 0.7713,
	"step": 1010
	},
	{
	"epoch": 0.272,
	"grad_norm": 14.928740501403809,
	"learning_rate": 3.684636118598383e-05,
	"loss": 0.7236,
	"step": 1020
	},
	{
	"epoch": 0.27466666666666667,
	"grad_norm": 16.99907875061035,
	"learning_rate": 3.671159029649596e-05,
	"loss": 1.1256,
	"step": 1030
	},
	{
	"epoch": 0.2773333333333333,
	"grad_norm": 19.001367568969727,
	"learning_rate": 3.657681940700809e-05,
	"loss": 0.7618,
	"step": 1040
	},
	{
	"epoch": 0.28,
	"grad_norm": 10.604147911071777,
	"learning_rate": 3.6442048517520216e-05,
	"loss": 0.552,
	"step": 1050
	},
	{
	"epoch": 0.2826666666666667,
	"grad_norm": 21.42070960998535,
	"learning_rate": 3.630727762803235e-05,
	"loss": 0.7332,
	"step": 1060
	},
	{
	"epoch": 0.2853333333333333,
	"grad_norm": 18.641592025756836,
	"learning_rate": 3.6172506738544476e-05,
	"loss": 0.8692,
	"step": 1070
	},
	{
	"epoch": 0.288,
	"grad_norm": 16.066688537597656,
	"learning_rate": 3.60377358490566e-05,
	"loss": 0.8477,
	"step": 1080
	},
	{
	"epoch": 0.2906666666666667,
	"grad_norm": 12.110546112060547,
	"learning_rate": 3.591644204851752e-05,
	"loss": 0.7791,
	"step": 1090
	},
	{
	"epoch": 0.29333333333333333,
	"grad_norm": 16.413415908813477,
	"learning_rate": 3.5781671159029654e-05,
	"loss": 0.8859,
	"step": 1100
	},
	{
	"epoch": 0.296,
	"grad_norm": 22.351011276245117,
	"learning_rate": 3.564690026954178e-05,
	"loss": 0.7636,
	"step": 1110
	},
	{
	"epoch": 0.2986666666666667,
	"grad_norm": 24.596023559570312,
	"learning_rate": 3.551212938005391e-05,
	"loss": 0.7844,
	"step": 1120
	},
	{
	"epoch": 0.30133333333333334,
	"grad_norm": 22.409677505493164,
	"learning_rate": 3.537735849056604e-05,
	"loss": 0.6592,
	"step": 1130
	},
	{
	"epoch": 0.304,
	"grad_norm": 24.0985164642334,
	"learning_rate": 3.524258760107817e-05,
	"loss": 0.6166,
	"step": 1140
	},
	{
	"epoch": 0.30666666666666664,
	"grad_norm": 27.24460220336914,
	"learning_rate": 3.51078167115903e-05,
	"loss": 0.6103,
	"step": 1150
	},
	{
	"epoch": 0.30933333333333335,
	"grad_norm": 19.044878005981445,
	"learning_rate": 3.497304582210243e-05,
	"loss": 0.8619,
	"step": 1160
	},
	{
	"epoch": 0.312,
	"grad_norm": 15.642664909362793,
	"learning_rate": 3.483827493261456e-05,
	"loss": 0.5552,
	"step": 1170
	},
	{
	"epoch": 0.31466666666666665,
	"grad_norm": 15.886361122131348,
	"learning_rate": 3.470350404312669e-05,
	"loss": 0.6504,
	"step": 1180
	},
	{
	"epoch": 0.31733333333333336,
	"grad_norm": 13.45265007019043,
	"learning_rate": 3.456873315363882e-05,
	"loss": 0.6795,
	"step": 1190
	},
	{
	"epoch": 0.32,
	"grad_norm": 16.279279708862305,
	"learning_rate": 3.4433962264150943e-05,
	"loss": 0.7133,
	"step": 1200
	},
	{
	"epoch": 0.32266666666666666,
	"grad_norm": 13.857735633850098,
	"learning_rate": 3.4299191374663076e-05,
	"loss": 0.7624,
	"step": 1210
	},
	{
	"epoch": 0.3253333333333333,
	"grad_norm": 30.951120376586914,
	"learning_rate": 3.41644204851752e-05,
	"loss": 0.8361,
	"step": 1220
	},
	{
	"epoch": 0.328,
	"grad_norm": 18.188127517700195,
	"learning_rate": 3.4029649595687336e-05,
	"loss": 0.8501,
	"step": 1230
	},
	{
	"epoch": 0.33066666666666666,
	"grad_norm": 10.986045837402344,
	"learning_rate": 3.389487870619946e-05,
	"loss": 0.5995,
	"step": 1240
	},
	{
	"epoch": 0.3333333333333333,
	"grad_norm": 20.819345474243164,
	"learning_rate": 3.376010781671159e-05,
	"loss": 0.7281,
	"step": 1250
	},
	{
	"epoch": 0.336,
	"grad_norm": 11.451189041137695,
	"learning_rate": 3.362533692722372e-05,
	"loss": 0.7865,
	"step": 1260
	},
	{
	"epoch": 0.33866666666666667,
	"grad_norm": 14.050557136535645,
	"learning_rate": 3.349056603773585e-05,
	"loss": 0.7317,
	"step": 1270
	},
	{
	"epoch": 0.3413333333333333,
	"grad_norm": 15.141704559326172,
	"learning_rate": 3.335579514824798e-05,
	"loss": 0.8523,
	"step": 1280
	},
	{
	"epoch": 0.344,
	"grad_norm": 10.00051212310791,
	"learning_rate": 3.322102425876011e-05,
	"loss": 0.6845,
	"step": 1290
	},
	{
	"epoch": 0.3466666666666667,
	"grad_norm": 13.601828575134277,
	"learning_rate": 3.308625336927224e-05,
	"loss": 0.6095,
	"step": 1300
	},
	{
	"epoch": 0.34933333333333333,
	"grad_norm": 10.909045219421387,
	"learning_rate": 3.2951482479784366e-05,
	"loss": 0.6171,
	"step": 1310
	},
	{
	"epoch": 0.352,
	"grad_norm": 11.6277494430542,
	"learning_rate": 3.281671159029649e-05,
	"loss": 0.6462,
	"step": 1320
	},
	{
	"epoch": 0.3546666666666667,
	"grad_norm": 20.13886260986328,
	"learning_rate": 3.2681940700808625e-05,
	"loss": 0.7949,
	"step": 1330
	},
	{
	"epoch": 0.35733333333333334,
	"grad_norm": 17.524749755859375,
	"learning_rate": 3.254716981132075e-05,
	"loss": 0.652,
	"step": 1340
	},
	{
	"epoch": 0.36,
	"grad_norm": 54.58905029296875,
	"learning_rate": 3.2412398921832885e-05,
	"loss": 0.8208,
	"step": 1350
	},
	{
	"epoch": 0.3626666666666667,
	"grad_norm": 18.752511978149414,
	"learning_rate": 3.227762803234501e-05,
	"loss": 0.5932,
	"step": 1360
	},
	{
	"epoch": 0.36533333333333334,
	"grad_norm": 14.622041702270508,
	"learning_rate": 3.2142857142857144e-05,
	"loss": 0.7167,
	"step": 1370
	},
	{
	"epoch": 0.368,
	"grad_norm": 8.478232383728027,
	"learning_rate": 3.200808625336928e-05,
	"loss": 0.7539,
	"step": 1380
	},
	{
	"epoch": 0.37066666666666664,
	"grad_norm": 12.95142650604248,
	"learning_rate": 3.18733153638814e-05,
	"loss": 0.5204,
	"step": 1390
	},
	{
	"epoch": 0.37333333333333335,
	"grad_norm": 17.096162796020508,
	"learning_rate": 3.1738544474393536e-05,
	"loss": 0.6483,
	"step": 1400
	},
	{
	"epoch": 0.376,
	"grad_norm": 10.984807014465332,
	"learning_rate": 3.160377358490566e-05,
	"loss": 0.6095,
	"step": 1410
	},
	{
	"epoch": 0.37866666666666665,
	"grad_norm": 13.153656005859375,
	"learning_rate": 3.1469002695417795e-05,
	"loss": 0.9426,
	"step": 1420
	},
	{
	"epoch": 0.38133333333333336,
	"grad_norm": 17.266773223876953,
	"learning_rate": 3.133423180592992e-05,
	"loss": 0.6305,
	"step": 1430
	},
	{
	"epoch": 0.384,
	"grad_norm": 19.149139404296875,
	"learning_rate": 3.1199460916442055e-05,
	"loss": 0.5216,
	"step": 1440
	},
	{
	"epoch": 0.38666666666666666,
	"grad_norm": 16.195602416992188,
	"learning_rate": 3.106469002695418e-05,
	"loss": 0.6495,
	"step": 1450
	},
	{
	"epoch": 0.3893333333333333,
	"grad_norm": 22.2844295501709,
	"learning_rate": 3.092991913746631e-05,
	"loss": 0.6727,
	"step": 1460
	},
	{
	"epoch": 0.392,
	"grad_norm": 35.478431701660156,
	"learning_rate": 3.079514824797844e-05,
	"loss": 0.523,
	"step": 1470
	},
	{
	"epoch": 0.39466666666666667,
	"grad_norm": 16.394384384155273,
	"learning_rate": 3.0660377358490567e-05,
	"loss": 0.6651,
	"step": 1480
	},
	{
	"epoch": 0.3973333333333333,
	"grad_norm": 27.04049301147461,
	"learning_rate": 3.05256064690027e-05,
	"loss": 0.6955,
	"step": 1490
	},
	{
	"epoch": 0.4,
	"grad_norm": 16.169918060302734,
	"learning_rate": 3.0390835579514826e-05,
	"loss": 0.9615,
	"step": 1500
	},
	{
	"epoch": 0.4026666666666667,
	"grad_norm": 13.561074256896973,
	"learning_rate": 3.0256064690026952e-05,
	"loss": 0.5601,
	"step": 1510
	},
	{
	"epoch": 0.4053333333333333,
	"grad_norm": 11.765976905822754,
	"learning_rate": 3.0121293800539085e-05,
	"loss": 0.8551,
	"step": 1520
	},
	{
	"epoch": 0.408,
	"grad_norm": 19.16045570373535,
	"learning_rate": 2.998652291105121e-05,
	"loss": 0.7272,
	"step": 1530
	},
	{
	"epoch": 0.4106666666666667,
	"grad_norm": 16.194807052612305,
	"learning_rate": 2.9851752021563344e-05,
	"loss": 0.5103,
	"step": 1540
	},
	{
	"epoch": 0.41333333333333333,
	"grad_norm": 17.953489303588867,
	"learning_rate": 2.971698113207547e-05,
	"loss": 0.5305,
	"step": 1550
	},
	{
	"epoch": 0.416,
	"grad_norm": 9.067590713500977,
	"learning_rate": 2.9582210242587604e-05,
	"loss": 0.5572,
	"step": 1560
	},
	{
	"epoch": 0.4186666666666667,
	"grad_norm": 13.370523452758789,
	"learning_rate": 2.9447439353099733e-05,
	"loss": 0.7039,
	"step": 1570
	},
	{
	"epoch": 0.42133333333333334,
	"grad_norm": 16.49010467529297,
	"learning_rate": 2.931266846361186e-05,
	"loss": 0.6186,
	"step": 1580
	},
	{
	"epoch": 0.424,
	"grad_norm": 6.0413432121276855,
	"learning_rate": 2.9177897574123993e-05,
	"loss": 0.5004,
	"step": 1590
	},
	{
	"epoch": 0.4266666666666667,
	"grad_norm": 14.460140228271484,
	"learning_rate": 2.904312668463612e-05,
	"loss": 0.5807,
	"step": 1600
	},
	{
	"epoch": 0.42933333333333334,
	"grad_norm": 15.20493221282959,
	"learning_rate": 2.8908355795148252e-05,
	"loss": 0.7204,
	"step": 1610
	},
	{
	"epoch": 0.432,
	"grad_norm": 12.341790199279785,
	"learning_rate": 2.8773584905660378e-05,
	"loss": 0.5921,
	"step": 1620
	},
	{
	"epoch": 0.43466666666666665,
	"grad_norm": 10.590622901916504,
	"learning_rate": 2.863881401617251e-05,
	"loss": 0.6006,
	"step": 1630
	},
	{
	"epoch": 0.43733333333333335,
	"grad_norm": 8.964296340942383,
	"learning_rate": 2.8504043126684637e-05,
	"loss": 0.6091,
	"step": 1640
	},
	{
	"epoch": 0.44,
	"grad_norm": 8.68560791015625,
	"learning_rate": 2.8369272237196764e-05,
	"loss": 0.4824,
	"step": 1650
	},
	{
	"epoch": 0.44266666666666665,
	"grad_norm": 13.087327003479004,
	"learning_rate": 2.8234501347708897e-05,
	"loss": 0.555,
	"step": 1660
	},
	{
	"epoch": 0.44533333333333336,
	"grad_norm": 12.374855995178223,
	"learning_rate": 2.8099730458221023e-05,
	"loss": 0.495,
	"step": 1670
	},
	{
	"epoch": 0.448,
	"grad_norm": 15.60127067565918,
	"learning_rate": 2.7964959568733156e-05,
	"loss": 0.4963,
	"step": 1680
	},
	{
	"epoch": 0.45066666666666666,
	"grad_norm": 18.035654067993164,
	"learning_rate": 2.7830188679245282e-05,
	"loss": 0.4912,
	"step": 1690
	},
	{
	"epoch": 0.4533333333333333,
	"grad_norm": 13.443245887756348,
	"learning_rate": 2.7695417789757415e-05,
	"loss": 0.5632,
	"step": 1700
	},
	{
	"epoch": 0.456,
	"grad_norm": 12.241705894470215,
	"learning_rate": 2.7560646900269545e-05,
	"loss": 0.6605,
	"step": 1710
	},
	{
	"epoch": 0.45866666666666667,
	"grad_norm": 11.940319061279297,
	"learning_rate": 2.742587601078167e-05,
	"loss": 0.539,
	"step": 1720
	},
	{
	"epoch": 0.4613333333333333,
	"grad_norm": 18.570348739624023,
	"learning_rate": 2.7291105121293804e-05,
	"loss": 0.614,
	"step": 1730
	},
	{
	"epoch": 0.464,
	"grad_norm": 9.429092407226562,
	"learning_rate": 2.715633423180593e-05,
	"loss": 0.4103,
	"step": 1740
	},
	{
	"epoch": 0.4666666666666667,
	"grad_norm": 14.560633659362793,
	"learning_rate": 2.7021563342318063e-05,
	"loss": 0.4716,
	"step": 1750
	},
	{
	"epoch": 0.4693333333333333,
	"grad_norm": 10.830166816711426,
	"learning_rate": 2.688679245283019e-05,
	"loss": 0.4992,
	"step": 1760
	},
	{
	"epoch": 0.472,
	"grad_norm": 23.776018142700195,
	"learning_rate": 2.6752021563342316e-05,
	"loss": 0.5022,
	"step": 1770
	},
	{
	"epoch": 0.4746666666666667,
	"grad_norm": 9.272604942321777,
	"learning_rate": 2.661725067385445e-05,
	"loss": 0.5528,
	"step": 1780
	},
	{
	"epoch": 0.47733333333333333,
	"grad_norm": 10.480013847351074,
	"learning_rate": 2.6482479784366575e-05,
	"loss": 0.4867,
	"step": 1790
	},
	{
	"epoch": 0.48,
	"grad_norm": 12.409500122070312,
	"learning_rate": 2.6347708894878708e-05,
	"loss": 0.5734,
	"step": 1800
	},
	{
	"epoch": 0.4826666666666667,
	"grad_norm": 10.523347854614258,
	"learning_rate": 2.6212938005390834e-05,
	"loss": 0.408,
	"step": 1810
	},
	{
	"epoch": 0.48533333333333334,
	"grad_norm": 25.753644943237305,
	"learning_rate": 2.6078167115902967e-05,
	"loss": 0.7066,
	"step": 1820
	},
	{
	"epoch": 0.488,
	"grad_norm": 7.335714340209961,
	"learning_rate": 2.5943396226415094e-05,
	"loss": 0.6111,
	"step": 1830
	},
	{
	"epoch": 0.49066666666666664,
	"grad_norm": 15.647913932800293,
	"learning_rate": 2.5808625336927223e-05,
	"loss": 0.4276,
	"step": 1840
	},
	{
	"epoch": 0.49333333333333335,
	"grad_norm": 17.750133514404297,
	"learning_rate": 2.5673854447439356e-05,
	"loss": 0.5272,
	"step": 1850
	},
	{
	"epoch": 0.496,
	"grad_norm": 8.927289009094238,
	"learning_rate": 2.5539083557951483e-05,
	"loss": 0.3994,
	"step": 1860
	},
	{
	"epoch": 0.49866666666666665,
	"grad_norm": 17.202116012573242,
	"learning_rate": 2.5404312668463616e-05,
	"loss": 0.4298,
	"step": 1870
	},
	{
	"epoch": 0.5013333333333333,
	"grad_norm": 15.45162582397461,
	"learning_rate": 2.5269541778975742e-05,
	"loss": 0.5383,
	"step": 1880
	},
	{
	"epoch": 0.504,
	"grad_norm": 14.994674682617188,
	"learning_rate": 2.5134770889487875e-05,
	"loss": 0.5111,
	"step": 1890
	},
	{
	"epoch": 0.5066666666666667,
	"grad_norm": 10.413031578063965,
	"learning_rate": 2.5e-05,
	"loss": 0.6101,
	"step": 1900
	},
	{
	"epoch": 0.5093333333333333,
	"grad_norm": 4.97536039352417,
	"learning_rate": 2.486522911051213e-05,
	"loss": 0.4024,
	"step": 1910
	},
	{
	"epoch": 0.512,
	"grad_norm": 12.021340370178223,
	"learning_rate": 2.473045822102426e-05,
	"loss": 0.4435,
	"step": 1920
	},
	{
	"epoch": 0.5146666666666667,
	"grad_norm": 10.06999397277832,
	"learning_rate": 2.459568733153639e-05,
	"loss": 0.4014,
	"step": 1930
	},
	{
	"epoch": 0.5173333333333333,
	"grad_norm": 17.036684036254883,
	"learning_rate": 2.4460916442048516e-05,
	"loss": 0.5831,
	"step": 1940
	},
	{
	"epoch": 0.52,
	"grad_norm": 17.28995704650879,
	"learning_rate": 2.4326145552560646e-05,
	"loss": 0.4183,
	"step": 1950
	},
	{
	"epoch": 0.5226666666666666,
	"grad_norm": 15.344680786132812,
	"learning_rate": 2.4191374663072776e-05,
	"loss": 0.5594,
	"step": 1960
	},
	{
	"epoch": 0.5253333333333333,
	"grad_norm": 16.586666107177734,
	"learning_rate": 2.405660377358491e-05,
	"loss": 0.7698,
	"step": 1970
	},
	{
	"epoch": 0.528,
	"grad_norm": 9.886058807373047,
	"learning_rate": 2.3921832884097038e-05,
	"loss": 0.3961,
	"step": 1980
	},
	{
	"epoch": 0.5306666666666666,
	"grad_norm": 38.06374740600586,
	"learning_rate": 2.3787061994609168e-05,
	"loss": 0.5962,
	"step": 1990
	},
	{
	"epoch": 0.5333333333333333,
	"grad_norm": 14.431428909301758,
	"learning_rate": 2.3652291105121294e-05,
	"loss": 0.5876,
	"step": 2000
	},
	{
	"epoch": 0.536,
	"grad_norm": 10.744256973266602,
	"learning_rate": 2.3517520215633424e-05,
	"loss": 0.4312,
	"step": 2010
	},
	{
	"epoch": 0.5386666666666666,
	"grad_norm": 12.408907890319824,
	"learning_rate": 2.3382749326145553e-05,
	"loss": 0.4252,
	"step": 2020
	},
	{
	"epoch": 0.5413333333333333,
	"grad_norm": 12.613394737243652,
	"learning_rate": 2.3247978436657683e-05,
	"loss": 0.56,
	"step": 2030
	},
	{
	"epoch": 0.544,
	"grad_norm": 13.715694427490234,
	"learning_rate": 2.3113207547169813e-05,
	"loss": 0.5211,
	"step": 2040
	},
	{
	"epoch": 0.5466666666666666,
	"grad_norm": 12.417014122009277,
	"learning_rate": 2.2978436657681942e-05,
	"loss": 0.5882,
	"step": 2050
	},
	{
	"epoch": 0.5493333333333333,
	"grad_norm": 9.672564506530762,
	"learning_rate": 2.2843665768194072e-05,
	"loss": 0.3459,
	"step": 2060
	},
	{
	"epoch": 0.552,
	"grad_norm": 13.13898754119873,
	"learning_rate": 2.2708894878706198e-05,
	"loss": 0.4834,
	"step": 2070
	},
	{
	"epoch": 0.5546666666666666,
	"grad_norm": 14.900617599487305,
	"learning_rate": 2.2574123989218328e-05,
	"loss": 0.5048,
	"step": 2080
	},
	{
	"epoch": 0.5573333333333333,
	"grad_norm": 11.404877662658691,
	"learning_rate": 2.2439353099730458e-05,
	"loss": 0.4535,
	"step": 2090
	},
	{
	"epoch": 0.56,
	"grad_norm": 7.463709354400635,
	"learning_rate": 2.2304582210242587e-05,
	"loss": 0.4313,
	"step": 2100
	},
	{
	"epoch": 0.5626666666666666,
	"grad_norm": 11.312776565551758,
	"learning_rate": 2.216981132075472e-05,
	"loss": 0.5036,
	"step": 2110
	},
	{
	"epoch": 0.5653333333333334,
	"grad_norm": 8.457867622375488,
	"learning_rate": 2.203504043126685e-05,
	"loss": 0.3745,
	"step": 2120
	},
	{
	"epoch": 0.568,
	"grad_norm": 12.78984260559082,
	"learning_rate": 2.1900269541778976e-05,
	"loss": 0.4506,
	"step": 2130
	},
	{
	"epoch": 0.5706666666666667,
	"grad_norm": 8.840005874633789,
	"learning_rate": 2.1765498652291106e-05,
	"loss": 0.4627,
	"step": 2140
	},
	{
	"epoch": 0.5733333333333334,
	"grad_norm": 7.707107067108154,
	"learning_rate": 2.1630727762803235e-05,
	"loss": 0.4992,
	"step": 2150
	},
	{
	"epoch": 0.576,
	"grad_norm": 14.227144241333008,
	"learning_rate": 2.1495956873315365e-05,
	"loss": 0.4225,
	"step": 2160
	},
	{
	"epoch": 0.5786666666666667,
	"grad_norm": 5.796125888824463,
	"learning_rate": 2.1361185983827495e-05,
	"loss": 0.4205,
	"step": 2170
	},
	{
	"epoch": 0.5813333333333334,
	"grad_norm": 9.55081558227539,
	"learning_rate": 2.1226415094339624e-05,
	"loss": 0.5001,
	"step": 2180
	},
	{
	"epoch": 0.584,
	"grad_norm": 8.978111267089844,
	"learning_rate": 2.1091644204851754e-05,
	"loss": 0.4012,
	"step": 2190
	},
	{
	"epoch": 0.5866666666666667,
	"grad_norm": 7.070921421051025,
	"learning_rate": 2.095687331536388e-05,
	"loss": 0.3401,
	"step": 2200
	},
	{
	"epoch": 0.5893333333333334,
	"grad_norm": 11.980148315429688,
	"learning_rate": 2.082210242587601e-05,
	"loss": 0.3706,
	"step": 2210
	},
	{
	"epoch": 0.592,
	"grad_norm": 16.289701461791992,
	"learning_rate": 2.068733153638814e-05,
	"loss": 0.5465,
	"step": 2220
	},
	{
	"epoch": 0.5946666666666667,
	"grad_norm": 11.466804504394531,
	"learning_rate": 2.055256064690027e-05,
	"loss": 0.4451,
	"step": 2230
	},
	{
	"epoch": 0.5973333333333334,
	"grad_norm": 9.505926132202148,
	"learning_rate": 2.0417789757412402e-05,
	"loss": 0.4636,
	"step": 2240
	},
	{
	"epoch": 0.6,
	"grad_norm": 12.751081466674805,
	"learning_rate": 2.0283018867924532e-05,
	"loss": 0.4407,
	"step": 2250
	},
	{
	"epoch": 0.6026666666666667,
	"grad_norm": 19.082717895507812,
	"learning_rate": 2.0148247978436658e-05,
	"loss": 0.6069,
	"step": 2260
	},
	{
	"epoch": 0.6053333333333333,
	"grad_norm": 9.956210136413574,
	"learning_rate": 2.0013477088948788e-05,
	"loss": 0.3804,
	"step": 2270
	},
	{
	"epoch": 0.608,
	"grad_norm": 22.91667938232422,
	"learning_rate": 1.9878706199460917e-05,
	"loss": 0.4452,
	"step": 2280
	},
	{
	"epoch": 0.6106666666666667,
	"grad_norm": 11.472311973571777,
	"learning_rate": 1.9743935309973047e-05,
	"loss": 0.5524,
	"step": 2290
	},
	{
	"epoch": 0.6133333333333333,
	"grad_norm": 7.967957019805908,
	"learning_rate": 1.9609164420485177e-05,
	"loss": 0.3626,
	"step": 2300
	},
	{
	"epoch": 0.616,
	"grad_norm": 8.504613876342773,
	"learning_rate": 1.9474393530997306e-05,
	"loss": 0.2569,
	"step": 2310
	},
	{
	"epoch": 0.6186666666666667,
	"grad_norm": 11.852409362792969,
	"learning_rate": 1.9339622641509436e-05,
	"loss": 0.4051,
	"step": 2320
	},
	{
	"epoch": 0.6213333333333333,
	"grad_norm": 12.512871742248535,
	"learning_rate": 1.9204851752021562e-05,
	"loss": 0.3631,
	"step": 2330
	},
	{
	"epoch": 0.624,
	"grad_norm": 16.21477508544922,
	"learning_rate": 1.9070080862533692e-05,
	"loss": 0.7231,
	"step": 2340
	},
	{
	"epoch": 0.6266666666666667,
	"grad_norm": 12.807674407958984,
	"learning_rate": 1.893530997304582e-05,
	"loss": 0.4406,
	"step": 2350
	},
	{
	"epoch": 0.6293333333333333,
	"grad_norm": 8.169772148132324,
	"learning_rate": 1.880053908355795e-05,
	"loss": 0.5181,
	"step": 2360
	},
	{
	"epoch": 0.632,
	"grad_norm": 11.73438549041748,
	"learning_rate": 1.8665768194070084e-05,
	"loss": 0.392,
	"step": 2370
	},
	{
	"epoch": 0.6346666666666667,
	"grad_norm": 19.76089096069336,
	"learning_rate": 1.8530997304582214e-05,
	"loss": 0.4631,
	"step": 2380
	},
	{
	"epoch": 0.6373333333333333,
	"grad_norm": 9.086039543151855,
	"learning_rate": 1.839622641509434e-05,
	"loss": 0.3171,
	"step": 2390
	},
	{
	"epoch": 0.64,
	"grad_norm": 16.056007385253906,
	"learning_rate": 1.826145552560647e-05,
	"loss": 0.4297,
	"step": 2400
	},
	{
	"epoch": 0.6426666666666667,
	"grad_norm": 4.929039001464844,
	"learning_rate": 1.81266846361186e-05,
	"loss": 0.3565,
	"step": 2410
	},
	{
	"epoch": 0.6453333333333333,
	"grad_norm": 14.620661735534668,
	"learning_rate": 1.799191374663073e-05,
	"loss": 0.4003,
	"step": 2420
	},
	{
	"epoch": 0.648,
	"grad_norm": 11.428451538085938,
	"learning_rate": 1.785714285714286e-05,
	"loss": 0.3116,
	"step": 2430
	},
	{
	"epoch": 0.6506666666666666,
	"grad_norm": 7.882524490356445,
	"learning_rate": 1.7722371967654988e-05,
	"loss": 0.3754,
	"step": 2440
	},
	{
	"epoch": 0.6533333333333333,
	"grad_norm": 8.926907539367676,
	"learning_rate": 1.7587601078167118e-05,
	"loss": 0.3893,
	"step": 2450
	},
	{
	"epoch": 0.656,
	"grad_norm": 8.45529842376709,
	"learning_rate": 1.7452830188679244e-05,
	"loss": 0.4121,
	"step": 2460
	},
	{
	"epoch": 0.6586666666666666,
	"grad_norm": 8.348902702331543,
	"learning_rate": 1.7318059299191374e-05,
	"loss": 0.243,
	"step": 2470
	},
	{
	"epoch": 0.6613333333333333,
	"grad_norm": 7.9367852210998535,
	"learning_rate": 1.7183288409703503e-05,
	"loss": 0.2918,
	"step": 2480
	},
	{
	"epoch": 0.664,
	"grad_norm": 7.673737525939941,
	"learning_rate": 1.7048517520215633e-05,
	"loss": 0.4514,
	"step": 2490
	},
	{
	"epoch": 0.6666666666666666,
	"grad_norm": 17.945858001708984,
	"learning_rate": 1.6913746630727763e-05,
	"loss": 0.2516,
	"step": 2500
	},
	{
	"epoch": 0.6693333333333333,
	"grad_norm": 6.667047500610352,
	"learning_rate": 1.6778975741239896e-05,
	"loss": 0.318,
	"step": 2510
	},
	{
	"epoch": 0.672,
	"grad_norm": 11.213757514953613,
	"learning_rate": 1.6644204851752022e-05,
	"loss": 0.3921,
	"step": 2520
	},
	{
	"epoch": 0.6746666666666666,
	"grad_norm": 6.478138446807861,
	"learning_rate": 1.650943396226415e-05,
	"loss": 0.2691,
	"step": 2530
	},
	{
	"epoch": 0.6773333333333333,
	"grad_norm": 10.628767967224121,
	"learning_rate": 1.637466307277628e-05,
	"loss": 0.3391,
	"step": 2540
	},
	{
	"epoch": 0.68,
	"grad_norm": 12.021836280822754,
	"learning_rate": 1.623989218328841e-05,
	"loss": 0.2776,
	"step": 2550
	},
	{
	"epoch": 0.6826666666666666,
	"grad_norm": 11.101051330566406,
	"learning_rate": 1.610512129380054e-05,
	"loss": 0.3061,
	"step": 2560
	},
	{
	"epoch": 0.6853333333333333,
	"grad_norm": 12.261982917785645,
	"learning_rate": 1.597035040431267e-05,
	"loss": 0.2941,
	"step": 2570
	},
	{
	"epoch": 0.688,
	"grad_norm": 11.71900749206543,
	"learning_rate": 1.58355795148248e-05,
	"loss": 0.298,
	"step": 2580
	},
	{
	"epoch": 0.6906666666666667,
	"grad_norm": 19.52393341064453,
	"learning_rate": 1.5700808625336926e-05,
	"loss": 0.3845,
	"step": 2590
	},
	{
	"epoch": 0.6933333333333334,
	"grad_norm": 6.994551658630371,
	"learning_rate": 1.5566037735849056e-05,
	"loss": 0.3451,
	"step": 2600
	},
	{
	"epoch": 0.696,
	"grad_norm": 9.673632621765137,
	"learning_rate": 1.5431266846361185e-05,
	"loss": 0.4304,
	"step": 2610
	},
	{
	"epoch": 0.6986666666666667,
	"grad_norm": 19.336353302001953,
	"learning_rate": 1.5296495956873315e-05,
	"loss": 0.3696,
	"step": 2620
	},
	{
	"epoch": 0.7013333333333334,
	"grad_norm": 7.714166641235352,
	"learning_rate": 1.5161725067385446e-05,
	"loss": 0.3726,
	"step": 2630
	},
	{
	"epoch": 0.704,
	"grad_norm": 11.61363697052002,
	"learning_rate": 1.5026954177897576e-05,
	"loss": 0.3762,
	"step": 2640
	},
	{
	"epoch": 0.7066666666666667,
	"grad_norm": 9.290796279907227,
	"learning_rate": 1.4892183288409702e-05,
	"loss": 0.3336,
	"step": 2650
	},
	{
	"epoch": 0.7093333333333334,
	"grad_norm": 16.186071395874023,
	"learning_rate": 1.4757412398921833e-05,
	"loss": 0.4329,
	"step": 2660
	},
	{
	"epoch": 0.712,
	"grad_norm": 12.934135437011719,
	"learning_rate": 1.4622641509433963e-05,
	"loss": 0.3037,
	"step": 2670
	},
	{
	"epoch": 0.7146666666666667,
	"grad_norm": 12.35031509399414,
	"learning_rate": 1.4487870619946093e-05,
	"loss": 0.2696,
	"step": 2680
	},
	{
	"epoch": 0.7173333333333334,
	"grad_norm": 6.391822814941406,
	"learning_rate": 1.4353099730458222e-05,
	"loss": 0.3316,
	"step": 2690
	},
	{
	"epoch": 0.72,
	"grad_norm": 6.126807689666748,
	"learning_rate": 1.4218328840970352e-05,
	"loss": 0.5354,
	"step": 2700
	},
	{
	"epoch": 0.7226666666666667,
	"grad_norm": 6.678376197814941,
	"learning_rate": 1.4083557951482482e-05,
	"loss": 0.2671,
	"step": 2710
	},
	{
	"epoch": 0.7253333333333334,
	"grad_norm": 10.559714317321777,
	"learning_rate": 1.394878706199461e-05,
	"loss": 0.2821,
	"step": 2720
	},
	{
	"epoch": 0.728,
	"grad_norm": 7.568365573883057,
	"learning_rate": 1.381401617250674e-05,
	"loss": 0.2898,
	"step": 2730
	},
	{
	"epoch": 0.7306666666666667,
	"grad_norm": 6.339846611022949,
	"learning_rate": 1.3679245283018869e-05,
	"loss": 0.2709,
	"step": 2740
	},
	{
	"epoch": 0.7333333333333333,
	"grad_norm": 11.902572631835938,
	"learning_rate": 1.3544474393530998e-05,
	"loss": 0.272,
	"step": 2750
	},
	{
	"epoch": 0.736,
	"grad_norm": 7.209833145141602,
	"learning_rate": 1.3409703504043128e-05,
	"loss": 0.3483,
	"step": 2760
	},
	{
	"epoch": 0.7386666666666667,
	"grad_norm": 6.14058780670166,
	"learning_rate": 1.3274932614555258e-05,
	"loss": 0.4361,
	"step": 2770
	},
	{
	"epoch": 0.7413333333333333,
	"grad_norm": 7.956258296966553,
	"learning_rate": 1.3140161725067384e-05,
	"loss": 0.2328,
	"step": 2780
	},
	{
	"epoch": 0.744,
	"grad_norm": 14.678977966308594,
	"learning_rate": 1.3005390835579515e-05,
	"loss": 0.2982,
	"step": 2790
	},
	{
	"epoch": 0.7466666666666667,
	"grad_norm": 10.953269958496094,
	"learning_rate": 1.2870619946091645e-05,
	"loss": 0.3598,
	"step": 2800
	},
	{
	"epoch": 0.7493333333333333,
	"grad_norm": 18.05754280090332,
	"learning_rate": 1.2735849056603775e-05,
	"loss": 0.5306,
	"step": 2810
	},
	{
	"epoch": 0.752,
	"grad_norm": 6.063964366912842,
	"learning_rate": 1.2601078167115904e-05,
	"loss": 0.3629,
	"step": 2820
	},
	{
	"epoch": 0.7546666666666667,
	"grad_norm": 7.156852722167969,
	"learning_rate": 1.2466307277628032e-05,
	"loss": 0.2525,
	"step": 2830
	},
	{
	"epoch": 0.7573333333333333,
	"grad_norm": 8.384916305541992,
	"learning_rate": 1.2331536388140162e-05,
	"loss": 0.4145,
	"step": 2840
	},
	{
	"epoch": 0.76,
	"grad_norm": 7.009305000305176,
	"learning_rate": 1.2196765498652291e-05,
	"loss": 0.2607,
	"step": 2850
	},
	{
	"epoch": 0.7626666666666667,
	"grad_norm": 6.685764312744141,
	"learning_rate": 1.2061994609164421e-05,
	"loss": 0.2744,
	"step": 2860
	},
	{
	"epoch": 0.7653333333333333,
	"grad_norm": 7.995823383331299,
	"learning_rate": 1.192722371967655e-05,
	"loss": 0.2453,
	"step": 2870
	},
	{
	"epoch": 0.768,
	"grad_norm": 5.732645034790039,
	"learning_rate": 1.179245283018868e-05,
	"loss": 0.3084,
	"step": 2880
	},
	{
	"epoch": 0.7706666666666667,
	"grad_norm": 7.629417896270752,
	"learning_rate": 1.165768194070081e-05,
	"loss": 0.2558,
	"step": 2890
	},
	{
	"epoch": 0.7733333333333333,
	"grad_norm": 19.03529167175293,
	"learning_rate": 1.1522911051212938e-05,
	"loss": 0.2691,
	"step": 2900
	},
	{
	"epoch": 0.776,
	"grad_norm": 8.533991813659668,
	"learning_rate": 1.1388140161725068e-05,
	"loss": 0.3345,
	"step": 2910
	},
	{
	"epoch": 0.7786666666666666,
	"grad_norm": 9.780989646911621,
	"learning_rate": 1.1253369272237197e-05,
	"loss": 0.2568,
	"step": 2920
	},
	{
	"epoch": 0.7813333333333333,
	"grad_norm": 6.1835408210754395,
	"learning_rate": 1.1118598382749327e-05,
	"loss": 0.3091,
	"step": 2930
	},
	{
	"epoch": 0.784,
	"grad_norm": 7.115200996398926,
	"learning_rate": 1.0983827493261456e-05,
	"loss": 0.3147,
	"step": 2940
	},
	{
	"epoch": 0.7866666666666666,
	"grad_norm": 23.340068817138672,
	"learning_rate": 1.0849056603773586e-05,
	"loss": 0.3335,
	"step": 2950
	},
	{
	"epoch": 0.7893333333333333,
	"grad_norm": 5.916553020477295,
	"learning_rate": 1.0714285714285714e-05,
	"loss": 0.2359,
	"step": 2960
	},
	{
	"epoch": 0.792,
	"grad_norm": 6.533686637878418,
	"learning_rate": 1.0579514824797844e-05,
	"loss": 0.3634,
	"step": 2970
	},
	{
	"epoch": 0.7946666666666666,
	"grad_norm": 6.188602447509766,
	"learning_rate": 1.0444743935309973e-05,
	"loss": 0.3016,
	"step": 2980
	},
	{
	"epoch": 0.7973333333333333,
	"grad_norm": 5.642481327056885,
	"learning_rate": 1.0309973045822103e-05,
	"loss": 0.2852,
	"step": 2990
	},
	{
	"epoch": 0.8,
	"grad_norm": 13.653228759765625,
	"learning_rate": 1.0175202156334233e-05,
	"loss": 0.2609,
	"step": 3000
	},
	{
	"epoch": 0.8026666666666666,
	"grad_norm": 8.680575370788574,
	"learning_rate": 1.0040431266846362e-05,
	"loss": 0.5043,
	"step": 3010
	},
	{
	"epoch": 0.8053333333333333,
	"grad_norm": 6.801578044891357,
	"learning_rate": 9.905660377358492e-06,
	"loss": 0.2743,
	"step": 3020
	},
	{
	"epoch": 0.808,
	"grad_norm": 8.94039535522461,
	"learning_rate": 9.77088948787062e-06,
	"loss": 0.5254,
	"step": 3030
	},
	{
	"epoch": 0.8106666666666666,
	"grad_norm": 5.270666599273682,
	"learning_rate": 9.63611859838275e-06,
	"loss": 0.2423,
	"step": 3040
	},
	{
	"epoch": 0.8133333333333334,
	"grad_norm": 18.539167404174805,
	"learning_rate": 9.501347708894879e-06,
	"loss": 0.2445,
	"step": 3050
	},
	{
	"epoch": 0.816,
	"grad_norm": 17.910654067993164,
	"learning_rate": 9.366576819407009e-06,
	"loss": 0.2115,
	"step": 3060
	},
	{
	"epoch": 0.8186666666666667,
	"grad_norm": 18.064149856567383,
	"learning_rate": 9.231805929919138e-06,
	"loss": 0.2265,
	"step": 3070
	},
	{
	"epoch": 0.8213333333333334,
	"grad_norm": 6.2826972007751465,
	"learning_rate": 9.097035040431268e-06,
	"loss": 0.3454,
	"step": 3080
	},
	{
	"epoch": 0.824,
	"grad_norm": 11.170026779174805,
	"learning_rate": 8.962264150943396e-06,
	"loss": 0.2811,
	"step": 3090
	},
	{
	"epoch": 0.8266666666666667,
	"grad_norm": 16.875585556030273,
	"learning_rate": 8.827493261455526e-06,
	"loss": 0.2665,
	"step": 3100
	},
	{
	"epoch": 0.8293333333333334,
	"grad_norm": 6.005315780639648,
	"learning_rate": 8.692722371967655e-06,
	"loss": 0.3352,
	"step": 3110
	},
	{
	"epoch": 0.832,
	"grad_norm": 10.657337188720703,
	"learning_rate": 8.557951482479785e-06,
	"loss": 0.3018,
	"step": 3120
	},
	{
	"epoch": 0.8346666666666667,
	"grad_norm": 8.12637996673584,
	"learning_rate": 8.423180592991915e-06,
	"loss": 0.261,
	"step": 3130
	},
	{
	"epoch": 0.8373333333333334,
	"grad_norm": 9.491544723510742,
	"learning_rate": 8.288409703504044e-06,
	"loss": 0.2966,
	"step": 3140
	},
	{
	"epoch": 0.84,
	"grad_norm": 8.712248802185059,
	"learning_rate": 8.153638814016174e-06,
	"loss": 0.3018,
	"step": 3150
	},
	{
	"epoch": 0.8426666666666667,
	"grad_norm": 5.385801792144775,
	"learning_rate": 8.018867924528302e-06,
	"loss": 0.2286,
	"step": 3160
	},
	{
	"epoch": 0.8453333333333334,
	"grad_norm": 7.639825820922852,
	"learning_rate": 7.884097035040431e-06,
	"loss": 0.2401,
	"step": 3170
	},
	{
	"epoch": 0.848,
	"grad_norm": 9.133435249328613,
	"learning_rate": 7.749326145552561e-06,
	"loss": 0.3611,
	"step": 3180
	},
	{
	"epoch": 0.8506666666666667,
	"grad_norm": 5.726224899291992,
	"learning_rate": 7.61455525606469e-06,
	"loss": 0.2351,
	"step": 3190
	},
	{
	"epoch": 0.8533333333333334,
	"grad_norm": 6.735703468322754,
	"learning_rate": 7.4797843665768195e-06,
	"loss": 0.2259,
	"step": 3200
	},
	{
	"epoch": 0.856,
	"grad_norm": 5.516600608825684,
	"learning_rate": 7.345013477088949e-06,
	"loss": 0.2526,
	"step": 3210
	},
	{
	"epoch": 0.8586666666666667,
	"grad_norm": 8.448160171508789,
	"learning_rate": 7.210242587601078e-06,
	"loss": 0.3138,
	"step": 3220
	},
	{
	"epoch": 0.8613333333333333,
	"grad_norm": 9.42566967010498,
	"learning_rate": 7.0754716981132075e-06,
	"loss": 0.1969,
	"step": 3230
	},
	{
	"epoch": 0.864,
	"grad_norm": 6.008419036865234,
	"learning_rate": 6.940700808625337e-06,
	"loss": 0.3795,
	"step": 3240
	},
	{
	"epoch": 0.8666666666666667,
	"grad_norm": 5.922680377960205,
	"learning_rate": 6.805929919137468e-06,
	"loss": 0.2464,
	"step": 3250
	},
	{
	"epoch": 0.8693333333333333,
	"grad_norm": 5.073930740356445,
	"learning_rate": 6.671159029649596e-06,
	"loss": 0.2491,
	"step": 3260
	},
	{
	"epoch": 0.872,
	"grad_norm": 6.984921932220459,
	"learning_rate": 6.536388140161725e-06,
	"loss": 0.2212,
	"step": 3270
	},
	{
	"epoch": 0.8746666666666667,
	"grad_norm": 5.525951862335205,
	"learning_rate": 6.401617250673856e-06,
	"loss": 0.2446,
	"step": 3280
	},
	{
	"epoch": 0.8773333333333333,
	"grad_norm": 5.485599040985107,
	"learning_rate": 6.266846361185984e-06,
	"loss": 0.2735,
	"step": 3290
	},
	{
	"epoch": 0.88,
	"grad_norm": 6.451603889465332,
	"learning_rate": 6.132075471698113e-06,
	"loss": 0.2499,
	"step": 3300
	},
	{
	"epoch": 0.8826666666666667,
	"grad_norm": 8.449997901916504,
	"learning_rate": 5.997304582210243e-06,
	"loss": 0.262,
	"step": 3310
	},
	{
	"epoch": 0.8853333333333333,
	"grad_norm": 2.8802688121795654,
	"learning_rate": 5.862533692722373e-06,
	"loss": 0.248,
	"step": 3320
	},
	{
	"epoch": 0.888,
	"grad_norm": 6.58447790145874,
	"learning_rate": 5.727762803234501e-06,
	"loss": 0.1707,
	"step": 3330
	},
	{
	"epoch": 0.8906666666666667,
	"grad_norm": 10.708820343017578,
	"learning_rate": 5.592991913746631e-06,
	"loss": 0.2294,
	"step": 3340
	},
	{
	"epoch": 0.8933333333333333,
	"grad_norm": 8.319356918334961,
	"learning_rate": 5.458221024258761e-06,
	"loss": 0.2165,
	"step": 3350
	},
	{
	"epoch": 0.896,
	"grad_norm": 6.977818012237549,
	"learning_rate": 5.3234501347708894e-06,
	"loss": 0.2321,
	"step": 3360
	},
	{
	"epoch": 0.8986666666666666,
	"grad_norm": 6.978248119354248,
	"learning_rate": 5.188679245283019e-06,
	"loss": 0.2039,
	"step": 3370
	},
	{
	"epoch": 0.9013333333333333,
	"grad_norm": 7.0379438400268555,
	"learning_rate": 5.053908355795149e-06,
	"loss": 0.2364,
	"step": 3380
	},
	{
	"epoch": 0.904,
	"grad_norm": 5.10407018661499,
	"learning_rate": 4.9191374663072775e-06,
	"loss": 0.3408,
	"step": 3390
	},
	{
	"epoch": 0.9066666666666666,
	"grad_norm": 4.217552185058594,
	"learning_rate": 4.784366576819407e-06,
	"loss": 0.1653,
	"step": 3400
	},
	{
	"epoch": 0.9093333333333333,
	"grad_norm": 8.982743263244629,
	"learning_rate": 4.649595687331537e-06,
	"loss": 0.208,
	"step": 3410
	},
	{
	"epoch": 0.912,
	"grad_norm": 7.103553295135498,
	"learning_rate": 4.5148247978436664e-06,
	"loss": 0.1838,
	"step": 3420
	},
	{
	"epoch": 0.9146666666666666,
	"grad_norm": 6.565107822418213,
	"learning_rate": 4.380053908355795e-06,
	"loss": 0.2254,
	"step": 3430
	},
	{
	"epoch": 0.9173333333333333,
	"grad_norm": 8.163582801818848,
	"learning_rate": 4.245283018867925e-06,
	"loss": 0.1598,
	"step": 3440
	},
	{
	"epoch": 0.92,
	"grad_norm": 4.565555095672607,
	"learning_rate": 4.1105121293800545e-06,
	"loss": 0.1888,
	"step": 3450
	},
	{
	"epoch": 0.9226666666666666,
	"grad_norm": 7.8352508544921875,
	"learning_rate": 3.975741239892183e-06,
	"loss": 0.2683,
	"step": 3460
	},
	{
	"epoch": 0.9253333333333333,
	"grad_norm": 8.402386665344238,
	"learning_rate": 3.840970350404313e-06,
	"loss": 0.1869,
	"step": 3470
	},
	{
	"epoch": 0.928,
	"grad_norm": 8.078757286071777,
	"learning_rate": 3.706199460916442e-06,
	"loss": 0.2293,
	"step": 3480
	},
	{
	"epoch": 0.9306666666666666,
	"grad_norm": 7.771483898162842,
	"learning_rate": 3.5714285714285714e-06,
	"loss": 0.3479,
	"step": 3490
	},
	{
	"epoch": 0.9333333333333333,
	"grad_norm": 3.739326000213623,
	"learning_rate": 3.436657681940701e-06,
	"loss": 0.1441,
	"step": 3500
	},
	{
	"epoch": 0.936,
	"grad_norm": 9.182714462280273,
	"learning_rate": 3.30188679245283e-06,
	"loss": 0.2332,
	"step": 3510
	},
	{
	"epoch": 0.9386666666666666,
	"grad_norm": 6.365874290466309,
	"learning_rate": 3.1671159029649594e-06,
	"loss": 0.1443,
	"step": 3520
	},
	{
	"epoch": 0.9413333333333334,
	"grad_norm": 6.266571521759033,
	"learning_rate": 3.032345013477089e-06,
	"loss": 0.1959,
	"step": 3530
	},
	{
	"epoch": 0.944,
	"grad_norm": 7.494802474975586,
	"learning_rate": 2.8975741239892183e-06,
	"loss": 0.149,
	"step": 3540
	},
	{
	"epoch": 0.9466666666666667,
	"grad_norm": 5.22160005569458,
	"learning_rate": 2.762803234501348e-06,
	"loss": 0.3431,
	"step": 3550
	},
	{
	"epoch": 0.9493333333333334,
	"grad_norm": 11.847735404968262,
	"learning_rate": 2.628032345013477e-06,
	"loss": 0.2068,
	"step": 3560
	},
	{
	"epoch": 0.952,
	"grad_norm": 41.45210647583008,
	"learning_rate": 2.4932614555256068e-06,
	"loss": 0.2057,
	"step": 3570
	},
	{
	"epoch": 0.9546666666666667,
	"grad_norm": 8.89501953125,
	"learning_rate": 2.358490566037736e-06,
	"loss": 0.5128,
	"step": 3580
	},
	{
	"epoch": 0.9573333333333334,
	"grad_norm": 6.3149261474609375,
	"learning_rate": 2.223719676549865e-06,
	"loss": 0.1869,
	"step": 3590
	},
	{
	"epoch": 0.96,
	"grad_norm": 5.511444091796875,
	"learning_rate": 2.088948787061995e-06,
	"loss": 0.2311,
	"step": 3600
	},
	{
	"epoch": 0.9626666666666667,
	"grad_norm": 6.782158851623535,
	"learning_rate": 1.954177897574124e-06,
	"loss": 0.1655,
	"step": 3610
	},
	{
	"epoch": 0.9653333333333334,
	"grad_norm": 6.828353404998779,
	"learning_rate": 1.8194070080862537e-06,
	"loss": 0.1694,
	"step": 3620
	},
	{
	"epoch": 0.968,
	"grad_norm": 2.4872541427612305,
	"learning_rate": 1.6846361185983827e-06,
	"loss": 0.1647,
	"step": 3630
	},
	{
	"epoch": 0.9706666666666667,
	"grad_norm": 8.890005111694336,
	"learning_rate": 1.5498652291105121e-06,
	"loss": 0.1979,
	"step": 3640
	},
	{
	"epoch": 0.9733333333333334,
	"grad_norm": 7.4598259925842285,
	"learning_rate": 1.4150943396226415e-06,
	"loss": 0.3526,
	"step": 3650
	},
	{
	"epoch": 0.976,
	"grad_norm": 4.237139701843262,
	"learning_rate": 1.280323450134771e-06,
	"loss": 0.2159,
	"step": 3660
	},
	{
	"epoch": 0.9786666666666667,
	"grad_norm": 5.643311500549316,
	"learning_rate": 1.1455525606469004e-06,
	"loss": 0.1425,
	"step": 3670
	},
	{
	"epoch": 0.9813333333333333,
	"grad_norm": 7.4330267906188965,
	"learning_rate": 1.0107816711590296e-06,
	"loss": 0.1761,
	"step": 3680
	},
	{
	"epoch": 0.984,
	"grad_norm": 12.03699779510498,
	"learning_rate": 8.76010781671159e-07,
	"loss": 0.2607,
	"step": 3690
	},
	{
	"epoch": 0.9866666666666667,
	"grad_norm": 6.911093235015869,
	"learning_rate": 7.412398921832885e-07,
	"loss": 0.1755,
	"step": 3700
	},
	{
	"epoch": 0.9893333333333333,
	"grad_norm": 6.668974876403809,
	"learning_rate": 6.064690026954178e-07,
	"loss": 0.2031,
	"step": 3710
	},
	{
	"epoch": 0.992,
	"grad_norm": 11.474651336669922,
	"learning_rate": 4.7169811320754717e-07,
	"loss": 0.2236,
	"step": 3720
	},
	{
	"epoch": 0.9946666666666667,
	"grad_norm": 9.00444507598877,
	"learning_rate": 3.369272237196766e-07,
	"loss": 0.1306,
	"step": 3730
	},
	{
	"epoch": 0.9973333333333333,
	"grad_norm": 52.68935012817383,
	"learning_rate": 2.0215633423180594e-07,
	"loss": 0.231,
	"step": 3740
	},
	{
	"epoch": 1.0,
	"grad_norm": 5.777242183685303,
	"learning_rate": 6.738544474393531e-08,
	"loss": 0.1794,
	"step": 3750
	}
	],
	"logging_steps": 10,
	"max_steps": 3750,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 250,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 6.77976396217344e+16,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}