Yuuki-best / trainer_state.json

Gogs

Update checkpoint (step 2000)

6763467 3 days ago

34.3 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.10666666666666667,
	"eval_steps": 500,
	"global_step": 2000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0005333333333333334,
	"grad_norm": 5.792410850524902,
	"learning_rate": 4.9988e-05,
	"loss": 3.3493,
	"step": 10
	},
	{
	"epoch": 0.0010666666666666667,
	"grad_norm": 5.163405418395996,
	"learning_rate": 4.997466666666667e-05,
	"loss": 3.2695,
	"step": 20
	},
	{
	"epoch": 0.0016,
	"grad_norm": 4.789336204528809,
	"learning_rate": 4.996133333333334e-05,
	"loss": 3.3535,
	"step": 30
	},
	{
	"epoch": 0.0021333333333333334,
	"grad_norm": 6.795251846313477,
	"learning_rate": 4.9948000000000004e-05,
	"loss": 3.3185,
	"step": 40
	},
	{
	"epoch": 0.0026666666666666666,
	"grad_norm": 5.427957057952881,
	"learning_rate": 4.993466666666667e-05,
	"loss": 3.0503,
	"step": 50
	},
	{
	"epoch": 0.0032,
	"grad_norm": 5.994451999664307,
	"learning_rate": 4.992133333333334e-05,
	"loss": 3.2466,
	"step": 60
	},
	{
	"epoch": 0.0037333333333333333,
	"grad_norm": 5.032135486602783,
	"learning_rate": 4.9908000000000004e-05,
	"loss": 2.7803,
	"step": 70
	},
	{
	"epoch": 0.004266666666666667,
	"grad_norm": 5.3739495277404785,
	"learning_rate": 4.989466666666667e-05,
	"loss": 2.8109,
	"step": 80
	},
	{
	"epoch": 0.0048,
	"grad_norm": 5.321890354156494,
	"learning_rate": 4.988133333333333e-05,
	"loss": 2.8156,
	"step": 90
	},
	{
	"epoch": 0.005333333333333333,
	"grad_norm": 8.430088996887207,
	"learning_rate": 4.9868000000000004e-05,
	"loss": 2.7049,
	"step": 100
	},
	{
	"epoch": 0.005866666666666667,
	"grad_norm": 6.157585620880127,
	"learning_rate": 4.985466666666667e-05,
	"loss": 3.0948,
	"step": 110
	},
	{
	"epoch": 0.0064,
	"grad_norm": 5.328046798706055,
	"learning_rate": 4.9841333333333333e-05,
	"loss": 2.724,
	"step": 120
	},
	{
	"epoch": 0.006933333333333333,
	"grad_norm": 5.178571701049805,
	"learning_rate": 4.9828000000000005e-05,
	"loss": 3.0151,
	"step": 130
	},
	{
	"epoch": 0.007466666666666667,
	"grad_norm": 6.57607364654541,
	"learning_rate": 4.981466666666667e-05,
	"loss": 2.7384,
	"step": 140
	},
	{
	"epoch": 0.008,
	"grad_norm": 11.210726737976074,
	"learning_rate": 4.9801333333333334e-05,
	"loss": 2.8189,
	"step": 150
	},
	{
	"epoch": 0.008533333333333334,
	"grad_norm": 4.816577911376953,
	"learning_rate": 4.9788e-05,
	"loss": 2.6138,
	"step": 160
	},
	{
	"epoch": 0.009066666666666667,
	"grad_norm": 6.2408294677734375,
	"learning_rate": 4.977466666666667e-05,
	"loss": 2.6402,
	"step": 170
	},
	{
	"epoch": 0.0096,
	"grad_norm": 5.550693511962891,
	"learning_rate": 4.976133333333334e-05,
	"loss": 2.8217,
	"step": 180
	},
	{
	"epoch": 0.010133333333333333,
	"grad_norm": 6.007472515106201,
	"learning_rate": 4.9748e-05,
	"loss": 2.7337,
	"step": 190
	},
	{
	"epoch": 0.010666666666666666,
	"grad_norm": 5.4420623779296875,
	"learning_rate": 4.973466666666667e-05,
	"loss": 2.4179,
	"step": 200
	},
	{
	"epoch": 0.0112,
	"grad_norm": 4.604928493499756,
	"learning_rate": 4.9721333333333335e-05,
	"loss": 2.4616,
	"step": 210
	},
	{
	"epoch": 0.011733333333333333,
	"grad_norm": 4.743863582611084,
	"learning_rate": 4.9708000000000006e-05,
	"loss": 2.6844,
	"step": 220
	},
	{
	"epoch": 0.012266666666666667,
	"grad_norm": 6.098178386688232,
	"learning_rate": 4.969466666666667e-05,
	"loss": 2.8374,
	"step": 230
	},
	{
	"epoch": 0.0128,
	"grad_norm": 5.230837821960449,
	"learning_rate": 4.9681333333333335e-05,
	"loss": 2.6294,
	"step": 240
	},
	{
	"epoch": 0.013333333333333334,
	"grad_norm": 4.995968341827393,
	"learning_rate": 4.9668000000000006e-05,
	"loss": 2.7009,
	"step": 250
	},
	{
	"epoch": 0.013866666666666666,
	"grad_norm": 5.136434078216553,
	"learning_rate": 4.965466666666667e-05,
	"loss": 2.6702,
	"step": 260
	},
	{
	"epoch": 0.0144,
	"grad_norm": 4.960114479064941,
	"learning_rate": 4.9641333333333335e-05,
	"loss": 2.543,
	"step": 270
	},
	{
	"epoch": 0.014933333333333333,
	"grad_norm": 3.7399258613586426,
	"learning_rate": 4.9628e-05,
	"loss": 2.6073,
	"step": 280
	},
	{
	"epoch": 0.015466666666666667,
	"grad_norm": 5.888091087341309,
	"learning_rate": 4.961466666666667e-05,
	"loss": 3.0508,
	"step": 290
	},
	{
	"epoch": 0.016,
	"grad_norm": 3.991913318634033,
	"learning_rate": 4.9601333333333336e-05,
	"loss": 2.7923,
	"step": 300
	},
	{
	"epoch": 0.016533333333333334,
	"grad_norm": 7.179355144500732,
	"learning_rate": 4.9588e-05,
	"loss": 2.6183,
	"step": 310
	},
	{
	"epoch": 0.017066666666666667,
	"grad_norm": 5.805356502532959,
	"learning_rate": 4.957466666666667e-05,
	"loss": 2.7449,
	"step": 320
	},
	{
	"epoch": 0.0176,
	"grad_norm": 3.777961492538452,
	"learning_rate": 4.9561333333333336e-05,
	"loss": 2.7355,
	"step": 330
	},
	{
	"epoch": 0.018133333333333335,
	"grad_norm": 4.463932991027832,
	"learning_rate": 4.9548e-05,
	"loss": 2.6022,
	"step": 340
	},
	{
	"epoch": 0.018666666666666668,
	"grad_norm": 4.360901832580566,
	"learning_rate": 4.9534666666666665e-05,
	"loss": 2.4569,
	"step": 350
	},
	{
	"epoch": 0.0192,
	"grad_norm": 4.430737495422363,
	"learning_rate": 4.9521333333333336e-05,
	"loss": 2.7994,
	"step": 360
	},
	{
	"epoch": 0.019733333333333332,
	"grad_norm": 5.609028339385986,
	"learning_rate": 4.9508e-05,
	"loss": 2.4863,
	"step": 370
	},
	{
	"epoch": 0.020266666666666665,
	"grad_norm": 4.087404251098633,
	"learning_rate": 4.9494666666666666e-05,
	"loss": 2.5082,
	"step": 380
	},
	{
	"epoch": 0.0208,
	"grad_norm": 3.5008347034454346,
	"learning_rate": 4.948133333333334e-05,
	"loss": 2.6335,
	"step": 390
	},
	{
	"epoch": 0.021333333333333333,
	"grad_norm": 5.405452251434326,
	"learning_rate": 4.9468e-05,
	"loss": 2.9961,
	"step": 400
	},
	{
	"epoch": 0.021866666666666666,
	"grad_norm": 3.3590590953826904,
	"learning_rate": 4.945466666666667e-05,
	"loss": 2.7085,
	"step": 410
	},
	{
	"epoch": 0.0224,
	"grad_norm": 4.877053260803223,
	"learning_rate": 4.944133333333334e-05,
	"loss": 2.4832,
	"step": 420
	},
	{
	"epoch": 0.022933333333333333,
	"grad_norm": 3.8995587825775146,
	"learning_rate": 4.9428e-05,
	"loss": 2.3182,
	"step": 430
	},
	{
	"epoch": 0.023466666666666667,
	"grad_norm": 5.022705554962158,
	"learning_rate": 4.941466666666667e-05,
	"loss": 2.4094,
	"step": 440
	},
	{
	"epoch": 0.024,
	"grad_norm": 4.630198001861572,
	"learning_rate": 4.940133333333334e-05,
	"loss": 2.1688,
	"step": 450
	},
	{
	"epoch": 0.024533333333333334,
	"grad_norm": 5.065393447875977,
	"learning_rate": 4.9388e-05,
	"loss": 2.7714,
	"step": 460
	},
	{
	"epoch": 0.025066666666666668,
	"grad_norm": 4.215227127075195,
	"learning_rate": 4.937466666666667e-05,
	"loss": 2.7938,
	"step": 470
	},
	{
	"epoch": 0.0256,
	"grad_norm": 3.03859281539917,
	"learning_rate": 4.936133333333334e-05,
	"loss": 2.5154,
	"step": 480
	},
	{
	"epoch": 0.026133333333333335,
	"grad_norm": 4.028010845184326,
	"learning_rate": 4.9348e-05,
	"loss": 2.2416,
	"step": 490
	},
	{
	"epoch": 0.02666666666666667,
	"grad_norm": 5.132800579071045,
	"learning_rate": 4.933466666666667e-05,
	"loss": 2.4243,
	"step": 500
	},
	{
	"epoch": 0.0272,
	"grad_norm": 4.919140815734863,
	"learning_rate": 4.932133333333334e-05,
	"loss": 2.1868,
	"step": 510
	},
	{
	"epoch": 0.027733333333333332,
	"grad_norm": 3.64642071723938,
	"learning_rate": 4.9308e-05,
	"loss": 2.1696,
	"step": 520
	},
	{
	"epoch": 0.028266666666666666,
	"grad_norm": 4.6441755294799805,
	"learning_rate": 4.929466666666667e-05,
	"loss": 2.4774,
	"step": 530
	},
	{
	"epoch": 0.0288,
	"grad_norm": 4.154843807220459,
	"learning_rate": 4.928133333333333e-05,
	"loss": 2.5508,
	"step": 540
	},
	{
	"epoch": 0.029333333333333333,
	"grad_norm": 4.62436580657959,
	"learning_rate": 4.9268e-05,
	"loss": 2.3155,
	"step": 550
	},
	{
	"epoch": 0.029866666666666666,
	"grad_norm": 5.344653129577637,
	"learning_rate": 4.925466666666667e-05,
	"loss": 2.3551,
	"step": 560
	},
	{
	"epoch": 0.0304,
	"grad_norm": 3.7210919857025146,
	"learning_rate": 4.924133333333333e-05,
	"loss": 2.346,
	"step": 570
	},
	{
	"epoch": 0.030933333333333334,
	"grad_norm": 4.005031585693359,
	"learning_rate": 4.9228000000000004e-05,
	"loss": 2.4143,
	"step": 580
	},
	{
	"epoch": 0.031466666666666664,
	"grad_norm": 7.194045066833496,
	"learning_rate": 4.921466666666667e-05,
	"loss": 2.5205,
	"step": 590
	},
	{
	"epoch": 0.032,
	"grad_norm": 5.16976261138916,
	"learning_rate": 4.920133333333334e-05,
	"loss": 2.3044,
	"step": 600
	},
	{
	"epoch": 0.03253333333333333,
	"grad_norm": 4.67457389831543,
	"learning_rate": 4.9188000000000004e-05,
	"loss": 2.4939,
	"step": 610
	},
	{
	"epoch": 0.03306666666666667,
	"grad_norm": 3.4367618560791016,
	"learning_rate": 4.917466666666667e-05,
	"loss": 2.3615,
	"step": 620
	},
	{
	"epoch": 0.0336,
	"grad_norm": 4.060678005218506,
	"learning_rate": 4.916133333333334e-05,
	"loss": 2.5419,
	"step": 630
	},
	{
	"epoch": 0.034133333333333335,
	"grad_norm": 4.616146564483643,
	"learning_rate": 4.9148e-05,
	"loss": 2.0667,
	"step": 640
	},
	{
	"epoch": 0.034666666666666665,
	"grad_norm": 4.443355560302734,
	"learning_rate": 4.913466666666667e-05,
	"loss": 2.2449,
	"step": 650
	},
	{
	"epoch": 0.0352,
	"grad_norm": 7.294761657714844,
	"learning_rate": 4.9121333333333334e-05,
	"loss": 2.15,
	"step": 660
	},
	{
	"epoch": 0.03573333333333333,
	"grad_norm": 4.311218738555908,
	"learning_rate": 4.9108000000000005e-05,
	"loss": 2.1496,
	"step": 670
	},
	{
	"epoch": 0.03626666666666667,
	"grad_norm": 3.891162395477295,
	"learning_rate": 4.909466666666667e-05,
	"loss": 2.2169,
	"step": 680
	},
	{
	"epoch": 0.0368,
	"grad_norm": 5.323464870452881,
	"learning_rate": 4.9081333333333334e-05,
	"loss": 2.338,
	"step": 690
	},
	{
	"epoch": 0.037333333333333336,
	"grad_norm": 3.7327029705047607,
	"learning_rate": 4.9068000000000005e-05,
	"loss": 2.1279,
	"step": 700
	},
	{
	"epoch": 0.037866666666666667,
	"grad_norm": 3.986100673675537,
	"learning_rate": 4.905466666666667e-05,
	"loss": 2.2684,
	"step": 710
	},
	{
	"epoch": 0.0384,
	"grad_norm": 5.458177089691162,
	"learning_rate": 4.9041333333333334e-05,
	"loss": 2.323,
	"step": 720
	},
	{
	"epoch": 0.038933333333333334,
	"grad_norm": 3.8247170448303223,
	"learning_rate": 4.9028e-05,
	"loss": 2.0734,
	"step": 730
	},
	{
	"epoch": 0.039466666666666664,
	"grad_norm": 3.4353110790252686,
	"learning_rate": 4.901466666666667e-05,
	"loss": 2.3232,
	"step": 740
	},
	{
	"epoch": 0.04,
	"grad_norm": 4.783677101135254,
	"learning_rate": 4.9001333333333335e-05,
	"loss": 2.3483,
	"step": 750
	},
	{
	"epoch": 0.04053333333333333,
	"grad_norm": 4.975961208343506,
	"learning_rate": 4.8988e-05,
	"loss": 1.9943,
	"step": 760
	},
	{
	"epoch": 0.04106666666666667,
	"grad_norm": 3.3294217586517334,
	"learning_rate": 4.897466666666667e-05,
	"loss": 2.2036,
	"step": 770
	},
	{
	"epoch": 0.0416,
	"grad_norm": 3.2321457862854004,
	"learning_rate": 4.8961333333333335e-05,
	"loss": 2.246,
	"step": 780
	},
	{
	"epoch": 0.042133333333333335,
	"grad_norm": 3.804316520690918,
	"learning_rate": 4.8948000000000006e-05,
	"loss": 2.1379,
	"step": 790
	},
	{
	"epoch": 0.042666666666666665,
	"grad_norm": 3.2469778060913086,
	"learning_rate": 4.893466666666667e-05,
	"loss": 2.3573,
	"step": 800
	},
	{
	"epoch": 0.0432,
	"grad_norm": 2.9724888801574707,
	"learning_rate": 4.8921333333333335e-05,
	"loss": 2.4392,
	"step": 810
	},
	{
	"epoch": 0.04373333333333333,
	"grad_norm": 3.239983081817627,
	"learning_rate": 4.890800000000001e-05,
	"loss": 2.0712,
	"step": 820
	},
	{
	"epoch": 0.04426666666666667,
	"grad_norm": 4.348440647125244,
	"learning_rate": 4.8894666666666665e-05,
	"loss": 2.4012,
	"step": 830
	},
	{
	"epoch": 0.0448,
	"grad_norm": 3.6949236392974854,
	"learning_rate": 4.8881333333333336e-05,
	"loss": 2.5602,
	"step": 840
	},
	{
	"epoch": 0.04533333333333334,
	"grad_norm": 4.177002429962158,
	"learning_rate": 4.8868e-05,
	"loss": 2.3311,
	"step": 850
	},
	{
	"epoch": 0.04586666666666667,
	"grad_norm": 3.845810651779175,
	"learning_rate": 4.885466666666667e-05,
	"loss": 2.2281,
	"step": 860
	},
	{
	"epoch": 0.0464,
	"grad_norm": 4.1254401206970215,
	"learning_rate": 4.8841333333333336e-05,
	"loss": 2.4041,
	"step": 870
	},
	{
	"epoch": 0.046933333333333334,
	"grad_norm": 3.803191900253296,
	"learning_rate": 4.8828e-05,
	"loss": 2.4445,
	"step": 880
	},
	{
	"epoch": 0.047466666666666664,
	"grad_norm": 3.87357234954834,
	"learning_rate": 4.881466666666667e-05,
	"loss": 2.384,
	"step": 890
	},
	{
	"epoch": 0.048,
	"grad_norm": 3.664041757583618,
	"learning_rate": 4.8801333333333337e-05,
	"loss": 2.3232,
	"step": 900
	},
	{
	"epoch": 0.04853333333333333,
	"grad_norm": 3.4232048988342285,
	"learning_rate": 4.8788e-05,
	"loss": 2.1113,
	"step": 910
	},
	{
	"epoch": 0.04906666666666667,
	"grad_norm": 4.911906719207764,
	"learning_rate": 4.8774666666666666e-05,
	"loss": 1.895,
	"step": 920
	},
	{
	"epoch": 0.0496,
	"grad_norm": 5.789026737213135,
	"learning_rate": 4.876133333333334e-05,
	"loss": 2.0885,
	"step": 930
	},
	{
	"epoch": 0.050133333333333335,
	"grad_norm": 3.3766918182373047,
	"learning_rate": 4.8748e-05,
	"loss": 2.3543,
	"step": 940
	},
	{
	"epoch": 0.050666666666666665,
	"grad_norm": 3.5231785774230957,
	"learning_rate": 4.8734666666666666e-05,
	"loss": 2.1267,
	"step": 950
	},
	{
	"epoch": 0.0512,
	"grad_norm": 3.2112128734588623,
	"learning_rate": 4.872133333333334e-05,
	"loss": 2.3124,
	"step": 960
	},
	{
	"epoch": 0.05173333333333333,
	"grad_norm": 3.1260693073272705,
	"learning_rate": 4.8708e-05,
	"loss": 2.1612,
	"step": 970
	},
	{
	"epoch": 0.05226666666666667,
	"grad_norm": 4.093555450439453,
	"learning_rate": 4.869466666666667e-05,
	"loss": 1.9753,
	"step": 980
	},
	{
	"epoch": 0.0528,
	"grad_norm": 4.036992073059082,
	"learning_rate": 4.868133333333333e-05,
	"loss": 2.1585,
	"step": 990
	},
	{
	"epoch": 0.05333333333333334,
	"grad_norm": 3.4580295085906982,
	"learning_rate": 4.8668e-05,
	"loss": 2.2032,
	"step": 1000
	},
	{
	"epoch": 0.05386666666666667,
	"grad_norm": 3.512268304824829,
	"learning_rate": 4.8654666666666674e-05,
	"loss": 2.303,
	"step": 1010
	},
	{
	"epoch": 0.0544,
	"grad_norm": 3.7754204273223877,
	"learning_rate": 4.864133333333333e-05,
	"loss": 2.5944,
	"step": 1020
	},
	{
	"epoch": 0.054933333333333334,
	"grad_norm": 3.053835391998291,
	"learning_rate": 4.8628e-05,
	"loss": 2.083,
	"step": 1030
	},
	{
	"epoch": 0.055466666666666664,
	"grad_norm": 3.839688539505005,
	"learning_rate": 4.861466666666667e-05,
	"loss": 2.3334,
	"step": 1040
	},
	{
	"epoch": 0.056,
	"grad_norm": 4.084265232086182,
	"learning_rate": 4.860133333333334e-05,
	"loss": 2.4088,
	"step": 1050
	},
	{
	"epoch": 0.05653333333333333,
	"grad_norm": 3.9182255268096924,
	"learning_rate": 4.8588e-05,
	"loss": 2.4002,
	"step": 1060
	},
	{
	"epoch": 0.05706666666666667,
	"grad_norm": 3.005012035369873,
	"learning_rate": 4.857466666666667e-05,
	"loss": 2.4005,
	"step": 1070
	},
	{
	"epoch": 0.0576,
	"grad_norm": 3.1780312061309814,
	"learning_rate": 4.856133333333334e-05,
	"loss": 2.1391,
	"step": 1080
	},
	{
	"epoch": 0.058133333333333335,
	"grad_norm": 4.896857261657715,
	"learning_rate": 4.8548000000000003e-05,
	"loss": 2.0301,
	"step": 1090
	},
	{
	"epoch": 0.058666666666666666,
	"grad_norm": 3.1400632858276367,
	"learning_rate": 4.853466666666667e-05,
	"loss": 2.2478,
	"step": 1100
	},
	{
	"epoch": 0.0592,
	"grad_norm": 2.5740103721618652,
	"learning_rate": 4.852133333333333e-05,
	"loss": 2.0002,
	"step": 1110
	},
	{
	"epoch": 0.05973333333333333,
	"grad_norm": 2.3037431240081787,
	"learning_rate": 4.8508000000000004e-05,
	"loss": 2.0746,
	"step": 1120
	},
	{
	"epoch": 0.06026666666666667,
	"grad_norm": 3.2235605716705322,
	"learning_rate": 4.849466666666667e-05,
	"loss": 2.0035,
	"step": 1130
	},
	{
	"epoch": 0.0608,
	"grad_norm": 4.025834560394287,
	"learning_rate": 4.848133333333333e-05,
	"loss": 2.2058,
	"step": 1140
	},
	{
	"epoch": 0.06133333333333333,
	"grad_norm": 3.152123212814331,
	"learning_rate": 4.8468000000000004e-05,
	"loss": 2.2427,
	"step": 1150
	},
	{
	"epoch": 0.06186666666666667,
	"grad_norm": 3.052441120147705,
	"learning_rate": 4.845466666666667e-05,
	"loss": 2.2619,
	"step": 1160
	},
	{
	"epoch": 0.0624,
	"grad_norm": 3.9626965522766113,
	"learning_rate": 4.844133333333333e-05,
	"loss": 2.4091,
	"step": 1170
	},
	{
	"epoch": 0.06293333333333333,
	"grad_norm": 4.5252838134765625,
	"learning_rate": 4.8428e-05,
	"loss": 2.3108,
	"step": 1180
	},
	{
	"epoch": 0.06346666666666667,
	"grad_norm": 3.293490409851074,
	"learning_rate": 4.841466666666667e-05,
	"loss": 2.1721,
	"step": 1190
	},
	{
	"epoch": 0.064,
	"grad_norm": 3.1755733489990234,
	"learning_rate": 4.840133333333334e-05,
	"loss": 2.0308,
	"step": 1200
	},
	{
	"epoch": 0.06453333333333333,
	"grad_norm": 4.124546051025391,
	"learning_rate": 4.8388e-05,
	"loss": 2.1766,
	"step": 1210
	},
	{
	"epoch": 0.06506666666666666,
	"grad_norm": 2.7379612922668457,
	"learning_rate": 4.837466666666667e-05,
	"loss": 2.0725,
	"step": 1220
	},
	{
	"epoch": 0.0656,
	"grad_norm": 3.224748373031616,
	"learning_rate": 4.8361333333333334e-05,
	"loss": 2.115,
	"step": 1230
	},
	{
	"epoch": 0.06613333333333334,
	"grad_norm": 3.2604916095733643,
	"learning_rate": 4.8348000000000005e-05,
	"loss": 2.156,
	"step": 1240
	},
	{
	"epoch": 0.06666666666666667,
	"grad_norm": 2.5119776725769043,
	"learning_rate": 4.833466666666667e-05,
	"loss": 1.8298,
	"step": 1250
	},
	{
	"epoch": 0.0672,
	"grad_norm": 2.750699043273926,
	"learning_rate": 4.8321333333333334e-05,
	"loss": 1.9445,
	"step": 1260
	},
	{
	"epoch": 0.06773333333333334,
	"grad_norm": 3.47723126411438,
	"learning_rate": 4.8308000000000006e-05,
	"loss": 2.2289,
	"step": 1270
	},
	{
	"epoch": 0.06826666666666667,
	"grad_norm": 3.4429843425750732,
	"learning_rate": 4.829466666666667e-05,
	"loss": 1.7053,
	"step": 1280
	},
	{
	"epoch": 0.0688,
	"grad_norm": 3.9478533267974854,
	"learning_rate": 4.8281333333333335e-05,
	"loss": 1.9367,
	"step": 1290
	},
	{
	"epoch": 0.06933333333333333,
	"grad_norm": 5.963420391082764,
	"learning_rate": 4.8268e-05,
	"loss": 2.0725,
	"step": 1300
	},
	{
	"epoch": 0.06986666666666666,
	"grad_norm": 4.6685285568237305,
	"learning_rate": 4.825466666666667e-05,
	"loss": 2.1006,
	"step": 1310
	},
	{
	"epoch": 0.0704,
	"grad_norm": 3.369166851043701,
	"learning_rate": 4.8241333333333335e-05,
	"loss": 2.2664,
	"step": 1320
	},
	{
	"epoch": 0.07093333333333333,
	"grad_norm": 2.6912147998809814,
	"learning_rate": 4.8228e-05,
	"loss": 1.7266,
	"step": 1330
	},
	{
	"epoch": 0.07146666666666666,
	"grad_norm": 3.640000104904175,
	"learning_rate": 4.821466666666667e-05,
	"loss": 1.8255,
	"step": 1340
	},
	{
	"epoch": 0.072,
	"grad_norm": 3.908271312713623,
	"learning_rate": 4.8201333333333336e-05,
	"loss": 2.0521,
	"step": 1350
	},
	{
	"epoch": 0.07253333333333334,
	"grad_norm": 3.6119441986083984,
	"learning_rate": 4.8188e-05,
	"loss": 2.203,
	"step": 1360
	},
	{
	"epoch": 0.07306666666666667,
	"grad_norm": 3.105259418487549,
	"learning_rate": 4.8174666666666665e-05,
	"loss": 1.8647,
	"step": 1370
	},
	{
	"epoch": 0.0736,
	"grad_norm": 2.787991762161255,
	"learning_rate": 4.8161333333333336e-05,
	"loss": 1.8087,
	"step": 1380
	},
	{
	"epoch": 0.07413333333333333,
	"grad_norm": 2.5194826126098633,
	"learning_rate": 4.814800000000001e-05,
	"loss": 2.033,
	"step": 1390
	},
	{
	"epoch": 0.07466666666666667,
	"grad_norm": 3.3716447353363037,
	"learning_rate": 4.8134666666666665e-05,
	"loss": 2.1324,
	"step": 1400
	},
	{
	"epoch": 0.0752,
	"grad_norm": 3.2860238552093506,
	"learning_rate": 4.8121333333333336e-05,
	"loss": 2.2258,
	"step": 1410
	},
	{
	"epoch": 0.07573333333333333,
	"grad_norm": 3.449841022491455,
	"learning_rate": 4.8108e-05,
	"loss": 1.85,
	"step": 1420
	},
	{
	"epoch": 0.07626666666666666,
	"grad_norm": 2.263730049133301,
	"learning_rate": 4.809466666666667e-05,
	"loss": 1.8957,
	"step": 1430
	},
	{
	"epoch": 0.0768,
	"grad_norm": 2.9906487464904785,
	"learning_rate": 4.808133333333334e-05,
	"loss": 2.2852,
	"step": 1440
	},
	{
	"epoch": 0.07733333333333334,
	"grad_norm": 5.403586387634277,
	"learning_rate": 4.8068e-05,
	"loss": 2.0869,
	"step": 1450
	},
	{
	"epoch": 0.07786666666666667,
	"grad_norm": 3.9156877994537354,
	"learning_rate": 4.805466666666667e-05,
	"loss": 1.8915,
	"step": 1460
	},
	{
	"epoch": 0.0784,
	"grad_norm": 5.165822505950928,
	"learning_rate": 4.804133333333334e-05,
	"loss": 1.7956,
	"step": 1470
	},
	{
	"epoch": 0.07893333333333333,
	"grad_norm": 2.52095103263855,
	"learning_rate": 4.8028e-05,
	"loss": 2.0028,
	"step": 1480
	},
	{
	"epoch": 0.07946666666666667,
	"grad_norm": 2.6913890838623047,
	"learning_rate": 4.8014666666666666e-05,
	"loss": 1.9211,
	"step": 1490
	},
	{
	"epoch": 0.08,
	"grad_norm": 3.6746885776519775,
	"learning_rate": 4.800133333333334e-05,
	"loss": 2.1003,
	"step": 1500
	},
	{
	"epoch": 0.08053333333333333,
	"grad_norm": 3.186465263366699,
	"learning_rate": 4.7988e-05,
	"loss": 2.1798,
	"step": 1510
	},
	{
	"epoch": 0.08106666666666666,
	"grad_norm": 2.878110885620117,
	"learning_rate": 4.7974666666666667e-05,
	"loss": 2.2713,
	"step": 1520
	},
	{
	"epoch": 0.0816,
	"grad_norm": 2.776273012161255,
	"learning_rate": 4.796133333333334e-05,
	"loss": 2.1712,
	"step": 1530
	},
	{
	"epoch": 0.08213333333333334,
	"grad_norm": 3.430544853210449,
	"learning_rate": 4.7948e-05,
	"loss": 2.1356,
	"step": 1540
	},
	{
	"epoch": 0.08266666666666667,
	"grad_norm": 3.6648833751678467,
	"learning_rate": 4.793466666666667e-05,
	"loss": 2.0837,
	"step": 1550
	},
	{
	"epoch": 0.0832,
	"grad_norm": 2.4579670429229736,
	"learning_rate": 4.792133333333333e-05,
	"loss": 1.9925,
	"step": 1560
	},
	{
	"epoch": 0.08373333333333334,
	"grad_norm": 3.63942551612854,
	"learning_rate": 4.7908e-05,
	"loss": 1.8328,
	"step": 1570
	},
	{
	"epoch": 0.08426666666666667,
	"grad_norm": 3.452695846557617,
	"learning_rate": 4.7894666666666674e-05,
	"loss": 1.9335,
	"step": 1580
	},
	{
	"epoch": 0.0848,
	"grad_norm": 3.9345381259918213,
	"learning_rate": 4.788133333333333e-05,
	"loss": 2.23,
	"step": 1590
	},
	{
	"epoch": 0.08533333333333333,
	"grad_norm": 2.9484877586364746,
	"learning_rate": 4.7868e-05,
	"loss": 1.9072,
	"step": 1600
	},
	{
	"epoch": 0.08586666666666666,
	"grad_norm": 3.4524545669555664,
	"learning_rate": 4.785466666666667e-05,
	"loss": 2.4107,
	"step": 1610
	},
	{
	"epoch": 0.0864,
	"grad_norm": 2.971324920654297,
	"learning_rate": 4.784133333333334e-05,
	"loss": 2.267,
	"step": 1620
	},
	{
	"epoch": 0.08693333333333333,
	"grad_norm": 2.9678664207458496,
	"learning_rate": 4.7828000000000004e-05,
	"loss": 2.0616,
	"step": 1630
	},
	{
	"epoch": 0.08746666666666666,
	"grad_norm": 3.001478672027588,
	"learning_rate": 4.781466666666667e-05,
	"loss": 2.0016,
	"step": 1640
	},
	{
	"epoch": 0.088,
	"grad_norm": 3.4130101203918457,
	"learning_rate": 4.780133333333334e-05,
	"loss": 2.1821,
	"step": 1650
	},
	{
	"epoch": 0.08853333333333334,
	"grad_norm": 2.504873752593994,
	"learning_rate": 4.7788000000000004e-05,
	"loss": 2.2531,
	"step": 1660
	},
	{
	"epoch": 0.08906666666666667,
	"grad_norm": 3.0857796669006348,
	"learning_rate": 4.777466666666667e-05,
	"loss": 2.0891,
	"step": 1670
	},
	{
	"epoch": 0.0896,
	"grad_norm": 2.470092535018921,
	"learning_rate": 4.776133333333333e-05,
	"loss": 2.3816,
	"step": 1680
	},
	{
	"epoch": 0.09013333333333333,
	"grad_norm": 4.6635823249816895,
	"learning_rate": 4.7748000000000004e-05,
	"loss": 2.2814,
	"step": 1690
	},
	{
	"epoch": 0.09066666666666667,
	"grad_norm": 2.4149577617645264,
	"learning_rate": 4.773466666666667e-05,
	"loss": 1.9136,
	"step": 1700
	},
	{
	"epoch": 0.0912,
	"grad_norm": 3.3457276821136475,
	"learning_rate": 4.772133333333333e-05,
	"loss": 1.7619,
	"step": 1710
	},
	{
	"epoch": 0.09173333333333333,
	"grad_norm": 3.482182025909424,
	"learning_rate": 4.7708000000000005e-05,
	"loss": 2.4349,
	"step": 1720
	},
	{
	"epoch": 0.09226666666666666,
	"grad_norm": 2.922492027282715,
	"learning_rate": 4.769466666666667e-05,
	"loss": 2.2122,
	"step": 1730
	},
	{
	"epoch": 0.0928,
	"grad_norm": 2.101895570755005,
	"learning_rate": 4.7681333333333334e-05,
	"loss": 1.7249,
	"step": 1740
	},
	{
	"epoch": 0.09333333333333334,
	"grad_norm": 3.5394749641418457,
	"learning_rate": 4.7668e-05,
	"loss": 2.189,
	"step": 1750
	},
	{
	"epoch": 0.09386666666666667,
	"grad_norm": 2.2542741298675537,
	"learning_rate": 4.765466666666667e-05,
	"loss": 2.1452,
	"step": 1760
	},
	{
	"epoch": 0.0944,
	"grad_norm": 3.2889153957366943,
	"learning_rate": 4.764133333333334e-05,
	"loss": 2.2306,
	"step": 1770
	},
	{
	"epoch": 0.09493333333333333,
	"grad_norm": 2.518836498260498,
	"learning_rate": 4.7628e-05,
	"loss": 1.8116,
	"step": 1780
	},
	{
	"epoch": 0.09546666666666667,
	"grad_norm": 3.1821088790893555,
	"learning_rate": 4.761466666666667e-05,
	"loss": 1.9542,
	"step": 1790
	},
	{
	"epoch": 0.096,
	"grad_norm": 4.07183837890625,
	"learning_rate": 4.7601333333333335e-05,
	"loss": 2.1901,
	"step": 1800
	},
	{
	"epoch": 0.09653333333333333,
	"grad_norm": 7.143240451812744,
	"learning_rate": 4.7588000000000006e-05,
	"loss": 2.4338,
	"step": 1810
	},
	{
	"epoch": 0.09706666666666666,
	"grad_norm": 2.2915451526641846,
	"learning_rate": 4.757466666666667e-05,
	"loss": 2.0759,
	"step": 1820
	},
	{
	"epoch": 0.0976,
	"grad_norm": 4.295454025268555,
	"learning_rate": 4.7561333333333335e-05,
	"loss": 2.0348,
	"step": 1830
	},
	{
	"epoch": 0.09813333333333334,
	"grad_norm": 2.8332502841949463,
	"learning_rate": 4.7548000000000006e-05,
	"loss": 2.1898,
	"step": 1840
	},
	{
	"epoch": 0.09866666666666667,
	"grad_norm": 2.713963747024536,
	"learning_rate": 4.7534666666666664e-05,
	"loss": 1.9595,
	"step": 1850
	},
	{
	"epoch": 0.0992,
	"grad_norm": 3.109459400177002,
	"learning_rate": 4.7521333333333335e-05,
	"loss": 2.0188,
	"step": 1860
	},
	{
	"epoch": 0.09973333333333333,
	"grad_norm": 2.414722204208374,
	"learning_rate": 4.7508e-05,
	"loss": 1.9172,
	"step": 1870
	},
	{
	"epoch": 0.10026666666666667,
	"grad_norm": 3.552851915359497,
	"learning_rate": 4.749466666666667e-05,
	"loss": 2.4927,
	"step": 1880
	},
	{
	"epoch": 0.1008,
	"grad_norm": 3.0773699283599854,
	"learning_rate": 4.7481333333333336e-05,
	"loss": 2.1036,
	"step": 1890
	},
	{
	"epoch": 0.10133333333333333,
	"grad_norm": 2.310666561126709,
	"learning_rate": 4.7468e-05,
	"loss": 1.9151,
	"step": 1900
	},
	{
	"epoch": 0.10186666666666666,
	"grad_norm": 3.263634204864502,
	"learning_rate": 4.745466666666667e-05,
	"loss": 2.2861,
	"step": 1910
	},
	{
	"epoch": 0.1024,
	"grad_norm": 3.7977426052093506,
	"learning_rate": 4.7441333333333336e-05,
	"loss": 1.7655,
	"step": 1920
	},
	{
	"epoch": 0.10293333333333334,
	"grad_norm": 3.682183027267456,
	"learning_rate": 4.7428e-05,
	"loss": 2.1774,
	"step": 1930
	},
	{
	"epoch": 0.10346666666666667,
	"grad_norm": 3.4994096755981445,
	"learning_rate": 4.7414666666666665e-05,
	"loss": 2.0703,
	"step": 1940
	},
	{
	"epoch": 0.104,
	"grad_norm": 3.4671878814697266,
	"learning_rate": 4.7401333333333336e-05,
	"loss": 2.2706,
	"step": 1950
	},
	{
	"epoch": 0.10453333333333334,
	"grad_norm": 2.9287941455841064,
	"learning_rate": 4.738800000000001e-05,
	"loss": 2.2263,
	"step": 1960
	},
	{
	"epoch": 0.10506666666666667,
	"grad_norm": 2.5617053508758545,
	"learning_rate": 4.7374666666666666e-05,
	"loss": 1.9972,
	"step": 1970
	},
	{
	"epoch": 0.1056,
	"grad_norm": 2.9495012760162354,
	"learning_rate": 4.736133333333334e-05,
	"loss": 1.7221,
	"step": 1980
	},
	{
	"epoch": 0.10613333333333333,
	"grad_norm": 2.6075632572174072,
	"learning_rate": 4.7348e-05,
	"loss": 2.0167,
	"step": 1990
	},
	{
	"epoch": 0.10666666666666667,
	"grad_norm": 4.452531337738037,
	"learning_rate": 4.733466666666667e-05,
	"loss": 1.9419,
	"step": 2000
	}
	],
	"logging_steps": 10,
	"max_steps": 37500,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 2,
	"save_steps": 50,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 522593501184000.0,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}