proj / trainer_state.json
Desperado-JT's picture
Upload 15 files
843c1e2 verified
{
"best_global_step": null,
"best_metric": null,
"best_model_checkpoint": null,
"epoch": 1.0,
"eval_steps": 500,
"global_step": 9375,
"is_hyper_param_search": false,
"is_local_process_zero": true,
"is_world_process_zero": true,
"log_history": [
{
"epoch": 0.0010666666666666667,
"grad_norm": 19.19351951833338,
"learning_rate": 2.8784648187633266e-08,
"loss": 2.4684,
"step": 10
},
{
"epoch": 0.0021333333333333334,
"grad_norm": 18.92337376379854,
"learning_rate": 6.076759061833688e-08,
"loss": 2.4692,
"step": 20
},
{
"epoch": 0.0032,
"grad_norm": 18.39070081725417,
"learning_rate": 9.275053304904052e-08,
"loss": 2.4531,
"step": 30
},
{
"epoch": 0.004266666666666667,
"grad_norm": 18.110623469581412,
"learning_rate": 1.2473347547974415e-07,
"loss": 2.4457,
"step": 40
},
{
"epoch": 0.005333333333333333,
"grad_norm": 16.829744812640254,
"learning_rate": 1.5671641791044775e-07,
"loss": 2.4302,
"step": 50
},
{
"epoch": 0.0064,
"grad_norm": 14.086095074710766,
"learning_rate": 1.886993603411514e-07,
"loss": 2.3449,
"step": 60
},
{
"epoch": 0.007466666666666667,
"grad_norm": 9.841110946936624,
"learning_rate": 2.20682302771855e-07,
"loss": 2.3078,
"step": 70
},
{
"epoch": 0.008533333333333334,
"grad_norm": 6.78430988197192,
"learning_rate": 2.526652452025586e-07,
"loss": 2.1706,
"step": 80
},
{
"epoch": 0.0096,
"grad_norm": 4.333514177750633,
"learning_rate": 2.846481876332623e-07,
"loss": 2.1272,
"step": 90
},
{
"epoch": 0.010666666666666666,
"grad_norm": 3.1732519039552036,
"learning_rate": 3.166311300639659e-07,
"loss": 2.0568,
"step": 100
},
{
"epoch": 0.011733333333333333,
"grad_norm": 2.3810508874010594,
"learning_rate": 3.486140724946695e-07,
"loss": 2.0246,
"step": 110
},
{
"epoch": 0.0128,
"grad_norm": 1.9179100694443678,
"learning_rate": 3.8059701492537315e-07,
"loss": 1.9983,
"step": 120
},
{
"epoch": 0.013866666666666666,
"grad_norm": 2.3349329486093096,
"learning_rate": 4.125799573560768e-07,
"loss": 1.942,
"step": 130
},
{
"epoch": 0.014933333333333333,
"grad_norm": 1.4296519104353067,
"learning_rate": 4.4456289978678036e-07,
"loss": 1.9013,
"step": 140
},
{
"epoch": 0.016,
"grad_norm": 1.2824426730595104,
"learning_rate": 4.7654584221748404e-07,
"loss": 1.8814,
"step": 150
},
{
"epoch": 0.017066666666666667,
"grad_norm": 1.1216154194528924,
"learning_rate": 5.085287846481876e-07,
"loss": 1.8666,
"step": 160
},
{
"epoch": 0.018133333333333335,
"grad_norm": 1.2059667866990331,
"learning_rate": 5.405117270788912e-07,
"loss": 1.8533,
"step": 170
},
{
"epoch": 0.0192,
"grad_norm": 1.1493902678337349,
"learning_rate": 5.724946695095949e-07,
"loss": 1.8506,
"step": 180
},
{
"epoch": 0.020266666666666665,
"grad_norm": 1.0836891008436758,
"learning_rate": 6.044776119402986e-07,
"loss": 1.8418,
"step": 190
},
{
"epoch": 0.021333333333333333,
"grad_norm": 1.0951533998987484,
"learning_rate": 6.364605543710021e-07,
"loss": 1.8254,
"step": 200
},
{
"epoch": 0.0224,
"grad_norm": 1.2099775250080314,
"learning_rate": 6.684434968017058e-07,
"loss": 1.8277,
"step": 210
},
{
"epoch": 0.023466666666666667,
"grad_norm": 1.1296459421981933,
"learning_rate": 7.004264392324094e-07,
"loss": 1.8267,
"step": 220
},
{
"epoch": 0.024533333333333334,
"grad_norm": 1.0670615871346485,
"learning_rate": 7.32409381663113e-07,
"loss": 1.8124,
"step": 230
},
{
"epoch": 0.0256,
"grad_norm": 1.0760214545568452,
"learning_rate": 7.643923240938166e-07,
"loss": 1.8295,
"step": 240
},
{
"epoch": 0.02666666666666667,
"grad_norm": 0.9894101666354408,
"learning_rate": 7.963752665245201e-07,
"loss": 1.814,
"step": 250
},
{
"epoch": 0.027733333333333332,
"grad_norm": 1.1287464355221322,
"learning_rate": 8.283582089552239e-07,
"loss": 1.8124,
"step": 260
},
{
"epoch": 0.0288,
"grad_norm": 1.1348862317797481,
"learning_rate": 8.603411513859275e-07,
"loss": 1.8022,
"step": 270
},
{
"epoch": 0.029866666666666666,
"grad_norm": 0.9761919582313725,
"learning_rate": 8.923240938166312e-07,
"loss": 1.7992,
"step": 280
},
{
"epoch": 0.030933333333333334,
"grad_norm": 1.014871042008999,
"learning_rate": 9.243070362473348e-07,
"loss": 1.8102,
"step": 290
},
{
"epoch": 0.032,
"grad_norm": 1.0301862866806937,
"learning_rate": 9.562899786780384e-07,
"loss": 1.8032,
"step": 300
},
{
"epoch": 0.03306666666666667,
"grad_norm": 1.0048214186154454,
"learning_rate": 9.88272921108742e-07,
"loss": 1.7852,
"step": 310
},
{
"epoch": 0.034133333333333335,
"grad_norm": 1.0376114136346828,
"learning_rate": 1.0202558635394457e-06,
"loss": 1.8005,
"step": 320
},
{
"epoch": 0.0352,
"grad_norm": 0.9815201183737711,
"learning_rate": 1.0522388059701493e-06,
"loss": 1.7907,
"step": 330
},
{
"epoch": 0.03626666666666667,
"grad_norm": 1.077177807922214,
"learning_rate": 1.0842217484008529e-06,
"loss": 1.7872,
"step": 340
},
{
"epoch": 0.037333333333333336,
"grad_norm": 1.0062114274919118,
"learning_rate": 1.1162046908315565e-06,
"loss": 1.79,
"step": 350
},
{
"epoch": 0.0384,
"grad_norm": 1.011677603731489,
"learning_rate": 1.14818763326226e-06,
"loss": 1.7717,
"step": 360
},
{
"epoch": 0.039466666666666664,
"grad_norm": 1.0171488180098203,
"learning_rate": 1.1801705756929636e-06,
"loss": 1.7956,
"step": 370
},
{
"epoch": 0.04053333333333333,
"grad_norm": 0.9888992252428204,
"learning_rate": 1.2121535181236674e-06,
"loss": 1.7864,
"step": 380
},
{
"epoch": 0.0416,
"grad_norm": 0.9859184795384529,
"learning_rate": 1.244136460554371e-06,
"loss": 1.7823,
"step": 390
},
{
"epoch": 0.042666666666666665,
"grad_norm": 1.0304450709466717,
"learning_rate": 1.2761194029850748e-06,
"loss": 1.7789,
"step": 400
},
{
"epoch": 0.04373333333333333,
"grad_norm": 0.9930226616060509,
"learning_rate": 1.3081023454157784e-06,
"loss": 1.7789,
"step": 410
},
{
"epoch": 0.0448,
"grad_norm": 1.0049945685138113,
"learning_rate": 1.340085287846482e-06,
"loss": 1.7859,
"step": 420
},
{
"epoch": 0.04586666666666667,
"grad_norm": 0.9986856887017783,
"learning_rate": 1.3720682302771855e-06,
"loss": 1.7706,
"step": 430
},
{
"epoch": 0.046933333333333334,
"grad_norm": 0.96632533926388,
"learning_rate": 1.4040511727078893e-06,
"loss": 1.765,
"step": 440
},
{
"epoch": 0.048,
"grad_norm": 0.9946011180675964,
"learning_rate": 1.4360341151385929e-06,
"loss": 1.7802,
"step": 450
},
{
"epoch": 0.04906666666666667,
"grad_norm": 1.0219829758585637,
"learning_rate": 1.4680170575692965e-06,
"loss": 1.7595,
"step": 460
},
{
"epoch": 0.050133333333333335,
"grad_norm": 1.0050257648331358,
"learning_rate": 1.5e-06,
"loss": 1.7779,
"step": 470
},
{
"epoch": 0.0512,
"grad_norm": 1.0173955839633826,
"learning_rate": 1.5319829424307038e-06,
"loss": 1.7662,
"step": 480
},
{
"epoch": 0.05226666666666667,
"grad_norm": 1.0058087072458008,
"learning_rate": 1.5639658848614072e-06,
"loss": 1.7662,
"step": 490
},
{
"epoch": 0.05333333333333334,
"grad_norm": 1.009772740192404,
"learning_rate": 1.595948827292111e-06,
"loss": 1.7629,
"step": 500
},
{
"epoch": 0.0544,
"grad_norm": 1.0091539437017147,
"learning_rate": 1.6279317697228144e-06,
"loss": 1.7625,
"step": 510
},
{
"epoch": 0.055466666666666664,
"grad_norm": 0.9766386913719629,
"learning_rate": 1.6599147121535181e-06,
"loss": 1.7651,
"step": 520
},
{
"epoch": 0.05653333333333333,
"grad_norm": 0.9948665771860978,
"learning_rate": 1.6918976545842217e-06,
"loss": 1.7575,
"step": 530
},
{
"epoch": 0.0576,
"grad_norm": 1.015137004488529,
"learning_rate": 1.7238805970149253e-06,
"loss": 1.7522,
"step": 540
},
{
"epoch": 0.058666666666666666,
"grad_norm": 0.979130851624477,
"learning_rate": 1.755863539445629e-06,
"loss": 1.7491,
"step": 550
},
{
"epoch": 0.05973333333333333,
"grad_norm": 1.028286956478857,
"learning_rate": 1.7878464818763327e-06,
"loss": 1.7601,
"step": 560
},
{
"epoch": 0.0608,
"grad_norm": 1.0021135232260054,
"learning_rate": 1.8198294243070365e-06,
"loss": 1.7503,
"step": 570
},
{
"epoch": 0.06186666666666667,
"grad_norm": 0.9849872333104093,
"learning_rate": 1.8518123667377398e-06,
"loss": 1.7567,
"step": 580
},
{
"epoch": 0.06293333333333333,
"grad_norm": 0.966018699377993,
"learning_rate": 1.8837953091684436e-06,
"loss": 1.7532,
"step": 590
},
{
"epoch": 0.064,
"grad_norm": 0.9834875314263131,
"learning_rate": 1.9157782515991474e-06,
"loss": 1.7527,
"step": 600
},
{
"epoch": 0.06506666666666666,
"grad_norm": 0.9857718624604849,
"learning_rate": 1.9477611940298506e-06,
"loss": 1.7478,
"step": 610
},
{
"epoch": 0.06613333333333334,
"grad_norm": 0.9750320080314833,
"learning_rate": 1.9797441364605546e-06,
"loss": 1.7567,
"step": 620
},
{
"epoch": 0.0672,
"grad_norm": 0.986251223038516,
"learning_rate": 2.011727078891258e-06,
"loss": 1.7537,
"step": 630
},
{
"epoch": 0.06826666666666667,
"grad_norm": 1.0589652983354991,
"learning_rate": 2.0437100213219617e-06,
"loss": 1.7479,
"step": 640
},
{
"epoch": 0.06933333333333333,
"grad_norm": 0.966603804583492,
"learning_rate": 2.0756929637526653e-06,
"loss": 1.7553,
"step": 650
},
{
"epoch": 0.0704,
"grad_norm": 0.9937104599025618,
"learning_rate": 2.107675906183369e-06,
"loss": 1.7396,
"step": 660
},
{
"epoch": 0.07146666666666666,
"grad_norm": 0.9729344211017412,
"learning_rate": 2.139658848614073e-06,
"loss": 1.749,
"step": 670
},
{
"epoch": 0.07253333333333334,
"grad_norm": 0.9684440081773728,
"learning_rate": 2.171641791044776e-06,
"loss": 1.7448,
"step": 680
},
{
"epoch": 0.0736,
"grad_norm": 1.0315595656282452,
"learning_rate": 2.20362473347548e-06,
"loss": 1.7413,
"step": 690
},
{
"epoch": 0.07466666666666667,
"grad_norm": 0.956255201496986,
"learning_rate": 2.235607675906183e-06,
"loss": 1.7343,
"step": 700
},
{
"epoch": 0.07573333333333333,
"grad_norm": 1.0099473897982345,
"learning_rate": 2.267590618336887e-06,
"loss": 1.7476,
"step": 710
},
{
"epoch": 0.0768,
"grad_norm": 0.9918013311593525,
"learning_rate": 2.2995735607675903e-06,
"loss": 1.7447,
"step": 720
},
{
"epoch": 0.07786666666666667,
"grad_norm": 0.9607779066124419,
"learning_rate": 2.3315565031982944e-06,
"loss": 1.7461,
"step": 730
},
{
"epoch": 0.07893333333333333,
"grad_norm": 0.9300821752164984,
"learning_rate": 2.363539445628998e-06,
"loss": 1.7459,
"step": 740
},
{
"epoch": 0.08,
"grad_norm": 0.9802865773994389,
"learning_rate": 2.3955223880597015e-06,
"loss": 1.7289,
"step": 750
},
{
"epoch": 0.08106666666666666,
"grad_norm": 0.968861406929428,
"learning_rate": 2.427505330490405e-06,
"loss": 1.734,
"step": 760
},
{
"epoch": 0.08213333333333334,
"grad_norm": 0.931168411910361,
"learning_rate": 2.4594882729211087e-06,
"loss": 1.7378,
"step": 770
},
{
"epoch": 0.0832,
"grad_norm": 0.9349432879520486,
"learning_rate": 2.4914712153518122e-06,
"loss": 1.7458,
"step": 780
},
{
"epoch": 0.08426666666666667,
"grad_norm": 0.9572777712374823,
"learning_rate": 2.5234541577825162e-06,
"loss": 1.7299,
"step": 790
},
{
"epoch": 0.08533333333333333,
"grad_norm": 0.9673644326074168,
"learning_rate": 2.55543710021322e-06,
"loss": 1.7338,
"step": 800
},
{
"epoch": 0.0864,
"grad_norm": 0.9341236623596115,
"learning_rate": 2.5874200426439234e-06,
"loss": 1.7368,
"step": 810
},
{
"epoch": 0.08746666666666666,
"grad_norm": 1.0169214342659523,
"learning_rate": 2.619402985074627e-06,
"loss": 1.73,
"step": 820
},
{
"epoch": 0.08853333333333334,
"grad_norm": 0.9677599182909125,
"learning_rate": 2.6513859275053306e-06,
"loss": 1.7313,
"step": 830
},
{
"epoch": 0.0896,
"grad_norm": 0.9660202276249766,
"learning_rate": 2.683368869936034e-06,
"loss": 1.7347,
"step": 840
},
{
"epoch": 0.09066666666666667,
"grad_norm": 0.9689227185392472,
"learning_rate": 2.7153518123667377e-06,
"loss": 1.7331,
"step": 850
},
{
"epoch": 0.09173333333333333,
"grad_norm": 1.0445222338763358,
"learning_rate": 2.7473347547974417e-06,
"loss": 1.7406,
"step": 860
},
{
"epoch": 0.0928,
"grad_norm": 0.9732698184797995,
"learning_rate": 2.779317697228145e-06,
"loss": 1.7372,
"step": 870
},
{
"epoch": 0.09386666666666667,
"grad_norm": 0.9397504123684303,
"learning_rate": 2.811300639658849e-06,
"loss": 1.7368,
"step": 880
},
{
"epoch": 0.09493333333333333,
"grad_norm": 0.9636532387138392,
"learning_rate": 2.843283582089552e-06,
"loss": 1.7336,
"step": 890
},
{
"epoch": 0.096,
"grad_norm": 0.9787282267170603,
"learning_rate": 2.875266524520256e-06,
"loss": 1.7395,
"step": 900
},
{
"epoch": 0.09706666666666666,
"grad_norm": 0.9731100393389104,
"learning_rate": 2.9072494669509596e-06,
"loss": 1.7233,
"step": 910
},
{
"epoch": 0.09813333333333334,
"grad_norm": 1.0218327091088006,
"learning_rate": 2.939232409381663e-06,
"loss": 1.7199,
"step": 920
},
{
"epoch": 0.0992,
"grad_norm": 0.9279354105013138,
"learning_rate": 2.9712153518123668e-06,
"loss": 1.7351,
"step": 930
},
{
"epoch": 0.10026666666666667,
"grad_norm": 0.9797482853345897,
"learning_rate": 2.9999998960115977e-06,
"loss": 1.7235,
"step": 940
},
{
"epoch": 0.10133333333333333,
"grad_norm": 0.9693839730900363,
"learning_rate": 2.999987417420771e-06,
"loss": 1.7249,
"step": 950
},
{
"epoch": 0.1024,
"grad_norm": 0.9934769517676881,
"learning_rate": 2.9999541413477384e-06,
"loss": 1.7214,
"step": 960
},
{
"epoch": 0.10346666666666667,
"grad_norm": 0.9260717773699929,
"learning_rate": 2.9999000682538766e-06,
"loss": 1.7214,
"step": 970
},
{
"epoch": 0.10453333333333334,
"grad_norm": 0.9590505556253277,
"learning_rate": 2.9998251988889143e-06,
"loss": 1.7181,
"step": 980
},
{
"epoch": 0.1056,
"grad_norm": 0.9738157745852473,
"learning_rate": 2.999729534290923e-06,
"loss": 1.7284,
"step": 990
},
{
"epoch": 0.10666666666666667,
"grad_norm": 1.0010285106665302,
"learning_rate": 2.9996130757863025e-06,
"loss": 1.7287,
"step": 1000
},
{
"epoch": 0.10773333333333333,
"grad_norm": 0.9726401774081405,
"learning_rate": 2.9994758249897616e-06,
"loss": 1.714,
"step": 1010
},
{
"epoch": 0.1088,
"grad_norm": 0.9704109486266078,
"learning_rate": 2.9993177838042985e-06,
"loss": 1.7255,
"step": 1020
},
{
"epoch": 0.10986666666666667,
"grad_norm": 0.9343959879441444,
"learning_rate": 2.9991389544211688e-06,
"loss": 1.7259,
"step": 1030
},
{
"epoch": 0.11093333333333333,
"grad_norm": 0.9412581833815676,
"learning_rate": 2.998939339319862e-06,
"loss": 1.712,
"step": 1040
},
{
"epoch": 0.112,
"grad_norm": 0.9319765147324208,
"learning_rate": 2.9987189412680615e-06,
"loss": 1.7311,
"step": 1050
},
{
"epoch": 0.11306666666666666,
"grad_norm": 0.9182490196452511,
"learning_rate": 2.9984777633216096e-06,
"loss": 1.7188,
"step": 1060
},
{
"epoch": 0.11413333333333334,
"grad_norm": 0.9406223896042467,
"learning_rate": 2.998215808824464e-06,
"loss": 1.7197,
"step": 1070
},
{
"epoch": 0.1152,
"grad_norm": 0.9791936853352362,
"learning_rate": 2.9979330814086504e-06,
"loss": 1.7095,
"step": 1080
},
{
"epoch": 0.11626666666666667,
"grad_norm": 0.9378156358079694,
"learning_rate": 2.9976295849942147e-06,
"loss": 1.7191,
"step": 1090
},
{
"epoch": 0.11733333333333333,
"grad_norm": 0.9828063083933306,
"learning_rate": 2.997305323789166e-06,
"loss": 1.7179,
"step": 1100
},
{
"epoch": 0.1184,
"grad_norm": 0.9370575824674827,
"learning_rate": 2.9969603022894198e-06,
"loss": 1.7174,
"step": 1110
},
{
"epoch": 0.11946666666666667,
"grad_norm": 0.9382352010977533,
"learning_rate": 2.9965945252787354e-06,
"loss": 1.7212,
"step": 1120
},
{
"epoch": 0.12053333333333334,
"grad_norm": 1.0023541537096632,
"learning_rate": 2.9962079978286493e-06,
"loss": 1.7176,
"step": 1130
},
{
"epoch": 0.1216,
"grad_norm": 0.9898668773320954,
"learning_rate": 2.9958007252984044e-06,
"loss": 1.706,
"step": 1140
},
{
"epoch": 0.12266666666666666,
"grad_norm": 0.9465088451952217,
"learning_rate": 2.995372713334878e-06,
"loss": 1.7153,
"step": 1150
},
{
"epoch": 0.12373333333333333,
"grad_norm": 0.9226258198430934,
"learning_rate": 2.9949239678724995e-06,
"loss": 1.7164,
"step": 1160
},
{
"epoch": 0.1248,
"grad_norm": 0.9684110743028738,
"learning_rate": 2.994454495133172e-06,
"loss": 1.6988,
"step": 1170
},
{
"epoch": 0.12586666666666665,
"grad_norm": 0.9304996292448394,
"learning_rate": 2.9939643016261844e-06,
"loss": 1.7109,
"step": 1180
},
{
"epoch": 0.12693333333333334,
"grad_norm": 0.9846707376440544,
"learning_rate": 2.9934533941481206e-06,
"loss": 1.7095,
"step": 1190
},
{
"epoch": 0.128,
"grad_norm": 0.9207516513964573,
"learning_rate": 2.992921779782766e-06,
"loss": 1.7191,
"step": 1200
},
{
"epoch": 0.12906666666666666,
"grad_norm": 0.9423153994235445,
"learning_rate": 2.9923694659010097e-06,
"loss": 1.7059,
"step": 1210
},
{
"epoch": 0.13013333333333332,
"grad_norm": 0.9884755675217244,
"learning_rate": 2.9917964601607408e-06,
"loss": 1.7188,
"step": 1220
},
{
"epoch": 0.1312,
"grad_norm": 0.9454494428121172,
"learning_rate": 2.9912027705067446e-06,
"loss": 1.7074,
"step": 1230
},
{
"epoch": 0.13226666666666667,
"grad_norm": 0.9714914541488381,
"learning_rate": 2.990588405170589e-06,
"loss": 1.7054,
"step": 1240
},
{
"epoch": 0.13333333333333333,
"grad_norm": 0.9861325998085162,
"learning_rate": 2.9899533726705143e-06,
"loss": 1.7049,
"step": 1250
},
{
"epoch": 0.1344,
"grad_norm": 0.9605966245230434,
"learning_rate": 2.989297681811312e-06,
"loss": 1.7031,
"step": 1260
},
{
"epoch": 0.13546666666666668,
"grad_norm": 0.9997792673477949,
"learning_rate": 2.9886213416842056e-06,
"loss": 1.7243,
"step": 1270
},
{
"epoch": 0.13653333333333334,
"grad_norm": 0.9586231880245414,
"learning_rate": 2.98792436166672e-06,
"loss": 1.7044,
"step": 1280
},
{
"epoch": 0.1376,
"grad_norm": 0.9223749615597475,
"learning_rate": 2.9872067514225564e-06,
"loss": 1.7119,
"step": 1290
},
{
"epoch": 0.13866666666666666,
"grad_norm": 0.9131094948499283,
"learning_rate": 2.9864685209014564e-06,
"loss": 1.7095,
"step": 1300
},
{
"epoch": 0.13973333333333332,
"grad_norm": 0.9511212409402893,
"learning_rate": 2.9857096803390627e-06,
"loss": 1.706,
"step": 1310
},
{
"epoch": 0.1408,
"grad_norm": 0.9401739920451759,
"learning_rate": 2.984930240256779e-06,
"loss": 1.7108,
"step": 1320
},
{
"epoch": 0.14186666666666667,
"grad_norm": 1.0222197807634763,
"learning_rate": 2.9841302114616236e-06,
"loss": 1.7145,
"step": 1330
},
{
"epoch": 0.14293333333333333,
"grad_norm": 0.9293793978889431,
"learning_rate": 2.983309605046079e-06,
"loss": 1.7086,
"step": 1340
},
{
"epoch": 0.144,
"grad_norm": 0.9895898454227201,
"learning_rate": 2.9824684323879395e-06,
"loss": 1.709,
"step": 1350
},
{
"epoch": 0.14506666666666668,
"grad_norm": 0.921571607810168,
"learning_rate": 2.9816067051501515e-06,
"loss": 1.6925,
"step": 1360
},
{
"epoch": 0.14613333333333334,
"grad_norm": 0.9315562929482916,
"learning_rate": 2.9807244352806533e-06,
"loss": 1.6997,
"step": 1370
},
{
"epoch": 0.1472,
"grad_norm": 0.9462850086043854,
"learning_rate": 2.979821635012208e-06,
"loss": 1.7031,
"step": 1380
},
{
"epoch": 0.14826666666666666,
"grad_norm": 0.9764987893367897,
"learning_rate": 2.9788983168622366e-06,
"loss": 1.722,
"step": 1390
},
{
"epoch": 0.14933333333333335,
"grad_norm": 0.9217362345589152,
"learning_rate": 2.977954493632641e-06,
"loss": 1.7024,
"step": 1400
},
{
"epoch": 0.1504,
"grad_norm": 0.9638648863337116,
"learning_rate": 2.976990178409629e-06,
"loss": 1.7043,
"step": 1410
},
{
"epoch": 0.15146666666666667,
"grad_norm": 0.9848845093876835,
"learning_rate": 2.9760053845635323e-06,
"loss": 1.6924,
"step": 1420
},
{
"epoch": 0.15253333333333333,
"grad_norm": 0.9705918106114978,
"learning_rate": 2.9750001257486202e-06,
"loss": 1.7036,
"step": 1430
},
{
"epoch": 0.1536,
"grad_norm": 1.0476395789667885,
"learning_rate": 2.9739744159029116e-06,
"loss": 1.7033,
"step": 1440
},
{
"epoch": 0.15466666666666667,
"grad_norm": 0.9954028904161399,
"learning_rate": 2.9729282692479794e-06,
"loss": 1.6979,
"step": 1450
},
{
"epoch": 0.15573333333333333,
"grad_norm": 0.9407021781934388,
"learning_rate": 2.9718617002887576e-06,
"loss": 1.698,
"step": 1460
},
{
"epoch": 0.1568,
"grad_norm": 1.0164192697269847,
"learning_rate": 2.9707747238133358e-06,
"loss": 1.7029,
"step": 1470
},
{
"epoch": 0.15786666666666666,
"grad_norm": 0.9377253239645678,
"learning_rate": 2.9696673548927554e-06,
"loss": 1.6937,
"step": 1480
},
{
"epoch": 0.15893333333333334,
"grad_norm": 0.9514182069218455,
"learning_rate": 2.9685396088808034e-06,
"loss": 1.6945,
"step": 1490
},
{
"epoch": 0.16,
"grad_norm": 1.011813239662003,
"learning_rate": 2.9673915014137956e-06,
"loss": 1.6914,
"step": 1500
},
{
"epoch": 0.16106666666666666,
"grad_norm": 0.9567612096372408,
"learning_rate": 2.9662230484103615e-06,
"loss": 1.6952,
"step": 1510
},
{
"epoch": 0.16213333333333332,
"grad_norm": 0.9396961373132289,
"learning_rate": 2.9650342660712244e-06,
"loss": 1.6951,
"step": 1520
},
{
"epoch": 0.1632,
"grad_norm": 0.9770905317926912,
"learning_rate": 2.963825170878976e-06,
"loss": 1.702,
"step": 1530
},
{
"epoch": 0.16426666666666667,
"grad_norm": 0.92979333185733,
"learning_rate": 2.962595779597847e-06,
"loss": 1.6798,
"step": 1540
},
{
"epoch": 0.16533333333333333,
"grad_norm": 0.9405613280971572,
"learning_rate": 2.9613461092734762e-06,
"loss": 1.7138,
"step": 1550
},
{
"epoch": 0.1664,
"grad_norm": 1.0202704121758501,
"learning_rate": 2.9600761772326725e-06,
"loss": 1.7004,
"step": 1560
},
{
"epoch": 0.16746666666666668,
"grad_norm": 0.9688455606036914,
"learning_rate": 2.958786001083177e-06,
"loss": 1.6965,
"step": 1570
},
{
"epoch": 0.16853333333333334,
"grad_norm": 0.9950840697611869,
"learning_rate": 2.9574755987134163e-06,
"loss": 1.6966,
"step": 1580
},
{
"epoch": 0.1696,
"grad_norm": 0.954539049770782,
"learning_rate": 2.956144988292256e-06,
"loss": 1.693,
"step": 1590
},
{
"epoch": 0.17066666666666666,
"grad_norm": 0.9937387363616697,
"learning_rate": 2.9547941882687493e-06,
"loss": 1.6974,
"step": 1600
},
{
"epoch": 0.17173333333333332,
"grad_norm": 0.9649222658603489,
"learning_rate": 2.953423217371879e-06,
"loss": 1.6988,
"step": 1610
},
{
"epoch": 0.1728,
"grad_norm": 0.9795557846153786,
"learning_rate": 2.9520320946103e-06,
"loss": 1.686,
"step": 1620
},
{
"epoch": 0.17386666666666667,
"grad_norm": 0.9268977839435429,
"learning_rate": 2.9506208392720747e-06,
"loss": 1.6898,
"step": 1630
},
{
"epoch": 0.17493333333333333,
"grad_norm": 0.9633986836898336,
"learning_rate": 2.9491894709244054e-06,
"loss": 1.6937,
"step": 1640
},
{
"epoch": 0.176,
"grad_norm": 0.9465351110713693,
"learning_rate": 2.947738009413364e-06,
"loss": 1.6911,
"step": 1650
},
{
"epoch": 0.17706666666666668,
"grad_norm": 0.9786963124481838,
"learning_rate": 2.9462664748636164e-06,
"loss": 1.69,
"step": 1660
},
{
"epoch": 0.17813333333333334,
"grad_norm": 0.9729437237094272,
"learning_rate": 2.944774887678142e-06,
"loss": 1.6902,
"step": 1670
},
{
"epoch": 0.1792,
"grad_norm": 0.9725804632703692,
"learning_rate": 2.943263268537953e-06,
"loss": 1.6903,
"step": 1680
},
{
"epoch": 0.18026666666666666,
"grad_norm": 0.9492404386501866,
"learning_rate": 2.941731638401808e-06,
"loss": 1.6937,
"step": 1690
},
{
"epoch": 0.18133333333333335,
"grad_norm": 0.9570347565215679,
"learning_rate": 2.9401800185059167e-06,
"loss": 1.6967,
"step": 1700
},
{
"epoch": 0.1824,
"grad_norm": 0.9559226069159008,
"learning_rate": 2.9386084303636524e-06,
"loss": 1.6809,
"step": 1710
},
{
"epoch": 0.18346666666666667,
"grad_norm": 1.0046152228862981,
"learning_rate": 2.9370168957652485e-06,
"loss": 1.699,
"step": 1720
},
{
"epoch": 0.18453333333333333,
"grad_norm": 1.0287846864777574,
"learning_rate": 2.935405436777499e-06,
"loss": 1.6914,
"step": 1730
},
{
"epoch": 0.1856,
"grad_norm": 0.9499657448606992,
"learning_rate": 2.9337740757434496e-06,
"loss": 1.6899,
"step": 1740
},
{
"epoch": 0.18666666666666668,
"grad_norm": 0.965538829889218,
"learning_rate": 2.9321228352820927e-06,
"loss": 1.7062,
"step": 1750
},
{
"epoch": 0.18773333333333334,
"grad_norm": 0.9622526488232813,
"learning_rate": 2.9304517382880494e-06,
"loss": 1.6922,
"step": 1760
},
{
"epoch": 0.1888,
"grad_norm": 0.9650628440768041,
"learning_rate": 2.9287608079312543e-06,
"loss": 1.6808,
"step": 1770
},
{
"epoch": 0.18986666666666666,
"grad_norm": 0.9282815046777251,
"learning_rate": 2.9270500676566328e-06,
"loss": 1.6969,
"step": 1780
},
{
"epoch": 0.19093333333333334,
"grad_norm": 0.9659267189086952,
"learning_rate": 2.925319541183778e-06,
"loss": 1.6879,
"step": 1790
},
{
"epoch": 0.192,
"grad_norm": 1.027207156209701,
"learning_rate": 2.92356925250662e-06,
"loss": 1.6968,
"step": 1800
},
{
"epoch": 0.19306666666666666,
"grad_norm": 0.9912095201776828,
"learning_rate": 2.921799225893094e-06,
"loss": 1.6894,
"step": 1810
},
{
"epoch": 0.19413333333333332,
"grad_norm": 0.9168893165374763,
"learning_rate": 2.920009485884804e-06,
"loss": 1.6859,
"step": 1820
},
{
"epoch": 0.1952,
"grad_norm": 0.9476689755019561,
"learning_rate": 2.918200057296682e-06,
"loss": 1.6898,
"step": 1830
},
{
"epoch": 0.19626666666666667,
"grad_norm": 1.0363217943805423,
"learning_rate": 2.916370965216645e-06,
"loss": 1.691,
"step": 1840
},
{
"epoch": 0.19733333333333333,
"grad_norm": 1.018339423593827,
"learning_rate": 2.914522235005245e-06,
"loss": 1.6871,
"step": 1850
},
{
"epoch": 0.1984,
"grad_norm": 0.9422092936258663,
"learning_rate": 2.9126538922953194e-06,
"loss": 1.6897,
"step": 1860
},
{
"epoch": 0.19946666666666665,
"grad_norm": 0.9958834353591612,
"learning_rate": 2.9107659629916356e-06,
"loss": 1.687,
"step": 1870
},
{
"epoch": 0.20053333333333334,
"grad_norm": 0.9226968417639375,
"learning_rate": 2.90885847327053e-06,
"loss": 1.6973,
"step": 1880
},
{
"epoch": 0.2016,
"grad_norm": 0.993872559179678,
"learning_rate": 2.9069314495795473e-06,
"loss": 1.6889,
"step": 1890
},
{
"epoch": 0.20266666666666666,
"grad_norm": 0.9751830683307856,
"learning_rate": 2.904984918637072e-06,
"loss": 1.6928,
"step": 1900
},
{
"epoch": 0.20373333333333332,
"grad_norm": 0.9717638999834981,
"learning_rate": 2.903018907431959e-06,
"loss": 1.7012,
"step": 1910
},
{
"epoch": 0.2048,
"grad_norm": 0.9684433892926837,
"learning_rate": 2.9010334432231586e-06,
"loss": 1.692,
"step": 1920
},
{
"epoch": 0.20586666666666667,
"grad_norm": 0.9634212930019094,
"learning_rate": 2.89902855353934e-06,
"loss": 1.6908,
"step": 1930
},
{
"epoch": 0.20693333333333333,
"grad_norm": 0.9762445180982307,
"learning_rate": 2.897004266178508e-06,
"loss": 1.6841,
"step": 1940
},
{
"epoch": 0.208,
"grad_norm": 0.9063361096635529,
"learning_rate": 2.894960609207618e-06,
"loss": 1.6929,
"step": 1950
},
{
"epoch": 0.20906666666666668,
"grad_norm": 0.9916857293203556,
"learning_rate": 2.892897610962187e-06,
"loss": 1.6826,
"step": 1960
},
{
"epoch": 0.21013333333333334,
"grad_norm": 0.9098063977127645,
"learning_rate": 2.8908153000459015e-06,
"loss": 1.6888,
"step": 1970
},
{
"epoch": 0.2112,
"grad_norm": 0.9253645914734241,
"learning_rate": 2.8887137053302205e-06,
"loss": 1.6962,
"step": 1980
},
{
"epoch": 0.21226666666666666,
"grad_norm": 0.9413440169743281,
"learning_rate": 2.886592855953974e-06,
"loss": 1.698,
"step": 1990
},
{
"epoch": 0.21333333333333335,
"grad_norm": 0.9283779660159788,
"learning_rate": 2.8844527813229586e-06,
"loss": 1.6931,
"step": 2000
},
{
"epoch": 0.2144,
"grad_norm": 0.9621495489577391,
"learning_rate": 2.8822935111095347e-06,
"loss": 1.6936,
"step": 2010
},
{
"epoch": 0.21546666666666667,
"grad_norm": 0.9244473657406035,
"learning_rate": 2.8801150752522078e-06,
"loss": 1.6805,
"step": 2020
},
{
"epoch": 0.21653333333333333,
"grad_norm": 0.9818176829968719,
"learning_rate": 2.8779175039552195e-06,
"loss": 1.6937,
"step": 2030
},
{
"epoch": 0.2176,
"grad_norm": 0.9344946484100746,
"learning_rate": 2.875700827688125e-06,
"loss": 1.6915,
"step": 2040
},
{
"epoch": 0.21866666666666668,
"grad_norm": 0.9323152655731969,
"learning_rate": 2.873465077185372e-06,
"loss": 1.6852,
"step": 2050
},
{
"epoch": 0.21973333333333334,
"grad_norm": 0.9671138914963243,
"learning_rate": 2.871210283445875e-06,
"loss": 1.6877,
"step": 2060
},
{
"epoch": 0.2208,
"grad_norm": 0.9376647062497248,
"learning_rate": 2.8689364777325847e-06,
"loss": 1.7023,
"step": 2070
},
{
"epoch": 0.22186666666666666,
"grad_norm": 0.9651018289075455,
"learning_rate": 2.866643691572055e-06,
"loss": 1.6843,
"step": 2080
},
{
"epoch": 0.22293333333333334,
"grad_norm": 0.9334826541514025,
"learning_rate": 2.864331956754005e-06,
"loss": 1.6876,
"step": 2090
},
{
"epoch": 0.224,
"grad_norm": 0.9647694470615409,
"learning_rate": 2.86200130533088e-06,
"loss": 1.6924,
"step": 2100
},
{
"epoch": 0.22506666666666666,
"grad_norm": 0.973949157923878,
"learning_rate": 2.8596517696174046e-06,
"loss": 1.6878,
"step": 2110
},
{
"epoch": 0.22613333333333333,
"grad_norm": 0.9825030352122315,
"learning_rate": 2.8572833821901375e-06,
"loss": 1.6969,
"step": 2120
},
{
"epoch": 0.2272,
"grad_norm": 1.0062961911233603,
"learning_rate": 2.8548961758870177e-06,
"loss": 1.6864,
"step": 2130
},
{
"epoch": 0.22826666666666667,
"grad_norm": 0.9981598126892428,
"learning_rate": 2.85249018380691e-06,
"loss": 1.6739,
"step": 2140
},
{
"epoch": 0.22933333333333333,
"grad_norm": 0.9378616658810501,
"learning_rate": 2.8500654393091456e-06,
"loss": 1.6748,
"step": 2150
},
{
"epoch": 0.2304,
"grad_norm": 0.9377810112291182,
"learning_rate": 2.8476219760130597e-06,
"loss": 1.6828,
"step": 2160
},
{
"epoch": 0.23146666666666665,
"grad_norm": 0.9742496689830766,
"learning_rate": 2.845159827797527e-06,
"loss": 1.6804,
"step": 2170
},
{
"epoch": 0.23253333333333334,
"grad_norm": 0.9437932101694276,
"learning_rate": 2.8426790288004894e-06,
"loss": 1.6894,
"step": 2180
},
{
"epoch": 0.2336,
"grad_norm": 0.9876632127111694,
"learning_rate": 2.8401796134184842e-06,
"loss": 1.678,
"step": 2190
},
{
"epoch": 0.23466666666666666,
"grad_norm": 0.9569257673632822,
"learning_rate": 2.8376616163061665e-06,
"loss": 1.6893,
"step": 2200
},
{
"epoch": 0.23573333333333332,
"grad_norm": 0.9568838255096077,
"learning_rate": 2.835125072375829e-06,
"loss": 1.6781,
"step": 2210
},
{
"epoch": 0.2368,
"grad_norm": 0.9085275995738579,
"learning_rate": 2.8325700167969185e-06,
"loss": 1.6927,
"step": 2220
},
{
"epoch": 0.23786666666666667,
"grad_norm": 0.9440165945493646,
"learning_rate": 2.8299964849955474e-06,
"loss": 1.6908,
"step": 2230
},
{
"epoch": 0.23893333333333333,
"grad_norm": 0.9299468654580177,
"learning_rate": 2.8274045126540035e-06,
"loss": 1.6787,
"step": 2240
},
{
"epoch": 0.24,
"grad_norm": 0.9564973207072164,
"learning_rate": 2.8247941357102533e-06,
"loss": 1.6771,
"step": 2250
},
{
"epoch": 0.24106666666666668,
"grad_norm": 1.0068019553448377,
"learning_rate": 2.8221653903574457e-06,
"loss": 1.6833,
"step": 2260
},
{
"epoch": 0.24213333333333334,
"grad_norm": 0.9187725145774673,
"learning_rate": 2.8195183130434106e-06,
"loss": 1.685,
"step": 2270
},
{
"epoch": 0.2432,
"grad_norm": 0.9405491373411125,
"learning_rate": 2.81685294047015e-06,
"loss": 1.6646,
"step": 2280
},
{
"epoch": 0.24426666666666666,
"grad_norm": 0.9803755997190594,
"learning_rate": 2.814169309593334e-06,
"loss": 1.6924,
"step": 2290
},
{
"epoch": 0.24533333333333332,
"grad_norm": 0.9031553792551361,
"learning_rate": 2.8114674576217845e-06,
"loss": 1.6782,
"step": 2300
},
{
"epoch": 0.2464,
"grad_norm": 0.9616324782378027,
"learning_rate": 2.808747422016961e-06,
"loss": 1.6791,
"step": 2310
},
{
"epoch": 0.24746666666666667,
"grad_norm": 0.9689622968063254,
"learning_rate": 2.8060092404924425e-06,
"loss": 1.6827,
"step": 2320
},
{
"epoch": 0.24853333333333333,
"grad_norm": 0.9103916728377786,
"learning_rate": 2.803252951013401e-06,
"loss": 1.673,
"step": 2330
},
{
"epoch": 0.2496,
"grad_norm": 0.9966753348303548,
"learning_rate": 2.8004785917960776e-06,
"loss": 1.6718,
"step": 2340
},
{
"epoch": 0.25066666666666665,
"grad_norm": 0.9320106534534991,
"learning_rate": 2.7976862013072533e-06,
"loss": 1.6797,
"step": 2350
},
{
"epoch": 0.2517333333333333,
"grad_norm": 0.9836380538426814,
"learning_rate": 2.7948758182637134e-06,
"loss": 1.6691,
"step": 2360
},
{
"epoch": 0.2528,
"grad_norm": 0.982733481739216,
"learning_rate": 2.792047481631713e-06,
"loss": 1.6715,
"step": 2370
},
{
"epoch": 0.2538666666666667,
"grad_norm": 0.9687610073423567,
"learning_rate": 2.7892012306264337e-06,
"loss": 1.682,
"step": 2380
},
{
"epoch": 0.25493333333333335,
"grad_norm": 0.9605226768136803,
"learning_rate": 2.7863371047114444e-06,
"loss": 1.687,
"step": 2390
},
{
"epoch": 0.256,
"grad_norm": 0.9721317861816063,
"learning_rate": 2.7834551435981485e-06,
"loss": 1.6786,
"step": 2400
},
{
"epoch": 0.25706666666666667,
"grad_norm": 0.9555715027751217,
"learning_rate": 2.7805553872452395e-06,
"loss": 1.6813,
"step": 2410
},
{
"epoch": 0.2581333333333333,
"grad_norm": 0.9261368860432231,
"learning_rate": 2.777637875858141e-06,
"loss": 1.6808,
"step": 2420
},
{
"epoch": 0.2592,
"grad_norm": 1.004072918675185,
"learning_rate": 2.7747026498884538e-06,
"loss": 1.6782,
"step": 2430
},
{
"epoch": 0.26026666666666665,
"grad_norm": 0.9636076501096617,
"learning_rate": 2.7717497500333912e-06,
"loss": 1.6809,
"step": 2440
},
{
"epoch": 0.2613333333333333,
"grad_norm": 0.9420586899875296,
"learning_rate": 2.7687792172352197e-06,
"loss": 1.6757,
"step": 2450
},
{
"epoch": 0.2624,
"grad_norm": 0.9705519212298509,
"learning_rate": 2.7657910926806856e-06,
"loss": 1.6738,
"step": 2460
},
{
"epoch": 0.2634666666666667,
"grad_norm": 0.9443740627719142,
"learning_rate": 2.762785417800449e-06,
"loss": 1.6661,
"step": 2470
},
{
"epoch": 0.26453333333333334,
"grad_norm": 0.9280026449893723,
"learning_rate": 2.759762234268505e-06,
"loss": 1.6745,
"step": 2480
},
{
"epoch": 0.2656,
"grad_norm": 0.9332088171991123,
"learning_rate": 2.75672158400161e-06,
"loss": 1.6634,
"step": 2490
},
{
"epoch": 0.26666666666666666,
"grad_norm": 0.9260756797146239,
"learning_rate": 2.7536635091586968e-06,
"loss": 1.6698,
"step": 2500
},
{
"epoch": 0.2677333333333333,
"grad_norm": 0.9522638482173366,
"learning_rate": 2.7505880521402926e-06,
"loss": 1.683,
"step": 2510
},
{
"epoch": 0.2688,
"grad_norm": 0.9194105429410604,
"learning_rate": 2.74749525558793e-06,
"loss": 1.674,
"step": 2520
},
{
"epoch": 0.26986666666666664,
"grad_norm": 0.9244965754821771,
"learning_rate": 2.744385162383557e-06,
"loss": 1.6727,
"step": 2530
},
{
"epoch": 0.27093333333333336,
"grad_norm": 0.9703948464521073,
"learning_rate": 2.74125781564894e-06,
"loss": 1.6714,
"step": 2540
},
{
"epoch": 0.272,
"grad_norm": 0.9550773075287746,
"learning_rate": 2.7381132587450685e-06,
"loss": 1.6717,
"step": 2550
},
{
"epoch": 0.2730666666666667,
"grad_norm": 0.9522791886803353,
"learning_rate": 2.734951535271552e-06,
"loss": 1.675,
"step": 2560
},
{
"epoch": 0.27413333333333334,
"grad_norm": 0.9492894480374988,
"learning_rate": 2.731772689066017e-06,
"loss": 1.6713,
"step": 2570
},
{
"epoch": 0.2752,
"grad_norm": 0.9610311825502869,
"learning_rate": 2.728576764203498e-06,
"loss": 1.6826,
"step": 2580
},
{
"epoch": 0.27626666666666666,
"grad_norm": 0.9849494230785885,
"learning_rate": 2.725363804995827e-06,
"loss": 1.69,
"step": 2590
},
{
"epoch": 0.2773333333333333,
"grad_norm": 0.9431659843820906,
"learning_rate": 2.7221338559910195e-06,
"loss": 1.6733,
"step": 2600
},
{
"epoch": 0.2784,
"grad_norm": 0.9796210561747851,
"learning_rate": 2.7188869619726547e-06,
"loss": 1.6752,
"step": 2610
},
{
"epoch": 0.27946666666666664,
"grad_norm": 0.934917472845763,
"learning_rate": 2.7156231679592586e-06,
"loss": 1.678,
"step": 2620
},
{
"epoch": 0.28053333333333336,
"grad_norm": 0.9490174835011432,
"learning_rate": 2.7123425192036746e-06,
"loss": 1.6842,
"step": 2630
},
{
"epoch": 0.2816,
"grad_norm": 0.9443529132975703,
"learning_rate": 2.7090450611924418e-06,
"loss": 1.6807,
"step": 2640
},
{
"epoch": 0.2826666666666667,
"grad_norm": 0.9115384803443461,
"learning_rate": 2.7057308396451587e-06,
"loss": 1.6654,
"step": 2650
},
{
"epoch": 0.28373333333333334,
"grad_norm": 0.9696075777810633,
"learning_rate": 2.702399900513854e-06,
"loss": 1.6701,
"step": 2660
},
{
"epoch": 0.2848,
"grad_norm": 0.9689138887330382,
"learning_rate": 2.6990522899823466e-06,
"loss": 1.6739,
"step": 2670
},
{
"epoch": 0.28586666666666666,
"grad_norm": 0.9104129289703732,
"learning_rate": 2.6956880544656055e-06,
"loss": 1.6636,
"step": 2680
},
{
"epoch": 0.2869333333333333,
"grad_norm": 0.9796258881712162,
"learning_rate": 2.6923072406091082e-06,
"loss": 1.6818,
"step": 2690
},
{
"epoch": 0.288,
"grad_norm": 0.9590136218069022,
"learning_rate": 2.6889098952881917e-06,
"loss": 1.6838,
"step": 2700
},
{
"epoch": 0.2890666666666667,
"grad_norm": 0.9424280518197954,
"learning_rate": 2.685496065607404e-06,
"loss": 1.6701,
"step": 2710
},
{
"epoch": 0.29013333333333335,
"grad_norm": 0.9463594770044005,
"learning_rate": 2.6820657988998496e-06,
"loss": 1.682,
"step": 2720
},
{
"epoch": 0.2912,
"grad_norm": 0.937820302148928,
"learning_rate": 2.6786191427265347e-06,
"loss": 1.6777,
"step": 2730
},
{
"epoch": 0.2922666666666667,
"grad_norm": 0.9781602988747731,
"learning_rate": 2.675156144875708e-06,
"loss": 1.6775,
"step": 2740
},
{
"epoch": 0.29333333333333333,
"grad_norm": 0.9807006119595277,
"learning_rate": 2.671676853362195e-06,
"loss": 1.6775,
"step": 2750
},
{
"epoch": 0.2944,
"grad_norm": 0.9210609958471703,
"learning_rate": 2.668181316426737e-06,
"loss": 1.6644,
"step": 2760
},
{
"epoch": 0.29546666666666666,
"grad_norm": 0.9536343231926293,
"learning_rate": 2.6646695825353185e-06,
"loss": 1.6667,
"step": 2770
},
{
"epoch": 0.2965333333333333,
"grad_norm": 0.9707143300975725,
"learning_rate": 2.6611417003784966e-06,
"loss": 1.6757,
"step": 2780
},
{
"epoch": 0.2976,
"grad_norm": 0.9797043455938097,
"learning_rate": 2.6575977188707255e-06,
"loss": 1.6745,
"step": 2790
},
{
"epoch": 0.2986666666666667,
"grad_norm": 0.9240894072405273,
"learning_rate": 2.654037687149679e-06,
"loss": 1.6652,
"step": 2800
},
{
"epoch": 0.29973333333333335,
"grad_norm": 0.9479211087300785,
"learning_rate": 2.6504616545755694e-06,
"loss": 1.6687,
"step": 2810
},
{
"epoch": 0.3008,
"grad_norm": 0.9847799255549,
"learning_rate": 2.6468696707304616e-06,
"loss": 1.671,
"step": 2820
},
{
"epoch": 0.30186666666666667,
"grad_norm": 0.9666136398493494,
"learning_rate": 2.6432617854175867e-06,
"loss": 1.6764,
"step": 2830
},
{
"epoch": 0.30293333333333333,
"grad_norm": 0.9252577689779522,
"learning_rate": 2.6396380486606506e-06,
"loss": 1.67,
"step": 2840
},
{
"epoch": 0.304,
"grad_norm": 0.9365753697312256,
"learning_rate": 2.635998510703143e-06,
"loss": 1.6815,
"step": 2850
},
{
"epoch": 0.30506666666666665,
"grad_norm": 0.9521191635640937,
"learning_rate": 2.6323432220076378e-06,
"loss": 1.6748,
"step": 2860
},
{
"epoch": 0.3061333333333333,
"grad_norm": 1.004950619135525,
"learning_rate": 2.628672233255093e-06,
"loss": 1.6722,
"step": 2870
},
{
"epoch": 0.3072,
"grad_norm": 0.9417169134415545,
"learning_rate": 2.624985595344153e-06,
"loss": 1.6754,
"step": 2880
},
{
"epoch": 0.3082666666666667,
"grad_norm": 0.9642637394872404,
"learning_rate": 2.621283359390437e-06,
"loss": 1.6706,
"step": 2890
},
{
"epoch": 0.30933333333333335,
"grad_norm": 0.977706265601939,
"learning_rate": 2.617565576725832e-06,
"loss": 1.6663,
"step": 2900
},
{
"epoch": 0.3104,
"grad_norm": 0.9621224050350746,
"learning_rate": 2.613832298897784e-06,
"loss": 1.6733,
"step": 2910
},
{
"epoch": 0.31146666666666667,
"grad_norm": 0.9743652661553531,
"learning_rate": 2.61008357766858e-06,
"loss": 1.6693,
"step": 2920
},
{
"epoch": 0.31253333333333333,
"grad_norm": 0.9440143245728431,
"learning_rate": 2.606319465014631e-06,
"loss": 1.67,
"step": 2930
},
{
"epoch": 0.3136,
"grad_norm": 0.9508265927943546,
"learning_rate": 2.6025400131257525e-06,
"loss": 1.6675,
"step": 2940
},
{
"epoch": 0.31466666666666665,
"grad_norm": 0.9351205106789015,
"learning_rate": 2.598745274404439e-06,
"loss": 1.6786,
"step": 2950
},
{
"epoch": 0.3157333333333333,
"grad_norm": 0.9704863356322765,
"learning_rate": 2.5949353014651396e-06,
"loss": 1.6718,
"step": 2960
},
{
"epoch": 0.3168,
"grad_norm": 0.9744660485839736,
"learning_rate": 2.5911101471335277e-06,
"loss": 1.6694,
"step": 2970
},
{
"epoch": 0.3178666666666667,
"grad_norm": 0.9419499107254994,
"learning_rate": 2.587269864445766e-06,
"loss": 1.6602,
"step": 2980
},
{
"epoch": 0.31893333333333335,
"grad_norm": 0.9580169597960767,
"learning_rate": 2.583414506647777e-06,
"loss": 1.6721,
"step": 2990
},
{
"epoch": 0.32,
"grad_norm": 0.9248908538299617,
"learning_rate": 2.5795441271944975e-06,
"loss": 1.6699,
"step": 3000
},
{
"epoch": 0.32106666666666667,
"grad_norm": 0.9628754761012314,
"learning_rate": 2.5756587797491437e-06,
"loss": 1.6629,
"step": 3010
},
{
"epoch": 0.3221333333333333,
"grad_norm": 0.9881339619626787,
"learning_rate": 2.5717585181824638e-06,
"loss": 1.6793,
"step": 3020
},
{
"epoch": 0.3232,
"grad_norm": 0.9675342156952531,
"learning_rate": 2.5678433965719917e-06,
"loss": 1.666,
"step": 3030
},
{
"epoch": 0.32426666666666665,
"grad_norm": 0.9267795503338048,
"learning_rate": 2.5639134692012976e-06,
"loss": 1.6756,
"step": 3040
},
{
"epoch": 0.3253333333333333,
"grad_norm": 0.9969697191465468,
"learning_rate": 2.559968790559234e-06,
"loss": 1.6688,
"step": 3050
},
{
"epoch": 0.3264,
"grad_norm": 0.9552631058916634,
"learning_rate": 2.5560094153391835e-06,
"loss": 1.668,
"step": 3060
},
{
"epoch": 0.3274666666666667,
"grad_norm": 0.9528815268636649,
"learning_rate": 2.552035398438296e-06,
"loss": 1.6734,
"step": 3070
},
{
"epoch": 0.32853333333333334,
"grad_norm": 0.9387963678604124,
"learning_rate": 2.548046794956732e-06,
"loss": 1.659,
"step": 3080
},
{
"epoch": 0.3296,
"grad_norm": 0.9908832081608542,
"learning_rate": 2.544043660196894e-06,
"loss": 1.6631,
"step": 3090
},
{
"epoch": 0.33066666666666666,
"grad_norm": 0.9394796214951054,
"learning_rate": 2.540026049662665e-06,
"loss": 1.6662,
"step": 3100
},
{
"epoch": 0.3317333333333333,
"grad_norm": 0.9636157529774373,
"learning_rate": 2.5359940190586337e-06,
"loss": 1.6594,
"step": 3110
},
{
"epoch": 0.3328,
"grad_norm": 0.9166497883042384,
"learning_rate": 2.531947624289326e-06,
"loss": 1.6632,
"step": 3120
},
{
"epoch": 0.33386666666666664,
"grad_norm": 0.9496972498502697,
"learning_rate": 2.5278869214584276e-06,
"loss": 1.6616,
"step": 3130
},
{
"epoch": 0.33493333333333336,
"grad_norm": 0.9595434384314239,
"learning_rate": 2.523811966868008e-06,
"loss": 1.6656,
"step": 3140
},
{
"epoch": 0.336,
"grad_norm": 0.9171711486912808,
"learning_rate": 2.5197228170177367e-06,
"loss": 1.6631,
"step": 3150
},
{
"epoch": 0.3370666666666667,
"grad_norm": 0.9696647774804794,
"learning_rate": 2.515619528604106e-06,
"loss": 1.6679,
"step": 3160
},
{
"epoch": 0.33813333333333334,
"grad_norm": 0.9579805476488836,
"learning_rate": 2.5115021585196357e-06,
"loss": 1.674,
"step": 3170
},
{
"epoch": 0.3392,
"grad_norm": 0.9372934344380602,
"learning_rate": 2.5073707638520934e-06,
"loss": 1.659,
"step": 3180
},
{
"epoch": 0.34026666666666666,
"grad_norm": 0.9652052342102219,
"learning_rate": 2.5032254018836978e-06,
"loss": 1.672,
"step": 3190
},
{
"epoch": 0.3413333333333333,
"grad_norm": 0.9536831437250712,
"learning_rate": 2.4990661300903247e-06,
"loss": 1.6689,
"step": 3200
},
{
"epoch": 0.3424,
"grad_norm": 0.9549311066683952,
"learning_rate": 2.4948930061407128e-06,
"loss": 1.6629,
"step": 3210
},
{
"epoch": 0.34346666666666664,
"grad_norm": 0.9948254976343271,
"learning_rate": 2.490706087895661e-06,
"loss": 1.6654,
"step": 3220
},
{
"epoch": 0.34453333333333336,
"grad_norm": 0.9322272643648966,
"learning_rate": 2.486505433407228e-06,
"loss": 1.6616,
"step": 3230
},
{
"epoch": 0.3456,
"grad_norm": 0.9880727100809659,
"learning_rate": 2.4822911009179277e-06,
"loss": 1.6703,
"step": 3240
},
{
"epoch": 0.3466666666666667,
"grad_norm": 0.9318527493275489,
"learning_rate": 2.4780631488599195e-06,
"loss": 1.6794,
"step": 3250
},
{
"epoch": 0.34773333333333334,
"grad_norm": 0.9882452577899534,
"learning_rate": 2.4738216358542003e-06,
"loss": 1.6653,
"step": 3260
},
{
"epoch": 0.3488,
"grad_norm": 0.9604553555113544,
"learning_rate": 2.4695666207097912e-06,
"loss": 1.6594,
"step": 3270
},
{
"epoch": 0.34986666666666666,
"grad_norm": 0.9552000465276516,
"learning_rate": 2.4652981624229217e-06,
"loss": 1.6615,
"step": 3280
},
{
"epoch": 0.3509333333333333,
"grad_norm": 0.974790478141602,
"learning_rate": 2.4610163201762114e-06,
"loss": 1.6631,
"step": 3290
},
{
"epoch": 0.352,
"grad_norm": 0.9564895708856161,
"learning_rate": 2.4567211533378506e-06,
"loss": 1.6615,
"step": 3300
},
{
"epoch": 0.35306666666666664,
"grad_norm": 0.9544282080008821,
"learning_rate": 2.4524127214607757e-06,
"loss": 1.6536,
"step": 3310
},
{
"epoch": 0.35413333333333336,
"grad_norm": 0.9384084572688003,
"learning_rate": 2.448091084281845e-06,
"loss": 1.6552,
"step": 3320
},
{
"epoch": 0.3552,
"grad_norm": 0.9956987596855376,
"learning_rate": 2.4437563017210093e-06,
"loss": 1.6558,
"step": 3330
},
{
"epoch": 0.3562666666666667,
"grad_norm": 0.9682948371820439,
"learning_rate": 2.4394084338804813e-06,
"loss": 1.6546,
"step": 3340
},
{
"epoch": 0.35733333333333334,
"grad_norm": 0.943475234843819,
"learning_rate": 2.4350475410439025e-06,
"loss": 1.6574,
"step": 3350
},
{
"epoch": 0.3584,
"grad_norm": 0.9174418157290677,
"learning_rate": 2.4306736836755086e-06,
"loss": 1.6576,
"step": 3360
},
{
"epoch": 0.35946666666666666,
"grad_norm": 0.9303792721449003,
"learning_rate": 2.426286922419288e-06,
"loss": 1.6595,
"step": 3370
},
{
"epoch": 0.3605333333333333,
"grad_norm": 0.9614814883452739,
"learning_rate": 2.4218873180981436e-06,
"loss": 1.6645,
"step": 3380
},
{
"epoch": 0.3616,
"grad_norm": 0.9379683035581231,
"learning_rate": 2.4174749317130492e-06,
"loss": 1.6481,
"step": 3390
},
{
"epoch": 0.3626666666666667,
"grad_norm": 0.957267352688115,
"learning_rate": 2.413049824442203e-06,
"loss": 1.6701,
"step": 3400
},
{
"epoch": 0.36373333333333335,
"grad_norm": 0.9313578199784238,
"learning_rate": 2.408612057640179e-06,
"loss": 1.6728,
"step": 3410
},
{
"epoch": 0.3648,
"grad_norm": 0.9328479610451201,
"learning_rate": 2.404161692837078e-06,
"loss": 1.6526,
"step": 3420
},
{
"epoch": 0.3658666666666667,
"grad_norm": 0.9453343749724737,
"learning_rate": 2.399698791737672e-06,
"loss": 1.6607,
"step": 3430
},
{
"epoch": 0.36693333333333333,
"grad_norm": 0.9161758996018701,
"learning_rate": 2.3952234162205515e-06,
"loss": 1.6544,
"step": 3440
},
{
"epoch": 0.368,
"grad_norm": 0.9200352874501438,
"learning_rate": 2.390735628337265e-06,
"loss": 1.6659,
"step": 3450
},
{
"epoch": 0.36906666666666665,
"grad_norm": 0.9722664695130872,
"learning_rate": 2.3862354903114607e-06,
"loss": 1.6677,
"step": 3460
},
{
"epoch": 0.3701333333333333,
"grad_norm": 0.932361941429065,
"learning_rate": 2.3817230645380224e-06,
"loss": 1.6536,
"step": 3470
},
{
"epoch": 0.3712,
"grad_norm": 0.8921273743250909,
"learning_rate": 2.3771984135822042e-06,
"loss": 1.6668,
"step": 3480
},
{
"epoch": 0.3722666666666667,
"grad_norm": 0.94957141578939,
"learning_rate": 2.3726616001787644e-06,
"loss": 1.6594,
"step": 3490
},
{
"epoch": 0.37333333333333335,
"grad_norm": 0.9730724473270143,
"learning_rate": 2.368112687231095e-06,
"loss": 1.6508,
"step": 3500
},
{
"epoch": 0.3744,
"grad_norm": 0.9500947191938394,
"learning_rate": 2.3635517378103487e-06,
"loss": 1.6596,
"step": 3510
},
{
"epoch": 0.37546666666666667,
"grad_norm": 0.9363069985088942,
"learning_rate": 2.358978815154565e-06,
"loss": 1.6625,
"step": 3520
},
{
"epoch": 0.37653333333333333,
"grad_norm": 0.9384038854458382,
"learning_rate": 2.3543939826677955e-06,
"loss": 1.6559,
"step": 3530
},
{
"epoch": 0.3776,
"grad_norm": 0.9399571115427959,
"learning_rate": 2.349797303919221e-06,
"loss": 1.6686,
"step": 3540
},
{
"epoch": 0.37866666666666665,
"grad_norm": 0.9455419129400207,
"learning_rate": 2.345188842642272e-06,
"loss": 1.6676,
"step": 3550
},
{
"epoch": 0.3797333333333333,
"grad_norm": 0.9437875806498135,
"learning_rate": 2.3405686627337454e-06,
"loss": 1.659,
"step": 3560
},
{
"epoch": 0.3808,
"grad_norm": 0.9359587651770698,
"learning_rate": 2.335936828252919e-06,
"loss": 1.6488,
"step": 3570
},
{
"epoch": 0.3818666666666667,
"grad_norm": 0.9762790605247785,
"learning_rate": 2.331293403420661e-06,
"loss": 1.6526,
"step": 3580
},
{
"epoch": 0.38293333333333335,
"grad_norm": 0.9101049676264759,
"learning_rate": 2.3266384526185416e-06,
"loss": 1.6528,
"step": 3590
},
{
"epoch": 0.384,
"grad_norm": 0.995265075181166,
"learning_rate": 2.3219720403879404e-06,
"loss": 1.6555,
"step": 3600
},
{
"epoch": 0.38506666666666667,
"grad_norm": 0.9765860006603786,
"learning_rate": 2.3172942314291494e-06,
"loss": 1.6658,
"step": 3610
},
{
"epoch": 0.38613333333333333,
"grad_norm": 0.9548271356960308,
"learning_rate": 2.312605090600479e-06,
"loss": 1.6602,
"step": 3620
},
{
"epoch": 0.3872,
"grad_norm": 0.9226815998587018,
"learning_rate": 2.307904682917357e-06,
"loss": 1.6582,
"step": 3630
},
{
"epoch": 0.38826666666666665,
"grad_norm": 0.9095641481656311,
"learning_rate": 2.303193073551426e-06,
"loss": 1.655,
"step": 3640
},
{
"epoch": 0.3893333333333333,
"grad_norm": 0.9548114254808908,
"learning_rate": 2.2984703278296427e-06,
"loss": 1.6696,
"step": 3650
},
{
"epoch": 0.3904,
"grad_norm": 0.9152119917213367,
"learning_rate": 2.293736511233369e-06,
"loss": 1.6537,
"step": 3660
},
{
"epoch": 0.3914666666666667,
"grad_norm": 0.975112589653614,
"learning_rate": 2.288991689397467e-06,
"loss": 1.6627,
"step": 3670
},
{
"epoch": 0.39253333333333335,
"grad_norm": 0.9641058640590225,
"learning_rate": 2.2842359281093867e-06,
"loss": 1.6529,
"step": 3680
},
{
"epoch": 0.3936,
"grad_norm": 0.9663032157417576,
"learning_rate": 2.2794692933082555e-06,
"loss": 1.66,
"step": 3690
},
{
"epoch": 0.39466666666666667,
"grad_norm": 0.9686318255583821,
"learning_rate": 2.274691851083962e-06,
"loss": 1.6703,
"step": 3700
},
{
"epoch": 0.3957333333333333,
"grad_norm": 0.9169717419968539,
"learning_rate": 2.269903667676242e-06,
"loss": 1.6521,
"step": 3710
},
{
"epoch": 0.3968,
"grad_norm": 0.9190591125148927,
"learning_rate": 2.2651048094737588e-06,
"loss": 1.6543,
"step": 3720
},
{
"epoch": 0.39786666666666665,
"grad_norm": 0.9355598196341346,
"learning_rate": 2.2602953430131827e-06,
"loss": 1.6642,
"step": 3730
},
{
"epoch": 0.3989333333333333,
"grad_norm": 0.8982064426983682,
"learning_rate": 2.255475334978268e-06,
"loss": 1.6653,
"step": 3740
},
{
"epoch": 0.4,
"grad_norm": 0.952802472269549,
"learning_rate": 2.2506448521989297e-06,
"loss": 1.6631,
"step": 3750
},
{
"epoch": 0.4010666666666667,
"grad_norm": 0.9657197267159207,
"learning_rate": 2.245803961650316e-06,
"loss": 1.6493,
"step": 3760
},
{
"epoch": 0.40213333333333334,
"grad_norm": 0.8983372935487061,
"learning_rate": 2.24095273045188e-06,
"loss": 1.6617,
"step": 3770
},
{
"epoch": 0.4032,
"grad_norm": 0.9603016841935108,
"learning_rate": 2.236091225866449e-06,
"loss": 1.6524,
"step": 3780
},
{
"epoch": 0.40426666666666666,
"grad_norm": 0.9474430719749842,
"learning_rate": 2.2312195152992916e-06,
"loss": 1.6605,
"step": 3790
},
{
"epoch": 0.4053333333333333,
"grad_norm": 0.9248886042202865,
"learning_rate": 2.2263376662971834e-06,
"loss": 1.6574,
"step": 3800
},
{
"epoch": 0.4064,
"grad_norm": 0.9457662542135901,
"learning_rate": 2.221445746547472e-06,
"loss": 1.6517,
"step": 3810
},
{
"epoch": 0.40746666666666664,
"grad_norm": 0.9446775892114924,
"learning_rate": 2.216543823877134e-06,
"loss": 1.6622,
"step": 3820
},
{
"epoch": 0.40853333333333336,
"grad_norm": 0.9413793457808942,
"learning_rate": 2.2116319662518405e-06,
"loss": 1.6551,
"step": 3830
},
{
"epoch": 0.4096,
"grad_norm": 0.9984380094017942,
"learning_rate": 2.20671024177501e-06,
"loss": 1.6484,
"step": 3840
},
{
"epoch": 0.4106666666666667,
"grad_norm": 0.9078816191712434,
"learning_rate": 2.201778718686866e-06,
"loss": 1.6587,
"step": 3850
},
{
"epoch": 0.41173333333333334,
"grad_norm": 0.9349798025328844,
"learning_rate": 2.1968374653634916e-06,
"loss": 1.6439,
"step": 3860
},
{
"epoch": 0.4128,
"grad_norm": 0.9292522453262922,
"learning_rate": 2.19188655031588e-06,
"loss": 1.6451,
"step": 3870
},
{
"epoch": 0.41386666666666666,
"grad_norm": 0.926897325440478,
"learning_rate": 2.1869260421889858e-06,
"loss": 1.6603,
"step": 3880
},
{
"epoch": 0.4149333333333333,
"grad_norm": 0.9221756270285103,
"learning_rate": 2.1819560097607715e-06,
"loss": 1.6607,
"step": 3890
},
{
"epoch": 0.416,
"grad_norm": 0.9691599046087757,
"learning_rate": 2.176976521941257e-06,
"loss": 1.6527,
"step": 3900
},
{
"epoch": 0.41706666666666664,
"grad_norm": 0.9570839892025014,
"learning_rate": 2.17198764777156e-06,
"loss": 1.6569,
"step": 3910
},
{
"epoch": 0.41813333333333336,
"grad_norm": 0.9449951479893506,
"learning_rate": 2.1669894564229422e-06,
"loss": 1.6492,
"step": 3920
},
{
"epoch": 0.4192,
"grad_norm": 0.9444569418021482,
"learning_rate": 2.161982017195849e-06,
"loss": 1.6621,
"step": 3930
},
{
"epoch": 0.4202666666666667,
"grad_norm": 0.9365441196661743,
"learning_rate": 2.156965399518948e-06,
"loss": 1.6581,
"step": 3940
},
{
"epoch": 0.42133333333333334,
"grad_norm": 0.947840272738102,
"learning_rate": 2.151939672948167e-06,
"loss": 1.6691,
"step": 3950
},
{
"epoch": 0.4224,
"grad_norm": 0.9335887149525096,
"learning_rate": 2.14690490716573e-06,
"loss": 1.6569,
"step": 3960
},
{
"epoch": 0.42346666666666666,
"grad_norm": 0.9395886794512877,
"learning_rate": 2.14186117197919e-06,
"loss": 1.6486,
"step": 3970
},
{
"epoch": 0.4245333333333333,
"grad_norm": 0.9175950571981922,
"learning_rate": 2.136808537320463e-06,
"loss": 1.6476,
"step": 3980
},
{
"epoch": 0.4256,
"grad_norm": 0.9348127013959826,
"learning_rate": 2.131747073244856e-06,
"loss": 1.6581,
"step": 3990
},
{
"epoch": 0.4266666666666667,
"grad_norm": 0.9849178608409963,
"learning_rate": 2.126676849930097e-06,
"loss": 1.6563,
"step": 4000
},
{
"epoch": 0.42773333333333335,
"grad_norm": 0.9798982928207111,
"learning_rate": 2.121597937675361e-06,
"loss": 1.6635,
"step": 4010
},
{
"epoch": 0.4288,
"grad_norm": 0.9070961373294885,
"learning_rate": 2.1165104069002984e-06,
"loss": 1.6664,
"step": 4020
},
{
"epoch": 0.4298666666666667,
"grad_norm": 0.9322708184201282,
"learning_rate": 2.1114143281440537e-06,
"loss": 1.6417,
"step": 4030
},
{
"epoch": 0.43093333333333333,
"grad_norm": 0.9134718167458606,
"learning_rate": 2.106309772064291e-06,
"loss": 1.6528,
"step": 4040
},
{
"epoch": 0.432,
"grad_norm": 0.9146979558939554,
"learning_rate": 2.101196809436214e-06,
"loss": 1.6597,
"step": 4050
},
{
"epoch": 0.43306666666666666,
"grad_norm": 0.9303172486502048,
"learning_rate": 2.0960755111515833e-06,
"loss": 1.6449,
"step": 4060
},
{
"epoch": 0.4341333333333333,
"grad_norm": 0.9473729401572349,
"learning_rate": 2.0909459482177345e-06,
"loss": 1.6495,
"step": 4070
},
{
"epoch": 0.4352,
"grad_norm": 0.9796625075867424,
"learning_rate": 2.0858081917565937e-06,
"loss": 1.6598,
"step": 4080
},
{
"epoch": 0.4362666666666667,
"grad_norm": 0.9477728413378161,
"learning_rate": 2.0806623130036908e-06,
"loss": 1.654,
"step": 4090
},
{
"epoch": 0.43733333333333335,
"grad_norm": 0.9088480488279257,
"learning_rate": 2.0755083833071713e-06,
"loss": 1.6569,
"step": 4100
},
{
"epoch": 0.4384,
"grad_norm": 0.9590991645935932,
"learning_rate": 2.0703464741268103e-06,
"loss": 1.6447,
"step": 4110
},
{
"epoch": 0.43946666666666667,
"grad_norm": 0.9465727964674131,
"learning_rate": 2.065176657033016e-06,
"loss": 1.6409,
"step": 4120
},
{
"epoch": 0.44053333333333333,
"grad_norm": 0.9087278706800614,
"learning_rate": 2.0599990037058436e-06,
"loss": 1.6568,
"step": 4130
},
{
"epoch": 0.4416,
"grad_norm": 0.9195751959866,
"learning_rate": 2.054813585933997e-06,
"loss": 1.6411,
"step": 4140
},
{
"epoch": 0.44266666666666665,
"grad_norm": 0.9544634331775946,
"learning_rate": 2.0496204756138347e-06,
"loss": 1.649,
"step": 4150
},
{
"epoch": 0.4437333333333333,
"grad_norm": 0.9277411240486287,
"learning_rate": 2.044419744748374e-06,
"loss": 1.6559,
"step": 4160
},
{
"epoch": 0.4448,
"grad_norm": 0.9495135350767198,
"learning_rate": 2.0392114654462914e-06,
"loss": 1.6489,
"step": 4170
},
{
"epoch": 0.4458666666666667,
"grad_norm": 0.9566408663089474,
"learning_rate": 2.0339957099209238e-06,
"loss": 1.6419,
"step": 4180
},
{
"epoch": 0.44693333333333335,
"grad_norm": 0.9073842589947186,
"learning_rate": 2.028772550489266e-06,
"loss": 1.6482,
"step": 4190
},
{
"epoch": 0.448,
"grad_norm": 0.9666429520321589,
"learning_rate": 2.0235420595709692e-06,
"loss": 1.6635,
"step": 4200
},
{
"epoch": 0.44906666666666667,
"grad_norm": 0.9371170335680823,
"learning_rate": 2.018304309687336e-06,
"loss": 1.6501,
"step": 4210
},
{
"epoch": 0.45013333333333333,
"grad_norm": 0.9991180434598096,
"learning_rate": 2.013059373460315e-06,
"loss": 1.6639,
"step": 4220
},
{
"epoch": 0.4512,
"grad_norm": 0.9171794471735982,
"learning_rate": 2.0078073236114964e-06,
"loss": 1.6623,
"step": 4230
},
{
"epoch": 0.45226666666666665,
"grad_norm": 0.9501990561925769,
"learning_rate": 2.002548232961099e-06,
"loss": 1.6435,
"step": 4240
},
{
"epoch": 0.4533333333333333,
"grad_norm": 0.9233048063998548,
"learning_rate": 1.9972821744269637e-06,
"loss": 1.655,
"step": 4250
},
{
"epoch": 0.4544,
"grad_norm": 0.9519005136157185,
"learning_rate": 1.992009221023542e-06,
"loss": 1.6547,
"step": 4260
},
{
"epoch": 0.4554666666666667,
"grad_norm": 0.9552313025893657,
"learning_rate": 1.9867294458608844e-06,
"loss": 1.6492,
"step": 4270
},
{
"epoch": 0.45653333333333335,
"grad_norm": 0.9199662725995568,
"learning_rate": 1.9814429221436244e-06,
"loss": 1.6538,
"step": 4280
},
{
"epoch": 0.4576,
"grad_norm": 0.89696353195843,
"learning_rate": 1.976149723169965e-06,
"loss": 1.6583,
"step": 4290
},
{
"epoch": 0.45866666666666667,
"grad_norm": 0.9340926664670772,
"learning_rate": 1.9708499223306633e-06,
"loss": 1.6587,
"step": 4300
},
{
"epoch": 0.4597333333333333,
"grad_norm": 0.9189723996632275,
"learning_rate": 1.965543593108012e-06,
"loss": 1.6534,
"step": 4310
},
{
"epoch": 0.4608,
"grad_norm": 0.9396243052925816,
"learning_rate": 1.96023080907482e-06,
"loss": 1.6413,
"step": 4320
},
{
"epoch": 0.46186666666666665,
"grad_norm": 0.9702228501509886,
"learning_rate": 1.9549116438933916e-06,
"loss": 1.6503,
"step": 4330
},
{
"epoch": 0.4629333333333333,
"grad_norm": 0.9066840578417386,
"learning_rate": 1.9495861713145083e-06,
"loss": 1.6502,
"step": 4340
},
{
"epoch": 0.464,
"grad_norm": 0.9151212819069134,
"learning_rate": 1.9442544651764036e-06,
"loss": 1.659,
"step": 4350
},
{
"epoch": 0.4650666666666667,
"grad_norm": 0.9476053207849485,
"learning_rate": 1.9389165994037395e-06,
"loss": 1.6525,
"step": 4360
},
{
"epoch": 0.46613333333333334,
"grad_norm": 0.9511450393907537,
"learning_rate": 1.9335726480065835e-06,
"loss": 1.6473,
"step": 4370
},
{
"epoch": 0.4672,
"grad_norm": 0.9242939318777355,
"learning_rate": 1.9282226850793793e-06,
"loss": 1.6515,
"step": 4380
},
{
"epoch": 0.46826666666666666,
"grad_norm": 0.9027003684402543,
"learning_rate": 1.9228667847999214e-06,
"loss": 1.654,
"step": 4390
},
{
"epoch": 0.4693333333333333,
"grad_norm": 0.9632054314980718,
"learning_rate": 1.917505021428327e-06,
"loss": 1.658,
"step": 4400
},
{
"epoch": 0.4704,
"grad_norm": 0.9491990992567905,
"learning_rate": 1.9121374693060044e-06,
"loss": 1.6518,
"step": 4410
},
{
"epoch": 0.47146666666666665,
"grad_norm": 0.9179144139326458,
"learning_rate": 1.9067642028546256e-06,
"loss": 1.6515,
"step": 4420
},
{
"epoch": 0.47253333333333336,
"grad_norm": 0.9347533255773524,
"learning_rate": 1.9013852965750902e-06,
"loss": 1.651,
"step": 4430
},
{
"epoch": 0.4736,
"grad_norm": 0.9152822869880609,
"learning_rate": 1.8960008250464962e-06,
"loss": 1.6433,
"step": 4440
},
{
"epoch": 0.4746666666666667,
"grad_norm": 0.9694583452493872,
"learning_rate": 1.890610862925103e-06,
"loss": 1.6551,
"step": 4450
},
{
"epoch": 0.47573333333333334,
"grad_norm": 0.9507836920978959,
"learning_rate": 1.8852154849432991e-06,
"loss": 1.642,
"step": 4460
},
{
"epoch": 0.4768,
"grad_norm": 0.9253114724103457,
"learning_rate": 1.8798147659085634e-06,
"loss": 1.6347,
"step": 4470
},
{
"epoch": 0.47786666666666666,
"grad_norm": 0.9497959031788862,
"learning_rate": 1.8744087807024293e-06,
"loss": 1.6487,
"step": 4480
},
{
"epoch": 0.4789333333333333,
"grad_norm": 0.9885199094836411,
"learning_rate": 1.8689976042794463e-06,
"loss": 1.6477,
"step": 4490
},
{
"epoch": 0.48,
"grad_norm": 0.9550202944435284,
"learning_rate": 1.8635813116661405e-06,
"loss": 1.6507,
"step": 4500
},
{
"epoch": 0.48106666666666664,
"grad_norm": 0.9531489223060156,
"learning_rate": 1.8581599779599755e-06,
"loss": 1.6535,
"step": 4510
},
{
"epoch": 0.48213333333333336,
"grad_norm": 0.9418556827643321,
"learning_rate": 1.8527336783283087e-06,
"loss": 1.6485,
"step": 4520
},
{
"epoch": 0.4832,
"grad_norm": 0.9160185936422113,
"learning_rate": 1.847302488007351e-06,
"loss": 1.6487,
"step": 4530
},
{
"epoch": 0.4842666666666667,
"grad_norm": 0.9497067863179137,
"learning_rate": 1.8418664823011239e-06,
"loss": 1.6517,
"step": 4540
},
{
"epoch": 0.48533333333333334,
"grad_norm": 0.9188806450898334,
"learning_rate": 1.8364257365804142e-06,
"loss": 1.6417,
"step": 4550
},
{
"epoch": 0.4864,
"grad_norm": 0.9581449915075984,
"learning_rate": 1.8309803262817294e-06,
"loss": 1.6581,
"step": 4560
},
{
"epoch": 0.48746666666666666,
"grad_norm": 0.9116662116433364,
"learning_rate": 1.825530326906252e-06,
"loss": 1.6482,
"step": 4570
},
{
"epoch": 0.4885333333333333,
"grad_norm": 0.9714529376329947,
"learning_rate": 1.820075814018793e-06,
"loss": 1.6478,
"step": 4580
},
{
"epoch": 0.4896,
"grad_norm": 0.9210973111389842,
"learning_rate": 1.8146168632467424e-06,
"loss": 1.6471,
"step": 4590
},
{
"epoch": 0.49066666666666664,
"grad_norm": 0.9602862009294374,
"learning_rate": 1.8091535502790237e-06,
"loss": 1.6546,
"step": 4600
},
{
"epoch": 0.49173333333333336,
"grad_norm": 0.9707453168109123,
"learning_rate": 1.8036859508650416e-06,
"loss": 1.6452,
"step": 4610
},
{
"epoch": 0.4928,
"grad_norm": 0.9448173376637843,
"learning_rate": 1.7982141408136326e-06,
"loss": 1.6543,
"step": 4620
},
{
"epoch": 0.4938666666666667,
"grad_norm": 0.9717427380698243,
"learning_rate": 1.792738195992015e-06,
"loss": 1.6592,
"step": 4630
},
{
"epoch": 0.49493333333333334,
"grad_norm": 0.996799247570999,
"learning_rate": 1.7872581923247353e-06,
"loss": 1.6652,
"step": 4640
},
{
"epoch": 0.496,
"grad_norm": 0.9321127711436916,
"learning_rate": 1.7817742057926174e-06,
"loss": 1.6328,
"step": 4650
},
{
"epoch": 0.49706666666666666,
"grad_norm": 0.9376120923556164,
"learning_rate": 1.7762863124317064e-06,
"loss": 1.6456,
"step": 4660
},
{
"epoch": 0.4981333333333333,
"grad_norm": 0.9371209888480494,
"learning_rate": 1.7707945883322177e-06,
"loss": 1.6476,
"step": 4670
},
{
"epoch": 0.4992,
"grad_norm": 0.9846043466828673,
"learning_rate": 1.7652991096374784e-06,
"loss": 1.6642,
"step": 4680
},
{
"epoch": 0.5002666666666666,
"grad_norm": 0.9216437552084045,
"learning_rate": 1.7597999525428758e-06,
"loss": 1.6565,
"step": 4690
},
{
"epoch": 0.5013333333333333,
"grad_norm": 0.9281691196973773,
"learning_rate": 1.754297193294797e-06,
"loss": 1.6458,
"step": 4700
},
{
"epoch": 0.5024,
"grad_norm": 0.9327920802985391,
"learning_rate": 1.7487909081895737e-06,
"loss": 1.6439,
"step": 4710
},
{
"epoch": 0.5034666666666666,
"grad_norm": 0.9207286534115989,
"learning_rate": 1.743281173572424e-06,
"loss": 1.6478,
"step": 4720
},
{
"epoch": 0.5045333333333333,
"grad_norm": 0.950362978137184,
"learning_rate": 1.7377680658363934e-06,
"loss": 1.6586,
"step": 4730
},
{
"epoch": 0.5056,
"grad_norm": 0.9408256784492793,
"learning_rate": 1.732251661421297e-06,
"loss": 1.6474,
"step": 4740
},
{
"epoch": 0.5066666666666667,
"grad_norm": 0.9306800552688193,
"learning_rate": 1.7267320368126579e-06,
"loss": 1.6465,
"step": 4750
},
{
"epoch": 0.5077333333333334,
"grad_norm": 0.8886899231377126,
"learning_rate": 1.721209268540647e-06,
"loss": 1.6592,
"step": 4760
},
{
"epoch": 0.5088,
"grad_norm": 0.9598193129429311,
"learning_rate": 1.715683433179025e-06,
"loss": 1.6409,
"step": 4770
},
{
"epoch": 0.5098666666666667,
"grad_norm": 0.879303588729933,
"learning_rate": 1.7101546073440749e-06,
"loss": 1.6447,
"step": 4780
},
{
"epoch": 0.5109333333333334,
"grad_norm": 0.9542795365754219,
"learning_rate": 1.7046228676935449e-06,
"loss": 1.6366,
"step": 4790
},
{
"epoch": 0.512,
"grad_norm": 0.9277059446108725,
"learning_rate": 1.699088290925583e-06,
"loss": 1.6377,
"step": 4800
},
{
"epoch": 0.5130666666666667,
"grad_norm": 0.9545444610136414,
"learning_rate": 1.693550953777674e-06,
"loss": 1.6452,
"step": 4810
},
{
"epoch": 0.5141333333333333,
"grad_norm": 0.9839302414311039,
"learning_rate": 1.6880109330255759e-06,
"loss": 1.6547,
"step": 4820
},
{
"epoch": 0.5152,
"grad_norm": 0.9604114638793624,
"learning_rate": 1.682468305482255e-06,
"loss": 1.6419,
"step": 4830
},
{
"epoch": 0.5162666666666667,
"grad_norm": 0.9333134889491346,
"learning_rate": 1.676923147996821e-06,
"loss": 1.6452,
"step": 4840
},
{
"epoch": 0.5173333333333333,
"grad_norm": 0.9872821743552691,
"learning_rate": 1.671375537453461e-06,
"loss": 1.6372,
"step": 4850
},
{
"epoch": 0.5184,
"grad_norm": 0.9711480253942462,
"learning_rate": 1.665825550770376e-06,
"loss": 1.6503,
"step": 4860
},
{
"epoch": 0.5194666666666666,
"grad_norm": 0.9625223079063302,
"learning_rate": 1.6602732648987098e-06,
"loss": 1.6383,
"step": 4870
},
{
"epoch": 0.5205333333333333,
"grad_norm": 0.9346557878361372,
"learning_rate": 1.6547187568214867e-06,
"loss": 1.6489,
"step": 4880
},
{
"epoch": 0.5216,
"grad_norm": 0.938832982275646,
"learning_rate": 1.6491621035525409e-06,
"loss": 1.6492,
"step": 4890
},
{
"epoch": 0.5226666666666666,
"grad_norm": 0.9438038086918349,
"learning_rate": 1.6436033821354503e-06,
"loss": 1.6507,
"step": 4900
},
{
"epoch": 0.5237333333333334,
"grad_norm": 0.9460597775148187,
"learning_rate": 1.6380426696424683e-06,
"loss": 1.6513,
"step": 4910
},
{
"epoch": 0.5248,
"grad_norm": 0.958546094826626,
"learning_rate": 1.6324800431734539e-06,
"loss": 1.6512,
"step": 4920
},
{
"epoch": 0.5258666666666667,
"grad_norm": 0.927861698661494,
"learning_rate": 1.6269155798548044e-06,
"loss": 1.6536,
"step": 4930
},
{
"epoch": 0.5269333333333334,
"grad_norm": 0.9136999478889338,
"learning_rate": 1.621349356838384e-06,
"loss": 1.6492,
"step": 4940
},
{
"epoch": 0.528,
"grad_norm": 0.9719509217716726,
"learning_rate": 1.6157814513004576e-06,
"loss": 1.647,
"step": 4950
},
{
"epoch": 0.5290666666666667,
"grad_norm": 0.9410390348841198,
"learning_rate": 1.6102119404406165e-06,
"loss": 1.6452,
"step": 4960
},
{
"epoch": 0.5301333333333333,
"grad_norm": 0.9404883067410926,
"learning_rate": 1.6046409014807101e-06,
"loss": 1.6441,
"step": 4970
},
{
"epoch": 0.5312,
"grad_norm": 0.9241815771688953,
"learning_rate": 1.5990684116637756e-06,
"loss": 1.6446,
"step": 4980
},
{
"epoch": 0.5322666666666667,
"grad_norm": 0.9256672557316625,
"learning_rate": 1.593494548252967e-06,
"loss": 1.6522,
"step": 4990
},
{
"epoch": 0.5333333333333333,
"grad_norm": 0.9246108850041412,
"learning_rate": 1.5879193885304814e-06,
"loss": 1.6392,
"step": 5000
},
{
"epoch": 0.5344,
"grad_norm": 0.942194383370598,
"learning_rate": 1.5823430097964913e-06,
"loss": 1.6537,
"step": 5010
},
{
"epoch": 0.5354666666666666,
"grad_norm": 0.9156367803282325,
"learning_rate": 1.5767654893680705e-06,
"loss": 1.6461,
"step": 5020
},
{
"epoch": 0.5365333333333333,
"grad_norm": 0.940672239969546,
"learning_rate": 1.5711869045781214e-06,
"loss": 1.6481,
"step": 5030
},
{
"epoch": 0.5376,
"grad_norm": 0.9061456345002042,
"learning_rate": 1.5656073327743059e-06,
"loss": 1.6444,
"step": 5040
},
{
"epoch": 0.5386666666666666,
"grad_norm": 0.97763256942112,
"learning_rate": 1.560026851317969e-06,
"loss": 1.6482,
"step": 5050
},
{
"epoch": 0.5397333333333333,
"grad_norm": 0.9598055913116468,
"learning_rate": 1.5544455375830693e-06,
"loss": 1.6446,
"step": 5060
},
{
"epoch": 0.5408,
"grad_norm": 1.0052635989756642,
"learning_rate": 1.5488634689551046e-06,
"loss": 1.6529,
"step": 5070
},
{
"epoch": 0.5418666666666667,
"grad_norm": 0.9517105092635382,
"learning_rate": 1.5432807228300392e-06,
"loss": 1.6473,
"step": 5080
},
{
"epoch": 0.5429333333333334,
"grad_norm": 0.8905539394435706,
"learning_rate": 1.5376973766132317e-06,
"loss": 1.6499,
"step": 5090
},
{
"epoch": 0.544,
"grad_norm": 0.9123057864528198,
"learning_rate": 1.53211350771836e-06,
"loss": 1.6503,
"step": 5100
},
{
"epoch": 0.5450666666666667,
"grad_norm": 0.9653409477209125,
"learning_rate": 1.5265291935663502e-06,
"loss": 1.6561,
"step": 5110
},
{
"epoch": 0.5461333333333334,
"grad_norm": 0.9251744902735615,
"learning_rate": 1.5209445115842998e-06,
"loss": 1.6508,
"step": 5120
},
{
"epoch": 0.5472,
"grad_norm": 0.9366916012307703,
"learning_rate": 1.5153595392044094e-06,
"loss": 1.6494,
"step": 5130
},
{
"epoch": 0.5482666666666667,
"grad_norm": 0.9447081853537513,
"learning_rate": 1.509774353862904e-06,
"loss": 1.6383,
"step": 5140
},
{
"epoch": 0.5493333333333333,
"grad_norm": 0.8886994480186915,
"learning_rate": 1.504189032998961e-06,
"loss": 1.6562,
"step": 5150
},
{
"epoch": 0.5504,
"grad_norm": 0.989438237647426,
"learning_rate": 1.4986036540536382e-06,
"loss": 1.6501,
"step": 5160
},
{
"epoch": 0.5514666666666667,
"grad_norm": 0.9592524368391265,
"learning_rate": 1.4930182944687976e-06,
"loss": 1.6551,
"step": 5170
},
{
"epoch": 0.5525333333333333,
"grad_norm": 0.9335871562479809,
"learning_rate": 1.4874330316860336e-06,
"loss": 1.6406,
"step": 5180
},
{
"epoch": 0.5536,
"grad_norm": 0.926910208271037,
"learning_rate": 1.4818479431455977e-06,
"loss": 1.6516,
"step": 5190
},
{
"epoch": 0.5546666666666666,
"grad_norm": 0.966527959372197,
"learning_rate": 1.476263106285326e-06,
"loss": 1.6491,
"step": 5200
},
{
"epoch": 0.5557333333333333,
"grad_norm": 0.9346249629066673,
"learning_rate": 1.4706785985395647e-06,
"loss": 1.6479,
"step": 5210
},
{
"epoch": 0.5568,
"grad_norm": 0.9378886124750219,
"learning_rate": 1.4650944973380972e-06,
"loss": 1.6346,
"step": 5220
},
{
"epoch": 0.5578666666666666,
"grad_norm": 0.9107356409157437,
"learning_rate": 1.4595108801050698e-06,
"loss": 1.6558,
"step": 5230
},
{
"epoch": 0.5589333333333333,
"grad_norm": 0.9447516262457282,
"learning_rate": 1.4539278242579182e-06,
"loss": 1.6455,
"step": 5240
},
{
"epoch": 0.56,
"grad_norm": 0.9240813989302032,
"learning_rate": 1.448345407206295e-06,
"loss": 1.6365,
"step": 5250
},
{
"epoch": 0.5610666666666667,
"grad_norm": 0.9384959493426096,
"learning_rate": 1.442763706350996e-06,
"loss": 1.6479,
"step": 5260
},
{
"epoch": 0.5621333333333334,
"grad_norm": 0.9628307533598938,
"learning_rate": 1.4371827990828868e-06,
"loss": 1.6324,
"step": 5270
},
{
"epoch": 0.5632,
"grad_norm": 0.9202574539474218,
"learning_rate": 1.4316027627818288e-06,
"loss": 1.6462,
"step": 5280
},
{
"epoch": 0.5642666666666667,
"grad_norm": 0.9517027346541544,
"learning_rate": 1.4260236748156085e-06,
"loss": 1.654,
"step": 5290
},
{
"epoch": 0.5653333333333334,
"grad_norm": 0.932652543344005,
"learning_rate": 1.4204456125388636e-06,
"loss": 1.6481,
"step": 5300
},
{
"epoch": 0.5664,
"grad_norm": 0.9243403254175224,
"learning_rate": 1.4148686532920094e-06,
"loss": 1.6396,
"step": 5310
},
{
"epoch": 0.5674666666666667,
"grad_norm": 0.9345629944472951,
"learning_rate": 1.4092928744001686e-06,
"loss": 1.653,
"step": 5320
},
{
"epoch": 0.5685333333333333,
"grad_norm": 0.8890220158328246,
"learning_rate": 1.4037183531720982e-06,
"loss": 1.6574,
"step": 5330
},
{
"epoch": 0.5696,
"grad_norm": 0.9582706614516528,
"learning_rate": 1.398145166899117e-06,
"loss": 1.6504,
"step": 5340
},
{
"epoch": 0.5706666666666667,
"grad_norm": 0.926064768004215,
"learning_rate": 1.3925733928540346e-06,
"loss": 1.6409,
"step": 5350
},
{
"epoch": 0.5717333333333333,
"grad_norm": 0.9293239699597686,
"learning_rate": 1.3870031082900803e-06,
"loss": 1.6434,
"step": 5360
},
{
"epoch": 0.5728,
"grad_norm": 0.9190136126360794,
"learning_rate": 1.3814343904398314e-06,
"loss": 1.6442,
"step": 5370
},
{
"epoch": 0.5738666666666666,
"grad_norm": 0.9816775386873235,
"learning_rate": 1.375867316514142e-06,
"loss": 1.6477,
"step": 5380
},
{
"epoch": 0.5749333333333333,
"grad_norm": 0.9573922299728442,
"learning_rate": 1.3703019637010744e-06,
"loss": 1.6327,
"step": 5390
},
{
"epoch": 0.576,
"grad_norm": 0.9168254588614905,
"learning_rate": 1.364738409164826e-06,
"loss": 1.6511,
"step": 5400
},
{
"epoch": 0.5770666666666666,
"grad_norm": 0.9267845862889881,
"learning_rate": 1.3591767300446616e-06,
"loss": 1.6431,
"step": 5410
},
{
"epoch": 0.5781333333333334,
"grad_norm": 0.9191958476482912,
"learning_rate": 1.353617003453843e-06,
"loss": 1.6422,
"step": 5420
},
{
"epoch": 0.5792,
"grad_norm": 0.9397046357630816,
"learning_rate": 1.3480593064785599e-06,
"loss": 1.6395,
"step": 5430
},
{
"epoch": 0.5802666666666667,
"grad_norm": 0.8938984721287658,
"learning_rate": 1.3425037161768622e-06,
"loss": 1.6492,
"step": 5440
},
{
"epoch": 0.5813333333333334,
"grad_norm": 0.9450279981653136,
"learning_rate": 1.336950309577589e-06,
"loss": 1.6395,
"step": 5450
},
{
"epoch": 0.5824,
"grad_norm": 0.9239482448933554,
"learning_rate": 1.3313991636793027e-06,
"loss": 1.6479,
"step": 5460
},
{
"epoch": 0.5834666666666667,
"grad_norm": 0.9251470424167806,
"learning_rate": 1.3258503554492213e-06,
"loss": 1.6387,
"step": 5470
},
{
"epoch": 0.5845333333333333,
"grad_norm": 0.908081306532349,
"learning_rate": 1.3203039618221505e-06,
"loss": 1.6405,
"step": 5480
},
{
"epoch": 0.5856,
"grad_norm": 0.9025867747737822,
"learning_rate": 1.3147600596994169e-06,
"loss": 1.6355,
"step": 5490
},
{
"epoch": 0.5866666666666667,
"grad_norm": 0.9588359293934582,
"learning_rate": 1.3092187259478025e-06,
"loss": 1.6525,
"step": 5500
},
{
"epoch": 0.5877333333333333,
"grad_norm": 0.9555006859984778,
"learning_rate": 1.3036800373984786e-06,
"loss": 1.6392,
"step": 5510
},
{
"epoch": 0.5888,
"grad_norm": 0.9311384464314543,
"learning_rate": 1.2981440708459406e-06,
"loss": 1.635,
"step": 5520
},
{
"epoch": 0.5898666666666667,
"grad_norm": 0.9734499397095102,
"learning_rate": 1.2926109030469427e-06,
"loss": 1.6441,
"step": 5530
},
{
"epoch": 0.5909333333333333,
"grad_norm": 0.9326692902405276,
"learning_rate": 1.2870806107194343e-06,
"loss": 1.6282,
"step": 5540
},
{
"epoch": 0.592,
"grad_norm": 0.9544926011413847,
"learning_rate": 1.2815532705414963e-06,
"loss": 1.6492,
"step": 5550
},
{
"epoch": 0.5930666666666666,
"grad_norm": 0.9415503041502752,
"learning_rate": 1.2760289591502775e-06,
"loss": 1.6488,
"step": 5560
},
{
"epoch": 0.5941333333333333,
"grad_norm": 0.9661561294596271,
"learning_rate": 1.2705077531409323e-06,
"loss": 1.6504,
"step": 5570
},
{
"epoch": 0.5952,
"grad_norm": 0.9484084568517012,
"learning_rate": 1.2649897290655585e-06,
"loss": 1.6478,
"step": 5580
},
{
"epoch": 0.5962666666666666,
"grad_norm": 0.9296767705309394,
"learning_rate": 1.2594749634321366e-06,
"loss": 1.6477,
"step": 5590
},
{
"epoch": 0.5973333333333334,
"grad_norm": 0.9251762882728181,
"learning_rate": 1.2539635327034677e-06,
"loss": 1.6428,
"step": 5600
},
{
"epoch": 0.5984,
"grad_norm": 0.9500555909233835,
"learning_rate": 1.2484555132961141e-06,
"loss": 1.644,
"step": 5610
},
{
"epoch": 0.5994666666666667,
"grad_norm": 0.982866027047646,
"learning_rate": 1.2429509815793413e-06,
"loss": 1.6359,
"step": 5620
},
{
"epoch": 0.6005333333333334,
"grad_norm": 0.9571068827192319,
"learning_rate": 1.2374500138740559e-06,
"loss": 1.6359,
"step": 5630
},
{
"epoch": 0.6016,
"grad_norm": 0.927882779336132,
"learning_rate": 1.23195268645175e-06,
"loss": 1.6491,
"step": 5640
},
{
"epoch": 0.6026666666666667,
"grad_norm": 0.9654855244119447,
"learning_rate": 1.2264590755334416e-06,
"loss": 1.6473,
"step": 5650
},
{
"epoch": 0.6037333333333333,
"grad_norm": 0.9433010159775556,
"learning_rate": 1.2209692572886206e-06,
"loss": 1.6388,
"step": 5660
},
{
"epoch": 0.6048,
"grad_norm": 0.9095948576720422,
"learning_rate": 1.21548330783419e-06,
"loss": 1.6442,
"step": 5670
},
{
"epoch": 0.6058666666666667,
"grad_norm": 0.9222050812897559,
"learning_rate": 1.2100013032334122e-06,
"loss": 1.6394,
"step": 5680
},
{
"epoch": 0.6069333333333333,
"grad_norm": 1.0024937862794003,
"learning_rate": 1.2045233194948532e-06,
"loss": 1.6354,
"step": 5690
},
{
"epoch": 0.608,
"grad_norm": 0.9696703833628154,
"learning_rate": 1.19904943257133e-06,
"loss": 1.6455,
"step": 5700
},
{
"epoch": 0.6090666666666666,
"grad_norm": 0.9521962731752988,
"learning_rate": 1.1935797183588565e-06,
"loss": 1.6435,
"step": 5710
},
{
"epoch": 0.6101333333333333,
"grad_norm": 0.9649261761199126,
"learning_rate": 1.1881142526955912e-06,
"loss": 1.6318,
"step": 5720
},
{
"epoch": 0.6112,
"grad_norm": 1.0056557989470312,
"learning_rate": 1.1826531113607867e-06,
"loss": 1.6406,
"step": 5730
},
{
"epoch": 0.6122666666666666,
"grad_norm": 0.9565854640409046,
"learning_rate": 1.177196370073738e-06,
"loss": 1.6318,
"step": 5740
},
{
"epoch": 0.6133333333333333,
"grad_norm": 0.9257455465648255,
"learning_rate": 1.1717441044927322e-06,
"loss": 1.6456,
"step": 5750
},
{
"epoch": 0.6144,
"grad_norm": 0.9172969869603425,
"learning_rate": 1.166296390214002e-06,
"loss": 1.6398,
"step": 5760
},
{
"epoch": 0.6154666666666667,
"grad_norm": 0.9512453587571212,
"learning_rate": 1.1608533027706746e-06,
"loss": 1.6398,
"step": 5770
},
{
"epoch": 0.6165333333333334,
"grad_norm": 0.9286767101053063,
"learning_rate": 1.1554149176317254e-06,
"loss": 1.632,
"step": 5780
},
{
"epoch": 0.6176,
"grad_norm": 0.9395625997522168,
"learning_rate": 1.1499813102009331e-06,
"loss": 1.6427,
"step": 5790
},
{
"epoch": 0.6186666666666667,
"grad_norm": 0.9174904578128065,
"learning_rate": 1.1445525558158318e-06,
"loss": 1.6344,
"step": 5800
},
{
"epoch": 0.6197333333333334,
"grad_norm": 0.9400636953549242,
"learning_rate": 1.1391287297466684e-06,
"loss": 1.6259,
"step": 5810
},
{
"epoch": 0.6208,
"grad_norm": 0.9618846525927467,
"learning_rate": 1.1337099071953572e-06,
"loss": 1.6376,
"step": 5820
},
{
"epoch": 0.6218666666666667,
"grad_norm": 0.9695152057383372,
"learning_rate": 1.1282961632944395e-06,
"loss": 1.6476,
"step": 5830
},
{
"epoch": 0.6229333333333333,
"grad_norm": 0.9073538822553481,
"learning_rate": 1.1228875731060394e-06,
"loss": 1.6412,
"step": 5840
},
{
"epoch": 0.624,
"grad_norm": 0.9243184083175984,
"learning_rate": 1.1174842116208249e-06,
"loss": 1.6537,
"step": 5850
},
{
"epoch": 0.6250666666666667,
"grad_norm": 0.9311818624737883,
"learning_rate": 1.1120861537569673e-06,
"loss": 1.6318,
"step": 5860
},
{
"epoch": 0.6261333333333333,
"grad_norm": 0.9558573300672806,
"learning_rate": 1.106693474359103e-06,
"loss": 1.6328,
"step": 5870
},
{
"epoch": 0.6272,
"grad_norm": 0.9296624232819808,
"learning_rate": 1.1013062481972947e-06,
"loss": 1.6336,
"step": 5880
},
{
"epoch": 0.6282666666666666,
"grad_norm": 0.9498411311821265,
"learning_rate": 1.0959245499659957e-06,
"loss": 1.6457,
"step": 5890
},
{
"epoch": 0.6293333333333333,
"grad_norm": 0.9777947074995257,
"learning_rate": 1.0905484542830144e-06,
"loss": 1.6392,
"step": 5900
},
{
"epoch": 0.6304,
"grad_norm": 1.0004634436141713,
"learning_rate": 1.0851780356884788e-06,
"loss": 1.6357,
"step": 5910
},
{
"epoch": 0.6314666666666666,
"grad_norm": 0.963160829464813,
"learning_rate": 1.079813368643804e-06,
"loss": 1.641,
"step": 5920
},
{
"epoch": 0.6325333333333333,
"grad_norm": 0.980303517969504,
"learning_rate": 1.0744545275306583e-06,
"loss": 1.6494,
"step": 5930
},
{
"epoch": 0.6336,
"grad_norm": 0.9109598027868125,
"learning_rate": 1.0691015866499336e-06,
"loss": 1.6423,
"step": 5940
},
{
"epoch": 0.6346666666666667,
"grad_norm": 0.9258371169728175,
"learning_rate": 1.0637546202207143e-06,
"loss": 1.6334,
"step": 5950
},
{
"epoch": 0.6357333333333334,
"grad_norm": 0.9711106615869038,
"learning_rate": 1.0584137023792483e-06,
"loss": 1.6421,
"step": 5960
},
{
"epoch": 0.6368,
"grad_norm": 0.9491371788519555,
"learning_rate": 1.0530789071779194e-06,
"loss": 1.6377,
"step": 5970
},
{
"epoch": 0.6378666666666667,
"grad_norm": 0.9284511744288078,
"learning_rate": 1.0477503085842205e-06,
"loss": 1.6419,
"step": 5980
},
{
"epoch": 0.6389333333333334,
"grad_norm": 0.8952139474631282,
"learning_rate": 1.0424279804797273e-06,
"loss": 1.6357,
"step": 5990
},
{
"epoch": 0.64,
"grad_norm": 0.9648287519926048,
"learning_rate": 1.0371119966590752e-06,
"loss": 1.6407,
"step": 6000
},
{
"epoch": 0.6410666666666667,
"grad_norm": 0.9557165036552002,
"learning_rate": 1.0318024308289345e-06,
"loss": 1.6329,
"step": 6010
},
{
"epoch": 0.6421333333333333,
"grad_norm": 0.9668832043992088,
"learning_rate": 1.0264993566069906e-06,
"loss": 1.6455,
"step": 6020
},
{
"epoch": 0.6432,
"grad_norm": 0.9813428813401812,
"learning_rate": 1.0212028475209207e-06,
"loss": 1.6305,
"step": 6030
},
{
"epoch": 0.6442666666666667,
"grad_norm": 0.9664448211976283,
"learning_rate": 1.0159129770073775e-06,
"loss": 1.6468,
"step": 6040
},
{
"epoch": 0.6453333333333333,
"grad_norm": 0.9369228206952753,
"learning_rate": 1.0106298184109671e-06,
"loss": 1.634,
"step": 6050
},
{
"epoch": 0.6464,
"grad_norm": 0.9552735098202143,
"learning_rate": 1.0053534449832363e-06,
"loss": 1.6381,
"step": 6060
},
{
"epoch": 0.6474666666666666,
"grad_norm": 0.9440131809910416,
"learning_rate": 1.0000839298816527e-06,
"loss": 1.6497,
"step": 6070
},
{
"epoch": 0.6485333333333333,
"grad_norm": 0.9201581263547279,
"learning_rate": 9.948213461685944e-07,
"loss": 1.634,
"step": 6080
},
{
"epoch": 0.6496,
"grad_norm": 0.9033039097399416,
"learning_rate": 9.895657668103337e-07,
"loss": 1.6459,
"step": 6090
},
{
"epoch": 0.6506666666666666,
"grad_norm": 0.9507971786885266,
"learning_rate": 9.843172646760274e-07,
"loss": 1.6374,
"step": 6100
},
{
"epoch": 0.6517333333333334,
"grad_norm": 0.9138073936936818,
"learning_rate": 9.790759125367059e-07,
"loss": 1.6351,
"step": 6110
},
{
"epoch": 0.6528,
"grad_norm": 0.9707248222137546,
"learning_rate": 9.73841783064264e-07,
"loss": 1.6516,
"step": 6120
},
{
"epoch": 0.6538666666666667,
"grad_norm": 0.9370225022575949,
"learning_rate": 9.686149488304535e-07,
"loss": 1.6396,
"step": 6130
},
{
"epoch": 0.6549333333333334,
"grad_norm": 0.953541564612593,
"learning_rate": 9.633954823058764e-07,
"loss": 1.6263,
"step": 6140
},
{
"epoch": 0.656,
"grad_norm": 0.9186408662137342,
"learning_rate": 9.581834558589823e-07,
"loss": 1.6362,
"step": 6150
},
{
"epoch": 0.6570666666666667,
"grad_norm": 0.9376259337254916,
"learning_rate": 9.529789417550616e-07,
"loss": 1.638,
"step": 6160
},
{
"epoch": 0.6581333333333333,
"grad_norm": 0.9167224812554682,
"learning_rate": 9.477820121552455e-07,
"loss": 1.6458,
"step": 6170
},
{
"epoch": 0.6592,
"grad_norm": 0.941453752408149,
"learning_rate": 9.425927391155066e-07,
"loss": 1.637,
"step": 6180
},
{
"epoch": 0.6602666666666667,
"grad_norm": 0.9577682303073832,
"learning_rate": 9.374111945856572e-07,
"loss": 1.6334,
"step": 6190
},
{
"epoch": 0.6613333333333333,
"grad_norm": 0.9466239394767838,
"learning_rate": 9.322374504083534e-07,
"loss": 1.6343,
"step": 6200
},
{
"epoch": 0.6624,
"grad_norm": 0.9290964682344081,
"learning_rate": 9.270715783180984e-07,
"loss": 1.6498,
"step": 6210
},
{
"epoch": 0.6634666666666666,
"grad_norm": 0.9629443900334983,
"learning_rate": 9.219136499402484e-07,
"loss": 1.6388,
"step": 6220
},
{
"epoch": 0.6645333333333333,
"grad_norm": 0.9483334295734468,
"learning_rate": 9.167637367900192e-07,
"loss": 1.6369,
"step": 6230
},
{
"epoch": 0.6656,
"grad_norm": 0.9538512462369768,
"learning_rate": 9.116219102714941e-07,
"loss": 1.6255,
"step": 6240
},
{
"epoch": 0.6666666666666666,
"grad_norm": 0.9916209252628216,
"learning_rate": 9.064882416766353e-07,
"loss": 1.6433,
"step": 6250
},
{
"epoch": 0.6677333333333333,
"grad_norm": 0.936952152129854,
"learning_rate": 9.013628021842936e-07,
"loss": 1.6369,
"step": 6260
},
{
"epoch": 0.6688,
"grad_norm": 0.9651446619573912,
"learning_rate": 8.962456628592234e-07,
"loss": 1.632,
"step": 6270
},
{
"epoch": 0.6698666666666667,
"grad_norm": 0.948618245086087,
"learning_rate": 8.911368946510954e-07,
"loss": 1.6443,
"step": 6280
},
{
"epoch": 0.6709333333333334,
"grad_norm": 0.9050682976685079,
"learning_rate": 8.860365683935145e-07,
"loss": 1.64,
"step": 6290
},
{
"epoch": 0.672,
"grad_norm": 0.9698836847007473,
"learning_rate": 8.809447548030371e-07,
"loss": 1.6307,
"step": 6300
},
{
"epoch": 0.6730666666666667,
"grad_norm": 0.9432863539008417,
"learning_rate": 8.758615244781899e-07,
"loss": 1.6368,
"step": 6310
},
{
"epoch": 0.6741333333333334,
"grad_norm": 0.9429546436121419,
"learning_rate": 8.707869478984929e-07,
"loss": 1.6428,
"step": 6320
},
{
"epoch": 0.6752,
"grad_norm": 0.9163994467182309,
"learning_rate": 8.657210954234805e-07,
"loss": 1.6415,
"step": 6330
},
{
"epoch": 0.6762666666666667,
"grad_norm": 0.9160826549384001,
"learning_rate": 8.606640372917259e-07,
"loss": 1.6406,
"step": 6340
},
{
"epoch": 0.6773333333333333,
"grad_norm": 0.9940339188596266,
"learning_rate": 8.556158436198688e-07,
"loss": 1.6349,
"step": 6350
},
{
"epoch": 0.6784,
"grad_norm": 0.9416509210499009,
"learning_rate": 8.50576584401641e-07,
"loss": 1.6346,
"step": 6360
},
{
"epoch": 0.6794666666666667,
"grad_norm": 0.9468646810234849,
"learning_rate": 8.455463295068982e-07,
"loss": 1.6414,
"step": 6370
},
{
"epoch": 0.6805333333333333,
"grad_norm": 0.9855189455541102,
"learning_rate": 8.4052514868065e-07,
"loss": 1.6465,
"step": 6380
},
{
"epoch": 0.6816,
"grad_norm": 0.9048504332610046,
"learning_rate": 8.355131115420929e-07,
"loss": 1.6362,
"step": 6390
},
{
"epoch": 0.6826666666666666,
"grad_norm": 0.9292137464329728,
"learning_rate": 8.305102875836451e-07,
"loss": 1.6353,
"step": 6400
},
{
"epoch": 0.6837333333333333,
"grad_norm": 0.9871194545670592,
"learning_rate": 8.255167461699838e-07,
"loss": 1.6425,
"step": 6410
},
{
"epoch": 0.6848,
"grad_norm": 0.9247541801550003,
"learning_rate": 8.205325565370818e-07,
"loss": 1.6478,
"step": 6420
},
{
"epoch": 0.6858666666666666,
"grad_norm": 0.9400873616044685,
"learning_rate": 8.15557787791249e-07,
"loss": 1.6322,
"step": 6430
},
{
"epoch": 0.6869333333333333,
"grad_norm": 0.9370470337804653,
"learning_rate": 8.105925089081735e-07,
"loss": 1.6391,
"step": 6440
},
{
"epoch": 0.688,
"grad_norm": 0.9452425538615635,
"learning_rate": 8.05636788731966e-07,
"loss": 1.6395,
"step": 6450
},
{
"epoch": 0.6890666666666667,
"grad_norm": 0.8668952820400583,
"learning_rate": 8.006906959742042e-07,
"loss": 1.6528,
"step": 6460
},
{
"epoch": 0.6901333333333334,
"grad_norm": 0.963697404798933,
"learning_rate": 7.957542992129806e-07,
"loss": 1.6342,
"step": 6470
},
{
"epoch": 0.6912,
"grad_norm": 0.9111364974626629,
"learning_rate": 7.908276668919518e-07,
"loss": 1.6314,
"step": 6480
},
{
"epoch": 0.6922666666666667,
"grad_norm": 0.9582060092542287,
"learning_rate": 7.859108673193891e-07,
"loss": 1.6379,
"step": 6490
},
{
"epoch": 0.6933333333333334,
"grad_norm": 0.9585224485507772,
"learning_rate": 7.810039686672335e-07,
"loss": 1.6349,
"step": 6500
},
{
"epoch": 0.6944,
"grad_norm": 0.9695616000602741,
"learning_rate": 7.761070389701462e-07,
"loss": 1.6394,
"step": 6510
},
{
"epoch": 0.6954666666666667,
"grad_norm": 0.9125111123508771,
"learning_rate": 7.712201461245693e-07,
"loss": 1.6316,
"step": 6520
},
{
"epoch": 0.6965333333333333,
"grad_norm": 0.8986469424653175,
"learning_rate": 7.66343357887782e-07,
"loss": 1.6418,
"step": 6530
},
{
"epoch": 0.6976,
"grad_norm": 0.9456854442967882,
"learning_rate": 7.614767418769632e-07,
"loss": 1.6415,
"step": 6540
},
{
"epoch": 0.6986666666666667,
"grad_norm": 0.9820515792440034,
"learning_rate": 7.566203655682518e-07,
"loss": 1.6323,
"step": 6550
},
{
"epoch": 0.6997333333333333,
"grad_norm": 0.961061445601208,
"learning_rate": 7.517742962958127e-07,
"loss": 1.6314,
"step": 6560
},
{
"epoch": 0.7008,
"grad_norm": 0.9221450649915671,
"learning_rate": 7.469386012509022e-07,
"loss": 1.6381,
"step": 6570
},
{
"epoch": 0.7018666666666666,
"grad_norm": 0.9663512127492091,
"learning_rate": 7.421133474809376e-07,
"loss": 1.6339,
"step": 6580
},
{
"epoch": 0.7029333333333333,
"grad_norm": 0.9550764059119128,
"learning_rate": 7.37298601888566e-07,
"loss": 1.6376,
"step": 6590
},
{
"epoch": 0.704,
"grad_norm": 0.9343040461736298,
"learning_rate": 7.32494431230738e-07,
"loss": 1.6321,
"step": 6600
},
{
"epoch": 0.7050666666666666,
"grad_norm": 0.9580526787683631,
"learning_rate": 7.277009021177818e-07,
"loss": 1.6285,
"step": 6610
},
{
"epoch": 0.7061333333333333,
"grad_norm": 0.95301604205055,
"learning_rate": 7.22918081012479e-07,
"loss": 1.6368,
"step": 6620
},
{
"epoch": 0.7072,
"grad_norm": 0.9643773214782704,
"learning_rate": 7.181460342291435e-07,
"loss": 1.6325,
"step": 6630
},
{
"epoch": 0.7082666666666667,
"grad_norm": 0.9630196538548305,
"learning_rate": 7.133848279327027e-07,
"loss": 1.6285,
"step": 6640
},
{
"epoch": 0.7093333333333334,
"grad_norm": 0.9347893738558876,
"learning_rate": 7.08634528137779e-07,
"loss": 1.6373,
"step": 6650
},
{
"epoch": 0.7104,
"grad_norm": 0.929259402016409,
"learning_rate": 7.038952007077753e-07,
"loss": 1.6336,
"step": 6660
},
{
"epoch": 0.7114666666666667,
"grad_norm": 0.8969883013011185,
"learning_rate": 6.991669113539608e-07,
"loss": 1.6366,
"step": 6670
},
{
"epoch": 0.7125333333333334,
"grad_norm": 0.9739170725799922,
"learning_rate": 6.944497256345624e-07,
"loss": 1.6325,
"step": 6680
},
{
"epoch": 0.7136,
"grad_norm": 0.9484132890244585,
"learning_rate": 6.897437089538523e-07,
"loss": 1.6394,
"step": 6690
},
{
"epoch": 0.7146666666666667,
"grad_norm": 0.9195963372091024,
"learning_rate": 6.85048926561243e-07,
"loss": 1.6386,
"step": 6700
},
{
"epoch": 0.7157333333333333,
"grad_norm": 0.9080040123775354,
"learning_rate": 6.80365443550383e-07,
"loss": 1.6373,
"step": 6710
},
{
"epoch": 0.7168,
"grad_norm": 0.9435414926867148,
"learning_rate": 6.756933248582531e-07,
"loss": 1.6304,
"step": 6720
},
{
"epoch": 0.7178666666666667,
"grad_norm": 0.9555202890118606,
"learning_rate": 6.710326352642674e-07,
"loss": 1.6364,
"step": 6730
},
{
"epoch": 0.7189333333333333,
"grad_norm": 0.9273989093685991,
"learning_rate": 6.663834393893734e-07,
"loss": 1.6374,
"step": 6740
},
{
"epoch": 0.72,
"grad_norm": 0.9098939728870024,
"learning_rate": 6.617458016951577e-07,
"loss": 1.6395,
"step": 6750
},
{
"epoch": 0.7210666666666666,
"grad_norm": 0.9308729875511774,
"learning_rate": 6.571197864829513e-07,
"loss": 1.6413,
"step": 6760
},
{
"epoch": 0.7221333333333333,
"grad_norm": 0.9625108469831195,
"learning_rate": 6.525054578929383e-07,
"loss": 1.6368,
"step": 6770
},
{
"epoch": 0.7232,
"grad_norm": 0.9570791895644976,
"learning_rate": 6.479028799032664e-07,
"loss": 1.6478,
"step": 6780
},
{
"epoch": 0.7242666666666666,
"grad_norm": 0.9126504256985644,
"learning_rate": 6.433121163291605e-07,
"loss": 1.6399,
"step": 6790
},
{
"epoch": 0.7253333333333334,
"grad_norm": 0.8998213147969775,
"learning_rate": 6.387332308220365e-07,
"loss": 1.6407,
"step": 6800
},
{
"epoch": 0.7264,
"grad_norm": 0.9199798284254918,
"learning_rate": 6.341662868686205e-07,
"loss": 1.6477,
"step": 6810
},
{
"epoch": 0.7274666666666667,
"grad_norm": 0.9571499289329001,
"learning_rate": 6.296113477900674e-07,
"loss": 1.6416,
"step": 6820
},
{
"epoch": 0.7285333333333334,
"grad_norm": 0.9565916576683874,
"learning_rate": 6.250684767410833e-07,
"loss": 1.6529,
"step": 6830
},
{
"epoch": 0.7296,
"grad_norm": 0.9521359194288211,
"learning_rate": 6.205377367090496e-07,
"loss": 1.6332,
"step": 6840
},
{
"epoch": 0.7306666666666667,
"grad_norm": 0.9601323342642837,
"learning_rate": 6.160191905131496e-07,
"loss": 1.6296,
"step": 6850
},
{
"epoch": 0.7317333333333333,
"grad_norm": 0.9095615878733004,
"learning_rate": 6.11512900803499e-07,
"loss": 1.6462,
"step": 6860
},
{
"epoch": 0.7328,
"grad_norm": 0.9819000863818711,
"learning_rate": 6.070189300602754e-07,
"loss": 1.641,
"step": 6870
},
{
"epoch": 0.7338666666666667,
"grad_norm": 0.9183065188989321,
"learning_rate": 6.02537340592852e-07,
"loss": 1.6365,
"step": 6880
},
{
"epoch": 0.7349333333333333,
"grad_norm": 0.9222259081738321,
"learning_rate": 5.980681945389351e-07,
"loss": 1.6273,
"step": 6890
},
{
"epoch": 0.736,
"grad_norm": 0.9266979061673322,
"learning_rate": 5.936115538637014e-07,
"loss": 1.6331,
"step": 6900
},
{
"epoch": 0.7370666666666666,
"grad_norm": 0.9506937700531672,
"learning_rate": 5.891674803589391e-07,
"loss": 1.6399,
"step": 6910
},
{
"epoch": 0.7381333333333333,
"grad_norm": 0.9363077943402218,
"learning_rate": 5.84736035642192e-07,
"loss": 1.6296,
"step": 6920
},
{
"epoch": 0.7392,
"grad_norm": 0.9696127739829316,
"learning_rate": 5.803172811559035e-07,
"loss": 1.6278,
"step": 6930
},
{
"epoch": 0.7402666666666666,
"grad_norm": 0.9255209647747278,
"learning_rate": 5.759112781665662e-07,
"loss": 1.6336,
"step": 6940
},
{
"epoch": 0.7413333333333333,
"grad_norm": 0.9695328338250578,
"learning_rate": 5.715180877638717e-07,
"loss": 1.6422,
"step": 6950
},
{
"epoch": 0.7424,
"grad_norm": 0.9375099139188835,
"learning_rate": 5.67137770859864e-07,
"loss": 1.6419,
"step": 6960
},
{
"epoch": 0.7434666666666667,
"grad_norm": 0.965483827222725,
"learning_rate": 5.627703881880939e-07,
"loss": 1.6278,
"step": 6970
},
{
"epoch": 0.7445333333333334,
"grad_norm": 0.9247903745568583,
"learning_rate": 5.58416000302779e-07,
"loss": 1.6255,
"step": 6980
},
{
"epoch": 0.7456,
"grad_norm": 0.8913872455321827,
"learning_rate": 5.540746675779617e-07,
"loss": 1.6444,
"step": 6990
},
{
"epoch": 0.7466666666666667,
"grad_norm": 0.930364581066195,
"learning_rate": 5.497464502066737e-07,
"loss": 1.6442,
"step": 7000
},
{
"epoch": 0.7477333333333334,
"grad_norm": 0.9275239099938487,
"learning_rate": 5.45431408200101e-07,
"loss": 1.6442,
"step": 7010
},
{
"epoch": 0.7488,
"grad_norm": 0.9120385652859035,
"learning_rate": 5.41129601386751e-07,
"loss": 1.6322,
"step": 7020
},
{
"epoch": 0.7498666666666667,
"grad_norm": 0.9336079965796837,
"learning_rate": 5.368410894116257e-07,
"loss": 1.639,
"step": 7030
},
{
"epoch": 0.7509333333333333,
"grad_norm": 0.9652458261692217,
"learning_rate": 5.325659317353908e-07,
"loss": 1.6285,
"step": 7040
},
{
"epoch": 0.752,
"grad_norm": 0.9498370193515251,
"learning_rate": 5.283041876335542e-07,
"loss": 1.6383,
"step": 7050
},
{
"epoch": 0.7530666666666667,
"grad_norm": 0.9266144378194191,
"learning_rate": 5.240559161956428e-07,
"loss": 1.6377,
"step": 7060
},
{
"epoch": 0.7541333333333333,
"grad_norm": 0.9401023327507796,
"learning_rate": 5.198211763243841e-07,
"loss": 1.6271,
"step": 7070
},
{
"epoch": 0.7552,
"grad_norm": 0.9249799174934747,
"learning_rate": 5.156000267348883e-07,
"loss": 1.6344,
"step": 7080
},
{
"epoch": 0.7562666666666666,
"grad_norm": 0.9202412771278142,
"learning_rate": 5.113925259538356e-07,
"loss": 1.6266,
"step": 7090
},
{
"epoch": 0.7573333333333333,
"grad_norm": 0.987412833454678,
"learning_rate": 5.071987323186637e-07,
"loss": 1.6312,
"step": 7100
},
{
"epoch": 0.7584,
"grad_norm": 0.9554539541625356,
"learning_rate": 5.030187039767595e-07,
"loss": 1.6498,
"step": 7110
},
{
"epoch": 0.7594666666666666,
"grad_norm": 0.9124642558830346,
"learning_rate": 4.988524988846523e-07,
"loss": 1.6345,
"step": 7120
},
{
"epoch": 0.7605333333333333,
"grad_norm": 0.9706510717552278,
"learning_rate": 4.947001748072109e-07,
"loss": 1.6422,
"step": 7130
},
{
"epoch": 0.7616,
"grad_norm": 0.9773088306200184,
"learning_rate": 4.905617893168422e-07,
"loss": 1.6347,
"step": 7140
},
{
"epoch": 0.7626666666666667,
"grad_norm": 0.9438516354685057,
"learning_rate": 4.864373997926935e-07,
"loss": 1.6254,
"step": 7150
},
{
"epoch": 0.7637333333333334,
"grad_norm": 0.9615412629990119,
"learning_rate": 4.823270634198563e-07,
"loss": 1.6275,
"step": 7160
},
{
"epoch": 0.7648,
"grad_norm": 0.9466143641191075,
"learning_rate": 4.782308371885737e-07,
"loss": 1.6359,
"step": 7170
},
{
"epoch": 0.7658666666666667,
"grad_norm": 0.9565229196514186,
"learning_rate": 4.7414877789344993e-07,
"loss": 1.6357,
"step": 7180
},
{
"epoch": 0.7669333333333334,
"grad_norm": 0.9692475896301669,
"learning_rate": 4.7008094213266364e-07,
"loss": 1.6389,
"step": 7190
},
{
"epoch": 0.768,
"grad_norm": 0.9705293257414547,
"learning_rate": 4.6602738630718215e-07,
"loss": 1.6473,
"step": 7200
},
{
"epoch": 0.7690666666666667,
"grad_norm": 0.9400857110588353,
"learning_rate": 4.619881666199812e-07,
"loss": 1.6315,
"step": 7210
},
{
"epoch": 0.7701333333333333,
"grad_norm": 0.9385785515686702,
"learning_rate": 4.579633390752632e-07,
"loss": 1.6421,
"step": 7220
},
{
"epoch": 0.7712,
"grad_norm": 0.94077217840519,
"learning_rate": 4.539529594776822e-07,
"loss": 1.6319,
"step": 7230
},
{
"epoch": 0.7722666666666667,
"grad_norm": 0.9633340290036088,
"learning_rate": 4.4995708343157053e-07,
"loss": 1.6296,
"step": 7240
},
{
"epoch": 0.7733333333333333,
"grad_norm": 0.9210413897122895,
"learning_rate": 4.459757663401667e-07,
"loss": 1.6382,
"step": 7250
},
{
"epoch": 0.7744,
"grad_norm": 0.9503245793070393,
"learning_rate": 4.420090634048481e-07,
"loss": 1.655,
"step": 7260
},
{
"epoch": 0.7754666666666666,
"grad_norm": 0.9324687541186071,
"learning_rate": 4.38057029624365e-07,
"loss": 1.6329,
"step": 7270
},
{
"epoch": 0.7765333333333333,
"grad_norm": 0.9659077101139498,
"learning_rate": 4.341197197940787e-07,
"loss": 1.6288,
"step": 7280
},
{
"epoch": 0.7776,
"grad_norm": 0.9241567283236445,
"learning_rate": 4.301971885052013e-07,
"loss": 1.6289,
"step": 7290
},
{
"epoch": 0.7786666666666666,
"grad_norm": 0.9266596819967082,
"learning_rate": 4.262894901440387e-07,
"loss": 1.6274,
"step": 7300
},
{
"epoch": 0.7797333333333333,
"grad_norm": 0.9329220518880238,
"learning_rate": 4.223966788912368e-07,
"loss": 1.6382,
"step": 7310
},
{
"epoch": 0.7808,
"grad_norm": 0.9301328037917151,
"learning_rate": 4.185188087210302e-07,
"loss": 1.6354,
"step": 7320
},
{
"epoch": 0.7818666666666667,
"grad_norm": 0.9288888551556477,
"learning_rate": 4.1465593340049375e-07,
"loss": 1.6346,
"step": 7330
},
{
"epoch": 0.7829333333333334,
"grad_norm": 0.9304622658009046,
"learning_rate": 4.108081064887975e-07,
"loss": 1.6361,
"step": 7340
},
{
"epoch": 0.784,
"grad_norm": 0.9138184910557465,
"learning_rate": 4.0697538133646307e-07,
"loss": 1.6357,
"step": 7350
},
{
"epoch": 0.7850666666666667,
"grad_norm": 0.8958272422587126,
"learning_rate": 4.0315781108462533e-07,
"loss": 1.637,
"step": 7360
},
{
"epoch": 0.7861333333333334,
"grad_norm": 0.9316947783445204,
"learning_rate": 3.9935544866429443e-07,
"loss": 1.6359,
"step": 7370
},
{
"epoch": 0.7872,
"grad_norm": 0.9505150995539887,
"learning_rate": 3.9556834679562183e-07,
"loss": 1.6288,
"step": 7380
},
{
"epoch": 0.7882666666666667,
"grad_norm": 0.9240867992047288,
"learning_rate": 3.9179655798717175e-07,
"loss": 1.624,
"step": 7390
},
{
"epoch": 0.7893333333333333,
"grad_norm": 0.9431123649950629,
"learning_rate": 3.880401345351892e-07,
"loss": 1.6218,
"step": 7400
},
{
"epoch": 0.7904,
"grad_norm": 0.9554551473346031,
"learning_rate": 3.842991285228777e-07,
"loss": 1.6363,
"step": 7410
},
{
"epoch": 0.7914666666666667,
"grad_norm": 0.9442988318036241,
"learning_rate": 3.805735918196764e-07,
"loss": 1.6298,
"step": 7420
},
{
"epoch": 0.7925333333333333,
"grad_norm": 0.9062157861896426,
"learning_rate": 3.768635760805407e-07,
"loss": 1.6354,
"step": 7430
},
{
"epoch": 0.7936,
"grad_norm": 0.9473752542449635,
"learning_rate": 3.731691327452265e-07,
"loss": 1.6224,
"step": 7440
},
{
"epoch": 0.7946666666666666,
"grad_norm": 0.8994022779724736,
"learning_rate": 3.694903130375766e-07,
"loss": 1.6397,
"step": 7450
},
{
"epoch": 0.7957333333333333,
"grad_norm": 0.9167992210911745,
"learning_rate": 3.6582716796481005e-07,
"loss": 1.6234,
"step": 7460
},
{
"epoch": 0.7968,
"grad_norm": 0.917921323326918,
"learning_rate": 3.621797483168162e-07,
"loss": 1.6371,
"step": 7470
},
{
"epoch": 0.7978666666666666,
"grad_norm": 0.9265675887086849,
"learning_rate": 3.585481046654492e-07,
"loss": 1.6191,
"step": 7480
},
{
"epoch": 0.7989333333333334,
"grad_norm": 0.9093254131588525,
"learning_rate": 3.5493228736382776e-07,
"loss": 1.639,
"step": 7490
},
{
"epoch": 0.8,
"grad_norm": 0.9200227121315805,
"learning_rate": 3.513323465456363e-07,
"loss": 1.6383,
"step": 7500
},
{
"epoch": 0.8010666666666667,
"grad_norm": 0.8911005006586421,
"learning_rate": 3.4774833212443037e-07,
"loss": 1.6373,
"step": 7510
},
{
"epoch": 0.8021333333333334,
"grad_norm": 0.919935396042663,
"learning_rate": 3.441802937929441e-07,
"loss": 1.6273,
"step": 7520
},
{
"epoch": 0.8032,
"grad_norm": 0.9621170924769545,
"learning_rate": 3.4062828102240176e-07,
"loss": 1.6278,
"step": 7530
},
{
"epoch": 0.8042666666666667,
"grad_norm": 0.95839489298772,
"learning_rate": 3.370923430618313e-07,
"loss": 1.6354,
"step": 7540
},
{
"epoch": 0.8053333333333333,
"grad_norm": 0.9373064433068705,
"learning_rate": 3.335725289373819e-07,
"loss": 1.6305,
"step": 7550
},
{
"epoch": 0.8064,
"grad_norm": 0.9912108465813826,
"learning_rate": 3.300688874516435e-07,
"loss": 1.631,
"step": 7560
},
{
"epoch": 0.8074666666666667,
"grad_norm": 0.9502362150615156,
"learning_rate": 3.2658146718297217e-07,
"loss": 1.6248,
"step": 7570
},
{
"epoch": 0.8085333333333333,
"grad_norm": 0.970146416194715,
"learning_rate": 3.2311031648481383e-07,
"loss": 1.6401,
"step": 7580
},
{
"epoch": 0.8096,
"grad_norm": 0.949427549138697,
"learning_rate": 3.1965548348503517e-07,
"loss": 1.6373,
"step": 7590
},
{
"epoch": 0.8106666666666666,
"grad_norm": 0.922262208080072,
"learning_rate": 3.162170160852568e-07,
"loss": 1.6333,
"step": 7600
},
{
"epoch": 0.8117333333333333,
"grad_norm": 0.951466469655738,
"learning_rate": 3.127949619601882e-07,
"loss": 1.6338,
"step": 7610
},
{
"epoch": 0.8128,
"grad_norm": 0.9383740481805073,
"learning_rate": 3.093893685569673e-07,
"loss": 1.6332,
"step": 7620
},
{
"epoch": 0.8138666666666666,
"grad_norm": 0.9517968897517326,
"learning_rate": 3.0600028309450244e-07,
"loss": 1.6394,
"step": 7630
},
{
"epoch": 0.8149333333333333,
"grad_norm": 0.9225749115806651,
"learning_rate": 3.0262775256281734e-07,
"loss": 1.6425,
"step": 7640
},
{
"epoch": 0.816,
"grad_norm": 0.9045869971456002,
"learning_rate": 2.9927182372240026e-07,
"loss": 1.6274,
"step": 7650
},
{
"epoch": 0.8170666666666667,
"grad_norm": 0.9108497632797171,
"learning_rate": 2.9593254310355485e-07,
"loss": 1.631,
"step": 7660
},
{
"epoch": 0.8181333333333334,
"grad_norm": 0.9443817941450723,
"learning_rate": 2.9260995700575567e-07,
"loss": 1.6353,
"step": 7670
},
{
"epoch": 0.8192,
"grad_norm": 0.8908721230764877,
"learning_rate": 2.893041114970061e-07,
"loss": 1.6332,
"step": 7680
},
{
"epoch": 0.8202666666666667,
"grad_norm": 0.9826092712379958,
"learning_rate": 2.8601505241319936e-07,
"loss": 1.6316,
"step": 7690
},
{
"epoch": 0.8213333333333334,
"grad_norm": 0.9168545979194416,
"learning_rate": 2.827428253574831e-07,
"loss": 1.6267,
"step": 7700
},
{
"epoch": 0.8224,
"grad_norm": 0.9932310399979936,
"learning_rate": 2.794874756996274e-07,
"loss": 1.6296,
"step": 7710
},
{
"epoch": 0.8234666666666667,
"grad_norm": 0.9397829594789183,
"learning_rate": 2.76249048575395e-07,
"loss": 1.6467,
"step": 7720
},
{
"epoch": 0.8245333333333333,
"grad_norm": 0.9735157929884529,
"learning_rate": 2.7302758888591604e-07,
"loss": 1.627,
"step": 7730
},
{
"epoch": 0.8256,
"grad_norm": 0.9123895077723198,
"learning_rate": 2.698231412970662e-07,
"loss": 1.6394,
"step": 7740
},
{
"epoch": 0.8266666666666667,
"grad_norm": 0.9185805304649873,
"learning_rate": 2.666357502388457e-07,
"loss": 1.6336,
"step": 7750
},
{
"epoch": 0.8277333333333333,
"grad_norm": 0.908905821983014,
"learning_rate": 2.634654599047645e-07,
"loss": 1.6382,
"step": 7760
},
{
"epoch": 0.8288,
"grad_norm": 0.9442900385322206,
"learning_rate": 2.6031231425122903e-07,
"loss": 1.636,
"step": 7770
},
{
"epoch": 0.8298666666666666,
"grad_norm": 0.9373968223376723,
"learning_rate": 2.571763569969333e-07,
"loss": 1.6228,
"step": 7780
},
{
"epoch": 0.8309333333333333,
"grad_norm": 0.9444135274894447,
"learning_rate": 2.540576316222518e-07,
"loss": 1.6339,
"step": 7790
},
{
"epoch": 0.832,
"grad_norm": 0.9092133369600184,
"learning_rate": 2.5095618136863814e-07,
"loss": 1.6353,
"step": 7800
},
{
"epoch": 0.8330666666666666,
"grad_norm": 0.9339731045588681,
"learning_rate": 2.478720492380236e-07,
"loss": 1.6349,
"step": 7810
},
{
"epoch": 0.8341333333333333,
"grad_norm": 0.9303757022561053,
"learning_rate": 2.448052779922223e-07,
"loss": 1.6264,
"step": 7820
},
{
"epoch": 0.8352,
"grad_norm": 0.950336992075915,
"learning_rate": 2.4175591015233803e-07,
"loss": 1.6368,
"step": 7830
},
{
"epoch": 0.8362666666666667,
"grad_norm": 0.9425330014264532,
"learning_rate": 2.3872398799817435e-07,
"loss": 1.6425,
"step": 7840
},
{
"epoch": 0.8373333333333334,
"grad_norm": 0.920713028366846,
"learning_rate": 2.357095535676485e-07,
"loss": 1.6218,
"step": 7850
},
{
"epoch": 0.8384,
"grad_norm": 0.9528277667430787,
"learning_rate": 2.3271264865620862e-07,
"loss": 1.6314,
"step": 7860
},
{
"epoch": 0.8394666666666667,
"grad_norm": 0.9487241448208892,
"learning_rate": 2.2973331481625453e-07,
"loss": 1.6309,
"step": 7870
},
{
"epoch": 0.8405333333333334,
"grad_norm": 0.9590571612013499,
"learning_rate": 2.2677159335656116e-07,
"loss": 1.6339,
"step": 7880
},
{
"epoch": 0.8416,
"grad_norm": 0.9034427640858408,
"learning_rate": 2.238275253417056e-07,
"loss": 1.6366,
"step": 7890
},
{
"epoch": 0.8426666666666667,
"grad_norm": 0.9251614092449272,
"learning_rate": 2.2090115159149832e-07,
"loss": 1.6372,
"step": 7900
},
{
"epoch": 0.8437333333333333,
"grad_norm": 0.9216256993570315,
"learning_rate": 2.1799251268041698e-07,
"loss": 1.6236,
"step": 7910
},
{
"epoch": 0.8448,
"grad_norm": 0.9440649919276951,
"learning_rate": 2.1510164893704437e-07,
"loss": 1.6404,
"step": 7920
},
{
"epoch": 0.8458666666666667,
"grad_norm": 0.9366940634736978,
"learning_rate": 2.1222860044350795e-07,
"loss": 1.6351,
"step": 7930
},
{
"epoch": 0.8469333333333333,
"grad_norm": 0.9767847956913959,
"learning_rate": 2.0937340703492507e-07,
"loss": 1.6383,
"step": 7940
},
{
"epoch": 0.848,
"grad_norm": 0.9574502805577444,
"learning_rate": 2.0653610829885068e-07,
"loss": 1.6288,
"step": 7950
},
{
"epoch": 0.8490666666666666,
"grad_norm": 0.9319496625095137,
"learning_rate": 2.037167435747279e-07,
"loss": 1.6219,
"step": 7960
},
{
"epoch": 0.8501333333333333,
"grad_norm": 0.8974365852827743,
"learning_rate": 2.009153519533431e-07,
"loss": 1.6291,
"step": 7970
},
{
"epoch": 0.8512,
"grad_norm": 0.9637622480076687,
"learning_rate": 1.9813197227628398e-07,
"loss": 1.6409,
"step": 7980
},
{
"epoch": 0.8522666666666666,
"grad_norm": 0.9203410627694265,
"learning_rate": 1.9536664313540016e-07,
"loss": 1.6345,
"step": 7990
},
{
"epoch": 0.8533333333333334,
"grad_norm": 0.9694554468121922,
"learning_rate": 1.9261940287226914e-07,
"loss": 1.6356,
"step": 8000
},
{
"epoch": 0.8544,
"grad_norm": 0.9326338915130443,
"learning_rate": 1.8989028957766403e-07,
"loss": 1.6343,
"step": 8010
},
{
"epoch": 0.8554666666666667,
"grad_norm": 0.9750275421703326,
"learning_rate": 1.8717934109102569e-07,
"loss": 1.6339,
"step": 8020
},
{
"epoch": 0.8565333333333334,
"grad_norm": 0.9647846948988279,
"learning_rate": 1.844865949999382e-07,
"loss": 1.6346,
"step": 8030
},
{
"epoch": 0.8576,
"grad_norm": 0.9364313641955433,
"learning_rate": 1.8181208863960714e-07,
"loss": 1.6297,
"step": 8040
},
{
"epoch": 0.8586666666666667,
"grad_norm": 0.8894450543624204,
"learning_rate": 1.7915585909234272e-07,
"loss": 1.6394,
"step": 8050
},
{
"epoch": 0.8597333333333333,
"grad_norm": 0.9189009723613017,
"learning_rate": 1.7651794318704488e-07,
"loss": 1.6369,
"step": 8060
},
{
"epoch": 0.8608,
"grad_norm": 0.9327727882036184,
"learning_rate": 1.738983774986932e-07,
"loss": 1.6439,
"step": 8070
},
{
"epoch": 0.8618666666666667,
"grad_norm": 0.9560063788833466,
"learning_rate": 1.712971983478392e-07,
"loss": 1.638,
"step": 8080
},
{
"epoch": 0.8629333333333333,
"grad_norm": 0.9284045907656194,
"learning_rate": 1.687144418001042e-07,
"loss": 1.6319,
"step": 8090
},
{
"epoch": 0.864,
"grad_norm": 0.9258210414288431,
"learning_rate": 1.6615014366567706e-07,
"loss": 1.6349,
"step": 8100
},
{
"epoch": 0.8650666666666667,
"grad_norm": 0.9328876015497495,
"learning_rate": 1.6360433949881926e-07,
"loss": 1.6404,
"step": 8110
},
{
"epoch": 0.8661333333333333,
"grad_norm": 0.9414493897754301,
"learning_rate": 1.6107706459737165e-07,
"loss": 1.6496,
"step": 8120
},
{
"epoch": 0.8672,
"grad_norm": 0.9399309066335874,
"learning_rate": 1.585683540022644e-07,
"loss": 1.6278,
"step": 8130
},
{
"epoch": 0.8682666666666666,
"grad_norm": 0.9947616164939124,
"learning_rate": 1.5607824249703216e-07,
"loss": 1.6358,
"step": 8140
},
{
"epoch": 0.8693333333333333,
"grad_norm": 0.9351085397634457,
"learning_rate": 1.5360676460733104e-07,
"loss": 1.6293,
"step": 8150
},
{
"epoch": 0.8704,
"grad_norm": 0.9789991844840864,
"learning_rate": 1.5115395460045977e-07,
"loss": 1.6344,
"step": 8160
},
{
"epoch": 0.8714666666666666,
"grad_norm": 0.936241368303234,
"learning_rate": 1.4871984648488578e-07,
"loss": 1.6434,
"step": 8170
},
{
"epoch": 0.8725333333333334,
"grad_norm": 0.9138860297657939,
"learning_rate": 1.4630447400977186e-07,
"loss": 1.6299,
"step": 8180
},
{
"epoch": 0.8736,
"grad_norm": 0.9305116284362921,
"learning_rate": 1.4390787066450995e-07,
"loss": 1.6346,
"step": 8190
},
{
"epoch": 0.8746666666666667,
"grad_norm": 0.9526791811727968,
"learning_rate": 1.415300696782556e-07,
"loss": 1.6411,
"step": 8200
},
{
"epoch": 0.8757333333333334,
"grad_norm": 0.9676298507893502,
"learning_rate": 1.391711040194678e-07,
"loss": 1.6339,
"step": 8210
},
{
"epoch": 0.8768,
"grad_norm": 0.9646382807970393,
"learning_rate": 1.3683100639545158e-07,
"loss": 1.6244,
"step": 8220
},
{
"epoch": 0.8778666666666667,
"grad_norm": 0.9580683560055407,
"learning_rate": 1.3450980925190543e-07,
"loss": 1.6332,
"step": 8230
},
{
"epoch": 0.8789333333333333,
"grad_norm": 0.9449983374469059,
"learning_rate": 1.3220754477247004e-07,
"loss": 1.6289,
"step": 8240
},
{
"epoch": 0.88,
"grad_norm": 0.9222011635859387,
"learning_rate": 1.2992424487828254e-07,
"loss": 1.6379,
"step": 8250
},
{
"epoch": 0.8810666666666667,
"grad_norm": 0.9308080847148651,
"learning_rate": 1.2765994122753477e-07,
"loss": 1.6303,
"step": 8260
},
{
"epoch": 0.8821333333333333,
"grad_norm": 0.9365570375379065,
"learning_rate": 1.2541466521503336e-07,
"loss": 1.6381,
"step": 8270
},
{
"epoch": 0.8832,
"grad_norm": 0.9324156522745984,
"learning_rate": 1.2318844797176444e-07,
"loss": 1.6292,
"step": 8280
},
{
"epoch": 0.8842666666666666,
"grad_norm": 0.9267614943548819,
"learning_rate": 1.2098132036446265e-07,
"loss": 1.6179,
"step": 8290
},
{
"epoch": 0.8853333333333333,
"grad_norm": 0.9311544354974329,
"learning_rate": 1.1879331299518304e-07,
"loss": 1.635,
"step": 8300
},
{
"epoch": 0.8864,
"grad_norm": 0.932075965813922,
"learning_rate": 1.1662445620087609e-07,
"loss": 1.6369,
"step": 8310
},
{
"epoch": 0.8874666666666666,
"grad_norm": 0.9317147942454577,
"learning_rate": 1.144747800529678e-07,
"loss": 1.6308,
"step": 8320
},
{
"epoch": 0.8885333333333333,
"grad_norm": 0.9515029226341447,
"learning_rate": 1.1234431435694243e-07,
"loss": 1.6333,
"step": 8330
},
{
"epoch": 0.8896,
"grad_norm": 0.9350942810393381,
"learning_rate": 1.1023308865192961e-07,
"loss": 1.6308,
"step": 8340
},
{
"epoch": 0.8906666666666667,
"grad_norm": 0.9491761877335818,
"learning_rate": 1.0814113221029404e-07,
"loss": 1.6253,
"step": 8350
},
{
"epoch": 0.8917333333333334,
"grad_norm": 0.9266677015384425,
"learning_rate": 1.0606847403722996e-07,
"loss": 1.629,
"step": 8360
},
{
"epoch": 0.8928,
"grad_norm": 0.9366880385575693,
"learning_rate": 1.0401514287036018e-07,
"loss": 1.62,
"step": 8370
},
{
"epoch": 0.8938666666666667,
"grad_norm": 0.9381857415312465,
"learning_rate": 1.0198116717933531e-07,
"loss": 1.6332,
"step": 8380
},
{
"epoch": 0.8949333333333334,
"grad_norm": 0.9220783699127031,
"learning_rate": 9.996657516544067e-08,
"loss": 1.6263,
"step": 8390
},
{
"epoch": 0.896,
"grad_norm": 0.9470301487792465,
"learning_rate": 9.79713947612052e-08,
"loss": 1.6333,
"step": 8400
},
{
"epoch": 0.8970666666666667,
"grad_norm": 0.9352120366980349,
"learning_rate": 9.59956536300135e-08,
"loss": 1.6389,
"step": 8410
},
{
"epoch": 0.8981333333333333,
"grad_norm": 0.9113947996942928,
"learning_rate": 9.403937916572259e-08,
"loss": 1.6429,
"step": 8420
},
{
"epoch": 0.8992,
"grad_norm": 0.8925131049642812,
"learning_rate": 9.210259849228237e-08,
"loss": 1.6387,
"step": 8430
},
{
"epoch": 0.9002666666666667,
"grad_norm": 0.9600996952948123,
"learning_rate": 9.018533846335896e-08,
"loss": 1.6267,
"step": 8440
},
{
"epoch": 0.9013333333333333,
"grad_norm": 0.9232966558571415,
"learning_rate": 8.828762566196319e-08,
"loss": 1.6279,
"step": 8450
},
{
"epoch": 0.9024,
"grad_norm": 0.9560911929646494,
"learning_rate": 8.640948640008112e-08,
"loss": 1.633,
"step": 8460
},
{
"epoch": 0.9034666666666666,
"grad_norm": 0.9501293649139604,
"learning_rate": 8.455094671830976e-08,
"loss": 1.6373,
"step": 8470
},
{
"epoch": 0.9045333333333333,
"grad_norm": 0.9095732752853755,
"learning_rate": 8.271203238549585e-08,
"loss": 1.6329,
"step": 8480
},
{
"epoch": 0.9056,
"grad_norm": 0.9202893558936088,
"learning_rate": 8.089276889837893e-08,
"loss": 1.6302,
"step": 8490
},
{
"epoch": 0.9066666666666666,
"grad_norm": 1.0176712647143167,
"learning_rate": 7.909318148123685e-08,
"loss": 1.6354,
"step": 8500
},
{
"epoch": 0.9077333333333333,
"grad_norm": 0.9692221815470302,
"learning_rate": 7.73132950855373e-08,
"loss": 1.6328,
"step": 8510
},
{
"epoch": 0.9088,
"grad_norm": 0.9576308199080018,
"learning_rate": 7.555313438959121e-08,
"loss": 1.6272,
"step": 8520
},
{
"epoch": 0.9098666666666667,
"grad_norm": 0.9128999367042134,
"learning_rate": 7.381272379821025e-08,
"loss": 1.6282,
"step": 8530
},
{
"epoch": 0.9109333333333334,
"grad_norm": 0.9333943437345787,
"learning_rate": 7.209208744236928e-08,
"loss": 1.6415,
"step": 8540
},
{
"epoch": 0.912,
"grad_norm": 0.9433897251073365,
"learning_rate": 7.039124917887085e-08,
"loss": 1.6352,
"step": 8550
},
{
"epoch": 0.9130666666666667,
"grad_norm": 0.9659053748946873,
"learning_rate": 6.871023259001507e-08,
"loss": 1.6379,
"step": 8560
},
{
"epoch": 0.9141333333333334,
"grad_norm": 0.9615236346909984,
"learning_rate": 6.70490609832729e-08,
"loss": 1.6352,
"step": 8570
},
{
"epoch": 0.9152,
"grad_norm": 0.9519049666328206,
"learning_rate": 6.540775739096172e-08,
"loss": 1.6443,
"step": 8580
},
{
"epoch": 0.9162666666666667,
"grad_norm": 0.9474855204667592,
"learning_rate": 6.37863445699276e-08,
"loss": 1.6215,
"step": 8590
},
{
"epoch": 0.9173333333333333,
"grad_norm": 0.9161593103822747,
"learning_rate": 6.21848450012284e-08,
"loss": 1.6258,
"step": 8600
},
{
"epoch": 0.9184,
"grad_norm": 0.9309047031192346,
"learning_rate": 6.060328088982315e-08,
"loss": 1.6326,
"step": 8610
},
{
"epoch": 0.9194666666666667,
"grad_norm": 0.9681785505992061,
"learning_rate": 5.904167416426315e-08,
"loss": 1.6312,
"step": 8620
},
{
"epoch": 0.9205333333333333,
"grad_norm": 0.9428849907311279,
"learning_rate": 5.75000464763889e-08,
"loss": 1.6388,
"step": 8630
},
{
"epoch": 0.9216,
"grad_norm": 0.9489322476820965,
"learning_rate": 5.597841920102947e-08,
"loss": 1.6404,
"step": 8640
},
{
"epoch": 0.9226666666666666,
"grad_norm": 0.970305859948567,
"learning_rate": 5.447681343570543e-08,
"loss": 1.6361,
"step": 8650
},
{
"epoch": 0.9237333333333333,
"grad_norm": 0.9595081156420191,
"learning_rate": 5.2995250000338224e-08,
"loss": 1.6219,
"step": 8660
},
{
"epoch": 0.9248,
"grad_norm": 0.9485522118690562,
"learning_rate": 5.15337494369591e-08,
"loss": 1.6356,
"step": 8670
},
{
"epoch": 0.9258666666666666,
"grad_norm": 0.9382811704721642,
"learning_rate": 5.009233200942648e-08,
"loss": 1.6343,
"step": 8680
},
{
"epoch": 0.9269333333333334,
"grad_norm": 0.9777015886162362,
"learning_rate": 4.867101770314303e-08,
"loss": 1.6347,
"step": 8690
},
{
"epoch": 0.928,
"grad_norm": 0.9858586484940944,
"learning_rate": 4.726982622478038e-08,
"loss": 1.6338,
"step": 8700
},
{
"epoch": 0.9290666666666667,
"grad_norm": 0.9482608855123564,
"learning_rate": 4.5888777002004834e-08,
"loss": 1.6379,
"step": 8710
},
{
"epoch": 0.9301333333333334,
"grad_norm": 0.9258622637875238,
"learning_rate": 4.452788918320777e-08,
"loss": 1.6235,
"step": 8720
},
{
"epoch": 0.9312,
"grad_norm": 0.9689013795231691,
"learning_rate": 4.3187181637241e-08,
"loss": 1.6406,
"step": 8730
},
{
"epoch": 0.9322666666666667,
"grad_norm": 0.9352149102818589,
"learning_rate": 4.186667295315483e-08,
"loss": 1.6304,
"step": 8740
},
{
"epoch": 0.9333333333333333,
"grad_norm": 0.9497368079567347,
"learning_rate": 4.056638143994007e-08,
"loss": 1.6443,
"step": 8750
},
{
"epoch": 0.9344,
"grad_norm": 0.9280402103217801,
"learning_rate": 3.9286325126274116e-08,
"loss": 1.6282,
"step": 8760
},
{
"epoch": 0.9354666666666667,
"grad_norm": 0.9278284934121408,
"learning_rate": 3.802652176027177e-08,
"loss": 1.6323,
"step": 8770
},
{
"epoch": 0.9365333333333333,
"grad_norm": 0.940694244353313,
"learning_rate": 3.6786988809238145e-08,
"loss": 1.641,
"step": 8780
},
{
"epoch": 0.9376,
"grad_norm": 0.9579364265963041,
"learning_rate": 3.5567743459426983e-08,
"loss": 1.6319,
"step": 8790
},
{
"epoch": 0.9386666666666666,
"grad_norm": 0.9323896548734771,
"learning_rate": 3.436880261580239e-08,
"loss": 1.6333,
"step": 8800
},
{
"epoch": 0.9397333333333333,
"grad_norm": 0.9107131542488688,
"learning_rate": 3.3190182901804645e-08,
"loss": 1.624,
"step": 8810
},
{
"epoch": 0.9408,
"grad_norm": 0.9122602488087281,
"learning_rate": 3.2031900659118926e-08,
"loss": 1.6297,
"step": 8820
},
{
"epoch": 0.9418666666666666,
"grad_norm": 0.9264648930574754,
"learning_rate": 3.089397194744964e-08,
"loss": 1.6334,
"step": 8830
},
{
"epoch": 0.9429333333333333,
"grad_norm": 0.9502832962203557,
"learning_rate": 2.9776412544297248e-08,
"loss": 1.6275,
"step": 8840
},
{
"epoch": 0.944,
"grad_norm": 0.951435670056853,
"learning_rate": 2.867923794473931e-08,
"loss": 1.6396,
"step": 8850
},
{
"epoch": 0.9450666666666667,
"grad_norm": 0.9487271240519581,
"learning_rate": 2.7602463361216635e-08,
"loss": 1.6354,
"step": 8860
},
{
"epoch": 0.9461333333333334,
"grad_norm": 0.9398160578682724,
"learning_rate": 2.6546103723320948e-08,
"loss": 1.636,
"step": 8870
},
{
"epoch": 0.9472,
"grad_norm": 0.9371233663931642,
"learning_rate": 2.551017367758923e-08,
"loss": 1.6336,
"step": 8880
},
{
"epoch": 0.9482666666666667,
"grad_norm": 0.9339462150836423,
"learning_rate": 2.4494687587299557e-08,
"loss": 1.6348,
"step": 8890
},
{
"epoch": 0.9493333333333334,
"grad_norm": 0.8961585299434538,
"learning_rate": 2.3499659532272734e-08,
"loss": 1.6392,
"step": 8900
},
{
"epoch": 0.9504,
"grad_norm": 0.9475292681399808,
"learning_rate": 2.252510330867663e-08,
"loss": 1.6279,
"step": 8910
},
{
"epoch": 0.9514666666666667,
"grad_norm": 0.9276791810945861,
"learning_rate": 2.157103242883518e-08,
"loss": 1.6332,
"step": 8920
},
{
"epoch": 0.9525333333333333,
"grad_norm": 0.9219578806810178,
"learning_rate": 2.0637460121040508e-08,
"loss": 1.6313,
"step": 8930
},
{
"epoch": 0.9536,
"grad_norm": 0.9569383594988456,
"learning_rate": 1.972439932937059e-08,
"loss": 1.6263,
"step": 8940
},
{
"epoch": 0.9546666666666667,
"grad_norm": 0.930427255076047,
"learning_rate": 1.883186271350823e-08,
"loss": 1.6261,
"step": 8950
},
{
"epoch": 0.9557333333333333,
"grad_norm": 0.9324332154723478,
"learning_rate": 1.7959862648567025e-08,
"loss": 1.6387,
"step": 8960
},
{
"epoch": 0.9568,
"grad_norm": 0.9201294027416077,
"learning_rate": 1.710841122491885e-08,
"loss": 1.632,
"step": 8970
},
{
"epoch": 0.9578666666666666,
"grad_norm": 0.9464995644879638,
"learning_rate": 1.6277520248026978e-08,
"loss": 1.6316,
"step": 8980
},
{
"epoch": 0.9589333333333333,
"grad_norm": 0.9395066915769571,
"learning_rate": 1.546720123828105e-08,
"loss": 1.6369,
"step": 8990
},
{
"epoch": 0.96,
"grad_norm": 0.9433874788486356,
"learning_rate": 1.4677465430839198e-08,
"loss": 1.6354,
"step": 9000
},
{
"epoch": 0.9610666666666666,
"grad_norm": 0.9415014511795468,
"learning_rate": 1.3908323775470689e-08,
"loss": 1.625,
"step": 9010
},
{
"epoch": 0.9621333333333333,
"grad_norm": 0.8864833148590212,
"learning_rate": 1.3159786936405016e-08,
"loss": 1.6239,
"step": 9020
},
{
"epoch": 0.9632,
"grad_norm": 0.9261157313988163,
"learning_rate": 1.2431865292183375e-08,
"loss": 1.6406,
"step": 9030
},
{
"epoch": 0.9642666666666667,
"grad_norm": 0.9617086010062447,
"learning_rate": 1.17245689355156e-08,
"loss": 1.6325,
"step": 9040
},
{
"epoch": 0.9653333333333334,
"grad_norm": 0.9243457951979348,
"learning_rate": 1.1037907673139614e-08,
"loss": 1.6284,
"step": 9050
},
{
"epoch": 0.9664,
"grad_norm": 0.9655422606805738,
"learning_rate": 1.0371891025685364e-08,
"loss": 1.6333,
"step": 9060
},
{
"epoch": 0.9674666666666667,
"grad_norm": 1.0009551957956027,
"learning_rate": 9.726528227543275e-09,
"loss": 1.6213,
"step": 9070
},
{
"epoch": 0.9685333333333334,
"grad_norm": 0.9727380854894494,
"learning_rate": 9.101828226735997e-09,
"loss": 1.632,
"step": 9080
},
{
"epoch": 0.9696,
"grad_norm": 0.9576261690535406,
"learning_rate": 8.49779968479436e-09,
"loss": 1.6458,
"step": 9090
},
{
"epoch": 0.9706666666666667,
"grad_norm": 0.9321334175175461,
"learning_rate": 7.914450976636956e-09,
"loss": 1.6394,
"step": 9100
},
{
"epoch": 0.9717333333333333,
"grad_norm": 0.9362305889549292,
"learning_rate": 7.351790190454732e-09,
"loss": 1.6338,
"step": 9110
},
{
"epoch": 0.9728,
"grad_norm": 0.9464941846758462,
"learning_rate": 6.80982512759809e-09,
"loss": 1.6384,
"step": 9120
},
{
"epoch": 0.9738666666666667,
"grad_norm": 0.96604353018059,
"learning_rate": 6.288563302469463e-09,
"loss": 1.6343,
"step": 9130
},
{
"epoch": 0.9749333333333333,
"grad_norm": 0.9334970167408375,
"learning_rate": 5.788011942418236e-09,
"loss": 1.6334,
"step": 9140
},
{
"epoch": 0.976,
"grad_norm": 0.9588561708099547,
"learning_rate": 5.308177987641494e-09,
"loss": 1.6276,
"step": 9150
},
{
"epoch": 0.9770666666666666,
"grad_norm": 0.9642393589354289,
"learning_rate": 4.8490680910870945e-09,
"loss": 1.6286,
"step": 9160
},
{
"epoch": 0.9781333333333333,
"grad_norm": 0.9386074607286888,
"learning_rate": 4.410688618361747e-09,
"loss": 1.6343,
"step": 9170
},
{
"epoch": 0.9792,
"grad_norm": 0.9869238073293529,
"learning_rate": 3.993045647642579e-09,
"loss": 1.6257,
"step": 9180
},
{
"epoch": 0.9802666666666666,
"grad_norm": 0.9123442625224786,
"learning_rate": 3.5961449695928737e-09,
"loss": 1.6261,
"step": 9190
},
{
"epoch": 0.9813333333333333,
"grad_norm": 0.9782673976452867,
"learning_rate": 3.2199920872821308e-09,
"loss": 1.6411,
"step": 9200
},
{
"epoch": 0.9824,
"grad_norm": 0.9411930295828181,
"learning_rate": 2.8645922161092963e-09,
"loss": 1.6279,
"step": 9210
},
{
"epoch": 0.9834666666666667,
"grad_norm": 0.9841652547201047,
"learning_rate": 2.52995028373082e-09,
"loss": 1.6443,
"step": 9220
},
{
"epoch": 0.9845333333333334,
"grad_norm": 0.9070051272958216,
"learning_rate": 2.216070929991876e-09,
"loss": 1.635,
"step": 9230
},
{
"epoch": 0.9856,
"grad_norm": 0.9258258864356878,
"learning_rate": 1.922958506862582e-09,
"loss": 1.6301,
"step": 9240
},
{
"epoch": 0.9866666666666667,
"grad_norm": 0.9197003736023448,
"learning_rate": 1.650617078377381e-09,
"loss": 1.6274,
"step": 9250
},
{
"epoch": 0.9877333333333334,
"grad_norm": 0.9194979063676701,
"learning_rate": 1.3990504205782516e-09,
"loss": 1.6315,
"step": 9260
},
{
"epoch": 0.9888,
"grad_norm": 0.9632920760204665,
"learning_rate": 1.1682620214637506e-09,
"loss": 1.6363,
"step": 9270
},
{
"epoch": 0.9898666666666667,
"grad_norm": 0.9590108938487516,
"learning_rate": 9.582550809385526e-10,
"loss": 1.6355,
"step": 9280
},
{
"epoch": 0.9909333333333333,
"grad_norm": 0.9011137657084308,
"learning_rate": 7.69032510771317e-10,
"loss": 1.6358,
"step": 9290
},
{
"epoch": 0.992,
"grad_norm": 0.9596435749379726,
"learning_rate": 6.005969345523888e-10,
"loss": 1.6348,
"step": 9300
},
{
"epoch": 0.9930666666666667,
"grad_norm": 0.9231085063304528,
"learning_rate": 4.529506876588263e-10,
"loss": 1.635,
"step": 9310
},
{
"epoch": 0.9941333333333333,
"grad_norm": 0.9061587181921975,
"learning_rate": 3.2609581722109483e-10,
"loss": 1.6287,
"step": 9320
},
{
"epoch": 0.9952,
"grad_norm": 0.9645007935557943,
"learning_rate": 2.2003408209542165e-10,
"loss": 1.6305,
"step": 9330
},
{
"epoch": 0.9962666666666666,
"grad_norm": 0.996481296275473,
"learning_rate": 1.3476695283881624e-10,
"loss": 1.6346,
"step": 9340
},
{
"epoch": 0.9973333333333333,
"grad_norm": 0.9345739738178087,
"learning_rate": 7.02956116887532e-11,
"loss": 1.6291,
"step": 9350
},
{
"epoch": 0.9984,
"grad_norm": 0.9569806836560619,
"learning_rate": 2.6620952547184994e-11,
"loss": 1.6236,
"step": 9360
},
{
"epoch": 0.9994666666666666,
"grad_norm": 0.9508786461938172,
"learning_rate": 3.743580967885407e-12,
"loss": 1.6365,
"step": 9370
}
],
"logging_steps": 10,
"max_steps": 9375,
"num_input_tokens_seen": 0,
"num_train_epochs": 1,
"save_steps": 1000,
"stateful_callbacks": {
"TrainerControl": {
"args": {
"should_epoch_stop": false,
"should_evaluate": false,
"should_log": false,
"should_save": true,
"should_training_stop": true
},
"attributes": {}
}
},
"total_flos": 859560710701056.0,
"train_batch_size": 4,
"trial_name": null,
"trial_params": null
}