Spaces:

rat45
/

sql-sft-lora-model

Running

App Files Files Community

sql-sft-lora-model / LoRA_model /trainer_state.json

rat45

Upload folder using huggingface_hub

b507220 verified 10 months ago

raw

history blame contribute delete

60.8 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 2.0,
	"eval_steps": 500,
	"global_step": 1250,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.008,
	"grad_norm": 0.8926979899406433,
	"learning_rate": 1.9999649082784807e-05,
	"loss": 1.915,
	"mean_token_accuracy": 0.6236007302999497,
	"num_tokens": 6210.0,
	"step": 5
	},
	{
	"epoch": 0.016,
	"grad_norm": 1.0845613479614258,
	"learning_rate": 1.9998596355767805e-05,
	"loss": 1.9663,
	"mean_token_accuracy": 0.6149427682161331,
	"num_tokens": 12009.0,
	"step": 10
	},
	{
	"epoch": 0.024,
	"grad_norm": 1.2039991617202759,
	"learning_rate": 1.9996841892833e-05,
	"loss": 1.9187,
	"mean_token_accuracy": 0.6216587990522384,
	"num_tokens": 17962.0,
	"step": 15
	},
	{
	"epoch": 0.032,
	"grad_norm": 1.0329039096832275,
	"learning_rate": 1.9994385817114644e-05,
	"loss": 1.8672,
	"mean_token_accuracy": 0.6195997446775436,
	"num_tokens": 23774.0,
	"step": 20
	},
	{
	"epoch": 0.04,
	"grad_norm": 1.345142126083374,
	"learning_rate": 1.9991228300988586e-05,
	"loss": 1.8149,
	"mean_token_accuracy": 0.6287452057003975,
	"num_tokens": 29787.0,
	"step": 25
	},
	{
	"epoch": 0.048,
	"grad_norm": 1.151061773300171,
	"learning_rate": 1.998736956606018e-05,
	"loss": 1.7157,
	"mean_token_accuracy": 0.6416823953390122,
	"num_tokens": 35996.0,
	"step": 30
	},
	{
	"epoch": 0.056,
	"grad_norm": 1.244079828262329,
	"learning_rate": 1.998280988314872e-05,
	"loss": 1.7079,
	"mean_token_accuracy": 0.643532133102417,
	"num_tokens": 42228.0,
	"step": 35
	},
	{
	"epoch": 0.064,
	"grad_norm": 1.2181051969528198,
	"learning_rate": 1.997754957226847e-05,
	"loss": 1.6285,
	"mean_token_accuracy": 0.6439681276679039,
	"num_tokens": 48201.0,
	"step": 40
	},
	{
	"epoch": 0.072,
	"grad_norm": 1.4243274927139282,
	"learning_rate": 1.997158900260614e-05,
	"loss": 1.5656,
	"mean_token_accuracy": 0.6529261693358421,
	"num_tokens": 54156.0,
	"step": 45
	},
	{
	"epoch": 0.08,
	"grad_norm": 1.655982255935669,
	"learning_rate": 1.9964928592495046e-05,
	"loss": 1.5318,
	"mean_token_accuracy": 0.6556347042322159,
	"num_tokens": 59789.0,
	"step": 50
	},
	{
	"epoch": 0.088,
	"grad_norm": 1.7871781587600708,
	"learning_rate": 1.9957568809385693e-05,
	"loss": 1.4525,
	"mean_token_accuracy": 0.6752936288714408,
	"num_tokens": 65529.0,
	"step": 55
	},
	{
	"epoch": 0.096,
	"grad_norm": 1.5810030698776245,
	"learning_rate": 1.9949510169813006e-05,
	"loss": 1.3936,
	"mean_token_accuracy": 0.6881851211190224,
	"num_tokens": 71580.0,
	"step": 60
	},
	{
	"epoch": 0.104,
	"grad_norm": 1.2322911024093628,
	"learning_rate": 1.9940753239360047e-05,
	"loss": 1.2931,
	"mean_token_accuracy": 0.705792248249054,
	"num_tokens": 77696.0,
	"step": 65
	},
	{
	"epoch": 0.112,
	"grad_norm": 1.869781255722046,
	"learning_rate": 1.9931298632618355e-05,
	"loss": 1.2388,
	"mean_token_accuracy": 0.7188379809260368,
	"num_tokens": 83593.0,
	"step": 70
	},
	{
	"epoch": 0.12,
	"grad_norm": 1.4321820735931396,
	"learning_rate": 1.9921147013144782e-05,
	"loss": 1.1519,
	"mean_token_accuracy": 0.7377950385212898,
	"num_tokens": 89420.0,
	"step": 75
	},
	{
	"epoch": 0.128,
	"grad_norm": 1.0898200273513794,
	"learning_rate": 1.991029909341493e-05,
	"loss": 1.1292,
	"mean_token_accuracy": 0.7410064041614532,
	"num_tokens": 95764.0,
	"step": 80
	},
	{
	"epoch": 0.136,
	"grad_norm": 0.8793467283248901,
	"learning_rate": 1.989875563477316e-05,
	"loss": 1.0849,
	"mean_token_accuracy": 0.7562480002641678,
	"num_tokens": 101572.0,
	"step": 85
	},
	{
	"epoch": 0.144,
	"grad_norm": 1.2151330709457397,
	"learning_rate": 1.988651744737914e-05,
	"loss": 1.0784,
	"mean_token_accuracy": 0.7531677842140198,
	"num_tokens": 107521.0,
	"step": 90
	},
	{
	"epoch": 0.152,
	"grad_norm": 1.0950583219528198,
	"learning_rate": 1.9873585390151003e-05,
	"loss": 1.025,
	"mean_token_accuracy": 0.7635247632861137,
	"num_tokens": 113770.0,
	"step": 95
	},
	{
	"epoch": 0.16,
	"grad_norm": 0.9222788214683533,
	"learning_rate": 1.985996037070505e-05,
	"loss": 1.0575,
	"mean_token_accuracy": 0.7597984328866005,
	"num_tokens": 119764.0,
	"step": 100
	},
	{
	"epoch": 0.168,
	"grad_norm": 0.8580851554870605,
	"learning_rate": 1.9845643345292055e-05,
	"loss": 0.9968,
	"mean_token_accuracy": 0.7612782716751099,
	"num_tokens": 125792.0,
	"step": 105
	},
	{
	"epoch": 0.176,
	"grad_norm": 1.1582268476486206,
	"learning_rate": 1.9830635318730155e-05,
	"loss": 1.0357,
	"mean_token_accuracy": 0.7526804327964782,
	"num_tokens": 131722.0,
	"step": 110
	},
	{
	"epoch": 0.184,
	"grad_norm": 1.106162428855896,
	"learning_rate": 1.981493734433433e-05,
	"loss": 1.0262,
	"mean_token_accuracy": 0.7645935282111168,
	"num_tokens": 137469.0,
	"step": 115
	},
	{
	"epoch": 0.192,
	"grad_norm": 1.4415435791015625,
	"learning_rate": 1.979855052384247e-05,
	"loss": 0.955,
	"mean_token_accuracy": 0.7726871728897095,
	"num_tokens": 143726.0,
	"step": 120
	},
	{
	"epoch": 0.2,
	"grad_norm": 1.089171290397644,
	"learning_rate": 1.9781476007338058e-05,
	"loss": 0.9509,
	"mean_token_accuracy": 0.778785240650177,
	"num_tokens": 149903.0,
	"step": 125
	},
	{
	"epoch": 0.208,
	"grad_norm": 1.1151140928268433,
	"learning_rate": 1.976371499316945e-05,
	"loss": 0.8961,
	"mean_token_accuracy": 0.7866656824946403,
	"num_tokens": 156017.0,
	"step": 130
	},
	{
	"epoch": 0.216,
	"grad_norm": 0.8687840104103088,
	"learning_rate": 1.9745268727865774e-05,
	"loss": 0.9853,
	"mean_token_accuracy": 0.7754098773002625,
	"num_tokens": 162023.0,
	"step": 135
	},
	{
	"epoch": 0.224,
	"grad_norm": 1.1764326095581055,
	"learning_rate": 1.9726138506049438e-05,
	"loss": 0.9626,
	"mean_token_accuracy": 0.7783279910683631,
	"num_tokens": 167680.0,
	"step": 140
	},
	{
	"epoch": 0.232,
	"grad_norm": 1.0557278394699097,
	"learning_rate": 1.9706325670345276e-05,
	"loss": 0.9459,
	"mean_token_accuracy": 0.782708041369915,
	"num_tokens": 173399.0,
	"step": 145
	},
	{
	"epoch": 0.24,
	"grad_norm": 0.9362039566040039,
	"learning_rate": 1.9685831611286312e-05,
	"loss": 0.9103,
	"mean_token_accuracy": 0.781058345735073,
	"num_tokens": 179707.0,
	"step": 150
	},
	{
	"epoch": 0.248,
	"grad_norm": 1.031844973564148,
	"learning_rate": 1.9664657767216176e-05,
	"loss": 0.9124,
	"mean_token_accuracy": 0.7841480255126954,
	"num_tokens": 185557.0,
	"step": 155
	},
	{
	"epoch": 0.256,
	"grad_norm": 0.9480335712432861,
	"learning_rate": 1.964280562418815e-05,
	"loss": 0.9323,
	"mean_token_accuracy": 0.7855196356773376,
	"num_tokens": 191644.0,
	"step": 160
	},
	{
	"epoch": 0.264,
	"grad_norm": 0.8738415837287903,
	"learning_rate": 1.962027671586086e-05,
	"loss": 0.9483,
	"mean_token_accuracy": 0.777952316403389,
	"num_tokens": 197484.0,
	"step": 165
	},
	{
	"epoch": 0.272,
	"grad_norm": 0.8345744609832764,
	"learning_rate": 1.9597072623390668e-05,
	"loss": 0.8611,
	"mean_token_accuracy": 0.7970519348978996,
	"num_tokens": 203437.0,
	"step": 170
	},
	{
	"epoch": 0.28,
	"grad_norm": 0.9600830674171448,
	"learning_rate": 1.9573194975320672e-05,
	"loss": 0.8807,
	"mean_token_accuracy": 0.7881375521421432,
	"num_tokens": 209364.0,
	"step": 175
	},
	{
	"epoch": 0.288,
	"grad_norm": 1.1065053939819336,
	"learning_rate": 1.9548645447466433e-05,
	"loss": 0.8945,
	"mean_token_accuracy": 0.7865997895598411,
	"num_tokens": 215644.0,
	"step": 180
	},
	{
	"epoch": 0.296,
	"grad_norm": 1.0388072729110718,
	"learning_rate": 1.9523425762798328e-05,
	"loss": 0.9352,
	"mean_token_accuracy": 0.7840969815850258,
	"num_tokens": 221329.0,
	"step": 185
	},
	{
	"epoch": 0.304,
	"grad_norm": 1.0316041707992554,
	"learning_rate": 1.949753769132067e-05,
	"loss": 0.9323,
	"mean_token_accuracy": 0.7798065140843391,
	"num_tokens": 227125.0,
	"step": 190
	},
	{
	"epoch": 0.312,
	"grad_norm": 0.925582230091095,
	"learning_rate": 1.9470983049947446e-05,
	"loss": 0.9131,
	"mean_token_accuracy": 0.7816194474697113,
	"num_tokens": 233075.0,
	"step": 195
	},
	{
	"epoch": 0.32,
	"grad_norm": 1.0397557020187378,
	"learning_rate": 1.944376370237481e-05,
	"loss": 0.8624,
	"mean_token_accuracy": 0.7949413478374481,
	"num_tokens": 239090.0,
	"step": 200
	},
	{
	"epoch": 0.328,
	"grad_norm": 0.9452941417694092,
	"learning_rate": 1.9415881558950302e-05,
	"loss": 0.8869,
	"mean_token_accuracy": 0.7879748582839966,
	"num_tokens": 245136.0,
	"step": 205
	},
	{
	"epoch": 0.336,
	"grad_norm": 1.2039729356765747,
	"learning_rate": 1.9387338576538743e-05,
	"loss": 0.8851,
	"mean_token_accuracy": 0.7879695892333984,
	"num_tokens": 251118.0,
	"step": 210
	},
	{
	"epoch": 0.344,
	"grad_norm": 0.9607964754104614,
	"learning_rate": 1.935813675838491e-05,
	"loss": 0.8707,
	"mean_token_accuracy": 0.7867416545748711,
	"num_tokens": 257070.0,
	"step": 215
	},
	{
	"epoch": 0.352,
	"grad_norm": 1.0176879167556763,
	"learning_rate": 1.9328278153972947e-05,
	"loss": 0.9031,
	"mean_token_accuracy": 0.7807257235050201,
	"num_tokens": 263183.0,
	"step": 220
	},
	{
	"epoch": 0.36,
	"grad_norm": 0.8885599970817566,
	"learning_rate": 1.9297764858882516e-05,
	"loss": 0.8765,
	"mean_token_accuracy": 0.7853849545121193,
	"num_tokens": 269103.0,
	"step": 225
	},
	{
	"epoch": 0.368,
	"grad_norm": 1.1129798889160156,
	"learning_rate": 1.9266599014641724e-05,
	"loss": 0.8507,
	"mean_token_accuracy": 0.7872389897704124,
	"num_tokens": 274991.0,
	"step": 230
	},
	{
	"epoch": 0.376,
	"grad_norm": 1.0610594749450684,
	"learning_rate": 1.9234782808576823e-05,
	"loss": 0.9264,
	"mean_token_accuracy": 0.7737136602401733,
	"num_tokens": 281227.0,
	"step": 235
	},
	{
	"epoch": 0.384,
	"grad_norm": 1.1191679239273071,
	"learning_rate": 1.9202318473658707e-05,
	"loss": 0.9039,
	"mean_token_accuracy": 0.7833364680409431,
	"num_tokens": 287074.0,
	"step": 240
	},
	{
	"epoch": 0.392,
	"grad_norm": 1.1191157102584839,
	"learning_rate": 1.9169208288346168e-05,
	"loss": 0.8519,
	"mean_token_accuracy": 0.7942998081445694,
	"num_tokens": 292840.0,
	"step": 245
	},
	{
	"epoch": 0.4,
	"grad_norm": 1.3284661769866943,
	"learning_rate": 1.913545457642601e-05,
	"loss": 0.8732,
	"mean_token_accuracy": 0.7943138211965561,
	"num_tokens": 298270.0,
	"step": 250
	},
	{
	"epoch": 0.408,
	"grad_norm": 1.1186164617538452,
	"learning_rate": 1.9101059706849957e-05,
	"loss": 0.9022,
	"mean_token_accuracy": 0.7804520472884178,
	"num_tokens": 304256.0,
	"step": 255
	},
	{
	"epoch": 0.416,
	"grad_norm": 1.570860505104065,
	"learning_rate": 1.906602609356838e-05,
	"loss": 0.8653,
	"mean_token_accuracy": 0.7954010605812073,
	"num_tokens": 309886.0,
	"step": 260
	},
	{
	"epoch": 0.424,
	"grad_norm": 1.4769788980484009,
	"learning_rate": 1.9030356195360875e-05,
	"loss": 0.9436,
	"mean_token_accuracy": 0.7720165103673935,
	"num_tokens": 315600.0,
	"step": 265
	},
	{
	"epoch": 0.432,
	"grad_norm": 1.3115391731262207,
	"learning_rate": 1.899405251566371e-05,
	"loss": 0.8888,
	"mean_token_accuracy": 0.7815406247973442,
	"num_tokens": 321505.0,
	"step": 270
	},
	{
	"epoch": 0.44,
	"grad_norm": 1.1410883665084839,
	"learning_rate": 1.895711760239413e-05,
	"loss": 0.8594,
	"mean_token_accuracy": 0.7837367206811905,
	"num_tokens": 327551.0,
	"step": 275
	},
	{
	"epoch": 0.448,
	"grad_norm": 0.9591237902641296,
	"learning_rate": 1.8919554047771508e-05,
	"loss": 0.8754,
	"mean_token_accuracy": 0.7869080483913422,
	"num_tokens": 333256.0,
	"step": 280
	},
	{
	"epoch": 0.456,
	"grad_norm": 1.1006039381027222,
	"learning_rate": 1.8881364488135448e-05,
	"loss": 0.8767,
	"mean_token_accuracy": 0.7911439999938011,
	"num_tokens": 339470.0,
	"step": 285
	},
	{
	"epoch": 0.464,
	"grad_norm": 1.1295944452285767,
	"learning_rate": 1.8842551603760725e-05,
	"loss": 0.8486,
	"mean_token_accuracy": 0.791024886071682,
	"num_tokens": 345384.0,
	"step": 290
	},
	{
	"epoch": 0.472,
	"grad_norm": 0.8775473833084106,
	"learning_rate": 1.8803118118669203e-05,
	"loss": 0.8566,
	"mean_token_accuracy": 0.7951827242970466,
	"num_tokens": 351347.0,
	"step": 295
	},
	{
	"epoch": 0.48,
	"grad_norm": 1.2100735902786255,
	"learning_rate": 1.8763066800438638e-05,
	"loss": 0.8716,
	"mean_token_accuracy": 0.789273151755333,
	"num_tokens": 357564.0,
	"step": 300
	},
	{
	"epoch": 0.488,
	"grad_norm": 1.5061770677566528,
	"learning_rate": 1.8722400460008437e-05,
	"loss": 0.9002,
	"mean_token_accuracy": 0.7856774225831031,
	"num_tokens": 363267.0,
	"step": 305
	},
	{
	"epoch": 0.496,
	"grad_norm": 1.0282052755355835,
	"learning_rate": 1.8681121951482397e-05,
	"loss": 0.8413,
	"mean_token_accuracy": 0.7916343569755554,
	"num_tokens": 369749.0,
	"step": 310
	},
	{
	"epoch": 0.504,
	"grad_norm": 1.0946552753448486,
	"learning_rate": 1.8639234171928355e-05,
	"loss": 0.9081,
	"mean_token_accuracy": 0.784088309109211,
	"num_tokens": 375785.0,
	"step": 315
	},
	{
	"epoch": 0.512,
	"grad_norm": 1.677815556526184,
	"learning_rate": 1.8596740061174912e-05,
	"loss": 0.8838,
	"mean_token_accuracy": 0.7858014374971389,
	"num_tokens": 381448.0,
	"step": 320
	},
	{
	"epoch": 0.52,
	"grad_norm": 1.0580253601074219,
	"learning_rate": 1.855364260160507e-05,
	"loss": 0.8555,
	"mean_token_accuracy": 0.7877993151545525,
	"num_tokens": 387194.0,
	"step": 325
	},
	{
	"epoch": 0.528,
	"grad_norm": 1.1060526371002197,
	"learning_rate": 1.850994481794692e-05,
	"loss": 0.8072,
	"mean_token_accuracy": 0.803234039247036,
	"num_tokens": 393263.0,
	"step": 330
	},
	{
	"epoch": 0.536,
	"grad_norm": 1.0966763496398926,
	"learning_rate": 1.8465649777061377e-05,
	"loss": 0.8491,
	"mean_token_accuracy": 0.7901261404156685,
	"num_tokens": 399258.0,
	"step": 335
	},
	{
	"epoch": 0.544,
	"grad_norm": 1.3221973180770874,
	"learning_rate": 1.8420760587726925e-05,
	"loss": 0.8998,
	"mean_token_accuracy": 0.7855966106057167,
	"num_tokens": 404461.0,
	"step": 340
	},
	{
	"epoch": 0.552,
	"grad_norm": 1.2236474752426147,
	"learning_rate": 1.837528040042142e-05,
	"loss": 0.8653,
	"mean_token_accuracy": 0.7893021360039711,
	"num_tokens": 410148.0,
	"step": 345
	},
	{
	"epoch": 0.56,
	"grad_norm": 1.3368154764175415,
	"learning_rate": 1.8329212407100996e-05,
	"loss": 0.8955,
	"mean_token_accuracy": 0.7823142364621163,
	"num_tokens": 415591.0,
	"step": 350
	},
	{
	"epoch": 0.568,
	"grad_norm": 1.0354520082473755,
	"learning_rate": 1.8282559840976043e-05,
	"loss": 0.861,
	"mean_token_accuracy": 0.7877244621515274,
	"num_tokens": 421706.0,
	"step": 355
	},
	{
	"epoch": 0.576,
	"grad_norm": 1.7042676210403442,
	"learning_rate": 1.8235325976284276e-05,
	"loss": 0.8673,
	"mean_token_accuracy": 0.7852049991488457,
	"num_tokens": 427637.0,
	"step": 360
	},
	{
	"epoch": 0.584,
	"grad_norm": 1.429971694946289,
	"learning_rate": 1.8187514128060946e-05,
	"loss": 0.8536,
	"mean_token_accuracy": 0.7903238639235497,
	"num_tokens": 433715.0,
	"step": 365
	},
	{
	"epoch": 0.592,
	"grad_norm": 1.0030739307403564,
	"learning_rate": 1.8139127651906183e-05,
	"loss": 0.815,
	"mean_token_accuracy": 0.795821775496006,
	"num_tokens": 439724.0,
	"step": 370
	},
	{
	"epoch": 0.6,
	"grad_norm": 1.2871325016021729,
	"learning_rate": 1.8090169943749477e-05,
	"loss": 0.8762,
	"mean_token_accuracy": 0.7886411756277084,
	"num_tokens": 446378.0,
	"step": 375
	},
	{
	"epoch": 0.608,
	"grad_norm": 1.5208072662353516,
	"learning_rate": 1.8040644439611348e-05,
	"loss": 0.8861,
	"mean_token_accuracy": 0.7832151293754578,
	"num_tokens": 452313.0,
	"step": 380
	},
	{
	"epoch": 0.616,
	"grad_norm": 1.665307641029358,
	"learning_rate": 1.79905546153622e-05,
	"loss": 0.851,
	"mean_token_accuracy": 0.7918971106410027,
	"num_tokens": 458505.0,
	"step": 385
	},
	{
	"epoch": 0.624,
	"grad_norm": 1.1428550481796265,
	"learning_rate": 1.7939903986478354e-05,
	"loss": 0.8525,
	"mean_token_accuracy": 0.7893514275550843,
	"num_tokens": 464226.0,
	"step": 390
	},
	{
	"epoch": 0.632,
	"grad_norm": 1.140528917312622,
	"learning_rate": 1.7888696107795343e-05,
	"loss": 0.8131,
	"mean_token_accuracy": 0.8022583290934563,
	"num_tokens": 470086.0,
	"step": 395
	},
	{
	"epoch": 0.64,
	"grad_norm": 1.0871620178222656,
	"learning_rate": 1.78369345732584e-05,
	"loss": 0.8211,
	"mean_token_accuracy": 0.8043899014592171,
	"num_tokens": 475819.0,
	"step": 400
	},
	{
	"epoch": 0.648,
	"grad_norm": 1.1760526895523071,
	"learning_rate": 1.7784623015670237e-05,
	"loss": 0.8811,
	"mean_token_accuracy": 0.7891304656863213,
	"num_tokens": 482091.0,
	"step": 405
	},
	{
	"epoch": 0.656,
	"grad_norm": 1.117303729057312,
	"learning_rate": 1.7731765106436073e-05,
	"loss": 0.845,
	"mean_token_accuracy": 0.7931285366415978,
	"num_tokens": 488068.0,
	"step": 410
	},
	{
	"epoch": 0.664,
	"grad_norm": 1.2734001874923706,
	"learning_rate": 1.767836455530598e-05,
	"loss": 0.907,
	"mean_token_accuracy": 0.783031564950943,
	"num_tokens": 493871.0,
	"step": 415
	},
	{
	"epoch": 0.672,
	"grad_norm": 1.4908583164215088,
	"learning_rate": 1.762442511011448e-05,
	"loss": 0.8853,
	"mean_token_accuracy": 0.7815811723470688,
	"num_tokens": 499751.0,
	"step": 420
	},
	{
	"epoch": 0.68,
	"grad_norm": 1.2894372940063477,
	"learning_rate": 1.7569950556517566e-05,
	"loss": 0.8461,
	"mean_token_accuracy": 0.7941734075546265,
	"num_tokens": 505816.0,
	"step": 425
	},
	{
	"epoch": 0.688,
	"grad_norm": 1.237874150276184,
	"learning_rate": 1.7514944717726962e-05,
	"loss": 0.8388,
	"mean_token_accuracy": 0.7915323451161385,
	"num_tokens": 511745.0,
	"step": 430
	},
	{
	"epoch": 0.696,
	"grad_norm": 1.0999034643173218,
	"learning_rate": 1.7459411454241822e-05,
	"loss": 0.836,
	"mean_token_accuracy": 0.7994311302900314,
	"num_tokens": 517968.0,
	"step": 435
	},
	{
	"epoch": 0.704,
	"grad_norm": 1.4175597429275513,
	"learning_rate": 1.7403354663577782e-05,
	"loss": 0.8139,
	"mean_token_accuracy": 0.799339534342289,
	"num_tokens": 524079.0,
	"step": 440
	},
	{
	"epoch": 0.712,
	"grad_norm": 1.1123442649841309,
	"learning_rate": 1.7346778279993417e-05,
	"loss": 0.8159,
	"mean_token_accuracy": 0.7988538891077042,
	"num_tokens": 530403.0,
	"step": 445
	},
	{
	"epoch": 0.72,
	"grad_norm": 1.0958361625671387,
	"learning_rate": 1.7289686274214116e-05,
	"loss": 0.8934,
	"mean_token_accuracy": 0.783437828719616,
	"num_tokens": 536165.0,
	"step": 450
	},
	{
	"epoch": 0.728,
	"grad_norm": 1.0283623933792114,
	"learning_rate": 1.7232082653153422e-05,
	"loss": 0.8398,
	"mean_token_accuracy": 0.784825636446476,
	"num_tokens": 542277.0,
	"step": 455
	},
	{
	"epoch": 0.736,
	"grad_norm": 1.2006138563156128,
	"learning_rate": 1.717397145963179e-05,
	"loss": 0.8515,
	"mean_token_accuracy": 0.7904125943779945,
	"num_tokens": 548374.0,
	"step": 460
	},
	{
	"epoch": 0.744,
	"grad_norm": 1.0756789445877075,
	"learning_rate": 1.7115356772092854e-05,
	"loss": 0.8633,
	"mean_token_accuracy": 0.7910906136035919,
	"num_tokens": 554387.0,
	"step": 465
	},
	{
	"epoch": 0.752,
	"grad_norm": 1.108975887298584,
	"learning_rate": 1.705624270431721e-05,
	"loss": 0.8358,
	"mean_token_accuracy": 0.7929062396287918,
	"num_tokens": 560326.0,
	"step": 470
	},
	{
	"epoch": 0.76,
	"grad_norm": 1.1952314376831055,
	"learning_rate": 1.6996633405133656e-05,
	"loss": 0.8402,
	"mean_token_accuracy": 0.7873096525669098,
	"num_tokens": 566113.0,
	"step": 475
	},
	{
	"epoch": 0.768,
	"grad_norm": 1.0153251886367798,
	"learning_rate": 1.693653305812805e-05,
	"loss": 0.8155,
	"mean_token_accuracy": 0.7994796469807625,
	"num_tokens": 572252.0,
	"step": 480
	},
	{
	"epoch": 0.776,
	"grad_norm": 1.128273844718933,
	"learning_rate": 1.6875945881349676e-05,
	"loss": 0.8804,
	"mean_token_accuracy": 0.7862005636096001,
	"num_tokens": 578388.0,
	"step": 485
	},
	{
	"epoch": 0.784,
	"grad_norm": 1.0263817310333252,
	"learning_rate": 1.68148761270152e-05,
	"loss": 0.8718,
	"mean_token_accuracy": 0.778036293387413,
	"num_tokens": 584367.0,
	"step": 490
	},
	{
	"epoch": 0.792,
	"grad_norm": 1.2925713062286377,
	"learning_rate": 1.6753328081210244e-05,
	"loss": 0.8579,
	"mean_token_accuracy": 0.7924200773239136,
	"num_tokens": 590341.0,
	"step": 495
	},
	{
	"epoch": 0.8,
	"grad_norm": 1.036569356918335,
	"learning_rate": 1.6691306063588583e-05,
	"loss": 0.8756,
	"mean_token_accuracy": 0.7841189652681351,
	"num_tokens": 596177.0,
	"step": 500
	},
	{
	"epoch": 0.808,
	"grad_norm": 1.3352292776107788,
	"learning_rate": 1.6628814427068954e-05,
	"loss": 0.8344,
	"mean_token_accuracy": 0.792496457695961,
	"num_tokens": 602474.0,
	"step": 505
	},
	{
	"epoch": 0.816,
	"grad_norm": 1.142318606376648,
	"learning_rate": 1.6565857557529567e-05,
	"loss": 0.8211,
	"mean_token_accuracy": 0.7938537418842315,
	"num_tokens": 608412.0,
	"step": 510
	},
	{
	"epoch": 0.824,
	"grad_norm": 1.1519471406936646,
	"learning_rate": 1.650243987350029e-05,
	"loss": 0.84,
	"mean_token_accuracy": 0.7874479576945305,
	"num_tokens": 614525.0,
	"step": 515
	},
	{
	"epoch": 0.832,
	"grad_norm": 1.3666894435882568,
	"learning_rate": 1.643856582585254e-05,
	"loss": 0.8436,
	"mean_token_accuracy": 0.7965899407863617,
	"num_tokens": 620623.0,
	"step": 520
	},
	{
	"epoch": 0.84,
	"grad_norm": 1.048234462738037,
	"learning_rate": 1.63742398974869e-05,
	"loss": 0.8252,
	"mean_token_accuracy": 0.7954581871628761,
	"num_tokens": 626599.0,
	"step": 525
	},
	{
	"epoch": 0.848,
	"grad_norm": 1.2072833776474,
	"learning_rate": 1.6309466603018497e-05,
	"loss": 0.8156,
	"mean_token_accuracy": 0.7952276915311813,
	"num_tokens": 632517.0,
	"step": 530
	},
	{
	"epoch": 0.856,
	"grad_norm": 1.244985818862915,
	"learning_rate": 1.624425048846016e-05,
	"loss": 0.858,
	"mean_token_accuracy": 0.7910035625100136,
	"num_tokens": 638566.0,
	"step": 535
	},
	{
	"epoch": 0.864,
	"grad_norm": 1.4564027786254883,
	"learning_rate": 1.6178596130903345e-05,
	"loss": 0.818,
	"mean_token_accuracy": 0.7960182785987854,
	"num_tokens": 644332.0,
	"step": 540
	},
	{
	"epoch": 0.872,
	"grad_norm": 1.243749737739563,
	"learning_rate": 1.611250813819692e-05,
	"loss": 0.8009,
	"mean_token_accuracy": 0.7983238011598587,
	"num_tokens": 650329.0,
	"step": 545
	},
	{
	"epoch": 0.88,
	"grad_norm": 1.1024765968322754,
	"learning_rate": 1.6045991148623752e-05,
	"loss": 0.8407,
	"mean_token_accuracy": 0.7944921687245369,
	"num_tokens": 656266.0,
	"step": 550
	},
	{
	"epoch": 0.888,
	"grad_norm": 1.2258902788162231,
	"learning_rate": 1.597904983057519e-05,
	"loss": 0.8158,
	"mean_token_accuracy": 0.7947202190756798,
	"num_tokens": 661977.0,
	"step": 555
	},
	{
	"epoch": 0.896,
	"grad_norm": 1.008183240890503,
	"learning_rate": 1.591168888222342e-05,
	"loss": 0.8302,
	"mean_token_accuracy": 0.7910092756152153,
	"num_tokens": 668076.0,
	"step": 560
	},
	{
	"epoch": 0.904,
	"grad_norm": 1.5126904249191284,
	"learning_rate": 1.5843913031191722e-05,
	"loss": 0.831,
	"mean_token_accuracy": 0.7950059458613395,
	"num_tokens": 674078.0,
	"step": 565
	},
	{
	"epoch": 0.912,
	"grad_norm": 1.405203104019165,
	"learning_rate": 1.5775727034222675e-05,
	"loss": 0.8442,
	"mean_token_accuracy": 0.7927875980734825,
	"num_tokens": 679908.0,
	"step": 570
	},
	{
	"epoch": 0.92,
	"grad_norm": 1.0306074619293213,
	"learning_rate": 1.570713567684432e-05,
	"loss": 0.8556,
	"mean_token_accuracy": 0.7945606961846352,
	"num_tokens": 685791.0,
	"step": 575
	},
	{
	"epoch": 0.928,
	"grad_norm": 1.0438185930252075,
	"learning_rate": 1.5638143773034268e-05,
	"loss": 0.8518,
	"mean_token_accuracy": 0.7933464452624321,
	"num_tokens": 691871.0,
	"step": 580
	},
	{
	"epoch": 0.936,
	"grad_norm": 1.2007946968078613,
	"learning_rate": 1.556875616488188e-05,
	"loss": 0.8222,
	"mean_token_accuracy": 0.7947555348277092,
	"num_tokens": 697838.0,
	"step": 585
	},
	{
	"epoch": 0.944,
	"grad_norm": 1.1926593780517578,
	"learning_rate": 1.54989777222484e-05,
	"loss": 0.8399,
	"mean_token_accuracy": 0.7944862857460976,
	"num_tokens": 703760.0,
	"step": 590
	},
	{
	"epoch": 0.952,
	"grad_norm": 1.5483673810958862,
	"learning_rate": 1.5428813342425177e-05,
	"loss": 0.8439,
	"mean_token_accuracy": 0.7925432935357094,
	"num_tokens": 709673.0,
	"step": 595
	},
	{
	"epoch": 0.96,
	"grad_norm": 1.1998529434204102,
	"learning_rate": 1.5358267949789968e-05,
	"loss": 0.8173,
	"mean_token_accuracy": 0.8004210472106934,
	"num_tokens": 715807.0,
	"step": 600
	},
	{
	"epoch": 0.968,
	"grad_norm": 1.2061858177185059,
	"learning_rate": 1.528734649546132e-05,
	"loss": 0.8557,
	"mean_token_accuracy": 0.7907719686627388,
	"num_tokens": 721659.0,
	"step": 605
	},
	{
	"epoch": 0.976,
	"grad_norm": 1.0802125930786133,
	"learning_rate": 1.5216053956951081e-05,
	"loss": 0.8225,
	"mean_token_accuracy": 0.7847193196415901,
	"num_tokens": 727941.0,
	"step": 610
	},
	{
	"epoch": 0.984,
	"grad_norm": 1.1718847751617432,
	"learning_rate": 1.5144395337815066e-05,
	"loss": 0.8139,
	"mean_token_accuracy": 0.8009869039058686,
	"num_tokens": 734053.0,
	"step": 615
	},
	{
	"epoch": 0.992,
	"grad_norm": 1.477616310119629,
	"learning_rate": 1.507237566730189e-05,
	"loss": 0.8273,
	"mean_token_accuracy": 0.7916375547647476,
	"num_tokens": 740050.0,
	"step": 620
	},
	{
	"epoch": 1.0,
	"grad_norm": 1.284795880317688,
	"learning_rate": 1.5000000000000002e-05,
	"loss": 0.8571,
	"mean_token_accuracy": 0.7930364921689034,
	"num_tokens": 745874.0,
	"step": 625
	},
	{
	"epoch": 1.008,
	"grad_norm": 1.4859092235565186,
	"learning_rate": 1.4927273415482916e-05,
	"loss": 0.8252,
	"mean_token_accuracy": 0.8047172293066979,
	"num_tokens": 752111.0,
	"step": 630
	},
	{
	"epoch": 1.016,
	"grad_norm": 1.6376901865005493,
	"learning_rate": 1.485420101795274e-05,
	"loss": 0.7909,
	"mean_token_accuracy": 0.8041815027594567,
	"num_tokens": 758152.0,
	"step": 635
	},
	{
	"epoch": 1.024,
	"grad_norm": 1.3351467847824097,
	"learning_rate": 1.4780787935881925e-05,
	"loss": 0.8404,
	"mean_token_accuracy": 0.7902583315968513,
	"num_tokens": 764197.0,
	"step": 640
	},
	{
	"epoch": 1.032,
	"grad_norm": 1.3304749727249146,
	"learning_rate": 1.470703932165333e-05,
	"loss": 0.8212,
	"mean_token_accuracy": 0.7978306338191032,
	"num_tokens": 770075.0,
	"step": 645
	},
	{
	"epoch": 1.04,
	"grad_norm": 1.0387990474700928,
	"learning_rate": 1.463296035119862e-05,
	"loss": 0.8376,
	"mean_token_accuracy": 0.7961583107709884,
	"num_tokens": 776252.0,
	"step": 650
	},
	{
	"epoch": 1.048,
	"grad_norm": 1.4199416637420654,
	"learning_rate": 1.4558556223635004e-05,
	"loss": 0.8514,
	"mean_token_accuracy": 0.7941056564450264,
	"num_tokens": 781797.0,
	"step": 655
	},
	{
	"epoch": 1.056,
	"grad_norm": 0.9742839336395264,
	"learning_rate": 1.4483832160900326e-05,
	"loss": 0.84,
	"mean_token_accuracy": 0.7879764214158058,
	"num_tokens": 787607.0,
	"step": 660
	},
	{
	"epoch": 1.064,
	"grad_norm": 1.1152559518814087,
	"learning_rate": 1.4408793407386587e-05,
	"loss": 0.8068,
	"mean_token_accuracy": 0.7992551028728485,
	"num_tokens": 793146.0,
	"step": 665
	},
	{
	"epoch": 1.072,
	"grad_norm": 1.1599243879318237,
	"learning_rate": 1.4333445229571874e-05,
	"loss": 0.833,
	"mean_token_accuracy": 0.7881477907299995,
	"num_tokens": 799067.0,
	"step": 670
	},
	{
	"epoch": 1.08,
	"grad_norm": 1.4914982318878174,
	"learning_rate": 1.4257792915650728e-05,
	"loss": 0.8199,
	"mean_token_accuracy": 0.7969856977462768,
	"num_tokens": 805016.0,
	"step": 675
	},
	{
	"epoch": 1.088,
	"grad_norm": 1.4309738874435425,
	"learning_rate": 1.4181841775163014e-05,
	"loss": 0.8052,
	"mean_token_accuracy": 0.800905755162239,
	"num_tokens": 810625.0,
	"step": 680
	},
	{
	"epoch": 1.096,
	"grad_norm": 1.109816312789917,
	"learning_rate": 1.4105597138621281e-05,
	"loss": 0.8151,
	"mean_token_accuracy": 0.795543110370636,
	"num_tokens": 816596.0,
	"step": 685
	},
	{
	"epoch": 1.104,
	"grad_norm": 1.2419342994689941,
	"learning_rate": 1.4029064357136628e-05,
	"loss": 0.8082,
	"mean_token_accuracy": 0.8007919058203697,
	"num_tokens": 822855.0,
	"step": 690
	},
	{
	"epoch": 1.112,
	"grad_norm": 1.24587082862854,
	"learning_rate": 1.3952248802043166e-05,
	"loss": 0.8344,
	"mean_token_accuracy": 0.796556057035923,
	"num_tokens": 828830.0,
	"step": 695
	},
	{
	"epoch": 1.12,
	"grad_norm": 1.063744068145752,
	"learning_rate": 1.3875155864521031e-05,
	"loss": 0.7801,
	"mean_token_accuracy": 0.8025736212730408,
	"num_tokens": 834959.0,
	"step": 700
	},
	{
	"epoch": 1.1280000000000001,
	"grad_norm": 1.1293323040008545,
	"learning_rate": 1.3797790955218014e-05,
	"loss": 0.7981,
	"mean_token_accuracy": 0.7934223636984825,
	"num_tokens": 841276.0,
	"step": 705
	},
	{
	"epoch": 1.1360000000000001,
	"grad_norm": 1.3948642015457153,
	"learning_rate": 1.3720159503869816e-05,
	"loss": 0.8723,
	"mean_token_accuracy": 0.7871071428060532,
	"num_tokens": 847154.0,
	"step": 710
	},
	{
	"epoch": 1.144,
	"grad_norm": 1.2734830379486084,
	"learning_rate": 1.3642266958918985e-05,
	"loss": 0.8406,
	"mean_token_accuracy": 0.7929588705301285,
	"num_tokens": 853193.0,
	"step": 715
	},
	{
	"epoch": 1.152,
	"grad_norm": 1.2411038875579834,
	"learning_rate": 1.3564118787132507e-05,
	"loss": 0.8195,
	"mean_token_accuracy": 0.8023369893431663,
	"num_tokens": 859180.0,
	"step": 720
	},
	{
	"epoch": 1.16,
	"grad_norm": 1.1774182319641113,
	"learning_rate": 1.3485720473218153e-05,
	"loss": 0.8442,
	"mean_token_accuracy": 0.7901751175522804,
	"num_tokens": 865016.0,
	"step": 725
	},
	{
	"epoch": 1.168,
	"grad_norm": 1.3339149951934814,
	"learning_rate": 1.340707751943952e-05,
	"loss": 0.8455,
	"mean_token_accuracy": 0.79264917075634,
	"num_tokens": 870974.0,
	"step": 730
	},
	{
	"epoch": 1.176,
	"grad_norm": 1.2754383087158203,
	"learning_rate": 1.3328195445229869e-05,
	"loss": 0.784,
	"mean_token_accuracy": 0.809282261133194,
	"num_tokens": 876702.0,
	"step": 735
	},
	{
	"epoch": 1.184,
	"grad_norm": 1.0842269659042358,
	"learning_rate": 1.3249079786804765e-05,
	"loss": 0.8386,
	"mean_token_accuracy": 0.795893557369709,
	"num_tokens": 882614.0,
	"step": 740
	},
	{
	"epoch": 1.192,
	"grad_norm": 1.134906530380249,
	"learning_rate": 1.316973609677352e-05,
	"loss": 0.8076,
	"mean_token_accuracy": 0.8011891514062881,
	"num_tokens": 888767.0,
	"step": 745
	},
	{
	"epoch": 1.2,
	"grad_norm": 1.200283169746399,
	"learning_rate": 1.3090169943749475e-05,
	"loss": 0.8324,
	"mean_token_accuracy": 0.7995044961571693,
	"num_tokens": 894065.0,
	"step": 750
	},
	{
	"epoch": 1.208,
	"grad_norm": 1.1556944847106934,
	"learning_rate": 1.3010386911959207e-05,
	"loss": 0.846,
	"mean_token_accuracy": 0.7956264927983284,
	"num_tokens": 899852.0,
	"step": 755
	},
	{
	"epoch": 1.216,
	"grad_norm": 1.079065203666687,
	"learning_rate": 1.2930392600850574e-05,
	"loss": 0.8138,
	"mean_token_accuracy": 0.8026395171880722,
	"num_tokens": 905691.0,
	"step": 760
	},
	{
	"epoch": 1.224,
	"grad_norm": 1.322657823562622,
	"learning_rate": 1.2850192624699762e-05,
	"loss": 0.8469,
	"mean_token_accuracy": 0.7925262525677681,
	"num_tokens": 911383.0,
	"step": 765
	},
	{
	"epoch": 1.232,
	"grad_norm": 1.3103306293487549,
	"learning_rate": 1.2769792612217224e-05,
	"loss": 0.8376,
	"mean_token_accuracy": 0.7923985093832016,
	"num_tokens": 917061.0,
	"step": 770
	},
	{
	"epoch": 1.24,
	"grad_norm": 1.2759097814559937,
	"learning_rate": 1.2689198206152657e-05,
	"loss": 0.7747,
	"mean_token_accuracy": 0.8024341821670532,
	"num_tokens": 922637.0,
	"step": 775
	},
	{
	"epoch": 1.248,
	"grad_norm": 1.4393937587738037,
	"learning_rate": 1.2608415062898971e-05,
	"loss": 0.8061,
	"mean_token_accuracy": 0.7970004111528397,
	"num_tokens": 929037.0,
	"step": 780
	},
	{
	"epoch": 1.256,
	"grad_norm": 1.2215389013290405,
	"learning_rate": 1.2527448852095295e-05,
	"loss": 0.8134,
	"mean_token_accuracy": 0.7974464222788811,
	"num_tokens": 935182.0,
	"step": 785
	},
	{
	"epoch": 1.264,
	"grad_norm": 1.6864231824874878,
	"learning_rate": 1.2446305256229074e-05,
	"loss": 0.8433,
	"mean_token_accuracy": 0.7880089089274407,
	"num_tokens": 940915.0,
	"step": 790
	},
	{
	"epoch": 1.272,
	"grad_norm": 1.2228368520736694,
	"learning_rate": 1.236498997023725e-05,
	"loss": 0.8315,
	"mean_token_accuracy": 0.7921820938587188,
	"num_tokens": 946964.0,
	"step": 795
	},
	{
	"epoch": 1.28,
	"grad_norm": 1.1751633882522583,
	"learning_rate": 1.2283508701106559e-05,
	"loss": 0.8258,
	"mean_token_accuracy": 0.7954315572977066,
	"num_tokens": 952867.0,
	"step": 800
	},
	{
	"epoch": 1.288,
	"grad_norm": 1.2997604608535767,
	"learning_rate": 1.2201867167473015e-05,
	"loss": 0.7963,
	"mean_token_accuracy": 0.79445910602808,
	"num_tokens": 959081.0,
	"step": 805
	},
	{
	"epoch": 1.296,
	"grad_norm": 1.10807466506958,
	"learning_rate": 1.212007109922055e-05,
	"loss": 0.8128,
	"mean_token_accuracy": 0.7948173075914383,
	"num_tokens": 965090.0,
	"step": 810
	},
	{
	"epoch": 1.304,
	"grad_norm": 1.3159791231155396,
	"learning_rate": 1.203812623707885e-05,
	"loss": 0.829,
	"mean_token_accuracy": 0.7960757419466973,
	"num_tokens": 971348.0,
	"step": 815
	},
	{
	"epoch": 1.312,
	"grad_norm": 1.5525962114334106,
	"learning_rate": 1.1956038332220484e-05,
	"loss": 0.8072,
	"mean_token_accuracy": 0.8035811170935631,
	"num_tokens": 976874.0,
	"step": 820
	},
	{
	"epoch": 1.32,
	"grad_norm": 1.1736457347869873,
	"learning_rate": 1.187381314585725e-05,
	"loss": 0.791,
	"mean_token_accuracy": 0.8109298884868622,
	"num_tokens": 983026.0,
	"step": 825
	},
	{
	"epoch": 1.328,
	"grad_norm": 1.191405177116394,
	"learning_rate": 1.1791456448835825e-05,
	"loss": 0.8268,
	"mean_token_accuracy": 0.7918137550354004,
	"num_tokens": 989001.0,
	"step": 830
	},
	{
	"epoch": 1.336,
	"grad_norm": 1.3512290716171265,
	"learning_rate": 1.1708974021232768e-05,
	"loss": 0.8444,
	"mean_token_accuracy": 0.790115873515606,
	"num_tokens": 995043.0,
	"step": 835
	},
	{
	"epoch": 1.3439999999999999,
	"grad_norm": 1.274695634841919,
	"learning_rate": 1.1626371651948839e-05,
	"loss": 0.8171,
	"mean_token_accuracy": 0.7923313453793526,
	"num_tokens": 1000882.0,
	"step": 840
	},
	{
	"epoch": 1.3519999999999999,
	"grad_norm": 1.3958570957183838,
	"learning_rate": 1.1543655138302714e-05,
	"loss": 0.8531,
	"mean_token_accuracy": 0.7938149958848953,
	"num_tokens": 1006642.0,
	"step": 845
	},
	{
	"epoch": 1.3599999999999999,
	"grad_norm": 1.266419529914856,
	"learning_rate": 1.1460830285624119e-05,
	"loss": 0.7806,
	"mean_token_accuracy": 0.8017867222428322,
	"num_tokens": 1012973.0,
	"step": 850
	},
	{
	"epoch": 1.3679999999999999,
	"grad_norm": 1.3229976892471313,
	"learning_rate": 1.137790290684638e-05,
	"loss": 0.8035,
	"mean_token_accuracy": 0.8037858188152314,
	"num_tokens": 1019010.0,
	"step": 855
	},
	{
	"epoch": 1.376,
	"grad_norm": 1.2124758958816528,
	"learning_rate": 1.129487882209847e-05,
	"loss": 0.8166,
	"mean_token_accuracy": 0.7993422210216522,
	"num_tokens": 1025168.0,
	"step": 860
	},
	{
	"epoch": 1.384,
	"grad_norm": 1.2201908826828003,
	"learning_rate": 1.1211763858296507e-05,
	"loss": 0.8128,
	"mean_token_accuracy": 0.7982980251312256,
	"num_tokens": 1031047.0,
	"step": 865
	},
	{
	"epoch": 1.392,
	"grad_norm": 1.0084983110427856,
	"learning_rate": 1.1128563848734817e-05,
	"loss": 0.8105,
	"mean_token_accuracy": 0.8003023475408554,
	"num_tokens": 1037575.0,
	"step": 870
	},
	{
	"epoch": 1.4,
	"grad_norm": 1.1894408464431763,
	"learning_rate": 1.1045284632676535e-05,
	"loss": 0.7904,
	"mean_token_accuracy": 0.8060181707143783,
	"num_tokens": 1043577.0,
	"step": 875
	},
	{
	"epoch": 1.408,
	"grad_norm": 1.233709454536438,
	"learning_rate": 1.0961932054943778e-05,
	"loss": 0.8299,
	"mean_token_accuracy": 0.7969600349664688,
	"num_tokens": 1049735.0,
	"step": 880
	},
	{
	"epoch": 1.416,
	"grad_norm": 1.170153260231018,
	"learning_rate": 1.0878511965507435e-05,
	"loss": 0.801,
	"mean_token_accuracy": 0.7926143258810043,
	"num_tokens": 1055885.0,
	"step": 885
	},
	{
	"epoch": 1.424,
	"grad_norm": 1.1802887916564941,
	"learning_rate": 1.07950302190766e-05,
	"loss": 0.8271,
	"mean_token_accuracy": 0.7875034034252166,
	"num_tokens": 1062382.0,
	"step": 890
	},
	{
	"epoch": 1.432,
	"grad_norm": 1.1903148889541626,
	"learning_rate": 1.071149267468767e-05,
	"loss": 0.8153,
	"mean_token_accuracy": 0.8013403192162514,
	"num_tokens": 1068374.0,
	"step": 895
	},
	{
	"epoch": 1.44,
	"grad_norm": 1.1974633932113647,
	"learning_rate": 1.0627905195293135e-05,
	"loss": 0.7853,
	"mean_token_accuracy": 0.7982048079371452,
	"num_tokens": 1074097.0,
	"step": 900
	},
	{
	"epoch": 1.448,
	"grad_norm": 1.3149733543395996,
	"learning_rate": 1.0544273647350091e-05,
	"loss": 0.7884,
	"mean_token_accuracy": 0.7991619855165482,
	"num_tokens": 1080138.0,
	"step": 905
	},
	{
	"epoch": 1.456,
	"grad_norm": 1.117723822593689,
	"learning_rate": 1.0460603900408523e-05,
	"loss": 0.8301,
	"mean_token_accuracy": 0.7960488602519036,
	"num_tokens": 1086033.0,
	"step": 910
	},
	{
	"epoch": 1.464,
	"grad_norm": 1.0806896686553955,
	"learning_rate": 1.0376901826699349e-05,
	"loss": 0.7418,
	"mean_token_accuracy": 0.815102542936802,
	"num_tokens": 1092009.0,
	"step": 915
	},
	{
	"epoch": 1.472,
	"grad_norm": 1.0784786939620972,
	"learning_rate": 1.0293173300722286e-05,
	"loss": 0.8307,
	"mean_token_accuracy": 0.7905350834131241,
	"num_tokens": 1097979.0,
	"step": 920
	},
	{
	"epoch": 1.48,
	"grad_norm": 1.1907199621200562,
	"learning_rate": 1.0209424198833571e-05,
	"loss": 0.8569,
	"mean_token_accuracy": 0.7896250411868095,
	"num_tokens": 1103820.0,
	"step": 925
	},
	{
	"epoch": 1.488,
	"grad_norm": 1.1053500175476074,
	"learning_rate": 1.0125660398833528e-05,
	"loss": 0.8264,
	"mean_token_accuracy": 0.799218937754631,
	"num_tokens": 1109796.0,
	"step": 930
	},
	{
	"epoch": 1.496,
	"grad_norm": 1.2176475524902344,
	"learning_rate": 1.0041887779554041e-05,
	"loss": 0.8187,
	"mean_token_accuracy": 0.7931439965963364,
	"num_tokens": 1115648.0,
	"step": 935
	},
	{
	"epoch": 1.504,
	"grad_norm": 1.3423031568527222,
	"learning_rate": 9.958112220445964e-06,
	"loss": 0.8589,
	"mean_token_accuracy": 0.7898055583238601,
	"num_tokens": 1121574.0,
	"step": 940
	},
	{
	"epoch": 1.512,
	"grad_norm": 1.2004626989364624,
	"learning_rate": 9.874339601166474e-06,
	"loss": 0.7966,
	"mean_token_accuracy": 0.801232923567295,
	"num_tokens": 1127148.0,
	"step": 945
	},
	{
	"epoch": 1.52,
	"grad_norm": 1.4939032793045044,
	"learning_rate": 9.790575801166432e-06,
	"loss": 0.8169,
	"mean_token_accuracy": 0.7929247871041298,
	"num_tokens": 1133222.0,
	"step": 950
	},
	{
	"epoch": 1.528,
	"grad_norm": 1.6087186336517334,
	"learning_rate": 9.706826699277719e-06,
	"loss": 0.7953,
	"mean_token_accuracy": 0.802008081972599,
	"num_tokens": 1139797.0,
	"step": 955
	},
	{
	"epoch": 1.536,
	"grad_norm": 1.4525336027145386,
	"learning_rate": 9.623098173300655e-06,
	"loss": 0.7951,
	"mean_token_accuracy": 0.8010875299572945,
	"num_tokens": 1145770.0,
	"step": 960
	},
	{
	"epoch": 1.544,
	"grad_norm": 1.455733060836792,
	"learning_rate": 9.539396099591477e-06,
	"loss": 0.7943,
	"mean_token_accuracy": 0.8002624407410621,
	"num_tokens": 1151537.0,
	"step": 965
	},
	{
	"epoch": 1.552,
	"grad_norm": 1.620224952697754,
	"learning_rate": 9.45572635264991e-06,
	"loss": 0.8281,
	"mean_token_accuracy": 0.7949922427535057,
	"num_tokens": 1157720.0,
	"step": 970
	},
	{
	"epoch": 1.56,
	"grad_norm": 1.1966170072555542,
	"learning_rate": 9.372094804706867e-06,
	"loss": 0.8129,
	"mean_token_accuracy": 0.799052669107914,
	"num_tokens": 1163859.0,
	"step": 975
	},
	{
	"epoch": 1.568,
	"grad_norm": 1.2910419702529907,
	"learning_rate": 9.288507325312334e-06,
	"loss": 0.7883,
	"mean_token_accuracy": 0.7996888637542725,
	"num_tokens": 1169977.0,
	"step": 980
	},
	{
	"epoch": 1.576,
	"grad_norm": 1.3536475896835327,
	"learning_rate": 9.204969780923404e-06,
	"loss": 0.7976,
	"mean_token_accuracy": 0.8028262749314308,
	"num_tokens": 1175928.0,
	"step": 985
	},
	{
	"epoch": 1.584,
	"grad_norm": 1.3092838525772095,
	"learning_rate": 9.121488034492569e-06,
	"loss": 0.8005,
	"mean_token_accuracy": 0.8030487224459648,
	"num_tokens": 1182385.0,
	"step": 990
	},
	{
	"epoch": 1.592,
	"grad_norm": 1.634954810142517,
	"learning_rate": 9.038067945056229e-06,
	"loss": 0.834,
	"mean_token_accuracy": 0.793434987962246,
	"num_tokens": 1188030.0,
	"step": 995
	},
	{
	"epoch": 1.6,
	"grad_norm": 1.4819631576538086,
	"learning_rate": 8.954715367323468e-06,
	"loss": 0.8065,
	"mean_token_accuracy": 0.7991513565182686,
	"num_tokens": 1194062.0,
	"step": 1000
	},
	{
	"epoch": 1.608,
	"grad_norm": 1.420319676399231,
	"learning_rate": 8.871436151265183e-06,
	"loss": 0.8174,
	"mean_token_accuracy": 0.7973307102918625,
	"num_tokens": 1199833.0,
	"step": 1005
	},
	{
	"epoch": 1.616,
	"grad_norm": 1.1758671998977661,
	"learning_rate": 8.788236141703498e-06,
	"loss": 0.7976,
	"mean_token_accuracy": 0.7996651351451873,
	"num_tokens": 1206242.0,
	"step": 1010
	},
	{
	"epoch": 1.624,
	"grad_norm": 1.2172248363494873,
	"learning_rate": 8.705121177901532e-06,
	"loss": 0.8028,
	"mean_token_accuracy": 0.8009381666779518,
	"num_tokens": 1212296.0,
	"step": 1015
	},
	{
	"epoch": 1.6320000000000001,
	"grad_norm": 1.362866759300232,
	"learning_rate": 8.62209709315362e-06,
	"loss": 0.8503,
	"mean_token_accuracy": 0.7932586327195168,
	"num_tokens": 1218390.0,
	"step": 1020
	},
	{
	"epoch": 1.6400000000000001,
	"grad_norm": 1.5994294881820679,
	"learning_rate": 8.539169714375885e-06,
	"loss": 0.791,
	"mean_token_accuracy": 0.7985045969486236,
	"num_tokens": 1224581.0,
	"step": 1025
	},
	{
	"epoch": 1.6480000000000001,
	"grad_norm": 1.3143961429595947,
	"learning_rate": 8.45634486169729e-06,
	"loss": 0.7825,
	"mean_token_accuracy": 0.7993462473154068,
	"num_tokens": 1230921.0,
	"step": 1030
	},
	{
	"epoch": 1.6560000000000001,
	"grad_norm": 1.2672239542007446,
	"learning_rate": 8.373628348051165e-06,
	"loss": 0.816,
	"mean_token_accuracy": 0.8000213339924812,
	"num_tokens": 1236774.0,
	"step": 1035
	},
	{
	"epoch": 1.6640000000000001,
	"grad_norm": 1.2891995906829834,
	"learning_rate": 8.291025978767236e-06,
	"loss": 0.8203,
	"mean_token_accuracy": 0.7939956024289131,
	"num_tokens": 1242458.0,
	"step": 1040
	},
	{
	"epoch": 1.6720000000000002,
	"grad_norm": 1.859931230545044,
	"learning_rate": 8.208543551164178e-06,
	"loss": 0.843,
	"mean_token_accuracy": 0.7980906665325165,
	"num_tokens": 1247832.0,
	"step": 1045
	},
	{
	"epoch": 1.6800000000000002,
	"grad_norm": 1.249145269393921,
	"learning_rate": 8.126186854142752e-06,
	"loss": 0.7933,
	"mean_token_accuracy": 0.8037418410181999,
	"num_tokens": 1253519.0,
	"step": 1050
	},
	{
	"epoch": 1.688,
	"grad_norm": 1.2496392726898193,
	"learning_rate": 8.04396166777952e-06,
	"loss": 0.8268,
	"mean_token_accuracy": 0.7900358602404595,
	"num_tokens": 1259478.0,
	"step": 1055
	},
	{
	"epoch": 1.696,
	"grad_norm": 1.3781346082687378,
	"learning_rate": 7.961873762921153e-06,
	"loss": 0.8215,
	"mean_token_accuracy": 0.7916676893830299,
	"num_tokens": 1265272.0,
	"step": 1060
	},
	{
	"epoch": 1.704,
	"grad_norm": 1.5332448482513428,
	"learning_rate": 7.879928900779457e-06,
	"loss": 0.795,
	"mean_token_accuracy": 0.7954872667789459,
	"num_tokens": 1271220.0,
	"step": 1065
	},
	{
	"epoch": 1.712,
	"grad_norm": 1.3455692529678345,
	"learning_rate": 7.798132832526986e-06,
	"loss": 0.81,
	"mean_token_accuracy": 0.7959314361214638,
	"num_tokens": 1277316.0,
	"step": 1070
	},
	{
	"epoch": 1.72,
	"grad_norm": 1.2499018907546997,
	"learning_rate": 7.716491298893443e-06,
	"loss": 0.7599,
	"mean_token_accuracy": 0.8050675049424172,
	"num_tokens": 1283633.0,
	"step": 1075
	},
	{
	"epoch": 1.728,
	"grad_norm": 1.2576276063919067,
	"learning_rate": 7.635010029762755e-06,
	"loss": 0.8125,
	"mean_token_accuracy": 0.8032173991203309,
	"num_tokens": 1289403.0,
	"step": 1080
	},
	{
	"epoch": 1.736,
	"grad_norm": 1.2021043300628662,
	"learning_rate": 7.553694743770928e-06,
	"loss": 0.8135,
	"mean_token_accuracy": 0.7988339021801949,
	"num_tokens": 1295570.0,
	"step": 1085
	},
	{
	"epoch": 1.744,
	"grad_norm": 1.3602943420410156,
	"learning_rate": 7.472551147904708e-06,
	"loss": 0.7765,
	"mean_token_accuracy": 0.808410918712616,
	"num_tokens": 1301628.0,
	"step": 1090
	},
	{
	"epoch": 1.752,
	"grad_norm": 1.2860238552093506,
	"learning_rate": 7.391584937101034e-06,
	"loss": 0.8073,
	"mean_token_accuracy": 0.7989855810999871,
	"num_tokens": 1307458.0,
	"step": 1095
	},
	{
	"epoch": 1.76,
	"grad_norm": 1.5155887603759766,
	"learning_rate": 7.310801793847344e-06,
	"loss": 0.7845,
	"mean_token_accuracy": 0.8080469697713852,
	"num_tokens": 1313341.0,
	"step": 1100
	},
	{
	"epoch": 1.768,
	"grad_norm": 1.6270219087600708,
	"learning_rate": 7.2302073877827775e-06,
	"loss": 0.7778,
	"mean_token_accuracy": 0.8048338174819947,
	"num_tokens": 1319272.0,
	"step": 1105
	},
	{
	"epoch": 1.776,
	"grad_norm": 1.132137417793274,
	"learning_rate": 7.149807375300239e-06,
	"loss": 0.7922,
	"mean_token_accuracy": 0.8009102180600166,
	"num_tokens": 1325093.0,
	"step": 1110
	},
	{
	"epoch": 1.784,
	"grad_norm": 1.3153914213180542,
	"learning_rate": 7.069607399149427e-06,
	"loss": 0.7907,
	"mean_token_accuracy": 0.8020437583327293,
	"num_tokens": 1331145.0,
	"step": 1115
	},
	{
	"epoch": 1.792,
	"grad_norm": 1.4287455081939697,
	"learning_rate": 6.9896130880407965e-06,
	"loss": 0.7904,
	"mean_token_accuracy": 0.8002470403909683,
	"num_tokens": 1336725.0,
	"step": 1120
	},
	{
	"epoch": 1.8,
	"grad_norm": 1.140147089958191,
	"learning_rate": 6.909830056250527e-06,
	"loss": 0.7818,
	"mean_token_accuracy": 0.7999431058764458,
	"num_tokens": 1342919.0,
	"step": 1125
	},
	{
	"epoch": 1.808,
	"grad_norm": 1.2778555154800415,
	"learning_rate": 6.830263903226483e-06,
	"loss": 0.7946,
	"mean_token_accuracy": 0.8025822728872299,
	"num_tokens": 1349048.0,
	"step": 1130
	},
	{
	"epoch": 1.8159999999999998,
	"grad_norm": 1.253410816192627,
	"learning_rate": 6.750920213195238e-06,
	"loss": 0.8111,
	"mean_token_accuracy": 0.7975707486271858,
	"num_tokens": 1354965.0,
	"step": 1135
	},
	{
	"epoch": 1.8239999999999998,
	"grad_norm": 1.3343291282653809,
	"learning_rate": 6.671804554770135e-06,
	"loss": 0.7876,
	"mean_token_accuracy": 0.8030346512794495,
	"num_tokens": 1361210.0,
	"step": 1140
	},
	{
	"epoch": 1.8319999999999999,
	"grad_norm": 1.3073536157608032,
	"learning_rate": 6.5929224805604845e-06,
	"loss": 0.8279,
	"mean_token_accuracy": 0.7967935264110565,
	"num_tokens": 1366856.0,
	"step": 1145
	},
	{
	"epoch": 1.8399999999999999,
	"grad_norm": 1.2902213335037231,
	"learning_rate": 6.5142795267818505e-06,
	"loss": 0.8045,
	"mean_token_accuracy": 0.7988436847925187,
	"num_tokens": 1372706.0,
	"step": 1150
	},
	{
	"epoch": 1.8479999999999999,
	"grad_norm": 1.038400650024414,
	"learning_rate": 6.435881212867494e-06,
	"loss": 0.7736,
	"mean_token_accuracy": 0.8005026668310166,
	"num_tokens": 1379305.0,
	"step": 1155
	},
	{
	"epoch": 1.8559999999999999,
	"grad_norm": 1.340643286705017,
	"learning_rate": 6.357733041081018e-06,
	"loss": 0.7819,
	"mean_token_accuracy": 0.8061650961637497,
	"num_tokens": 1385146.0,
	"step": 1160
	},
	{
	"epoch": 1.8639999999999999,
	"grad_norm": 1.423438549041748,
	"learning_rate": 6.27984049613019e-06,
	"loss": 0.8054,
	"mean_token_accuracy": 0.8006222054362298,
	"num_tokens": 1390600.0,
	"step": 1165
	},
	{
	"epoch": 1.8719999999999999,
	"grad_norm": 1.2361985445022583,
	"learning_rate": 6.202209044781991e-06,
	"loss": 0.8295,
	"mean_token_accuracy": 0.7897411197423935,
	"num_tokens": 1396485.0,
	"step": 1170
	},
	{
	"epoch": 1.88,
	"grad_norm": 1.0449228286743164,
	"learning_rate": 6.124844135478971e-06,
	"loss": 0.8185,
	"mean_token_accuracy": 0.8001339569687843,
	"num_tokens": 1402781.0,
	"step": 1175
	},
	{
	"epoch": 1.888,
	"grad_norm": 1.530038833618164,
	"learning_rate": 6.047751197956838e-06,
	"loss": 0.805,
	"mean_token_accuracy": 0.8008620426058769,
	"num_tokens": 1408853.0,
	"step": 1180
	},
	{
	"epoch": 1.896,
	"grad_norm": 1.1717791557312012,
	"learning_rate": 5.970935642863375e-06,
	"loss": 0.7928,
	"mean_token_accuracy": 0.8000158056616783,
	"num_tokens": 1414603.0,
	"step": 1185
	},
	{
	"epoch": 1.904,
	"grad_norm": 1.2921278476715088,
	"learning_rate": 5.894402861378721e-06,
	"loss": 0.8487,
	"mean_token_accuracy": 0.7888679310679436,
	"num_tokens": 1421159.0,
	"step": 1190
	},
	{
	"epoch": 1.912,
	"grad_norm": 1.2942895889282227,
	"learning_rate": 5.818158224836987e-06,
	"loss": 0.8275,
	"mean_token_accuracy": 0.7944061666727066,
	"num_tokens": 1427020.0,
	"step": 1195
	},
	{
	"epoch": 1.92,
	"grad_norm": 1.3930217027664185,
	"learning_rate": 5.742207084349274e-06,
	"loss": 0.7942,
	"mean_token_accuracy": 0.8061083048582077,
	"num_tokens": 1433286.0,
	"step": 1200
	},
	{
	"epoch": 1.928,
	"grad_norm": 1.2439182996749878,
	"learning_rate": 5.666554770428129e-06,
	"loss": 0.7791,
	"mean_token_accuracy": 0.806618258357048,
	"num_tokens": 1439282.0,
	"step": 1205
	},
	{
	"epoch": 1.936,
	"grad_norm": 1.2223875522613525,
	"learning_rate": 5.591206592613416e-06,
	"loss": 0.8201,
	"mean_token_accuracy": 0.7910259455442429,
	"num_tokens": 1445214.0,
	"step": 1210
	},
	{
	"epoch": 1.944,
	"grad_norm": 1.293550729751587,
	"learning_rate": 5.516167839099679e-06,
	"loss": 0.8075,
	"mean_token_accuracy": 0.8063176274299622,
	"num_tokens": 1451100.0,
	"step": 1215
	},
	{
	"epoch": 1.952,
	"grad_norm": 1.467372179031372,
	"learning_rate": 5.441443776365003e-06,
	"loss": 0.8237,
	"mean_token_accuracy": 0.7898676633834839,
	"num_tokens": 1456778.0,
	"step": 1220
	},
	{
	"epoch": 1.96,
	"grad_norm": 1.4951013326644897,
	"learning_rate": 5.367039648801386e-06,
	"loss": 0.7994,
	"mean_token_accuracy": 0.7988926216959953,
	"num_tokens": 1462707.0,
	"step": 1225
	},
	{
	"epoch": 1.968,
	"grad_norm": 1.392849087715149,
	"learning_rate": 5.292960678346674e-06,
	"loss": 0.7739,
	"mean_token_accuracy": 0.8094693034887314,
	"num_tokens": 1468764.0,
	"step": 1230
	},
	{
	"epoch": 1.976,
	"grad_norm": 1.2680391073226929,
	"learning_rate": 5.219212064118079e-06,
	"loss": 0.8329,
	"mean_token_accuracy": 0.7990137442946434,
	"num_tokens": 1474638.0,
	"step": 1235
	},
	{
	"epoch": 1.984,
	"grad_norm": 1.7272734642028809,
	"learning_rate": 5.145798982047261e-06,
	"loss": 0.8139,
	"mean_token_accuracy": 0.7936960220336914,
	"num_tokens": 1480240.0,
	"step": 1240
	},
	{
	"epoch": 1.992,
	"grad_norm": 1.3061951398849487,
	"learning_rate": 5.072726584517086e-06,
	"loss": 0.811,
	"mean_token_accuracy": 0.7989570170640945,
	"num_tokens": 1485959.0,
	"step": 1245
	},
	{
	"epoch": 2.0,
	"grad_norm": 1.4654656648635864,
	"learning_rate": 5.000000000000003e-06,
	"loss": 0.8079,
	"mean_token_accuracy": 0.7938532695174217,
	"num_tokens": 1491748.0,
	"step": 1250
	}
	],
	"logging_steps": 5,
	"max_steps": 1875,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 1.1030265057337344e+16,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}